思い込みで突破

インフラエンジニアぽい人の雑記

Amazon Transcribeを利用した日本語音声の文字起こしを試してみた

今回は以下の記事を参考に、Amazon Transcribeを使用した日本語音声の文字起こしを試してみました。 dev.classmethod.jp

Amazon Transcribeとは

音声をテキストに変換する機能。ディープラーニングが使用されており、 Amazon Transcribe APIを使用するとS3に保存された音声ファイルを文字起こしできます。 ライブ音源をリアルタイムで文字起こし可能とのこと。ただし、記事を読む限り現時点で日本語のリアルタイムでの文字起こしはできない模様。

公式では以下の利用用途が記載されています。

  • カスタマーサポートへの通話の文字起こし
  • 音声/動画コンテンツの字幕作成

Amazon Pollyとは

こちらはテキストを音声に変換する機能。ディープラーニングが使用されています。 今回初めて試してみましたが、自然な音声でびっくりしました。

試してみた

Pollyで音声ファイル(mp3)を作成

AWSコンソールからPollyの管理画面を開きます。 下記のような画面になるので、プレーンテキストに好きな文章を入力します。 f:id:tosyan_samoarinan:20191124232251p:plain

「音声を聴く」ボタンを押すと試聴ができます。 問題なければ「ダウンロード MP3」ボタンをクリックし、ファイルをダウンロード。

S3でバケットを作成

AWSコンソールからS3管理画面を開き、適当な名前でバケットを作成し、 さきほどPollyで作成した音声ファイルをアップロードします。

Amazon Transcribeで音声ファイルから文字起こし

AWSコンソールからTranscribe管理画面を開き、「Create job」ボタンを押します。 各項目は以下のように入力。他はデフォルトです。

  • Name TEST-Transcribe
  • Language Japanese(Japan)
  • Input file location S3 作成したバケットのパス
  • Format mp3

statusがin progressからCompleteに変わったら完成です。 f:id:tosyan_samoarinan:20191124233934p:plain

結果

読み込ませる用の⇒読み込ませるような になっていましたが、それ以外は問題なくできていました! f:id:tosyan_samoarinan:20191124234238p:plain

Transcribeがトラックライブという読みなのか・・というのはありますが、単語にカーソルを当てると音声の何秒あたりでその単語を発言したかわかるので、 音声を聴きなおすことも容易になるかと思います。 f:id:tosyan_samoarinan:20191124234658p:plain

まとめ

今回はTranscribeが日本語に対応したということで、Pollyと組み合わせて試してみました。 思ったよりも簡単に使用できたので、何かで使えないかな・・。直近では議事録作成くらいでしょうか。

参考サイト

音声から文字起こし、AWSのAIサービス「Amazon Transcribe」が日本語に対応 | 日経 xTECH(クロステック)

Amazon Polly(深層学習を使用したテキスト読み上げサービス)| AWS

Amazon Transcribe(音声をテキストに変換する機能を簡単に追加)| AWS

[Amazon Transcribe] 日本語対応したので、Pollyの音声を文字起こししてみました。 | Developers.IO