音声認識ソフトでテープ起こし

オープンソースの音声認識ソフト「Julius」を、使ってみました。
いろいろなプログラムに組み込んで使用するもののようですが・・・
「とりあえず使ってみる」ための、ディクテーションキットも配布されています。

音声ファイルからも、読み取りができます。
うまく動かせなかったところもありますが、
活用方法を工夫すれば、「テープ起こし」がラクにできそう。

========================================

Juliusディクテーション実行キット」のページを開き、
「Windows版」のところをクリック。

ダウンロードしたファイルを解凍
→マイクを接続して、「run_fast.bat」を実行すれば、起動します。

1.そのまま使用

<<< please speak >>>
と表示されたら、しゃべります。
↓の文章をしゃべってみました。

「コース案内。どーじょーでは、ワードコース・エクセルコースというような
細切れのコース分けをしていません。」

すると、ズラズラ~っと、テキスト化されていきます。

「pass~」行は、分析しているところのようです。
「sentence1:」行が、最終的な結果。
「どーじょーでは」→「同町では」になってた、滑舌悪かったか(^_^;

2.テキストファイル化
つぎに、「しゃべった内容を、テキストファイルに」してみます。

「run_fast.bat」をメモ帳などで開くと、
.\bin\julius.exe -C fast.jconf
となっています。
この後ろに、適当なテキストファイル名を書き加えます。
.\bin\julius.exe -C fast.jconf > text.txt

1と同様にしゃべってみると、「text.txt」が作成され、
その中に、変換結果が記録されます。

今度は、「ワードコース」→「パートコース」になってた(^_^;

3.音声ファイルの読み込み
「run_fast.bat」を元に戻して、今度は「音声ファイルの読み込み」にチャレンジ。
サポートしている音声ファイルは、
「16bit モノラル 16000Hz のwavファイル」です。

ほかの形式もサポートするようにできますが、
音声ファイルを変換したほうがラクそう。
(音声ファイルの変換ソフトについては、たとえばこちらの記事を参照してください。)
音声ファイルが用意できたら、「run_fast.bat」と同じフォルダに保存します。

メモ帳などで、「fast.jconf」というファイルを開きます。
いろんなことがいーっぱい書いてありますが・・・
「音声入力ソース」項目で、「-input mic」というところを探します。
そこを「-input rawfile」と書き換えるだけ。

「run_fast.bat」を実行すると、今度は
「enter filename->」となります。
用意した音声ファイル名「~.wav」を入力して、Enter。

すると、ドロドロ~っと変換していって、
そのまま、ウィンドウが閉じちゃいます! (・・;)

4.音声ファイルをテキストファイル化
つまり、2と3を組み合わせれば、
音声ファイルをテキストファイル化できる、ということ。

テキストファイルには、分析過程も記録されちゃっているので、
エクセルなどで開いて、関数などで、結果行だけ抽出→合成する必要があります。

音声ファイルは、あまり長いと、途中で読み込めなくなっちゃうかも。
自分の環境では、約45秒でディクテーションが途切れてしまいました。

音声ファイルを30秒ごとに分割して、自動実行させ、
テキストファイルから必要部分を抽出していく。
・・・というようなエクセルマクロを作れば、
「自動テープ起こし機」ができます。