一晩寝たら、これがテキストになっていれば…。
インタビューや座談会、講演会のスピーチ、身近なところでは会議の議事録など、会話を録音する機会もあります。
そしてもれなく、その後の用途のため、録音音声を聞きながらテキスト化するといった「文字起こし」作業が必要になるでしょう。
通常であれば、聞きながら入力し、話す速度に追いつかなかったら戻ってはまた入力。
と、かなりの時間が必要な作業ですが、近年は音声入力ツール・サービスを利用することで、この文字起こしの自動化が可能だというのです。
寝て起きれば音声がテキストに変わっている。
そんな自分の代わりに文字起こしをしてくれるお手伝いの妖精さんは実在するのか。
テクノロジーの力を使ってその存在を追ってみました。
オーディオミキサーアプリで音声の入力・出力を変更する

自動音声入力を行なうためにはいくつかの下準備が必要です。Macの場合ではオーディオミキサーアプリである「Soundflower」をインストールし、音声の入力・出力をそれぞれ「Soundflower(2ch)」へと設定します。
これで、Macで出力する音声が、そのままMacで音声入力されるようになります。
この状態で録音した会話やインタビューの音源を再生し、音声入力サービスで聞き取ることで、自動的に文字起こしを行おうというアプローチとなります。
手軽に音声入力できる、3つのWebサービス
音声入力はいくつかのサービスで利用できます。
今回は複数の音源を利用し、それぞれのサービスで認識させてみました。
特徴をまとめると以下のようになります。

Googleのサービスらしい高い認識精度で、今回検証した中では最も言葉の齟齬が少ないものの、ノイズが交じると途中で音声入力が停止していたり、他のアプリに画面を変えると音声認識が止まってしまうため、放置して認識させるという用途には不向きです。
しかし、Google ドキュメント上にそのままテキスト化できるため、作成したデータの共有能力の高さは光ります。

Chromeで利用できるWebアプリで、Googleの音声認識エンジンを利用した音声入力を利用できます。
認識精度の高さはGoogle ドキュメントとほぼ同じですが、Google ドキュメントと違い、こちらは他の操作をしても音声認識が途切れないため、他の作業を行いつつ文字起こしが可能。
文字起こし中に他の業務を進めたい場合はこちらを選びましょう。

Speechnotes同様、音声認識中にアクティブウインドウを切り替えても音声認識が継続されます。
認識精度はGoogle ドキュメントやSpeechnotesにやや劣り、語尾や固有名詞、人との会話特有のくだけた言い回しに弱い印象です。
テキストに定期的に改行を挟んでくれるので、仕上がったテキストデータの見やすさは他のサービスよりも上ですが、改行位置によっては言葉の意味合いが変わってしまうこともあるため過信はできません。
音声入力サービスで文字起こしは自動化できたのか?
総合的にみると、シーンを限定すれば活用できるものの、人間の耳の良さ、認識能力にはまだ追いついていないのが現状です。
たとえば、ラジオのニュースを自動入力させた場合は、単語の認識間違いなどはあるにせよ、どのサービスでも高い精度でアナウンサーの言葉をテキスト化することができました。
しかし、音源がインタビューやスピーチ、会議の議事録といったものになると話は変わります。
どのサービスも雑音に弱く、環境音が入り込むと認識精度が大きく低下しました。
カメラのシャッター音や紙をめくる音、マイクを通じた会場内での反響など、さまざまなノイズが入り込んだためか、発表会での登壇者スピーチの音源では認識精度が極端に悪く、ほぼ文字として認識されませんでした。
これらを踏まえると、「自動音声入力」による効率化を目指すのであれば、
1.雑音を拾いにくい録音システムを導入する。または編集アプリでノイズ除去処理を行う。
2.正しいイントネーション、聞き取りやすいボリュームと滑舌で話す。
3.他の人物と発言タイミングが被らないように気をつける。3.他の人物と発言タイミングが被らないように気をつける。
などの条件をクリアーできてはじめて、音声認識ツールによる自動音声入力に委ねられるラインになります。
インタビューであれば、気をつければなんとか実用できるレベルですが、会議などで複数人の声が入り交じる状況でこの条件をクリアーするのは、ほぼ不可能だと言えるでしょう。
今回の検証をまとめると…
■自動音声入力の向き不向き
BGMの無いテレビやラジオのアナウンサーの声>自分で読み上げる文章>1対1のインタビュー>>(越えられない壁)>>講演会でのスピーチ・複数人が参加する会議室の議事録
■自動音声入力が不可な例
・複数の言語が入り交じる会話(例:通訳が交じるインタビュー)
・雑踏・環境音・BGMが流れている場所での会話
現実的な自動化の利用可能ラインは1対1のインタビューまで。
それでも、細かなニュアンスの違いや単語レベルでの認識間違いが発生するため、自動入力後には音源を聞き直しつつ、見直し・修正にかける時間も必要です。
寝て起きたら録音音声が正確にテキスト化さえているというのは、まだもう少し先の未来になりそうです。
確実な音声入力手段とは?
では確実に音声入力で録音音声をテキストに変換するにはどうすればいいのか? というと、筆者はイヤホンで音源を聞きながら、同じ内容をマイクに向かって喋り、自身の声を音声認識させるといった方法を利用しています。
オーディオミキサーアプリも必要なく、音源をイヤホンで聞き、そのままマイクに向かって喋るだけ。認識精度や使い勝手を考えると、作業にはSpeechnotesが適しているでしょう。

人間の耳と脳という強力なインプット・解析機能を活用して、手を動かす代わりに口を動かす、といった動作の置き換えに過ぎませんが、多くの人はタイピング速度よりも話す速度の方が早く、入力に必要な労力も少なくて済みます。
なにより、これなら録音時のノイズや環境音、発言者とマイクの距離にも左右されません。自動化に任せ、仕上がったテキストデータを見つつ、音源を聞いて各所を修正していくフローが必要になるくらいなら、最初から自分の声で入力していくほうが効率的で、結果的に時短になるはずです。
そしてこの手法なら、自動入力任せでは読み取れない、会話の内容や重要な点も理解しつつテキスト化できます。
すべてを喋り終わる頃には、頭のなかに議題のまとめや原稿の青写真ができ上がっていることもあるでしょう。
ヒトを理解するAIテクノロジーが発展した現代ですが、勝手に文字起こししてくれるお手伝いの妖精さんの存在はまだ希薄です。
自分で手を出すところは出し、テクノロジーに頼れるところは頼る。やがてすべてを任せられるその日まで、お互いの得意なジャンルを分業するスタイルでいきましょう。
Photo: 小暮ひさのり
Screenshot: 小暮ひさのり via Google ドキュメント , Speechnotes , writer.app
Image: Shutterstock
Source: Google ドキュメント , Speechnotes , writer.app