インターネットラジオやオーディオブックなど、聞くだけで情報収集や勉強ができる「音声メディア」が注目されています。
さらに、情報を受け取るだけでなく、個人でも音声で発信ができる「Voicy(ボイシー)」など“声のブログ”と呼ばれるようなサービスも、活発な動きを見せています。そこで、今回は「音声メディア」に欠かせない存在である「人の声」の可能性について考えてみました。
「音声メディア」が活発化する中で、これから「声」はどのような役割を果たすのでしょうか?
音声が持つ可能性、東芝の技術を使ったアプリ「コエステーション」とは

お話を伺うのは、東芝デジタルソリューションズ株式会社の金子祐紀さん。自分の声を音声合成できるプラットフォーム「コエステーション」の事業推進プロジェクトリーダーです。
音声合成や音声認識などの技術を持っていた東芝が、2016年から開発をはじめ、2018年に有名人や一般人の声を集めて活用するために立ち上げた「コエステーション」。個人ユーザーがアプリとして利用できるほか、声優やタレントなどプロの声を活用するための事業も展開しています。

「コエステーション」とは、人間の声を人工的につくれる音声合成技術をつかった新しいプラットホーム。スマートフォンアプリを個人で利用する場合、まず指定のいくつかの文章を読み上げていきます。すると、自動で声の特徴をAIが学習し、自分の声の分身「コエ」を作ってくれるのです。
ちなみに上手に自分の声を登録するコツは、静かな場所で、一定の調子で指定の文章を読むこと。登録を進めていくと、声を出して文章を読む難しさに改めて気がつきます。
「コエ」を作った後は、テキストを入力するだけで「コエ」に合成音声で喋らせることができます。そうやってデジタル化された声は、今後さまざまなコミュニケーションやサービスに利用できる可能性があるそう。
テレビ会議や数年後には外国語習得にも?ビジネスパーソンの「声」活用法
自分の声をデジタル化して保存する「コエステーション」を、ビジネスパーソンはどのように活用できるのでしょうか。

例えば、スカイプなどを使ってテレビ会議に参加する場合。これまで、声を出して喋ることのできない新幹線などの移動中には、テキストチャットで参加するのが普通でした。でも、この方法ではすぐテキストに気がついてもらえない場合もあり、会議室とのタイムラグが生じてしまいます。
そんなときでも、「コエステーション」で「コエ」を作っておけば、テキストを打ちこむだけで「あなたの声」で会議に参加できます。
自分そっくりの音声で参加できるので、会議室のメンバーとの微妙な温度差がなくなるだけでなく、スムーズに意見交換をすることができるんです。ほか、在宅勤務で子どもが近くにいるなど「音声で会議に入るのが難しい状況」を解消してくれます。
最初は、テレビ会議の用途では、病気など何らかの要因で“自分の声が出ない人”しか使わないだろうと考えていたなかで、こういった利用方法の提案を受けたのは意外でなるほどと思いました(金子さん)
また東芝の音声合成技術は、すでに11言語に対応。現在、声の合成は“日本語から日本語”のように同じ言語間に限られていますが、将来的には“日本語から英語”などへの合成ができる「クロスリンガル」という機能を予定しています。
これが実現すると、ハリウッドスター自身の音声で日本語吹き替えができるなどの可能性が。この機能をビジネスパーソンが活用するなら、テキストで打ち込んだ日本語を自分の声で英語読み上げさせて、英語学習や英語でのプレゼン準備などに使えそうです。
声をデジタル保存する意味とは?新しいプラットホームのおもしろさ
世界70億人の声を集めることを目標にしている「コエステーション」。ですが、プロアマ問わず、人間の声を集め、音声合成し、データとして保存するとどんなメリットがあるのでしょうか。
まず、人をカタチ作るものの一部をデジタル化して保存するというプラットホーム自体が、これまで存在しませんでした。声という“人の一部”を保存できること自体がおもしろいところです。そして保存しておけば、自分の声をいつでも活用できるようになります(金子さん)

一度声を保存しておけば、「LINE」など、SNSチャットサービスに連携するだけでメッセージを自分の声で読み上げたり、ゲームに連携してキャラクターに自分の声で喋らせたりといったことが簡単にできます。
音声を使うそれぞれのサービスやアプリに対していちいち声を吹き込む作業をしなくてよくなるのです。これからの音声を使えるサービスのさらなる普及を考えると、これは大きなメリットではないでしょうか。
コミュニケーションやエンタメだけじゃない。事業や社会貢献にも
「声をデジタル化して保存しておく」技術が活躍するのは、コミュニケーションやエンタメ分野だけではありません。AIの発展もあり、カーナビやスマートスピーカー、家電なども“喋る”時代。その音声の部分を「コエステーション」の技術が担うことができます。
ほかにも、スーパーのアナウンスや、観光案内といったこれまで「人の声」が必要とされてきた部分。これまでそれらは、一度収録した内容に変更があっても、声優のスケジュールをおさえられないなど、再収録するのが難しいという現実がありました。
音声合成の技術で声を保存しておけば、テキストを打ち込むだけで、アナウンスや観光案内の内容を変更することができます。

さらにAIの発展とともに、コールセンターや接客業など、声を使う仕事で合成音声がもっと活用されるようになるそう。実際に「合成音声」を業務用として使いたいという企業や自治体から依頼が多くあるそうです。そして、病など何らかの理由で声を失ってしまった人のサポートにも「コエステーション」の技術は活用されています。
実際に難病のALS(筋萎縮性側索硬化症)患者の方の声を登録しておき、自身の声が出なくなったあとも、自分にそっくりのデジタル音声でコミュニケーションができるよう企業や団体と取り組みをしています(金子さん)
ほかにも、高齢者の安否確認の連絡などの業務。人材不足のためAIによる無人化が進んできますが、機械音での連絡は高齢者にとって抵抗感があります。そこで、家族など身近な人のデジタル音声で連絡できるような仕組みづくりも。
実際に、認知症で反応が希薄になってしまった患者の方が、長く親しんだ家族の声だけには反応するという事例もあるようです。
デジタル音声は、人材不足の解消のみならず、サービスを受ける人のQOL(クオリティ オブ ライフ)の向上にも役立ちます。
注目したのは「声」ではなく「人」
金子さんが音声合成技術を「コエステーション」として事業にするときに注目したのは、実は声ではなく、人そのものだったと言います。

カーナビで好きな声優が道案内をしてくれる、天気予報を離れて暮らす孫の声で聞ける、となったときにうれしく感じる理由を考えてみてください。きっと、その“声質”が好きだからではなく、“その人の声”だからうれしいんだと思います(金子さん)
好きなタレントはもちろん、恋人や友人、家族の「声」を聞きたいと思うのは、その人自体に親近感を抱き、好ましく思っているから。だから、その人のアイデンティティの一部である「声」が聞けるとうれしく感じる…。そういう意味で、声にはこれまで気がつかれていなかった価値があると言えます。
ベビーシッターが子どもの世話をしていたとしても、絵本の読み聞かせは両親が保存した声でできる。離れて暮らす家族の声を聞くことで、身近に感じることができる。そんな未来がもう来ているのです。
そして、もしも声を失うときが来ても。「コエ」を作っておけば、身近な人と“自分の声”でコミュニケーションすることを諦めなくてすみます。「自分の音声をデジタル化して保存する」ことが、当たり前になる日は近いのかもしれません。
あわせて読みたい
Source: コエステーション, コエステーション/App Store
Photo: KOBA