真似すんな!「マネスンナ!」

急激に盛り上がりつつあるAI業界。便利で楽しい反面、著作権や本物と偽物の判断が難しくなるなど、問題も多々あります

偽物を容易につくれるのも問題を助長します。マイクロソフトのAI、人間の声をマネするために必要なのはたった3秒のデータですって…。

高度な模倣を可能にしている技術

マイクロソフトのAIツール「VALL-E」は、Metaのエンコード音声コンプレッション技術「ニューラルコーデック言語モデル」をベースに開発されています。

このMetaの技術は、AIを使うことで、音質を損なわずに、CD以上の音質データをMP3ファイルより10倍小さいデータレートに圧縮するというもの。

Metaは通話時の音声の質アップや、音楽ストリーミングサービスの通信幅節約を狙って開発したのですが、マイクロソフトはこれを精度の高い音声変換AIツールに活用しています。

現在のテキスト→音声変換技術は大変優れていますが、AI(スマートアシスタント含む)のトレーニングには聞き取りやすいハッキリした高品質の音源が必要となります。

なので、トレーニング用の音声データは、スタジオでプロ機材を使って録音されることもあります。が、マイクロソフトのVALL-Eによるアプローチは、これをプロではなくいろいろな人からでも学べるようにしたもの。

トレーニングには、これまたMetaのLibri-lightデータセット(一般公開もされているオーディオブックLibriVoxの音声データを一部抜粋&処理した7千人を超える英語スピーカーによる6万時間もの音声データ)が使用されました。

これだけすごいと危険性もある

さて、トレーニングしたVALL-Eの声マネはどれほど上手なのか。

VALL-Eのデモページに、たくさんのデモ音源(英語)が公開されているので、実際聞くことができます。

「Text」がVALL-Eが喋る文章。次の「Speaker Prompt」は、声マネされた人のサンプル音源(しゃべっている内容は、左テキストとはまったく違う)。

次の「Groud Truth」は、声マネされる人が左のテキストを喋った比較用音声(VALL-Eはこの音声をしらない)。「Baseline」は一般的なAIで生成された音声。

最後の「VALL-E」はVALL-Eが生成した音。「Speaker Prompt」の声質や話し方を捉えた上で、「VALL-E」でテキストの内容を話しています。

あれこれデモ音源を聴いていると、やはり得意不得意はあるようで、アクセントの再現は少々苦戦しているようす。

とはいえ、VALL-Eは声色を真似るのはなかなか上手ですよね。抑揚のつけ方、間のとり方など、従来のAIよりも自然な話し方ができています。

今のところ、VALL-Eのソースコードは公開されていません。発表された研究論文では、声マネ上手ゆえに、不適切に使用されれば、特定人物の音声データから実際に話していない内容の音声を作り出せてしまうリスクがあると、自ら懸念点を指摘。

悪意あるユーザーへの対処しだいでは、VALL-Eの声マネ技術が公開されることはないかもしれませんね…。

翻訳: そうこ

Source: Ars Technica, Github, Meta AI, LibriVox, VALL-E, arXiv

ギズモード・ジャパンより転載(2023.1.18公開記事)