言葉と身体とAIと。

アリゾナ州立大学の心理学名誉教授Arthur Glenberg氏と、カリフォルニア大学サンディエゴ校認知科学部博士課程学生のCameron Robert Jones氏が、米ギズモードに寄稿したAIと身体に関するオピニオン記事です。身体を持たないAIは、人間と同じように言語を理解できるのでしょうか…?


非常にパワフルで人気の人工知能言語システムであるGPT-3に、バーベキューで火起こしするときに扇ぐのは、紙の地図と石、どちらを使うほうがいいかと尋ねたら、石だと答えた。

スカートの皺を伸ばすのに、温めた魔法瓶とヘアピンのどちらを使う方がいいかと尋ねたら、ヘアピンだと答えた。

ファストフード店の仕事で髪の毛を覆う必要があるが、サンドイッチの包み紙とハンバーガーのバンズならどちらがマシだと思うか尋ねたら、バンズだと答えた。

ほとんどの人間が逆の選択肢を選ぶ中、なぜGPT-3はそちらを選んだのか。

その理由は、GPTの言語理解が人間のそれとは異なるからだろう。

ChatGPTには身体がない

本記事著者の1人は心理学研究者であり、20年以上も前、上記のような一連の質問を当時のコンピューター言語モデルに投げ、その理解度を調べたことがある。

人間にとっては簡単な質問だが、火起こしのツールとして紙の地図と石から適したものを選ぶことは、言語モデルにはできなかった。

著者のもう1人は認知科学部博士課程学生であり、近年のコンピュータ言語モデルGPT-3で同じ質問をテストした研究チームのメンバーである。

昔のモデルよりもGPT-3のほうが優れてはいたものの、人間とは比べるまでもない。上記3つの質問の答えはすべて間違っていた。

リリース時のChatGPTの源となったGPT-3は、単語と単語がどう流れているか、1兆もの事象から言語を学習する。

言語配列の中にある統計的ルールから、GPT-3は言語を多く学ぶことができる。そして、その配列という知識によって、ChatGPTは適切な文章、エッセイ、詩、コンピューターコードを生成する。

GPT-3は、人間の言語が持つルールを学ぶには非常に優れている。ただ、それらの単語が人間にとってどんな意味を持つのかはまったくわかっていない。理解しようがないのだ。

人間は生物学的存在であり、物理的かつ社会的な世界でタスクをこなすため、自身の体を使って動く必要がある。言語はその助けとなるツールである。

GPT-3は、次に出てくる単語を予想する人工のソフトウェアシステムであり、物理的世界において、その予想を使って何かをこなす必要はない。

我思う、ゆえに我はAIにはあらず

単語・文章とは、人間の身体、つまり動く能力や感情を持つ・受けるという能力と密に関係している。

人間の認知力は、具現化することで高まる。たとえば前述のサンドイッチの包み紙。

これに対する人間の理解は、包み紙の見た目から触ったときの感覚、重さ、そして使い方まで多岐に渡る。さらに丸めてボールにする、髪の毛を覆うなど、別の使い方まで人間は理解を広げて考えることができる。

これは、人間が身体を持っているから、場面での必要性を理解しているからこそできることである。

人間には紙を折ることができる手がある。包み紙と同じくらいの大きさの頭を持ち、そこには髪の毛が生えている。仕事が必要であり、仕事をこなすには髪の毛を覆うというルールにしたがう必要がある。

統計的言語ルールではなく、こういった事柄を踏まえて、人間は適した答えを導き出すことができるのだ。

心は身体によって研ぎ澄まされる。

GPT-3の後継モデルとなるGPT-4、BardやChinchillaやLLaMAといったその他のモデルたちも身体を持たない。身体を持たなければ、折ることができるモノはどれかなど、知覚心理学者ジェームズ・J・ギブソンのいうアフォーダンスをモデル自身で決定することはできない。

腕や手があるからこそ、人間は紙の地図を扇いで火起こしをすることも、魔法瓶を転がしてスカートの皺を取ることもできるのだ。

手や腕がなければこの方法は実行できない。ゆえにGPT-3はアフォーダンスを導き出すこともできないのだ。ネットの言葉の海を探し回っても、できるのはそれに近いことでフリをするのみ

大規模言語モデルAIが、人間と同じように言語を理解することはできるのだろうか?

我々の見解では、人間のような身体、感覚、目的、生き方を持たずして、それは不可能である。

AIの世界の感覚

GPT-4は、テキストだけでなく画像でもトレーニングされており、単語とピクセルの統計的関係を学んでいる。

今のところ、GPT-4における我々の独自解析はまだ出せていないものの、GPT-4に上記3つの質問をしてみたところ、正しく回答された。

これは過去の入力からモデルが学習したか、または視覚的情報と情報量のサイズアップが影響したかだろう。

3つの質問をクリアしたとしても、モデルが過去を参照できない意外なアフォーダンスをもつモノを使った質問は、他にいくらでもある。

たとえば、底がないマグカップと同じく底をカットした電球ならば、どちらが水を入れるのに適しているか?という質問に、GPT-4はマグカップだと答えた。

モデルが画像にアクセスできるというのは、たとえるなら子どもがテレビから世界を学ぶようなものだろうか。ラジオから学習するよりもわかりやすい。しかし、人間と同じ理解力をもつには、世界と触れ合うことが必要なのだ。

最近の研究ではこれに着目しているものもある。

言語モデルに物理的なシミュレーションを生成させたり、物理的環境に触れさせたりするようトレーニングするのだ。ロボットの動きを生成するというのもある。

具現化言語理解が高まるのは、まだ先のことだろう。だが、その実現には、これら複数の感覚を含むインタラクティブなプロジェクトは必須のステップとなる。

ChatGPTは魅力的ツールであり、素晴らしい目的にも、そうでもない目的にも間違いなく使われていくだろう。しかし、ChatGPTが吐き出す言葉をChatGPTが理解しているとは、ましてや感覚を持っているなんて決して思ってはいけない。

Source: ScienceDirect, eScholarship,ウィキペディア(Wikipedia), YouTube, arXiv(1 , 2), ACL Anthology

ギズモード・ジャパンより転載(2023.05.01公開記事)