特集
カテゴリー
タグ
メディア

素粒子物理学者が開発した言語学習アプリ「Lingvist」の仕組み

素粒子物理学者が開発した言語学習アプリ「Lingvist」の仕組み

こんにちは、ベルリン在住の小野里衣(おの・りえ)です。

ライフハッカー読者のみなさんは、17時間の学習で、英語の日常会話に必要な語彙の80%を理解できるようになる、と聞いたらどう思いますか?

英語学習本や英会話、さらに英語を勉強するためのマインドセットの本まで読み、合計10年近い時間を英語学習に費やしてきた筆者にとっては、この数字はにわかに信じられません。

しかし、そんな言語学習に対する固定観念を、コンピューターサイエンスの力で覆しつつあるアプリ「Lingvist(リングビスト)」を制作している会社がエストニアにあります。

appSS
アプリの使い方はシンプル。単語カードが出題されるので、その中に単語をタイプして回答していくだけ。学習済みの単語数や、自分の学習の進捗度合いも確認できる。現在日本語からは英語、英語からは複数言語が学べる。

Lingvistは2013年に創業されました。Googleに買収されたAI企業DeepMindの初期投資家であるJaan Tallinn氏や、楽天を含む複数のエンジェル投資家、ベンチャーキャピタルなどから投資を受け、その投資総額はすでに900万USドルを超えています。

彼らが注目される理由、特にアプリの裏側にあるテクノロジーを探るべく、CEOであるMait Müntel(マイト•ミュンテル)氏にお話を伺いました。

既存の言語学習の非効率さに着目

── Lingvistは具体的に通常の勉強法や他の言語学習アプリと比べてどこが優れているのでしょうか?技術的な点も含めて教えてください。

ミュンテル氏:Lingvistは現在、言語そのもの、語彙、文法、スペルなどに焦点を当てた学習に取り組んでいます。

Lingvistco-founderandCEOMaitMuntel
Lingvist共同設立者兼CEO Mait Muntel (マイト•ミュンテル)氏
Photo by Lingvist

既存の言語学習の効率が悪い原因は、教材で使われている語彙が実践的ではないこと、学習時の復習の間隔が最適でないことにあります。たとえオンラインの言語学習ツールだとしても、未だに十数年前の時代の手法を取っているものも少なくない。こうした現状に対してLingvistはまず、実践的な語彙を学べる効率的な言語そのものの学習ツールを完成させます。その後、言語習得に必要なその他の要素を全てカバーするツールに拡張していきます。

Lingvistのシステムは、創業当時からAIが先導するアダプティブラーニング(適応学習)を念頭に置き構築されています。

Lingvistのユーザーに対する適応度は、現在世界で最も名前の知られている言語学習アプリと比較しても勝っている、とミュンテル氏は言います。

パーソナライズされた忘却曲線によるアダプティブラーニング

── どのようにユーザーに教材を適応させるのでしょうか?

ミュンテル氏:初めてLingvist を使うユーザーが、ある単語群に対して学習したパフォーマンスを測定します。ここでは、どのような単語を、どのように、どれくらいの時間をかけて間違えた(あるいは正解した)、などの情報が学習パフォーマンスです。次に、機械学習で、そのユーザーと苦手な単語およびその学習パフォーマンスが類似している既存のユーザーをグループ化します。そして、同一グループ内にいる既存ユーザーの忘却曲線に類似した曲線を適用します。学習パフォーマンスが類似しているユーザー同士は、忘却曲線も類似する傾向にあるからです。

忘却曲線は、その後ユーザーが使うたびに、本人の実際の学習データに基づいて調整されていきます。

個々のユーザーの忘却曲線に合わせ、それぞれのユーザーが次に学んだら最もインパクトがある単語を、AIを使って予測します。

cmlebhugrcne29svuttr(1)
典型的な忘却曲線。Lingvistのユーザーが増え、1日に100万単語カードものビッグデータが分析できるようになり彼らのデータセットが増えたため、エビングハウスの最初の公式は本当に正確ではないことが明らかになった。つまり、忘却曲線は1人ひとり異なるということ。
Photo by lifehacker UK

ビッグデータ+AI = ユーザーが増えるほど1人ひとりの学習効率が上がる

1つ例をあげましょう。使い始めたばかりのユーザーが、すでに知っていて、簡単な単語の回答をタップミスにより誤ったとします。そのユーザーはアプリを使い始めたばかりなので、Lingvistは彼のデータを多く持っていない。しかし、ビッグデータの統計に基づいて、類似した既存ユーザーの学習データから彼の語彙に対する知識を予測します。この予測から、スペルミスの要因はタップミスによるもの、と判断することができるのです。

記憶できていない単語を最適なタイミングで復習できれば、無駄な時間を極限まで減らし、それ以外の時間をできる限り新しい単語を学ぶために使えます。そのためにユーザーの学習データ(ビッグデータ)とAIを利用しています。

また、ユーザーが一度も学習したことのない単語をより多く出題できれば、より学習効率が良くなりますよね。ビッグデータセットが十分に大きければ、

そのユーザーが正解したいくつかの単語に基づいて、未学習の単語を予測する事ができるようになります。なぜそれが可能か?例えば、英国の州立学校でフランス語を学んだ人々と、パリに住んで大学に通った人々では、使い慣れた語彙が異なります。正解した単語から、同じ方法で知識を得た人々を特定しグループ化します。次に、グループ内の既存ユーザーの学習データを、同じグループ内の他のユーザーに適用するのです。

データが増えるほどAIは賢くなります。

つまり、Lingvistは、多くのユーザーが使えば使うほど、1人ひとりの学習効率が良くなるということです。

── 実践的な教材、つまり語彙はどのように選定されているのでしょうか?

ミュンテル氏:教材は言語スペシャリスト達が制作しています。その大元になる素材は、主にインターネット上から取得しています。

Linguists
言語スペシャリストのみなさん。他にも他国からリモートワークしている社員が多数在籍しているそうです
Photo by Lingvist

数十億語のテキストを処理し、最初に各単語の使用頻度など基礎となる部分を分析します。次に、統計および機械学習を適用し、特定の単語に対して最も典型的かつ代表的な使用パターンを特定する。その結果、最も重要な単語を選択し、最も関連性の高い文脈でそれらの単語を教えるために、言語の統計データを使用することができます。

ずっと現地の言葉が話せなかったことが恥ずかしかった

ミュンテル氏のバックグラウンドは素粒子物理学にあります。彼は、スイスにあるCERN(欧州合同素粒子原子核研究機構)で働き、2013年にノーベル賞を受賞したヒッグス粒子の発見に携わっていました。

── 起業のきっかけは何ですか?

ミュンテル氏:CERNはスイスとフランスの国境、フランス語を話すエリアにあります。私は10年勉強したロシア語もほとんど身に付かないくらい言語が苦手です。そのため、スイスでもフランス語がわからない状態で暮らしていました。ある日フランスの山にハイキングに出かけ、その帰りに乗るはずだった電車を逃してしまった。駅にいた男性に次の電車の時間を尋ねました。ご存知かどうかわかりませんが、フランス人はフランス語しか話さない人が多い(笑)。彼もその1人でした。そのため全くコミュニケーションが成立しなかった。しばらく経って、その男性がカタコトの英語でLast train(最終電車)と言いました。それで自分が最終電車を逃したということがようやくわかったのです。この経験は今でも覚えています。

私はずっと、フランス語圏に住みながらフランス語を話さない自分にがっかりしていました。現地の人や文化を尊敬していないようで。どれほどテクノロジーが進化し自動翻訳ができるようになったとしても、人間同士が真につながるためには、言語によるコミュニケーションは欠かせないものです。

MaitandRie
ミュンテル氏は他にもフランス語を話せなくて困ったエピソードをおもしろく教えてくれました。

言語学習に科学的なアプローチ。それは自然なことだった

フランス語の勉強を本格的に始めたミュンテル氏は、既存の学習方法の非効率さに気付きます。

ミュンテル氏:一般的に、語族の異なる言語を流暢と言えるレベルまで習得するためには、3000時間の学習が必要である、と言われています。当時、研究で忙しかったのでそんなに長い時間は学習に充てられない。しかし、もし3000時間を5分の1にできれば、2400時間の削減につながる。これは、1年間の労働時間、すなわち1年分の給料に値します。1年あったら他にどれだけのことができるでしょう?

物理学者のやっていることは、10%が理論、80%が検証、残りの10%がペーパーワークです。検証にはビッグデータとソフトウェアを使っている。そのため、コンピューターサイエンスを用いて言語学習に取り組むという発想は、私にとって自然な流れでした。インターネット上にある数十億のテキスト集とテクノロジーの力で必ず改善できるはずだ、と思いました。

そこでフランス語学習のためのプロトタイプを作成しました。それを200時間使って勉強した後、高校レベルのフランス語試験に合格できたのです。この経験がLingvistを創業するきっかけとなりました。

忙しい人でも簡単に空き時間で言語学習ができるように

Lingvistは現在、Skype出身の開発者や、CERNの科学者たちもチームに加わり、合計60名の大きなチームに成長し、アルゴリズムはより優れたものへと変化しているそうです。

ミュンテル氏:私たちはつい最近、ユーザーの学習データの分析結果からある素晴らしい発見をしました。

ユーザーは1人ひとり学習サイクルが異なります。週末だけの人もいれば毎日の人もいる。しかし、どのようなパターンで学習したとしても、2000語習得までの総時間は、17時間だったのです。2000語という数字は、主な言語の80%の語彙を理解することができる単語数です。

image(2)
3名のそれぞれ異なるユーザーの学習データ。毎日5分、週末だけがっつり、スキマ時間を使って不定期に学習する人など、学習サイクルは人により異なります。しかし、2000語習得にかかった総時間は全員17時間だったことを表しています。
Image by Lingvist

この発見は、Lingvistで語彙を学ぶことは、忙しい人が空き時間に勉強するだけの場合でも、毎日勉強した人と比べて効果は変わらないことを示しています。CERNでは研究にとても忙しく、ローカルのコミュニティの中で自然と学ぶという時間があまりなかったそうです。

ミュンテル氏:世の中には、私のように言語学習に多くの時間を使えない人がたくさんいるでしょう。しかし、外国語を自分自身の言葉として使えるようになり、異文化の人々に自分を表現できるようになることは、とても素晴らしいことです。

Lingvistの最終目標は、言語学習を可能な限り実用的かつ効率的にすることです。チームの誰もがこの理念を念頭に置き、日々サービス作りをしています。これまでは、英語基本コースのみを日本人向け英語学習コースとして提供してきたLingvist。つい先日、楽天と共同開発したTOEIC対策用英語学習コースもリリースしたそうです。

lingvist_rakuten1
5月に日本で行われたEDIXに出展。Lingvistメンバーと楽天のみなさん。
Photo by Lingvist

一般的な日本人は、中高合わせて最低800時間以上は英語学習に費やしています。しかしその結果はどうでしょう?

Lingvistが日本での英語学習環境をどのように変えていってくれるのか、筆者はとても楽しみです。

Lingvist

(文・翻訳・聞き手/小野里衣)

swiper-button-prev
swiper-button-next