AI は、Duolingo の言語学習パーソナライゼーションに役立っています

AI を使用して 3 億人を指導

昨年、外国語を学ぶことを目標の一つにしていた方もいるでしょう。加えて一昨年も、その前の年も。ジムの会員登録のように、立派な目標ほど長続きしないものです。言語を新しく習得するには時間がかかりますし、学習アプローチが古いせいで苦戦を強いられる人も多いでしょう。また、多くのウェブベースの言語ツールも、単調で使い勝手が良くないことがあります。

ピッツバーグに拠点を置くスタートアップである Duolingo は、AI ベースの言語学習プラットフォームを使用して、そのすべてを変革しています。同社は 3 億人以上ものユーザー数を誇り、32 を超える言語コースを提供しています。フランス語やタミル語から、ハワイ語やナバホ語などの消滅危機言語までをサポートしています。

Duolingo の特徴は、パーソナライゼーションされた学習アプローチです。ポイントベースの報酬システムにより学習をゲーム感覚で体験できるため、ユーザーは学習に引き付けられ、習得に向け邁進できます。米国国務省は、フランス語またはイタリア語といった「カテゴリー 1」の言語は、習得に 600 時間かかると推定しています。Duolingo は、1 日たった 15 分の学習でそうした言語の習得を実現したいと考えています。

ユーザーはまず、Duolingo の AI 駆動型の適応的な実力テストを受け、コースで実際に受けることになる実習によって実力を判定されます。高校で 4 年間フランス語の授業を受けていた場合、基礎コースの頭から学習を始めずに済みます。テストの各設問や課題は、1 つ前のもの、およびそれに正解したか不正解だったかに基づいて適応的に選択されます。

「語句の難易度、文法、テストにおけるその出題方法のすべてが的確な構成をなすのに利用されるため、ユーザーは 5 分たらずで適切なポイントからコースを開始できます」と、Duolingo のリサーチディレクター、Burr Settles 氏は言います。

言語レッスンは間隔反復という概念を利用して設計されており、ユーザーはますます長い間隔でパーソナライゼーションされたタスクを実践します。間隔反復学習は、短期間での詰め込み学習よりも効果的であることが実証されています。

習熟度が上がるにつれ、コンテンツとの関わり方が多様化していきます。たとえば、Duolingo はカリキュラム内の各単語について、何度遭遇したことがあるか、何度正確に意味を捉えたか、正確に意味を捉えた際のモード、およびその単語を勉強してからの期間を追跡しています。

「ユーザーが特定の文脈でその単語を思い出せる可能性を、AI を使用して常に予測できます」と、Burr 氏は言います。「ベストのタイミングで、勉強し続けるべき項目を組み込むことができます」

「ベストのタイミングで、勉強し続けるべき項目を組み込むことができます」

Burr Settles 氏
リサーチディレクター
Duolingo

「ベストのタイミングで、勉強し続けるべき項目を組み込むことができます」

Burr Settles 氏
リサーチディレクター
Duolingo

言語学習を支える学習

この AI を実現するにあたり、Duolingo は深層学習を利用しました。深層学習は、AI および機械学習の一種であり、ニューラルネットワークを使用して脳の働きを模倣し、データを迅速に分析して知的な予測を行います。同社は自然言語処理に深層学習アルゴリズムを使用し、ユーザーログデータを分析してユーザーの正答率を予測できます。こうした予測は、適応的な学習テストおよび学習アプリケーションのコンテンツ両方におけるパーソナライゼーションの基礎になっています。

しかし、この手法は始めから用いられていたわけではありません。同社は、2009 年にカーネギーメロン大学 (CMU) の翻訳プロジェクト「Monolingo」とともに生まれました。Wikipedia やニュースサイトの記事といったドキュメントの翻訳を課す、という方法でユーザーに外国語を指導するというのが目標でした。当時、Monolingo (および初期の Duolingo) は、より従来的な認知科学アルゴリズムを使用していました。たとえば、ベースラインアルゴリズムでは手動パラメータが使用されていました。つまり、必ずしも実際のデータをもとにして指導している状態ではありませんでした。Duolingo の研究者がユーザーとともにさまざまなアプローチの A/B テストを実施したところ、目標としているパーソナライゼーションのレベルを実現するには、より洗練されカスタマイズされた機械学習モデルが必要であることが判明しました。

「これはきわめて当社特有の問題であるため、すべてを 1 から作り上げる必要がありました」と Burr 氏は言います。「まず基本的な認知的アプローチでデータの収集を始めて、データが取得したら深層学習でその精製を開始することは、こうしたユースケースにおける通常のライフサイクルです」

こうしたカスタムアルゴリズム (非母語音声認識から分類による自動採点までのあらゆるもの) の開発に、Duolingo は PyTorch 深層学習フレームワークをアマゾン ウェブ サービス (AWS) 上で使用しました。これらの深層学習モデルは、Amazon EC2 P3 ハイパフォーマンス GPU インスタンスでトレーニングされた後に本稼働デプロイされました。モデルは問題に応じて 10 万~ 300 万 のデータポイントから任意のものを同時に使用して 3 億超もの予測を毎日実行する可能性があるため、トレーニングにはスピードとスケーラビリティが不可欠でした。

「ユーザー数、テスト数、言語数を考慮すると、2 週間分のデータは大量であるため、モデルのトレーニングにはスライディングウィンドウを利用します」と Burr 氏は言います。機械学習のデータパイプラインを管理するために、同社はデータ管理に Amazon DynamoDB を、一時ストレージとして Amazon EMR と Amazon EBS を、永続ストレージとして Amazon S3 を、定期的なバッチ予測の計算に Spark を使用しました。

また、アプリケーションを実現するため、Duolingo は深層学習によるテキスト読み上げツールである Amazon Polly を使用しました。同社はこのツールを容易にアプリケーションに統合し、テストおよび多数のコースに音声を実装できました。

こうした深層学習ツールの使用により、同社は予測精度とユーザーエンゲージメントの両方を向上させました。Duolingo を 1 度使用して翌日再び使用したユーザーの数は、すぐに 12% 増加しました。

Burr 氏と Duolingo のチームは深層学習の新しい可能性を検証し続け、テストのセキュリティ、不正検出、生体認証、文脈理解に使用できるモデルの追求を続けています。たとえば、問題への解答を間違えたことはわかるものの、なぜ間違えたのかがよくわからないということがあったとします。単語を忘れたためでしょうか。 それとも活用を間違えたためでしょうか。

「常に取得したシグナルから原因を解明できるわけではありません」と Burr 氏は言います。「さらにずっと多くの AI に取り組む必要があります」

Duolingo が深層学習を使用して言語サービスを改善するため、1 年の目標のうち少なくとも 1 つは達成できるでしょう。

KIA は、AI を活用して自動車事故の死亡率を削減しています

詳細 »

TuSimple は、自動運転をトレーニングするために ML を活用しています

詳細 »

GE Healthcare は、ML を活用してより良い医療サービスを提供しています

詳細 »

Zocdoc は AI を使用して患者の信頼を築きます

詳細はこちら »