Amazon Web Services ブログ
Amazon Translate で分析を多言語コンテンツに拡張する Protagonist
Protagonist の COO (最高執行責任者) である Bryan Pelley 氏のゲスト投稿です。Protagonist 流に言うと「公共の場でデータに基づいた議論を行えば、企業はもっと効率よくコミュニケーションを図ることができます。」
Protagonist はナラティブの理解において先駆け的企業です。弊社が定義するナラティブとは視聴者が抱く想念のことをいい、そこでは相互に関連し合うコンセプト、テーマ、イメージ、アイデアが 1 つのストーリーとしてまとめられたものです。ナラティブは意識的にも無意識的にも人間の意思決定に大きく関わるニーズ、欲求、欲望を深く反映するため無視できません。Protagonist では Amazon Translate を使用することで英語以外の言語でナラティブを分析できるようになり、世界を相手に顧客を獲得することが可能となりました。
Protagonist Narrative Analytics プラットフォームでは人が持つ専門知識に基づいた自然言語処理 (NLP) と機械学習 (ML) を使用して、従来のメディア、ソーシャルメディア、その他のオンラインメディア全体でお客様にとって重要なナラティブを明確にし、推定し、追跡を行います。次の図は当社の Narrative Analytics によるソリューションを示しています。
Protagonist はいくつかの例外を除き英語のみのコンテンツしか分析できず、そのせいで長期的成長が制限されていました。多くのお客様だけでなく見込み顧客も、国境を超えたナラティブに関するプロジェクトに大きな関心を示しているにもかかわらずです。 こうしたナラティブを作成するには母国語のコンテンツに取り組む必要があります。
言語に達者なスタッフのおかげで、以前は主にフランス語とスペイン語でのプロジェクトを少し行うことができました。このような場合、チームは翻訳なしでコンテンツの分析を実行することになり、使用できる NLP ツールの範囲が制限されました。またはコンテンツ全体のコーパスのサンプルセットを手動で翻訳し、その翻訳済みのセットでツール一式をすべて実行していました。これら両方のプロセスを組合わせることもありました。しかしながらこのようなスタッフの人手によるソリューションでは拡張性がなく、効率的ではありませんでした。1,000 本のメディア記事サンプルを手動で翻訳するには、約 2 週間かかります。これではお客様にタイムリーなナラティブ分析を提供するには遅すぎます。
こうした状況を Amazon Translate は変えてくれました。多言語コンテンツを英語に素早くそして効率的に翻訳し、当社のナラティブプラットフォームで分析できるようになったのです。過去に他の機械翻訳サービスをいくつか試してみましたが、パフォーマンス、コスト、場合によっては長期契約しなければならないという点でどれも満足行くものではありませんでした。一方 Amazon Translate は、スピード、翻訳の正確さ、費用対効果、そしてオンデマンドの柔軟性という最適な組み合わせで当社のニーズを満たしてくれたのです。これまで翻訳に 2 週間以上かかっていたものが、Amazon Translate を使用することで今では数分で完了できます。
2018 年にお客様の 1 社である Omidyar Network (ON) のプロジェクトで Amazon Translate サービスを試験運用しました。ON が中核として取り組む分野に財産権があります。この企業は世界の大部分の人たちが自分の財産とリソースをほとんど保護していない、あるいはまったくしていないという状況を変える取り組みを行っています。当然のことながらこのような地球規模の問題に取り組むには、ON が土地やその他の財産に対する権利またはその欠如に関する世界の現地住民が持つナラティブを理解する必要があります。当社は国際的な英語でのメディアソースを使用して、その中に登場するナラティブの理解を支援しました。次の図が示すように英語のみのコンテンツの分析では、財産権のナラティブが地域によって大きく異なることが分かりました。そのため現地の母国語でのコンテンツを詳細に分析できることが望まれました。このため ON の所有権に対するプロジェクトは Amazon Translate をテストするのに理想的だと考えたのです。
Omidyar Network のベンチャーパートナーである Peter Rabley 氏が、彼らの所有権への取り組みと Protagonist が果たした役割について解説します。
「世界で 10 億人以上の人々が土地と財産を主張する法的権利がありません。しかし所有権はあまりにも複雑で厄介なため、ほとんどの人が関心を示さないという問題があります。言語を単純化し興味をそそるストーリーにすることでその分野のニーズの意識を高めることができ、その結果革新的なソリューション、より多額の資金調達、全体的により大きな関心を生み出すと考えています。世界の財産権をめぐる初期の頃の対話が複数の言語ではどのようなものであったかを知り、時間の経過とともにストーリーテリングが改良されていったことで、こうしたやり取りにどう影響したかを理解する必要がありました。Protagonist の Narrative Analytics に助けられた結果、当社の投資価値を裏付けることができ、さらに世界の財産権の促進に取り組む当社は貴重な洞察を手にすることができたのです。Protagonist がスペイン語を含む複数の言語で Narrative Analytics を提供できたことは重要な点です。」
Peter 氏が言うように、当社は最初 Amazon Translate を使用するのにスペイン語のコンテンツを選びました。過去にスペイン語のコンテンツに取り組んだりスペイン語を話す人たちとの交流があったため、Amazon Translate からの出力を再確認したり、問題が発生した場合その問題を特定しトラブルシューティングすることが容易にできると考えたからです。でも結局、Amazon Translate サービスが行った翻訳が極めて正確であったので、そのような機会はありませんでした。
Amazon Translate サービスのパフォーマンスは当社の予想を上回る、あるいはそれ以上のものでした。当初 API のレート制限があるにもかかわらず、いつの間にかこの制限を超えてしまい並列処理でいくつか問題が起こったことがあります。Amazon Translate サービスの試験運用以降、AWS は AWS マネジメントコンソールにメトリクスダッシュボードを追加しました。これにより料金制限を超えているかどうかを簡単に確認し、必要に応じて調整できるようになりました。
Amazon Translate API パラメータは適応性の保持に関してよく考えられており、言語を追加する際も当社のデータワークフローに新しくサポートされた言語の統合は簡単に行うことができます。具体的な例で言うと、AWS は Python パッケージ Boto3 を極めて安定した状態で保っているため、既存の機能を害することなく Boto3 の最新バージョンに更新できます。
全体的に見て Amazon Translate にはこれまでの人力での翻訳ソリューションに比べ、いくつかの利点がありました。時間がかかる人による翻訳の必要性がなくなりました。過去には 60 時間以上かかっていた翻訳作業を Amazon Translate では数分で完了できました。つまり当社のツール一式で分析できるコンテンツ量が、数百の記事サンプルから数万または数十万の記事へと拡大できるようになったのです。Narrative Richness、クラスター分析、センチメントスコアリング、トピックモデリングなどの英語のコーパスのみでトレーニングした NLP ツールを効果的に活用できるようになりました。英語でトレーニングした当社の NLP ツールを使って翻訳した資料の大量の外国語コンテンツを正確に分析できる機能のおかげで、当社は大幅なコストと時間を節約できます。
それにもましてアラビア語、中国語、ロシア語などこれまで使用が難しかったさまざまな言語に対して Amazon Translate が費用対効果の高いアクセスを可能にしたことは強調すべき点でしょう。この結果、これまでサポートできなかった幅広い顧客と機会が生まれたのです。現在当社は Amazon Translate の機能を幅広く活用するグローバル規模のナラティブプロジェクトを、大手顧客数社と具体的に折衝中です。Amazon Translate を利用して、このサービスがもたらす新たな機会を発掘できるのではと期待しています。