Amazon Web Services ブログ

テキストの向こう側にある世界: Spokata が Amazon Polly を使用して、リアルタイム音声でニュースと情報のユニバーサルアクセスを実現する方法

今回ご紹介するのは、Spokata 創業者 Zack Sherman からの寄稿記事です。同社の説明によれば、「Spokata はリアルタイムのニュースをストリーミング配信するモバイルオーディオプラットフォームです。BBC、ブルームバーグ、ガーディアンなど 100 社を超える検証済みデジタルニュースソースから選び出して、ユーザーに最新トップ記事の要旨を使いやすいオーディオ形式で提供します」

白黒からカラーへ転換したテレビのように、ウェブはテキストベースのメディアから音声と映像中心のメディアへと変貌を遂げています。その状況に対応して、コンテンツ制作の変化は破壊的と言っていいでしょう。出版業界は自分たちのビジネスモデルを損なうことなくユーザーの要求に応えようと、この変革の時代を切り抜けるために日々奮闘しています。

モバイルリスニングが普及し、車載技術が従来型のラジオ放送を破壊し始めるにつれて、出版業界はオンデマンドオーディオに大きな関心を寄せるようになっています。この傾向は、一般に普及しているポッドキャストに顕著に見られます。しかし、急激に台頭する多様性に満ちた新しいデジタルオーディオフォーマットのエコシステムにおいては、ポッドキャストはほんの始まりにすぎません。Amazon Echo や Amazon Polly のような先進的なテキスト読み上げサービスは、これら新たなオーディオ製品の創出を可能にしています。

本ブログ記事では、Spokata が Amazon のテクノロジーを活用してテキストベースのニュースや情報を、リアルタイム音声で誰でもアクセス可能にしていく過程をご紹介します。

インターネット上のすべてのテキストが新たなオーディオ体験の原材料であるとしたら何か起きるのか

Spokata はオンデマンドオーディオが得意とする分野に投資していますが、考えられる最小単位の時間、ユーザーに 1 分か 2 分しか時間がないようなケースへさらに踏み込んでいきます。ニュース記事を 1 本聴くには 5 分以上かかることがあります。そこで、新しい種類の短いオーディオフォーマットを作りました。私たちは数百万のニュース記事を調査研究して、多様なコンテンツタイプにわたってほぼ完全な正確さで自動的に要約する技法を開発しました。

Spokata の SaaS プラットフォームは、あらゆる出版社のウェブサイトのテキストを要約し、リアルタイムで短いストリーミングオーディオに変換します。Spokata API は新しいコンテンツがテキストで作成されると、出版社のウェブサイトとモバイルアプリで聴取可能な音声を生成し、同時に Amazon Echo や他のスマートデバイスに配信します。Spokata のテクノロジーのアプリケーションがカバーするコンテンツタイプはニュース、交通情報、天気予報、映画批評、料理レシピ、教育、研修コンテンツと広範囲におよび、実質的にはテキストで存在するあらゆる情報が対象となります。

Spokata はユーザーに対しては信頼できる情報源へのリアルタイムのアクセスを、出版社に対しては自動化され高い利益率をもたらすコンテンツの制作メソッドを提供します。Spokata を利用するのに必要なことは、ウェブサイトがあること、そしてコードを数行挿入することだけで、あとは Spokata プラットフォームが処理します。

Spokata のコアミッションはソフトウェアを使用したメディアの創出、そしてそこから生まれた効率性をコンテンツクリエイターに還元することにあります。そのためにも、メディア制作における根本的な収益構造に対するまったく新しいアプローチを必要としていたのです。デジタルビデオ制作費用は、1 分あたりおよそ 1000 米ドルかかります。ポッドキャストの制作予算は番組の制作価値にもよりますが、1 話あたりでその額を超えることは間違いありません。競争力を高めるには、Spokata のオーディオ制作費は「ドル」のレベルではなく、少額の「ペニー」のレベルでなければならないと強く感じていました。 テキスト読み上げサービスを活用すると、これらのアセットをいとも簡単にリアルタイム音声に変えることができ、なおかつほんのわずかな費用でビデオ、ポッドキャストはもちろん、テキスト情報を制作できます。

技術的なハードル

着手にあたっては、乗り越えなければならない技術的なハードルが多数ありました。

規模

ニュースプロバイダーは毎月数千もの記事を発信しています。まず、このような大規模な処理と配信の要求に応えて、なおかつ事業として存続可能であるか、確信がありませんでした。ストレージ、コンテンツ配信、テキスト変換の想定価格を考慮することで、数百万のユーザー向けに記事を数百万本処理するという規模で提供可能なサービスにかかるコストおよびプランを前もって立てることができました。 

配信

リアルタイムの自動配信も、プラットフォームには不可欠な基盤でした。低レイテンシーの Amazon CloudFront をフレキシブルな Amazon EC2 と組み合わせて、本サービスを世界のどこでも利用可能にするために、またユーザーが必要なだけリソースを追加できるようにしました。また、これらのソリューションでオーディオエンドポイントを継続的に追加できるようになるため、出版社はリスナーがどこにいても配信できます。

音声の品質

Spokata が考える正しいテキスト読み上げソリューションとは、「機械っぽくない」を凌駕する品質で配信するものでなれければなりません。 根本的な問題として、数千もの出版社が発信するさまざまなタイプのコンテンツには大規模な適応能力が要求されます。ユーザーが聴きたいと思うようなエクスペリエンスを作り出すには、アクセント、抑揚、発音、これらすべてが高い正確性をもって運用される必要があります。スピードも大きな懸念の 1 つでした。オーディオファイルはストリーミング用には、ほとんど即時と言っていいタイミングで生成され聴取可能にならなければなりません。私たちは商品化されているあらゆるソリューションを評価した結果、あらゆる質的属性で他社製品を上回った Amazon Polly に行きあたったのです。

ソリューション

テキストコンテンツを取得するために、出版社にはシンプルな JSON 構造を提供し、テキストコンテンツをパブリッシュした状態で受け取ります。

受信 (イン) API コール

{
    "article": [
        {
        "title": "The Title of The Article",
        "author": "John Smith"
        "original_article_text": "The full text of the article.",
        "channel": "Business",
        "article_url": "www.example.com/the-title-of-the-article",
        }
    [
}

API エンドポイントが設定されたら、JavaScript が対象記事ページのプレイヤーをアクティベートします。

Spokata プレイヤーコード

<link rel="stylesheet" href="http://x.x.x.x/player/plyr.css" />

<link rel="stylesheet" href="http://x.x.x.x/player/plyrpage.css" /> <script src="http:///x.x.x.x/player/jquery.js" type="text/javascript"

name="scheduler/scheduler"></script>

<script src="http:///x.x.x.x/player/publisher.js" type="text/javascript"
name="scheduler/scheduler"></script>

オリジナルの記事テキストが要約アルゴリズムを通じて渡され、80% 短縮されたファクトベースの要旨になります。そして、その情報すべてがテキスト形式でデータベースに格納されます。

要約が Amazon Polly に渡され、MP3 ファイルが生成されて、Amazon S3 バケットに格納されます。送信 (アウト) API コールが、必要なデータとオーディオを対象の各エンドポイントのストリーミングとして聴取可能にします。 

送信 (アウト) API コール

{
    "article": [
        {
        "title": "The Title of The Article",
        "length": "0:25",
        "file": "https://s3-us-west-2.amazonaws.com/the-title-of-the-article.mp3",
        }
    ]
}

私たちは独自のコンテンツ管理システムで、プラットフォームを管理し、全データを集約できるようにしました。なかには、オーディオの配信先をモバイルアプリだけに限定したい、またはウェブだけに限定したい出版社もあるでしょう。ここから、これらの設定や、「イントロ」や「アウトロ」のカスタマイズ、リソースのリアルタイムのモニタリング、アナリティクスパネリストによるコンテンツのパフォーマンス評価が可能になります。

イントロとアウトロをカスタマイズしたオーディオのサンプルをお聴きください。

今すぐ再生

Amazon Pollyの音声

Spokata を出版業界へ本格展開しながら、一方では多数の開発努力が進行中です。Amazon Polly により音声合成マークアップ言語 (SSML) と辞書を使用して、オーディオ出力をさらにカスタマイズできます。これをワークフローに導入して、オーディオの正確性がさらに増すことになりました。

自動翻訳ツールは近年正確性が向上しています。リスナーが自分のネイティブ言語で聴取できるように、Amazon Translate で実験を繰り返しています。Spokata プラットフォームの次期アップデートでは、バックグラウンドミュージックを流せるようになり、ストリーミングの冒頭で自己紹介する「アバター」を登場させることもできるようになります。

バックグラウンドミュージックとアバターを使ったイントロを組み込んだオーディオのサンプルをお聴きください。

今すぐ再生

Amazon Pollyの音声

テキスト読み上げの品質はプラットフォームの開発を始めて以降、急速な進歩を続けてきました。Amazon Polly はまもなくテキスト読み上げを人の声と区別のつかないレベルにまで引き上げることになります。その結果、最良のリスニング体験をより多くのリスナーにお届けできるようになります。

まとめ

ほんの数年前までデジタルビデオとテレビのあいだに横たわっていた大きなギャップ (利用状況と収益性の観点から) は克服不可能に思えました。デジタルビデオの従来からの利用方法が今では衰退した結果、目前に迫るオンデマンドオーディオ市場の発展という明るい将来像を導き出すことになりました。特に、ラジオの世界では、ビデオの世界で今目にしているようなタイプの崩壊はまだ起こっていません。来年中には、このような変化は必ず起こり、その変化はさらに加速していくでしょう。

正確なニュースと情報のリアルタイム配信は、テクノロジーコミュニティにとっては解決すべき重要な課題です。利用しやすいコンテンツを追求することで、確かな情報にもとづく意思決定を推進し、同時に出版業界がこれから起こるであろう新たなデジタル化への移行を乗り切って繁栄することが私たちの目指すところです。