Amazon Web Services ブログ

re:Invent 2018 AWS CloudFormation セッションガイド

re:Invent2018 開幕まであとわずかになりました。例年のように、 AWS CloudFormation が提供するインフラストラクチャデプロイの舞台裏やフロントエンドを語り尽くす、ブレークアウトセッション、ワークショップ、チョークトーク(ホワイトボードによる講義)などが予定されています。 ここではセッションカタログからいくつかのハイライトをピックアップし、続いてCloudFormationにフォーカスしたセッションやワークショップの一覧を示します。 re:Invent 2018 参加者の方はもちろん、会場にお越しでない方もイベント後の情報収集のためにご利用ください。

Read More

re:Invent 2018に向けて 2018年11月後半アップデートのまとめ 第三弾

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。ラスベガスではいよいよre:Invent 2018の開催に向けて準備が本格化してきております。日本からいらっしゃる皆さんも今日到着される方が多いようです。お待ちしております。 それでは、第一弾、第二弾に続き、アップデートのまとめをお届けいたします。 AWS Resource Access Manager が発表されました。 AWS アカウント間でのリソース共有を容易にします。リソースは、組織、組織単位 (OU)、AWS アカウントで共有することができます。また、組織外のアカウントを特定のリソース共有に追加できるかどうかをコントロールすることもできます。日本語ブログをご参照ください。 Amazon Rekognition が、顔の検出、分析、認識機能の更新を発表 これらの更新により、画像からより多くの顔を検出し、より正確な顔のマッチングを実行し、画像内の顔から年齢、性別、感情の属性を取得する能力が向上します。最新の更新により、以前は見逃されていた顔の 40% を検出できるようになりました。同時に、誤検出の割合は 50% 削減されています。こちらの日本語ブログに新たに検知が可能となった画像のサンプルが掲載されています。 AWS Application AutoScaling がAmazon Kinesis Data Streams のスケーリングに対応しました。 シャードを自動的に追加・削除するスケーリングポリシーを定義できるようになりました。 Amazon CloudWatch メトリクスに基づいて Amazon Kinesis Data Streams に Auto Scaling ソリューションをデプロイすることができます。こちらの日本語ブログに、環境を自動的に設定する AWS CloudFormation テンプレートと、Lambda 関数に関連するコードも記載されています。 AWS Database Migration Service が Amazon Elasticsearch Service を移行ターゲットとしてサポートしました。 AWS DMSはデータ移行の自動化を実行を可能とし、サポートされているソースからAmazon ESターゲットへのデータの連続複製の実行が可能です。これらのソースには、関連データベース(OracleやAmazon Aurora等)、NoSQLデータベース(MongoDB)、またはAmazon […]

Read More

re:Invent 2018に向けて 2018年11月後半アップデートのまとめ 第二弾

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。 サンフランシスコの空港に到着し、ラスベガス行きの飛行機を待っています。ラスベガスでは空港でre:Invent2018へのチェックインができるようになっています。会場でもできますので、ご無理なさらず皆さんのご都合の良い場所でチェックインをしてくださいね。 さて、第一弾に続き、2018年11月後半アップデートのまとめをお届けします。 Amazon SageMaker が Object2Vec と IP Insight の組み込みアルゴリズムをサポートするようになりました。 Object2Vecは、類似の単語、フレーズ、および文章があるアプリケーションで使用される教師付き学習アルゴリズムです。例えば、文書分類システムの構築、ユーザーの格付けが紐づく映画推薦システムなどで使われます。 IP Insightsは、リクエストのIPアドレスを分析して不審なオンライン動作を識別する新しい教師なし学習アルゴリズムです。アルゴリズムは統計モデリングとニューラルネットワークを使用して、例えば、銀行のアカウントへのユーザーのアクセス履歴からIPv4アドレスを識別し攻撃の検知等に用いられます。 AWS CodePipeline の実行速度が向上し、かつステージごとにより多くのパイプラインアクションをサポートしました。 パイプラインアクション間の遷移時間を短縮し、パイプラインの実行時間が短縮され、ビルドとテストの結果がすぐに得られ、機能をより迅速に反復することができるようになりました。すべてのアクションタイプに対してステージあたりのアクションのデフォルト制限が最大20から50になりました。 AWS CloudTrail が AWS Organizations をサポートしました。 組織全体でAWS CloudTrailを1つのアカウントから作成、管理、展開することができるよになり、組織内の各メンバーアカウントに自動的に適用される統一イベントロギング戦略を定義できるようになりました。 Amazon EMR が Jupyter Notebook をベースとしたマネージド分析環境である、EMRノートブックをリリースしました。 EMRノートブックはSpark用に事前設定されており、Sparkのマジックカーネルをサポートしているため、PySpark、Spark SQL、Spark R、Scalaなどの言語で書かれたEMRクラスタ上でSparkジョブを対話的に実行することができます。これらのライブラリをインポートしてデータを操作し、豊富なグラフィカルなプロットで計算結果を視覚化することを可能にするCondaのオープンソースライブラリがノートブックに付属しています。さらに、各ノートブックにはSparkの監視機能が組み込まれており、ジョブの進行状況を監視し、ノートブックから直接コードをデバッグすることができます。 Amazon Connect が コンタクトフローの設定に、Loop (ループ)ブロックをサポートしました。 ループブロックを使用すると、コンタクトフローのセグメントを繰り返すことができ、例えば、クレジットカード、口座番号、社会保障番号などの難しい入力を、顧客が簡単に入力できるようになります。また、悪天候のために会社が閉鎖されていることを知らせる際など、指定した回数だけ電話をかける処理ができるようになります。 Amazon Transcribe が リアルタイムの文字書き起こし(トランスクリプション)に対応しました。 ライブ・オーディオ・ストリームからテキスト・トランスクリプトをリアルタイムで受信できる機能が加わり、リアルタイムトランスクリプションが可能となりました。 AWS Lambda が Python 3.7 […]

Read More

re:Invent 2018に向けて 2018年11月後半アップデートのまとめ 第一弾

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。 いよいよ明後日からre:Invent2018が米国ラスベガスで開催されます。毎年re:Inventの開催に先立ち多くの機能リリースが行われます。今年は例年以上のボリュームで多くの機能リリースが11月後半に発表されました。量が多くまとめるのが大変というお声をいただき、以下にその内容を纏めたいと思います。 Cloud Frontが10周年を迎え6つのエッジロケーションが新たにオープンしました。 シカゴ、ニューアーク、アシュバーン、ミュンヘン、東京、リオデジャネイロ。世界65都市、29カ国、150拠点となりました。 CloudFrontがオリジンのフェイルオーバー機能をサポートしました。 プライマリオリジンが利用できないことをCloudFrontが検出した場合に、セカンダリオリジンからコンテンツが提供されるようにプライマリとセカンダリの2つのディストリビューションを設定できるようになり、サービスの継続性が向上します。 CloudFrontがWebSocketをサポートしました。 デフォルトで有効となり、設定変更は不要です。そして追加料金も発生しません。 Amazon Neptune がHTTPSの暗号化通信に対応しました。 Transport Layer Security(TLS)1.2プロトコルを介してNeptuneのGremlinサーバーとSPARQL 1.1プロトコルRESTエンドポイントに接続できるようになりました。SSL用証明書は自動で設定され管理の必要はありません。 Amazon SageMakerがAmazon CloudWatchと連携しトレーニングジョブの監視、視覚化に対応しました。 ClouldWatchコンソールでメトリックを視覚化し、SageMaker APIとCloudWatch APIの両方を使用してメトリックを照会することができます。組み込みアルゴリズムとカスタムアルゴリズムの両方でサポートされました。 Amazon SageMaker が Apache Airflowに対応しました。 Apache Airflowは、クラウドやオンプレミスに導入できるワークフローをプログラムで作成、スケジュール、および監視するためのオープンソースのプラットフォームであり、モデルトレーニング、ハイパーパラメータチューニング、モデル展開、バッチ変換などの管理でご利用いただけます。 Amazon SageMakerがTensorflow 及び Chainer のサポートで機能拡張されました。 TensorFlowおよびChainerスクリプトの実行が容易になり、高性能アルゴリズムのライブラリ、自動モデルチューニング、ワンクリック展開、マネージドホスティングによる管理および分散トレーニングなどでご利用いただけます。 Amazon CloudWatch が Automatic Dashboard という機能をリリースしました。 自動ダッシュボードには、AWSサービス推奨のベストプラクティスがあらかじめ組み込まれており、リソースを認識したままで動的に更新され、重要なパフォーマンスメトリックの最新の状態が反映されます。すべてのAWSリソースの正常性とパフォーマンスの集計ビューを取得できるようになり、モニタリングを迅速に開始し、メトリックとアラームのアカウントとリソースベースのビューを調べ、ドリルダウンしてパフォーマンスの問題の根本原因を探ることができます。 AWS Batch が EC2 AMD インスタンスをサポートしました。 AMDベースのEC2インスタンスである R5a 及び […]

Read More

新しい AWS Resource Access Manager – クロスアカウントでのリソース共有

以前に説明したように、顧客はさまざまな理由で複数の AWS アカウントを使用しています。一部の顧客は、複数のアカウントを使用して管理および課金を切り分けています。爆発半径を設定して、間違いの影響をコントロールしている顧客もいます。 こうした分離はすべての顧客にとって実際にポジティブなものですが、特定のタイプの共有が有用で有益であることも判明しています。たとえば、多くの顧客は、管理のオーバーヘッドや運用コストを削減するために、リソースを一元的に作成してアカウント間で共有したいと考えています。 AWS Resource Access Manager 新しいAWS Resource Access Manager (RAM) は、AWS アカウント間でのリソース共有を容易にします。AWS 組織内でリソースを簡単に共有でき、コンソール、CLI、一連の API から使用できます。Route 53 Resolver ルールのサポートを開始 (昨日、Shaunの素晴らしい記事で発表) し、近いうちにさらに多くの種類のリソースを追加します。 リソースを共有するには、単にリソース共有を作成し、名前を付け、リソースを 1 つ以上追加し、他の AWS アカウントへのアクセス権を付与するだけです。それぞれのリソース共有はショッピングカートに似ており、異なる種類のリソースを保持できます。自分が所有しているリソースはすべて共有できますが、共有されているリソースを再共有することはできません。リソースは、組織、組織単位 (OU)、AWS アカウントで共有することができます。また、組織外のアカウントを特定のリソース共有に追加できるかどうかをコントロールすることもできます。 組織のマスターアカウントの共有を、RAM コンソールの [Settings] ページで有効にする必要があります。 その後、組織内の別のアカウントとリソースを共有すると、リソースはどちらの側でもさらなるアクションなしで利用可能になります (RAM は、アカウントが組織に追加されたときに行われたハンドシェイクを利用します)。組織外のアカウントでリソースを共有すると、そのアカウントでリソースを利用できるようにするために承認する必要がある招待が送信されます。 リソースがアカウント (消費アカウントと呼ぶ) と共有されると、共有リソースは消費アカウントが所有するリソースと共に適切なコンソールページに表示されます。同様に、Describe/List をコールすると、共有リソースと消費アカウントが所有するリソースの両方を返します。 リソース共有にタグを付け、IAM ポリシーでタグを参照してタグベースの権限システムを作成することができます。リソース共有から、いつでもアカウントやリソースを追加したり削除したりすることができます。 AWS Resource Access Manager の使用 RAM コンソールを開き、[Create a resource share] をクリックして開始します。 共有の名前 […]

Read More

Amazon Rekognition が、顔の検出、分析、認識機能の更新を発表

本日、当社は顔の検出、分析、認識機能の更新を発表いたします。これらの更新により、画像からより多くの顔を検出し、より正確な顔のマッチングを実行し、画像内の顔から年齢、性別、感情の属性を取得する能力が向上します。Amazon Rekognition の顧客は、本日より、追加コストなしでこれらの各機能拡張を使用できます。機械学習の経験は必要ありません。 「顔検出」は、「この画像には顔がありますか?」という質問に答えようとします。 現実世界の画像では、さまざまな側面が、高い精度で顔を検出するシステムの能力に影響を与える可能性があります。そうした側面としては、頭部の動きおよび/またはカメラの動きによるポーズの変化、前景または背景の物体 (前景にいる他の人の帽子、髪、手で覆われた顔など)によるオクルージョン、照明の変化 (低いコントラストや影など)、顔が白っぽくなる明るい照明、ノイズが多かったり不鮮明である顔につながる低品質と解像度、カメラやレンズ自体の歪みなどがあります。こうした問題は、未検出 (顔が検出されなかった) または誤検出 (画像領域に顔がないのに顔として検出される) として現れます。たとえば、ソーシャルメディアのさまざまなポーズでは、カメラのフィルター、照明、オクルージョン (「フォトボム」など) が一般的です。金融サービスの顧客の場合、多要素認証および不正防止ワークフローの一部としての顧客 ID の検証で、高解像度の自撮り (顔画像) を、写真 ID 文書 (パスポートや運転免許証など) のより低解像度で、小さく、しばしばぼやけた顔画像と照合させることが必要になります 。また、多くの顧客は、カメラが明るい光に向いている画像から低コントラストの顔を検出して認識しなければならなりません。 最新の更新により、Amazon Rekognition は前に説明した最も困難な条件にある画像で、以前は見逃されていた顔の 40% を検出できるようになりました。同時に、誤検出の割合は 50% 削減されています。つまり、ソーシャルメディアアプリなどの顧客は、高い確度で一貫して信頼できる検出 (未検出と誤検出が少ない) が可能になり、自動化されたプロフィール写真レビューなどのユースケースでより良い顧客経験を提供できます。さらに、顔認識は、大規模な顔のコレクションを検索する場合に、以前のモデルと比較して 30% より正確な「最良の」一致 (最も類似した顔) を返します。これにより、不正防止などのアプリケーションでより良い検索結果を得ることができます。顔照合では、さまざまな照明、ポーズ、外観でより一貫性のある類似性スコアを取得できるようになり、ID 照合などのアプリケーションでより高い信頼性のしきい値を使用して誤った一致を回避し、人間による確認を減らすことができます。いつものように、市民の自由や顧客の感情が関係するユースケースで照合の正確さが重要な場合、ベストプラクティス、より高い信頼水準 (少なくとも99%) を使用し、必ず人間による確認を含めることをお勧めします。 それでは、いくつかの画像を見て、Amazon Rekognition が制約のない環境でキャプチャされた難しい画像のさまざまな側面をどのように処理するかを確認しましょう。 ポーズのバリエーション この問題は、急なカメラアングル (顔の上または下から撮影されたショットなど)、顔を横から見たショット、被写体が遠ざかっている場合に発生します。この問題は、ソーシャルメディアの写真 (例えば、被写体が遠くを見ているときなど)、自撮り、ファッションの写真撮影でよく見られます。顔検出アルゴリズムは、多くの場合、顔の半分以下しか見えないか、顔が通常ではない確度で傾いている (逆さまになるなど) 場合に、顔を検出することが困難です。 画像 1: 横から見た顔 画像 2: 様々な角度でカメラを見下ろす顔 画像 3: […]

Read More

Oracle Database による AWS Database Migration Service と Accelario によるダウンタイムゼロの移行

これは Accelario の共同設立者で副社長の R&D の マイケル・リトナー (Michael Litner) のゲストポストです。 Accelario は、Amazon Web Services(AWS)に Oracle データベースを簡単かつ迅速にロードするためのデータベース移行ソフトウェアです。初期ロードの終了時に、AWS Database Migration Service (AWS DMS)を使用してデータベースの同期がすぐに開始されます。その結果、データベースのダウンタイム移行がゼロ になります。 データベースのクラウド移行時には、週7日24時間(無休)業務を必要とする事業は大問題に直面しています。これまでのところ、ダウンタイムを最小限に抑えるための経費効率の高いオプションはほとんどありませんでした。Accelario は、AWS DMS との最近の統合により、すぐに使用できるゼロダウンタイムのフルデータベース移行ソリューション、つまり、ユーザー、手順、ビューなどのデータベース全体が移行を提供します。プロセスが完了すると、データベースにアクセスしてアプリケーションで即座に使用することができます。 そのような事業に影響を及ぼすもう1つの重大問題は、機密情報がプロセスの一部として公開されないようにすることです。これは、データ保護ポリシーや規制の遵守にとって重要です。Amazon Relational Database Service (Amazon RDS)でサポートされている Oracle の組み込み機能(ネットワーク・データ暗号化を含む)を使用して、転送中のデータの暗号化を実現できます。 本投稿では、この組み合わせソリューションを使用してデータベースを Amazon EC2 または Amazon RDS(データマスキングも使用)に移行する方法について説明します。また、クラウドに入った後に簡単にデータベースをリフレッシュする方法についても説明します。 仕組みの説明 Accelario は論理的な移行を実行します。それはソースデータベースを読み取り、その内容を解析して宛先にコピーします。エンジンはデータ自体がソースからデスティネーションに直接流れて、移行プロセスを調整します。Accelario は、データベース内のすべてのオブジェクトタイプ(表、索引、パッケージ、順序、許可、表スペースなど)を処理します。 この初期ロードの終了時に、Accelario は AWS 上の新しいターゲットとソース間の 進行中の変更 を複製するAWS DMS 環境を自動的に構築します。複製が同期された後、いつでもカットオーバを要求できます。 大規模なデータベースでこのソリューションを使用する場合のベストケース 大規模なデータベース移行で Accelario を使用する一般的なシナリオを次に示します。 […]

Read More

Amazon SageMakerの新機能: ワークフロー、アルゴリズム、認定

過去12ヵ月間、MLを何万人もの開発者やデータ科学者の手に渡して、完全に管理されたサービスである、Amazon SageMaker を利用しているお客様が – 詐欺の発見、予測、エンジンのチューニングで machine learning に大進歩を遂げたのを見て参りました。昨年 re:Invent に SageMakerを導入して以来、その大半は顧客のフィードバックに基づいた、ほぼ100の新機能を追加しました。Amazon SageMakerの主な新機能の発表で、今日も同じドラムビートを継続しています。 SageMakerワークフローの紹介 今日では、machine learning のワークフローの構築、管理、共有を容易にするために、Amazon SageMakerの新しい自動化、統合化、それにコラボレーション機能を発表しています。 Machine learning は高度なコラボレーションプロセスです。ドメイン経験と技術スキルを組み合わせることは成功の基盤であり、さまざまなデータセットや機能を用いた複数の反復と実験が必要になることがよくあります。開発者が進捗状況を共有し、多くの共同作業者からフィードバックを収集する必要が頻繁にあります。成功モデルの訓練は、必ずしもホールインワンとはなるとは限らないので、重要な決定を追跡し、成功した部品を再生し、成功したものを再利用し、成功しなかったものに関する助けを得ることが重要になります。これらの反復の管理、繰り返し、共有を簡単にする新機能を導入しています。 SageMaker Search による実験管理 成功したMLモデルの開発には、継続的な実験、新しいアルゴリズムの試行、ハイパーパラメータのモデル化が必要です。その間には、潜在的に小さな変更が性能と正確さに及ぼす影響を観察しなければなりません。この反復運動は、データセット、アルゴリズム、パラメータのユニークな組み合わせで「勝利」モデルの醸成の追跡が難しいことを意味します。 データ科学者および開発者は、Amazon SageMaker Searchを使用して、machine learning モデルトレーニングの実験を整理、追跡、評価することができます。SageMaker Searchを使用すると、AWSコンソールから数千もの Amazon SageMaker モデルトレーニング実行の中から、最も関連性の高いモデルトレーニングの実行を即座に発見し評価することができます。 バージョン管理によるコラボレーション データ科学者、開発者、データエンジニア、アナリスト、ビジネスリーダーは、しばしばアイデアやタスクを共有し、協力してmachine learning を推進する必要があります。従来のソフトウェア開発とのこの種のコラボレーションの事実上の標準は、バージョン管理です。それはMLでも重要な役割を果たしており、Git の統合と視覚化をAmazon SageMaker に追加することで、簡単に作成しています。 顧客は、GitHub、AWS CodeCommit、または Git リポジトリとSageMaker ノートブックのリンク、公私のリポジトリの複製、IAM、LDAP、AWS Secrets Manager を用いた Amazon SageMaker でのリポジトリ情報の安全な保存を可能にしています。新しいオープンソースのノートブックアプリの使用で、SageMaker でのブランチ、マージ、バージョンを直接確認できます。 ステップ関数とApache Airflow によるオートメーション […]

Read More

Amazon Redshiftのクラスターノード数を数分で増減さることで、必要なときに必要なパフォーマンスを得ることができます

Amazon Redshiftは、TuroやYelpなど急速に成長するテクノロジー企業から、21st Century Fox、Johnson&JohnsonなどのFortune 500企業まで、あらゆる規模の組織にとって最適なクラウドデータウェアハウスです。これらの顧客は、ユースケース、データサイズ、アナリストの集団をすばやく拡大することで、スケーラブルなデータウェアハウスにとって非常に重要なニーズがあります。 Amazon Redshiftを発売して以来、お客様と私達はともに成長してきました。お客様と密接に協力することでデータのスケールに応じてニーズがどのように変化するかを学びました。データ分析では、次のようなシナリオが頻繁に発生します。 米国に拠点を置く小売企業は、多数のスケジューリングされたクエリと複雑なBIレポートを実行しています。彼らのAmazon Redshiftの使用状況は、データ科学者とアナリストの作業負荷が高い、午前8時から午後6時にピークに達します。夜間には、データを照会して小規模のレポートを作成するユーザーも少数います。その結果、日中と同じクラスター容量は夜間には必要ありません。 医療コンサルティング会社は、サービスとしてのデータ(DaaS)ビジネスを急速に拡大しています。彼らは、迅速に複製環境を作成し、クライアントにクラスターエンドポイントを提供したいと考えています。複製クラスターを作成した後は、クライアントのコストとパフォーマンスの要件に基づいて、適切なサイズにすばやく変更する必要があります。 IoTサービスプロバイダーは急速な成長軌道に乗っています。大規模なイベントが発生するたびに、そのセンサーはAmazon Redshiftに取り込まれ、その後すぐに分析する必要のあるテラバイトの容量の新しいデータを送信します。 データベース管理者(DBAs)がこれらのシナリオに反応する機敏さを持たない場合、アナリストはミッションクリティカルなワークロードに対する応答時間が長くなります。または、データウェアハウスがサイズ変更のために停止している場合、それらは完全に締め出される可能性があります。DBAは、ビジネスステークホルダーとの間で設定したService Level Agreements(SLAs)をサポートすることができません。 Amazon Redshiftを使用すれば、すでに3つの方法ですばやく拡張できます。第1に、Amazon Redshift Spectrumを使用してAmazon S3データレイクのクエリデータをクラスターにロードせずに、その場所にあるデータを照会することができます。この柔軟性により、抽出、変換、ロード(ETL)ジョブを待つことなく、またはストレージ容量を追加することなく、増大するデータボリュームを分析することができます。第2に、数時間でノードを追加したり、ノードタイプを変更することで、Amazon Redshiftクラスターのサイズを変更することができます。この間は、アナリストはダウンタイムなしで読み取りクエリを実行し続けることができます。これにより、スケールアップに数日かかるオンプレミスのデータウェアハウスに比べて、俊敏性が向上します。第3に、スナップショットからデータをすばやくリストアすることで、複数のAmazon Redshiftクラスターをスピンアップできます。これにより、高い並行性をサポートするために必要なコンピューティングリソースを追加できます。 Elasitc Resizeの導入 Amazon Redshiftクラスターのノードを数分で追加または削除できる新機能、Elastic Resizeを発表出来ることを嬉しく思います。これにより、要求の厳しいワークロードに対して、より優れたパフォーマンスとストレージを実現するための機敏性がさらに高まり、需要が低い期間にコストを削減できます。AWS マネジメントコンソールから手動で、または簡単なAPIコールを使用してプログラムでリサイズできます。 Elastic Resizeを使用すると、次の図に示すように、必要に応じて小規模から始めてオンデマンドでスケールアップすることができます。 リリース前にElastic ResizeをプレビューしていたAmazon Redshiftの顧客は、スケーラビリティによって即座に利益を得ることができました。ここで、顧客の一部がElastic Resizeについて伝えなければならないことがあります:   Amazon Prime Videoは高度なデータ分析を使用して視聴のお薦め内容をカスタマイズし、ファンの視聴経験を測定します。「Redshiftの新しいElastic Resize機能により、作業時間のリサイジング時間が6時間から15分に短縮され、ワークロードのさまざまな性質に応じてインフラを動的に拡張し、コストを最適化しパフォーマンスを最大限に高めました。」 Amazon Prime VideoのデータエンジニアであるSergio Diaz Bautista氏     Yelpは、Amazon Redshiftを使用して、モバイルアプリの利用データと、顧客コホート、オークション、広告指標に関する広告データを分析します。「Yelpは、データ分析を使用してビジネス上の意思決定を行い、ユーザーのエクスペリエンスを向上させる最前線に位置しています。Elastic Resizeを使用することで、需要が通常の変動性ウィンドウを超えて増加し、オフピーク時にスケールダウンするときにクラスターをスケールアップするように設定することで、最良のパフォーマンスを確実に最適化し、コストを低く抑えることができます。数百テラバイトのデータを数分で格納するデータウェアハウスの拡張能力は素晴らしいです」とYelp.comのデータアーキテクトShahid Chohan氏は言います。   「Coupangは、電話を使った世界のショップのあり方を混乱させている。進歩するビジネスニーズや予期せず必要とされる特別な分析のために、分析需要を常に予測できるとは限りません。Elastic Resizeにより、コンピューティングとストレージを迅速に拡張し、大規模なETLジョブをより速く完了させ、データを照会するユーザーの数を増やすことができます」と、Coupangのデータエンジニアリング担当上級マネージャー、Hara Ketha氏は述べています。   […]

Read More

Amazon Lex で会話型ビジネスインテリジェンスボットを構築する

会話型インターフェースの登場で、ソフトウェアアプリケーションやサービスとのやり取りの方法が激変しています。インターフェースをより自然なやり取りの仕方、つまり会話に置き換えることで、キーボードやスマートフォンを使っての意思表示方法から人々を開放したのです。質問に対する回答が必要な時、リマインダーを設定する時、あるいは製品やサービスを調達したい時に、ボットとの対話を利用する人々がますます増えています。 Amazon Lex では、これと同じレベルの利便性をデータにもたらすことが可能です。一連の質問を尋ね、会話コンテキストを維持し、ユーザーがデータセットを検索できるようにすることで、全く新しいエクスペリエンスとデータとの関係が実現しました。 このブログ記事では Amazon Lex を使用して、ビジネスインテリジェンス (BI) チャットボットを実装する方法を紹介します。このチャットボットを「BIBot」と呼んでいますが、別の名前を使うようカスタマイズできます。BIBot は、質問をバックエンドデータベースクエリに変換し、さらに結果セットを自然言語応答に変換することによって、データベース内のデータに関するユーザーの質問に答えることができます。例えば、「先月の在庫の増加を教えてください」というリクエストは、「month(received_date) = 10 の在庫から sum(item_qty) を選択する」に変換します。 BIBot は、ビジネスインテリジェンスとレポートアプリケーション向けの一般的なリレーショナルデータベースと統合されています。サンプルデータベースは Amazon Redshift TICKIT データベースです。これは、ユーザーが音楽コンサートや劇場でのショーのチケットをオンラインで購入したり販売できる架空のウェブサイトでの売り上げを追跡するものです。データベースは、2 つのファクトテーブル (販売、リスト) と 5 つのディメンションテーブル (イベント、日付、会場、カテゴリ、ユーザー) を持つスタースキーマです。詳細については、「Amazon Redshift」 » 「サンプルデータベース」を参照してください。 BIBot とのやりとりの例をいくつか紹介します。 これらの例から分かるように、BIBot は 6 月にヒューストンについて聞いたことと、何枚のチケットが売れたか聞いたことを覚えており、そのため、質問のコンテキストを把握することができます。会話は、データの「言葉」を利用します。つまりこの場合、チケット販売、都市、月、イベントなどです。これらは、サンプルチケット販売データベースのファクトとディメンションです。レポートデータベースを使用するように BIBot を調整すると、ボットとの会話はデータの言葉で行われます。 アーキテクチャ BIBot のアーキテクチャはシンプルです。Amazon Lex ボットは、ユーザーの各質問をインテントに送り、質問をスロットでパースします。次に、Amazon Lex ボットはインテントとスロットのデータを AWS Lambda 関数に渡します。この関数はデータを使用して、SQL クエリを構築し、Amazon Athena データベースに対して実行します。Athena は、Amazon S3 […]

Read More