Amazon Web Services ブログ

Amazon SageMaker を使用して、より迅速に大規模な主成分分析法を実行できます

このブログ記事では、Amazon SageMaker、Spark ML、Scikit-Learn を使用した、高ディメンジョンセットでの PCA に関するパフォーマンス比較を実施します。SageMaker は一貫してより高速な計算性能を示しました。速度改善内容を確認するために、下図 (1) および (2) を参照してください。 主成分分析法 主成分分析 (PCA) とは、依然として、可能な限りより多くの情報を保持しながら、データセット内部のディメンジョナリティ (例: 機能の個数など) の低減を目的とした監督機能解除済み学習アルゴリズムです。PCA は、各列は、それ以降はお互いが独立性を有する状況となるような、1 組のデータ行列を 1 個の直交空間に線形変換するものであり、個別のカラムが対象データ内で 1 個の既知の割合を占めることができるものです。換言すれば、個別のコンポーネントが互いに無相関性のような、元の特徴の複合体である、コンポーネントと呼ばれる 1 つの新しいセットの機能を発現します。更に、これらは制限が付加されることで、第 1 コンポーネントが対象データ内で可能な限り巨大な可変率を占め、第 2 コンポーネントが第 2 番目に最大であり、そして以下も同様となることとなります。 より包括的な説明については、「https://docs.aws.amazon.com/sagemaker/latest/dg/how-pca-works.html」を参照してください。 PCA は、Exploratory Data Analysis (EDA) 用の 1 個のツールおよび 1 個の機械学習用アルゴリズム (ML) の両面でも強力です。EDA に関して、PCA はディメンジョナリティ低減および 1 件のデータ問題についての多重共線性 (マルチコ) 低減に最適です。ML 方法論の 1 つとして、異常検出 (例: […]

Read More

Amazon Athena を使用して高度な分析を行い、Amazon DynamoDB データの視覚化を行う

Amazon DynamoDB サービスでは、1 秒あたり数十億件のアイテムと数百万回のリクエストの中から膨大な分析値を取得することができます。ただし、その分析値を取得するには、データをエクスポートする必要があります。DynamoDB テーブルから分析プラットフォームにデータをコピーすることで、情報を豊富に抽出することができます。これを行うには、優れたアーキテクチャのビッグデータパイプラインが、トランザクションプロセスを分析から切り離すのに大変便利です。このブログ記事では、DynamoDB テーブルから Amazon S3 にデータを移行するビッグデータパイプラインを構築する方法を説明します。これは、完全管理型の Presto クエリサービスである Amazon Athena を使用して、高度な分析が実行でき、Amazon QuickSight を用いて、視覚化およびアドホック分析を構築することも可能です。 デカップリングしたビッグデータアプリケーションにはたいてい、ストレージとコンピューティングを分離する共通のパイプラインがあり、そのため、新しい処理技術が生まれた際にはそれを活用することができます。デカップリングにより、データの耐久性に影響を与えることなく、複数の分析エンジン用の計算リソースを柔軟にプロビジョニングできるようになります。また、パイプラインを設計して、ストレージと処理の段階を繰り返し、下流のアプリケーションがすばやく使用できる形式でデータを整形することも可能です。 ビッグデータパイプラインの設計には、3 つの大きな特性が作用しています。 パイプライン全体の遅延 – データから正しい情報を得るまでにどれくらいの時間を要するでしょうか? 数千分の 1 秒、数分、あるいは数日? データのスループット – どれくらいのデータを取り込んで処理する必要がありますか? 数ギガバイト、数テラバイト、あるいは数ペタバイト? コスト – アプリケーションのための目標予算はいくらですか? AWS の最も費用対効果の高いオプションが、普通、適切な選択と言えるでしょう。 ビッグデータパイプラインを設計する際に考慮すべきことは他にも、データ構造、アクセスパターン、データの温度、可用性と耐久性、そしてサービスが完全に管理されているかどうかなどがあります。これらの特性に基づいてジョブに適切なツールを使用することは、優れたアーキテクチャを持つビッグデータパイプラインにとって重要です。 階層化されているビッグデータパイプライン 階層化されたビッグデータパイプラインを解説する前に、このソリューションで利用する主なサービスと機能を見てみましょう。 パイプラインでの DynamoDB の機能 DynamoDB で用いる主要なコンポーネントは、テーブル、項目、および属性です。テーブルは項目の集合であり、各項目は属性の集合です。DynamoDB はプライマリキーを使って、テーブルの各項目を識別します。セカンダリインデックスを使用すると、クエリの柔軟性が向上します。詳細については、「Amazon DynamoDB の仕組み」を参照してください。これは「DynamoDB 開発者ガイド」の中にあります。 DynamoDB TTL (Time To Live) を使用すれば、ストレージコストを削減する手段として、すでに関連性がなくなった項目を自動的に削除することができます。このブログ記事では、テーブルの TTL を有効にし、ttl 属性を使用して削除のタイムスタンプを設定します。TTL の詳細については、「Time […]

Read More

AWS Summit Tokyo 2018 メディア/エンターテイメント関連セッションのみどころ

こんにちは。ソリューションアーキテクトの千葉です。 いよいよAWS Summit Tokyo 2018まで1週間にせまってきました!皆様セッションのお申込みは完了していますか? 登録サイトのオープン後にもセッションが随時追加されていっていますので、是非もう一度ご興味のあるセッションがないかチェックしてみて下さい! 本ポストでは、ゲーム、Web、放送系などのメディア/エンターテイメント業界のお客様事例セッションのみどころをご紹介します。B2Cならではの大規模なユーザートラフィックをさばいている事例や、多数のAWSアカウントを効率的に運用している事例など、他業種のお客様にも参考にしていただけるセッションが多数あります。ぜひご確認下さい!   【ディー・エヌ・エー様ご登壇事例】DeNA オートモーティブにおける AWS 活用事例:5月30日(水) 14:00-14:40 オートモーティブ x IoTならではの、大規模・高頻度なトラフィックを支える技術要素を知ることができます。また、デバイス証明書の扱いなど、IoTを実際にサービスとして利用する上で欠かすことのできないセキュリティ実装を知ることができます。オートモーティブ、IoT、それぞれの文脈に関心のある方に必見のセッションです。   【任天堂様ご登壇事例】Nintendo Switch (TM) 向けプッシュ通知システム「NPNS」:5月30日(水) 16:00-16:40 ゲームでもリアルタイム性向上のために常時型の接続が増えていますが、本セッションの内容である大規模常時接続をどのように制御・管理しているかのノウハウはオンラインゲームに関わっている方々すべてにご参考いただける内容です。   【ヤフー様ご登壇事例】AWS を活用した Yahoo! MOBILE INSIGHT の構築事例:5月31日(木) 11:00-11:40 大規模なオンプレ環境を持つYahoo!Japan様がなぜAWSを利用したのか、オンプレミス環境との使い分けの考え方や、急激なトラフィック増加に耐えるためにどのような工夫をされているのか、といった知見をご紹介いただけるセッションです。大規模なトラフィックをさばかなければいけないお客様はぜひご参加ください。   【サイバーエージェント様ご登壇事例】「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み:5月31日(木) 12:00-12:40 多くのAWSアカウントを抱えた時に必ず直面するのが「どうやって問題が発生しないように管理するか」と「どうやって開発速度を落とさないように制約を減らすか」とのバランスです。本セッションでは数100のアカウントを持つサイバーエージェント様に自由とスピードを保ちつつ、セキュリティも高めるためのアプローチをご紹介いただきます。特に複数AWSアカウントを管理するエンジニアに聞いていただきたいセッションです。   2020 に向けて、スポーツイベントにおける AWS 活用事例:5月31日(木) 14:00-14:40 スポーツイベントとAWSはなぜ親和性が高いのかを、国内外の事例を交えてご紹介します。国内からはJスポーツ様からクラウド編集の事例を、Jリーグ様からメディアセンターの事例をご紹介いただきます。また、AWSソリューションアーキテクトからは海外事例としてNFL様やMLB様のAI/データ活用の事例、FOXスポーツ様のライブ配信事例、Amazon Prime VideoのNFLサースデイナイトフットボール配信事例についてご紹介します。   【朝日新聞社様ご登壇事例】機械学習を用いた編集業務の生産性向上への取り組み:5月31日(木) 16:00-16:40 創業139年の老舗新聞社が、機械学習という最先端の技術パラダイムを積極的に活用し、過去にとらわれない新たな新聞社のあり方に挑戦しています。SageMakerやEMRを利用することで実現したスケーラブルな機械学習/分析環境や、Lambda, API Gateway, DynamoDBを利用してスピーディにサービス化した事例をご紹介いただきます。ビジネス課題を技術課題に落とし込み、スピード感高く新たなサービスの開発サイクルを回している実例は、新聞業界のみならず、多くの企業にとって刺激になる内容だと思います。   AWS Media […]

Read More

Amazon SageMaker で fast.ai ノートブックを実行する

fast.ai はすべての人にディープラーニング能力へのアクセスを可能にすることを目的とした組織です。彼らは fast.ai と呼ばれる人気のあるオープンソースディープラーニングフレームワークを開発しました。このテクノロジーはコンピュータビジョン、自然言語処理、構造化データ、協調フィルタリングなどドメイン内のわずか数行のコードでユーザーが最新のモデルを作成することができる使いやすいディープラーニングライブラリ PyTorch に基づいています。  彼らはまた、機械学習の経験がない開発者向けに、数週間で最先端のディープラーニングモデルをデプロイするためのライブラリの使い方を学べる非常に人気のあるオンラインコースも開講しています。 Amazon SageMaker の主な利点の 1 つは、人気のある Jupyter オープンソースノートブック形式で完全に管理された機械学習ノートブック環境を 1 クリックで提供できることです。このブログ記事では、お使いの fast.ai ベースのディープラーニングモデルをトレーニングするために、fast.ai ライブラリと Jupyter ノートブックサンプルを Amazon SageMaker でホストされたノートブックにデプロイする方法を説明します。 これは fast.ai オンラインコース経由で実行している場合、またはカスタムアプリケーションで独自の fast.ai ベースのディープラーニングモデルをビルドし、トレーニングする場合に便利です。これから、SageMaker ノートブックインスタンスでカスタム fast.ai 環境の設定と構成を自動化するために必要なすべてのステップを説明します。 ステップ 1: Amazon SageMaker ノートブックライフサイクル設定を作成する Amazon SageMaker は、追加ライブラリをノートブックインスタンスに手動でインストールする機能を備えています。しかし、ノートブックインスタンスの終了後は、これらの追加されたカスタマイズも削除されます。つまり、ノートブックインスタンスを再起動時に、手動でこれらを再度追加する必要があります。しかし、最近リリースされた Amazon SageMaker のライフサイクル設定機能では、これらのカスタマイズを自動化することで、インスタンスのライフサイクルのさまざまな段階に適用することが可能になりました。 この例では、ノートブックインスタンスが起動されるたびに、ライフサイクル設定機能を使用して fast.ai ライブラリと関連する Anaconda 環境をインストールすることで、再起動のたびに繰り返しインストールする必要がなくなりました。 Amazon SageMaker コンソール (https://console.aws.amazon.com/sagemaker/) を開きます。 左側のナビゲーションウィンドウから [Notebook]、次に [Lifecycle configurations] […]

Read More

AWS IoT 1-Click – Lambda 関数のトリガーにシンプルなデバイスを使用する

AWS re:Invent 2017 にて AWS IoT 1-Click のプレビューを発表しました。その後、平易であること、完全な設定不要のエクスペリエンスであることに重点を置き、調整を重ねてきました。幅広い利用者に IoT を提供し、ご利用いただけるようにするために設計された AWS IoT 1-Click がついに一般公開のときを迎え、AWS と AT&T からリリースされた最新の IoT ボタンでご利用いただけるようになります。 ひと月かふた月ほど前、ブログ記事の準備をするためにこのサービスについて学ぼうと、開発チームをたずねました。このミーティングの間、彼らから一組の IoT ボタンを借りて、クリエイティブな使い方に思いを馳せました。思いついたアイデアをいくつかご紹介しましょう。 ヘルプリクエスト – 今月の初め、ロサンゼルスで HackTillDawn ハッカソンに参加し、とても和やかなウィークエンドを過ごしました。参加者は遠隔地からハッキングに参加していたため、AWS、機械学習、Amazon SageMaker、および AWS DeepLens などについて質問されることも時たまありました。AWS ソリューションアーキテクトが大勢近くにいたものの (目立つようにおしゃれで個性的な AWS のシャツで会場に華を添えていました)、各チームに IoT ボタンを使えるのではないかと考えました。ボタンを押すと、SMS を介して SA クルーに通知が行き、クルーが正しいテーブルに直行します。 カメラの制御 – Tim Bray と私は、AWS の動画スタジオでAWS Messaging に関する Tim のシリーズの 1 話目を撮影する準備をしていました。 Twitch ストリームを開始する数分前、ズームイン画面に切り替えるためにカメラマンに指示を送る明確で目立たない方法がないことに気付きました。ここでも、IoT ボタンが […]

Read More

OBS Studio から クラウド上の AWS Media Services への接続

全 5 回の Blog 連載のうちの 2 回目の連載である今回は、様々なエンコーダから AWS Media Services への接続および設定方法を学びます。AWS Media Services はカスタマーに対して、高いスケーラビリティを持つ over-the-top (OTT) ビデオ体験を提供することを可能にします。ライブチャンネルもしくはイベントを配信するには、カメラなどの機器からのビデオ信号をエンコードし、追加的な処理、パッケージング、配信のために、クラウドに送信します。 OBS STUDIO と AWS MEDIA SERVICESを利用したチャンネルの作成 こちらの例では、OBS(Open Broadcaster Software) Studio というソフトウェアと RTMP (Real-time Messaging Protocol) Pushを用いたストリームをセットアップし、クラウド上での動画処理およびパッケージングのための AWS Media Servicesの設定方法を、ステップ・バイ・ステップの手順でお見せします。 ワークフロー例のダウンロード こちらの例では、下記の方法を学びます。 RTMP push を使った伝送用エンコーダーとしての OBS Studio のセットアップ 伝送ストリームを AWS Elemental MediaLive で受けて、adaptive bitrate (ABR) のストリームにエンコードする設定方法 AWS Elemental MediaLive の出力を AWS […]

Read More

Amazon Sumerian – GAのお知らせ

当社は AWS re:Invent 2017 で Amazon Sumerian を発表しました。Tara のブログ記事 (Amazon Sumerian: VR、AR、3D 体験を作成する簡単な方法の紹介) にあるように、Sumerian は特別なプログラミングや 3D グラフィックスの専門知識を必要としません。モバイルデバイス、ヘッドマウントディスプレイ、デジタルサイネージ、ウェブブラウザなど幅広い一般的なハードウェアプラットフォームで、VR、AR、3D 体験を構築できます。 Sumerian が一般提供されたことをお知らせします。3D モデリング、アニメーション、照明、オーディオ編集、プログラミングのための特別なツールを購入または習得することなく、リアルな仮想環境とシーンを作成できます。ビルド後はカスタムコードを記述したり、特殊なデプロイシステムやプロセスを処理することなく、完成した作品を複数のプラットフォームにデプロイできます。 Sumerian はウェブベースのエディタを提供し、これを使用してリアルでプロフェッショナル品質のシーンをすばやく簡単に作成できます。オブジェクトやキャラクター (Sumerian Hosts) がユーザー操作に反応する方法を制御するロジックを構築するためのビジュアルスクリプティングツールがあります。Sumerian は、Amazon Lex、Polly、AWS Lambda、AWS IoT、Amazon DynamoDB などの AWS によるリッチで自然な対話を作成することもできます。 Sumerian は複数のプラットフォームで動作するように設計されています。Sumerian で作成した VR や AR アプリケーションは、WebGL や WebVR をサポートするブラウザおよび Oculus Rift、HTC Vive、iOS または Android 搭載の一般的なデバイスで動作します。 プレビュー期間中、当社は幅広い顧客に Sumerian のテストに参加してもらい、従業員教育、トレーニングシミュレーション、現場サービス生産性、仮想コンシェルジュ、設計と制作、ブランドエンゲージメントなど多様なユースケースをハイライトするように設計された PoC (概念実証) […]

Read More

[AWS Black Belt Online Seminar] 発注者のための AWS ネットワーク入門 資料及び QA 公開

こんにちは、マーケティングの鬼形です。 先日 (2018/5/15) 開催しました AWS Black Belt Online Seminar「発注者のための AWS ネットワーク入門」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180515 AWS Black Belt Online Seminar 発注者のためのネットワーク入門 from Amazon Web Services Japan PDF Q1. 最近サポートされたセカンダリ CIDR ブロックによる VPC 拡張の注意点について教えてください。 A. VPC 拡張をすると、拡張をしたアドレスブロックが BGP で VPN や Direct connect でアナウンスされるので経路数1でルータにフィルタリングをしていると、追加した経路がフィルタされたり、BGP の経路が落ちたりする可能性があります。また、下記のようにアドレスの制限があるものの、アドレス重複をする事故を起こす可能性がありますので、追加するアドレスが使われていないかよくご確認をお願いします。IPv4 CIDR ブロック関連付けの制限をご参照ください。 Q2. ネットワークの負荷・応答に関する勘所について教えてください。AZ 選定や VPC 設計に影響されますか。 A. AZ 選定や VPC 設計には影響しません。どちらかというと […]

Read More

トランザクションレプリケーションを使用して、Amazon RDS for SQL Server に移行する方法

ご使用のデータベースを Amazon RDS for Microsoft SQL Server へ移行するには複数の方法があります。通常、データベースのシンプルなバックアップと復元を実行するのが一般的です (logins などのシステムオブジェクトのスクリプトを書くとともに)。可用性をさらに高める、またはダウンタイムを短縮するオプションが必要であれば、AWS Database Migration Service (AWS DMS) を利用できます。このブログ記事では、ご使用のデータベースを RDS for SQL Server へ移行するために、3 番目のメカニズムである、トランザクションレプリケーションを使用する方法について解説します。このアプローチを使用すると、提供されているサービスを使用する必要なく、既存のインフラストラクチャを活用して Amazon RDS for SQL Server へデータを移動できます。 RDS for SQL Server は SQL Server のレプリケーションをサポートしていません。これは主に、RDS for SQL Server インスタンス上でホストされているとき、SQL Server Agent のレプリケーションサブシステムが実行されていないためです。しかし、オンプレミスまたは Amazon EC2 (SQL Server のホストインスタンス) 上のいずれかで SQL Server Agent が実行されているところでは、プッシュサブスクリプションはサポートされています。RDS for SQL […]

Read More

Amazon RDS for PostgreSQL バージョン: 9.3.x リタイアメントのお知らせ

本投稿は、こちらのフォーラムでご案内されたアナウンスメントの参考和訳です。 本アナウンスメントは、Amazon RDS が RDS for PostgreSQL のバージョン9.3のサポートを2018年9月5日をもって終了することをお知らせするものです。 Amazon RDSは2013年からPostgreSQLメジャーバージョン9.3をサポートしています。本リリースの後、機能、セキュリティ、信頼性、パフォーマンスの観点で大幅な改善がなされたメジャーバージョンが続々とリリースされています。PostgreSQLコミュニティは、PostgreSQL 9.3のリリース終了時期を2018年9月と発表しています。コミュニティサポートモデルに合わせて、AWSは9.3.10, 9.3.12, 9.3.14, 9.3.16, 9.3.17, 9.3.19, 9.3.20, 9.3.22 のマイナーバージョンを含めて、メジャーバージョン9.3のサポートを終了いたします。Amazon RDS では引き続き、バージョン9.4 以降の PostgreSQLデータベースをサポートいたします。 できるだけ早いタイミングで、Amazon RDS PostgreSQL データベースインスタンスをバージョン9.6, もしくは、バージョン10 にアップグレードすることを推奨します。その際、RDS のメジャーバージョンアップグレードの機能をご利用いただき、次のバージョンにアップグレードできます。アップグレードを開始するには、AWS マネジメントコンソールにて、「Modify DB Instance(DB インスタンスの変更)」ページに移動し、データベースのバージョンをPostgreSQLの新しいメジャーバージョンに変更します。 [Apply Immediately(すぐに適用)]オプションを選択すると、「Modify DB Instance(DBインスタンスの変更)」ページを終了した直後にアップグレードが開始されます。変更をすぐに適用しない場合は、その後のメンテナンスウィンドウ中にアップグレードが実行されます。 RDS for PostgreSQL のメジャーバージョンのアップグレードの詳細については、PostgreSQL DB エンジンのアップグレードを参照してください。 Amazon RDS PostgreSQL 9.3 のリタイアメントプランの一環として、2018年8月6日 以降、AWSコンソールを使用して新たな PostgreSQL 9.3 インスタンスを作成することが出来なくなります。2018年11月には、残されている 9.3 インスタンスに対する、PostgreSQL […]

Read More