Amazon Web Services ブログ

AWS Step FunctionsとAWS Lambdaを使って複数のETLジョブの統合を行う

抽出、変換、ロード(Extract, Transform, Load, ETL)操作は、現在のエンタープライズデータレイクのバックボーンにひとまとまりとして形成されています。rawデータを役に立つデータセットへ変換し、最終的には、洞察可能な状態に変換します。ETLジョブは通常1つまたは1つ以上のデータソースからデートを読み、様々な種類の変換を適用し、結果を利用準備できているターゲットに書き込みます。ETLジョブのソースとターゲットはリレーショナルデータベースであるAmazon RDS(Amazon Relational Database) もしくはオンプレミス、データウェアハウスとしてAmazon Redshift 、オブジェクトストレージとしてAmazon Simple Storage Service(Amazon S3) のバケットなどがあります。Amazon S3は、AWSでデータレイクを構築するという状況において特に一般的です。 AWSは、ETLジョブの作成とデプロイを支援するAWS Glueを提供しています。AWS Glueは抽出・変換・ロードを行うフルマネージドなサービスであり、お客様が簡単に自分のデータとして準備、ロードできるものとなります。他のAWSサービスでもETLジョブを実装、デプロイすることも可能です。 AWS Database Migration Service(AWS DMS)、Amazon EMR(ステップAPIの利用)、さらにAmazon Athenaも含まれます。   ETLジョブワークフロー統合へのチャレンジ 多様なETLテクノロジーを含むETLワークフローをどのように統合できるでしょうか? AWS Glue、AWS DMS、Amazon EMRなどのサービスは、Amazon CloudWatch Eventsをサポートしており、ETLジョブを連動させることができます。 Amazon S3は、中心に置かれたデータレークストアでもあり、CloudWatch Eventsをサポートしています。しかし、CloudWatchイベントのみに依存するということは、ETLワークフローの視覚的表現が1つもないことを意味します。また、全体的なETLワークフローの実行ステータスを追跡し、エラー・シナリオを処理することは困難になります。 本ブログでは、AWS Step FunctionsとAWS Lambdaを使用して、任意の複雑なETLワークフローでさまざまなテクノロジを含む複数のETLジョブを編成する方法を説明します。

Read More

Amazon RDS for MySQL および MariaDB に MariaDB MaxScale を使用して Binlog Server を設定する方法

Amazon RDS for MySQL と Amazon RDS for MariaDB の主要機能の 1 つが リードレプリカ を作成する機能です。AWS マネジメントコンソールまたは AWS CLI を使用して、1 つのマスターデータベースインスタンスについて、最大 5 つのレプリカを簡単に作成できます。Amazon RDS は、マスターのバックアップを作成し、バックアップをレプリカとしてリストアし、マスターとレプリカへのレプリケーションチャネルを確立する、といった作業すべてを処理します。Amazon RDS のレプリケーションを完全に自動化した処理は、マネージドレプリケーションと呼ばれます。 非標準のレプリケーショントポロジを求めている場合は、Binlog Server を使用できます。たとえば、レプリカが 5 つ以上必要な場合や、下流のアプリケーションにレプリケーションログレコードを転送する場合です。Binlog Server はレプリカとは違い、マスターのログレコードを使用せず、マスターと 1 つ以上のサブスクライバーの間にキャッシングレイヤーを提供します。今回の記事では、このアプローチを使用した場合の利点 (といくつかの制限) について説明します。MariaDB MaxScale と ノンマネージドレプリケーション を使用して、Amazon RDS for MySQL および MariaDB に Binglog Server をセットアップする作業を紹介します。 Amazon RDS for MySQL および MariaDB […]

Read More

AWS DeepLens の出荷開始 – ご注文をどうぞ!

AWS DeepLens は外出先でデバイスに直接深層学習モデルを実行できるビデオカメラです。昨年、こちらの記事でそのハードウェアとシステムソフトウェアについて詳しく解説しましたが、簡単にまとめた内容がこちらです。 ハードウェア – 400 万画素のカメラ (1080P ビデオ)、2D マイクアレイ、Intel Atom® プロセッサ、デュアルバンド Wi-Fi、USB およびマイクロ HDMI ポート、モデルおよびコード用のメモリ 8 GB。 ソフトウェア – Ubuntu 16.04、AWS Greengrass Core、MXNet と Intel® clDNN ライブラリのデバイス最適化バージョン、他の深層学習フレームワークのサポート。 この AWS re:Invent への反響はすぐにあり、喜びもひとしおでした!教育関係者、学生、開発者などがハンズオンセッションに登録し、すぐにモデルの構築やトレーニングを始めました。彼らの情熱はプレビュー期間、そして今年の AWS Summit シーズンに入ってからも冷めることはなく、デバイス、ツール、トレーニングなどを利用できるよう、関心をお持ちの皆さんのためにできる限りのことをしてきました。 ハッカソンとチャレンジ 先月開催された HackTillDawn にて参加者の皆さんに DeepLens デバイスを試してもらいました。私は、この栄えあるイベントに参加し、3 名の勝者の選出に加わるという大変な幸運に恵まれました。チームの皆さんの様子を垣間見るという体験はとても刺激的でした。とりわけ、ほとんど機械学習やコンピュータビジョンに造詣のない人々がそれらに挑戦し、関心を持っていく様子や、大規模な音楽フェスティバルで参加者に素晴らしい体験を提供するために設計された最新アプリケーションなどが目を引きました。3 名の勝者は EDC ベガスの大会に参加し、そこでグランプリの優勝者が選出されました (Find Your Totem)。チームの皆さんおめでとうございます。EDC オーランドでも楽しんでくださいね! また、AWS DeepLens Challenge も開催しました。このイベントでは参加者に DeepLens を活用した機械学習プロジェクトを構築してもらいました。Amazon […]

Read More

VidMob がデータ主導型のクリエイティブアセット作成向けにコンピュータビジョンと言語 AI サービスを統合

VidMob はソーシャルビデオ制作プラットフォームで、どのようなサイズのマーケターもスケール可能なパーソナライズされた広告コミュニケーションの開発にこれを使用できます。VidMob は独自の SaaS アプリケーションを使用するために、機械学習 (ML) を活用します。このアプリケーションはメタデータ抽出とセンチメント分析を使用して、マーケターの想定する客層に共鳴するクリエイティブアセット、さらに重要なことに、それらが共鳴する理由について、役立つ正しい情報をマーケターに提供します。たとえば、ドロップオフ率といったデータを見直すことで、ビデオ広告でテキストの表示およびタイミングがどのように視聴者のエンゲージメントに影響を及ぼすかを知ることができます。 VidMob はマーケターがデジタル広告作品を用いブランドおよび販売面の営業活動を行う際の彼らの課題に着目しました。マーケターは相応しいクリエイティブな正しい情報なしに、クリエイティブ分野における意思決定を強いられることが多々あります。ビデオマーケターは有効なベストプラクティスが供給されることもなく、あるキャンペーンは成功したのに、他のキャンペーンは成功しなかったなど、まさに暗がりに手探り状態を強いられることがよくあります。この状況から、VidMob より Agile Creative Suite (ACS) が誕生しました。この製品は深層学習ベースのビデオ分析サービスである Amazon Rekognition Video を活用します。ACS は自動メタデータ抽出、センチメント分析に Amazon Rekognition Video を使用します。これにより、ビデオ広告の視覚的側面が視聴者維持など、重大なメトリクスに影響するかを理解するのに必要な正しい情報を提供します。 これらの正しい情報は製品プラットフォームとシームレスにつながり、お客様がクリエイティブアセットを見直すときに、直ちに正しい情報を統合できるようにします。本番環境、データ主導の正しい情報、最適化、再公開という完全な流れを作り出すことで、ACS はマーケティングへの投資に対するブランドの全体的なリターンを大幅に改善できます。ACS はまた、Amazon Rekognition Video を使用することで、顧客が主要なビジュアルまたは言語属性別にそのアセットを整備し、検索を実行できるようにします。 VidMob は ACS の開発中、主要な機能を実現するために、深層学習とコンピュータビジョンの必要性に気付きました。その後の調査により様々なサービスが誕生しましたが、競合他社と比較した際、最終的に Amazon Rekognition Video によって提供される速度と精度が抜きん出ているという認識にたどり着きました。 「Amazon Rekognition のおかげで、より正確かつ有益なクリエイティブラーニングをすばやく効率的に提供できるツールを入手することができました」 VidMob 社 CEO、Alex Collmer 氏はこのように述べています。「AWS の深層学習機能は、Agile Creative Suite の強化に役立ちます。この製品は最終的に、マーケターがクリエイティブアセットを理解し、それらを改善するために必要な正しい情報を提供します。独創性を支えるために、最もイノベーティブなツールを今後も引き続き開発できるよう、AWS と連携できることを楽しみにしています」。 機能: VidMob and Amazon […]

Read More

【開催報告】AWS Data Lake ハンズオンセミナー (+個別案件相談会)

こんにちは。AWS ソリューションアーキテクトの八木達也 (@ygtxxxx) です。 6月14日に、「AWS Data Lake ハンズオンセミナー (+個別案件相談会)」を開催いたしました。前回行ったワークショップの二回目となります。前回も盛況でしたが、今回も60名を超すお客様にご参加頂きました。 はじめに、AWSにおけるデータ活用のベストプラクティスであるAmazon S3を中心とした Data Lakeについて解説し、ビッグデータ分析基盤の考え方として有名なラムダアーキテクチャの解説を行いました。 当イベントでは、AWSサービスを駆使して実際にラムダアーキテクチャを構築してみる、というのがゴールです。とはいえすべてを構築し切るのはボリュームが大きいため、今回から、コース別に取り組めるようにハンズオンコンテンツを用意しました。最初にコースの説明を行い、出席いただいたお客様ご自身の課題に合わせてコースを選択頂き、ハンズオンを行っていただきました。 アンケートでは以下のようなお声を頂き、満足頂けた方が多かったように思えます。 ・お客様の声 「非常にわかりやすいテーマと資料でした。すぐ実践できそうな内容で満足でした。」 「個々のサービスのサンプルは御社サイトから読めますが、今回のように組み合わせた具体的なサンプル提示は大変助かります。」 「わかりやすいハンズオンでした。実践的に提案する場合でも利用できる内容なので、提案時に勧めたいです。」 また、ハンズオン後にはソリューションアーキテクトによる個別案件相談会(事前登録制)も実施致しました。相談者の方々には具体的なソリューションを持ち帰って頂くことができたと思います。 次回は秋ごろに開催予定です。ご参加お待ちしております。

Read More

Amazon SageMaker 自動モデルチューニング: 機械学習のために機械学習を使用する

今日は、Amazon SageMaker 自動モデルチューニングの一般向けリリースを発表します。自動モデルチューニングは、より正確なモデルのために、ハイパーパラメータースペースを検索するのに必要になる画一的な負荷を一掃します。開発者とデータ科学者はこの機能により、自身の機械学習モデルをトレーニングおよびチューニングするための膨大な時間と手間を省くことができます。ハイパーパラメーターチューニングジョブは、完了したトレーニングジョブの結果をもとに、様々なハイパーパラメーターの組み合わせで複数のトレーニングジョブを起動します。SageMaker はベイズ最適化に基づき、私たちのトレーニングジョブのハイパーパラメーターコンビネーションを推測するため、「メタ」機械学習モデルをトレーニングします。もう少し、掘り下げていきましょう。 機械学習プロセスにおけるモデルチューニング 開発者の典型的な機械学習プロセスには、探索的データ解析 (EDA)、モデル設計、モデルトレーニング、モデル評価の 4 つのステップがあります。SageMaker ではパワフルな Jupyter ノートブックインスタンス、内蔵型アルゴリズム、サービスを使用したモデルトレーニングなどを採用することで、すでにこれら各ステップの合理化が図られています。このプロセスのトレーニングの面に注目することで、私たちは通常、データを処理し、想定した結果に照らしてモデルの予測を評価したモデルへ、そのデータを移植します。私たちは全体的な入力データの一部、評価データを、モデルのトレーニングに使用したトレーニングデータとは離しておきます。そしてこの評価データを使用して、それまで見たことのないデータでモデルの動作を検証するのです。多くのケースではアルゴリズムを選択した、あと、またはカスタムモデルを構築したあとに、入力したデータに対する最高の結果を得るために、そのアルゴリズムのハイパーパラメーターで、最も可能性のあるスペースを検索するために必要になります。 ハイパーパラメーターは基礎となるアルゴリズムの操作とモデルのパフォーマンスに及ぶ影響を管理します。たとえば、トレーニングするエポックの数、ネットワークレイヤーの数、学習率、最適化アルゴリズム、その他などです。通常、ランダムな値、または他の問題と共通の値で開始し、変更の結果が見え始めるまで、調整を繰り返します。かつて、この作業は骨の折れる手作業でした。しかし、才能溢れる研究者たちの地道な努力のおかげで、SageMaker を使用してこうした手作業による手間をほとんどすべて排除できるようになりました。ユーザーに必要なのは、チューニングするハイパーパラメーター、探索するパラメーターの範囲、予算に応じたトレーニングジョブの合計数です。実際の動作を見てみましょう。 ハイパーパラメーターのチューニング この機能のデモをご覧に入れるため、作業には標準の MNIST データセット、Apache MXNet フレームワーク、SageMaker Python SDK を使用します。下記で選択するもののすべては SageMaker example notebooks で入手できます。 まず、ノートブックインスタンス上で SageMaker Python SDK を使用し、従来の MXNet エスティメーターを作ります。 import boto3 import sagemaker from sagemaker.mxnet import MXNet role = sagemaker.get_execution_role() region = boto3.Session().region_name train_data_location = ‘s3://sagemaker-sample-data-{}/mxnet/mnist/train’.format(region) test_data_location = ‘s3://sagemaker-sample-data-{}/mxnet/mnist/test’.format(region) estimator […]

Read More

Amazon SageMaker を使用して、人口区分のために米国の国勢調査データを分析する

米国では 2018 年の中間選挙に向けて、人々は投票プロセスについてより多くの情報を求めています。このブログ記事では、有権者を理解するタスクに科学を有効に統合するために、機械学習 (ML) を適用する方法を探っています。 通常、機械学習アプリケーションでは、ラベルの付いたデータから明確なユースケースが得られます。例えば、古さや型番などデバイスの属性に基づいて、障害の可能性を予測できます。特定の結果を予測する際に監督またはガイドがあるため、これは教師あり学習と呼ばれます。 しかし、現実世界では、きれいなラベルを定義するのが難しい場合、予測する特定の結果が存在しない大規模なデータセットがしばしば存在します。適切な結果が予測するものを、正確に特定することは困難です。この種類のユースケースはしばしば探索的です。これはデータセットの作成と、どのような自然パターンが存在するかを理解することが目的です。この種類のユースケースは、教師なし学習です。この一例は、属性セットに基づいて類似の個人をグループ化する試みです。 このブログ記事で紹介するユースケースは、人口区分です。私たちは次のサイトから一般公開されている、米国の国勢調査から得られた米国の郡ごと匿名化された人口統計データを入手できます。https://factfinder.census.gov/faces/nav/jsf/pages/index.xhtml(この製品は Census Bureau Data API を使用していますが、国勢調査局による保証または認定は行われていません)。この分析結果は、変換された特徴空間における類似した郡の自然なグループ化です。例えば、ある集団に共鳴するメッセージをハイライトすることで、類似する郡のグループに到達する方法を理解するなど、郡が所属するクラスターを活用して選挙運動を計画することが可能です。より一般的には、この技術は企業が対象を定めたマーケティングキャンペーンを作成するために、顧客やユーザー区分に対して適用できます。この種類の分析には、CA-Fresno 郡と AZ-Yuma 郡という同じグループにされた、表向きは分からない類似点を明らかにする能力があります。直感的には人口サイズや人種構成など一般的に調べられる属性が異なりますが、雇用タイプの組み合わせなど、軸に沿って調べたときには類似しています。 ブログ記事に従って、サンプルノートブックを使用してコードを実行し、データをやり取りすることができます。 この演習には 2 つの目標があります。 1) PCA と Kmeans モデリング技術を使用して教師なし学習のための Amazon SageMaker を使用したデータ科学ワークフローを説明する。 2) 有用なモデル属性を抽出するために、Amazon SageMaker 内に構築された基礎モデルにユーザーがどのようにアクセスできるかを説明する。教師なし学習から結論を引き出すことが難しい場合が往々にしてあり、PCA と Kmeans のモデルにアクセスできることが単にモデルを使用して予測を生成する以上に重要になります。 データ科学ワークフローには 4 つのメインステップがあります。 Amazon S3 からのデータの読み込み 探索的データ分析 (EDA) – データのクリーニングと探索 データのクリーニング データの可視化 特徴エンジニアリング データモデリング 次元縮退 PCA モデル属性へのアクセス PCA モデルのデプロイ 教師なしクラスタリングを使用した人口区分 […]

Read More

Performance Insights を使用した Amazon RDS データベースの負荷分析

AWSは Amazon Aurora with PostgreSQL compatibility の一般リリースを先日発表しました。このリリースには Performance Insights と呼ばれる Amazon Relational Database Service (Amazon RDS) に有用な機能の最初のリリースも含まれます。データベースの負荷(どのSQL文が負荷を発生させており、それはなぜなのか)を可視化するダッシュボードを使用して、エキスパートな方とエキスパートではない方の両方が、Performance Insights でパフォーマンス問題を容易に検出できます。

Read More

Amazon RDS for PostgreSQLにおける自動バキュームのケーススタディ

PostgreSQLデータベースにおいて、自動バキューム処理(autovacuum)は複数の重要なメンテナンス操作を実行します。周回を防止するためにトランザクションIDをフリーズすることに加えて、デッドタプルを削除し空きスペースを回復させます。書き込み回数の多いデータベースの場合は、自動バキュームを頻繁に実行するようにチューニングすることをお勧めします。そうすることで、テーブルやインデックスを膨らませるデッドタプルの蓄積を避けることができます。

この記事では、デッドタプルが蓄積される状況でどのように自動バキューム処理を監視し、チューニングするかを実際に示すために、ケーススタディを用いてご説明します。

Read More

[AWS Black Belt Online Seminar] AWS で実現するライブ動画配信とリアルタイムチャットのアーキテクチャパターン 資料及び QA 公開

先日 (2018/6/12) 開催しました AWS Black Belt Online Seminar「AWS で実現するライブ動画配信とリアルタイムチャットのアーキテクチャパターン」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。

Read More