Amazon Web Services ブログ

【開催報告】AWS Data Lake ハンズオンセミナー (+個別案件相談会)

こんにちは。AWS ソリューションアーキテクトの八木達也 (@ygtxxxx) です。 6月14日に、「AWS Data Lake ハンズオンセミナー (+個別案件相談会)」を開催いたしました。前回行ったワークショップの二回目となります。前回も盛況でしたが、今回も60名を超すお客様にご参加頂きました。 はじめに、AWSにおけるデータ活用のベストプラクティスであるAmazon S3を中心とした Data Lakeについて解説し、ビッグデータ分析基盤の考え方として有名なラムダアーキテクチャの解説を行いました。 当イベントでは、AWSサービスを駆使して実際にラムダアーキテクチャを構築してみる、というのがゴールです。とはいえすべてを構築し切るのはボリュームが大きいため、今回から、コース別に取り組めるようにハンズオンコンテンツを用意しました。最初にコースの説明を行い、出席いただいたお客様ご自身の課題に合わせてコースを選択頂き、ハンズオンを行っていただきました。 アンケートでは以下のようなお声を頂き、満足頂けた方が多かったように思えます。 ・お客様の声 「非常にわかりやすいテーマと資料でした。すぐ実践できそうな内容で満足でした。」 「個々のサービスのサンプルは御社サイトから読めますが、今回のように組み合わせた具体的なサンプル提示は大変助かります。」 「わかりやすいハンズオンでした。実践的に提案する場合でも利用できる内容なので、提案時に勧めたいです。」 また、ハンズオン後にはソリューションアーキテクトによる個別案件相談会(事前登録制)も実施致しました。相談者の方々には具体的なソリューションを持ち帰って頂くことができたと思います。 次回は秋ごろに開催予定です。ご参加お待ちしております。

Read More

Amazon SageMaker 自動モデルチューニング: 機械学習のために機械学習を使用する

今日は、Amazon SageMaker 自動モデルチューニングの一般向けリリースを発表します。自動モデルチューニングは、より正確なモデルのために、ハイパーパラメータースペースを検索するのに必要になる画一的な負荷を一掃します。開発者とデータ科学者はこの機能により、自身の機械学習モデルをトレーニングおよびチューニングするための膨大な時間と手間を省くことができます。ハイパーパラメーターチューニングジョブは、完了したトレーニングジョブの結果をもとに、様々なハイパーパラメーターの組み合わせで複数のトレーニングジョブを起動します。SageMaker はベイズ最適化に基づき、私たちのトレーニングジョブのハイパーパラメーターコンビネーションを推測するため、「メタ」機械学習モデルをトレーニングします。もう少し、掘り下げていきましょう。 機械学習プロセスにおけるモデルチューニング 開発者の典型的な機械学習プロセスには、探索的データ解析 (EDA)、モデル設計、モデルトレーニング、モデル評価の 4 つのステップがあります。SageMaker ではパワフルな Jupyter ノートブックインスタンス、内蔵型アルゴリズム、サービスを使用したモデルトレーニングなどを採用することで、すでにこれら各ステップの合理化が図られています。このプロセスのトレーニングの面に注目することで、私たちは通常、データを処理し、想定した結果に照らしてモデルの予測を評価したモデルへ、そのデータを移植します。私たちは全体的な入力データの一部、評価データを、モデルのトレーニングに使用したトレーニングデータとは離しておきます。そしてこの評価データを使用して、それまで見たことのないデータでモデルの動作を検証するのです。多くのケースではアルゴリズムを選択した、あと、またはカスタムモデルを構築したあとに、入力したデータに対する最高の結果を得るために、そのアルゴリズムのハイパーパラメーターで、最も可能性のあるスペースを検索するために必要になります。 ハイパーパラメーターは基礎となるアルゴリズムの操作とモデルのパフォーマンスに及ぶ影響を管理します。たとえば、トレーニングするエポックの数、ネットワークレイヤーの数、学習率、最適化アルゴリズム、その他などです。通常、ランダムな値、または他の問題と共通の値で開始し、変更の結果が見え始めるまで、調整を繰り返します。かつて、この作業は骨の折れる手作業でした。しかし、才能溢れる研究者たちの地道な努力のおかげで、SageMaker を使用してこうした手作業による手間をほとんどすべて排除できるようになりました。ユーザーに必要なのは、チューニングするハイパーパラメーター、探索するパラメーターの範囲、予算に応じたトレーニングジョブの合計数です。実際の動作を見てみましょう。 ハイパーパラメーターのチューニング この機能のデモをご覧に入れるため、作業には標準の MNIST データセット、Apache MXNet フレームワーク、SageMaker Python SDK を使用します。下記で選択するもののすべては SageMaker example notebooks で入手できます。 まず、ノートブックインスタンス上で SageMaker Python SDK を使用し、従来の MXNet エスティメーターを作ります。 import boto3 import sagemaker from sagemaker.mxnet import MXNet role = sagemaker.get_execution_role() region = boto3.Session().region_name train_data_location = ‘s3://sagemaker-sample-data-{}/mxnet/mnist/train’.format(region) test_data_location = ‘s3://sagemaker-sample-data-{}/mxnet/mnist/test’.format(region) estimator […]

Read More

Amazon SageMaker を使用して、人口区分のために米国の国勢調査データを分析する

米国では 2018 年の中間選挙に向けて、人々は投票プロセスについてより多くの情報を求めています。このブログ記事では、有権者を理解するタスクに科学を有効に統合するために、機械学習 (ML) を適用する方法を探っています。 通常、機械学習アプリケーションでは、ラベルの付いたデータから明確なユースケースが得られます。例えば、古さや型番などデバイスの属性に基づいて、障害の可能性を予測できます。特定の結果を予測する際に監督またはガイドがあるため、これは教師あり学習と呼ばれます。 しかし、現実世界では、きれいなラベルを定義するのが難しい場合、予測する特定の結果が存在しない大規模なデータセットがしばしば存在します。適切な結果が予測するものを、正確に特定することは困難です。この種類のユースケースはしばしば探索的です。これはデータセットの作成と、どのような自然パターンが存在するかを理解することが目的です。この種類のユースケースは、教師なし学習です。この一例は、属性セットに基づいて類似の個人をグループ化する試みです。 このブログ記事で紹介するユースケースは、人口区分です。私たちは次のサイトから一般公開されている、米国の国勢調査から得られた米国の郡ごと匿名化された人口統計データを入手できます。https://factfinder.census.gov/faces/nav/jsf/pages/index.xhtml(この製品は Census Bureau Data API を使用していますが、国勢調査局による保証または認定は行われていません)。この分析結果は、変換された特徴空間における類似した郡の自然なグループ化です。例えば、ある集団に共鳴するメッセージをハイライトすることで、類似する郡のグループに到達する方法を理解するなど、郡が所属するクラスターを活用して選挙運動を計画することが可能です。より一般的には、この技術は企業が対象を定めたマーケティングキャンペーンを作成するために、顧客やユーザー区分に対して適用できます。この種類の分析には、CA-Fresno 郡と AZ-Yuma 郡という同じグループにされた、表向きは分からない類似点を明らかにする能力があります。直感的には人口サイズや人種構成など一般的に調べられる属性が異なりますが、雇用タイプの組み合わせなど、軸に沿って調べたときには類似しています。 ブログ記事に従って、サンプルノートブックを使用してコードを実行し、データをやり取りすることができます。 この演習には 2 つの目標があります。 1) PCA と Kmeans モデリング技術を使用して教師なし学習のための Amazon SageMaker を使用したデータ科学ワークフローを説明する。 2) 有用なモデル属性を抽出するために、Amazon SageMaker 内に構築された基礎モデルにユーザーがどのようにアクセスできるかを説明する。教師なし学習から結論を引き出すことが難しい場合が往々にしてあり、PCA と Kmeans のモデルにアクセスできることが単にモデルを使用して予測を生成する以上に重要になります。 データ科学ワークフローには 4 つのメインステップがあります。 Amazon S3 からのデータの読み込み 探索的データ分析 (EDA) – データのクリーニングと探索 データのクリーニング データの可視化 特徴エンジニアリング データモデリング 次元縮退 PCA モデル属性へのアクセス PCA モデルのデプロイ 教師なしクラスタリングを使用した人口区分 […]

Read More

Performance Insights を使用した Amazon RDS データベースの負荷分析

AWSは Amazon Aurora with PostgreSQL compatibility の一般リリースを先日発表しました。このリリースには Performance Insights と呼ばれる Amazon Relational Database Service (Amazon RDS) に有用な機能の最初のリリースも含まれます。データベースの負荷(どのSQL文が負荷を発生させており、それはなぜなのか)を可視化するダッシュボードを使用して、エキスパートな方とエキスパートではない方の両方が、Performance Insights でパフォーマンス問題を容易に検出できます。

Read More

Amazon RDS for PostgreSQLにおける自動バキュームのケーススタディ

PostgreSQLデータベースにおいて、自動バキューム処理(autovacuum)は複数の重要なメンテナンス操作を実行します。周回を防止するためにトランザクションIDをフリーズすることに加えて、デッドタプルを削除し空きスペースを回復させます。書き込み回数の多いデータベースの場合は、自動バキュームを頻繁に実行するようにチューニングすることをお勧めします。そうすることで、テーブルやインデックスを膨らませるデッドタプルの蓄積を避けることができます。

この記事では、デッドタプルが蓄積される状況でどのように自動バキューム処理を監視し、チューニングするかを実際に示すために、ケーススタディを用いてご説明します。

Read More

[AWS Black Belt Online Seminar] AWS で実現するライブ動画配信とリアルタイムチャットのアーキテクチャパターン 資料及び QA 公開

先日 (2018/6/12) 開催しました AWS Black Belt Online Seminar「AWS で実現するライブ動画配信とリアルタイムチャットのアーキテクチャパターン」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。

Read More

AWS 内部ユースケース : AWS マーケティングにおける Amazon SageMaker の評価と採用

こんにちは。AWS マーケティングデータサイエンスチームです。 高度な分析および機械学習 (ML) 技術を使用して、セールスリードのML 主導スコアリング、ML によるセグメントをターゲティング化、およびダウンストリームへのインパクト測定の計量モデルといった、AWS のお客様のライフサイクル全体にわたるビジネス上の問題解決に向けて、お客様とともに取り組みます。 アマゾン内では、各チームが独立して運営されており、独自のテクノロジースタックの選択方法や、お客様が利用する AWS サービスの採用方法に関して意思決定を行います。 これにより、各チームは各自のロードマップを管理できます。 結果、サービス評価と採用が類似したものとなって、ML の経験がまだこれからというお客様にお役に立てることでしょう。 このブログでは、Amazon SageMaker サービスの評価に関して、初めの一歩を踏み出す情報をお届けしますので、皆さまのお役に立てれば何よりです。 AWS サービスをどう利用して、ビジネス目標を達成し ML モデルを拡張するか、といった最新情報をお届けしていきます。 このブログ記事では、Amazon SageMaker を使用して、独自の ML トレーニングおよびホスティングインフラストラクチャを置き換えるための実証支援 (POC) をどう実施するか、当社の経験をシェアしたいと思います 。 当社の既存の ML インフラストラクチャは、データ処理パイプラインを管理する Amazon の内部ワークフローツールと、モデルの構築、トレーニング、およびホストのための Amazon EC2 インスタンスで構成されています。 こうしたインフラストラクチャ管理に多大な時間を費やしており、それが Amazon SageMaker サービスをより高めていく動機となりました。 POC は、Amazon SageMaker の機能と性能を調べ、インフラストラクチャの作業と運用の複雑さを最小限に抑えます。 鍵となるワークストリームは次の 3 つです。 AWS IT セキュリティチームと協力して、データセキュリティとコントロールを特定し、実装。 Amazon SageMaker の既存のMLモデルの 1 […]

Read More

Amazon DynamoDB グローバルテーブルを使用して、高速かつグローバルで利用可能なユーザープロファイリングシステムを作成する方法

ユーザープロファイリングシステムとは、ユーザーの名前、ID、連絡先情報、過去の行動、関心事項、その他の情報を保存するシステムです。こうしたシステムはまた、ユーザー情報を照会する方法も提供します。この記事では、グローバル化されたユーザープロファイリングシステムの重要性、Amazon DynamoDB グローバルテーブルを使用してこのシステムを作成する方法、機械学習でこのシステムを使用する方法について説明します。 概要 ウェブサイト、モバイルアプリケーション、ゲームは、グローバルなユーザーベースを持つことができます。たとえば、最近のトップトレンドゲームである PlayerUnknown の Battlegrounds を考えてみましょう。そのユーザーベースは、以下のような地理的な内訳です。 米国から 24% 中国から 19% ドイツから 6% このゲームや同様の他のゲームでは、レイテンシーが少なくグローバルに利用可能なユーザープロファイリングシステムが、世界中のユーザーに優れたエクスペリエンスを提供するのに役立ちます。 DynamoDB グローバルテーブルは、複数の AWS リージョンで DynamoDB テーブルを複製することにより、データへの高速なグローバルアクセスを可能にします。DynamoDB グローバルテーブルを使用すると、迅速で一貫性のあるグローバルなユーザープロファイリングシステムを構築できます。この記事で説明しているユーザープロファイリングシステムは、グローバルな低レイテンシーアクセス用のグローバルテーブルのローカルレプリカテーブルを使用し、そのデータには最終的な一貫性があります。 このグローバル化されたユーザープロファイリングシステムは、機械学習目的でも使用できます。DynamoDB はスキーマレスなので、任意の形式のデータを簡単に保存して照会することができます。したがって、DynamoDB ベースのユーザープロファイリングシステムで使用されるデータ形式を、選択した機械学習モデルに最適なデータ形式に調整することができます。この記事では、機械学習でユーザープロファイリングシステムを採用する方法を示します。 グローバルユーザープロファイリングシステムの構築 Example Corp. は世界的なオンライン書籍販売店であり、世界中に顧客を抱えているとしましょう。Example Corp. は、顧客の名前、ID、住所、支払い方法などの情報を記憶しておき、この情報を顧客の注文を遂行するために使用したいと考えています。この場合、Example Corp. はユーザーの情報を保存するためのユーザープロファイリングシステムが必要です。 このユーザプロファイリングシステムは、次の 2 つの要件を満たす必要があります。まず、Example Corp. はグローバルなオンライン書籍販売店であるため、このユーザープロファイリングシステムは世界中のユーザーをサポートする必要があります。次に、このユーザープロファイリングシステムは、顧客がウェブの遅延を経験しないように、迅速に要求に応答する必要があります。(注文にかかる時間が長くなるほど、顧客が注文を放棄する可能性が高くなります。) この 2 つの要件を満たすために、Amazon DynamoDB グローバルテーブルを使用して Example Corp. のサンプルユーザープロファイリングシステムを作成する方法を説明します。分かりやすくするために、この例では user_id と user_name の属性だけを使用します。 まず、米国西部 (オレゴン) リージョンに UserProfiles […]

Read More

Ora2pg と AWS DMS を使用して BLOB および CLOB テーブルを Oracle から PostgreSQL に移行する方法

多くの企業は、Oracle データベースを PostgreSQL に移行することを検討しています。プラットフォームと企業間の互換性が高く、またライセンスコストを削減するためです。Amazon RDS for PostgreSQL と Amazon Aurora with PostgreSQL の互換性により、コスト効率の高い方法で PostgreSQL のデプロイメントをクラウドに簡単にセットアップ、運用、拡張できます。 AWS は、AWS 環境またはオンプレミスデータセンターのいずれかで実行されている Oracle データベースを移行する 2 つのサービスを提供します。AWS Schema Conversion Tool (AWS SCT) は、既存のデータベーススキーマをターゲットデータベーススキーマに変換するのに役立ちます。AWS SCT がスキーマを自動的に変換できない場合は、ターゲットデータベースに同等のスキーマを作成する方法を示す評価レポートが表示されます。AWS Database Migration Service (AWS DMS) は、ソースデータベースからターゲットデータベースに実際のデータを移行するのに役立ちます。 AWS DMS の外部で大きな BLOB および CLOB を移行したいとお考えかもしれません。オープンソースツール Ora2Pg を既によく知っている場合は、このツールを使用してデータを一括読み込みし、AWS DMS を変更データキャプチャ (CDC) に使用できます。 このブログ記事では、Amazon RDS for Oracle データベースを Amazon […]

Read More

[AWS Black Belt Online Seminar] AWS 認定取得に向けて 資料及び QA 公開

先日 (2018/6/6) 開催しました AWS Black Belt Online Seminar「AWS 認定取得に向けて」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180606 AWS Black Belt Online Seminar AWS 認定取得に向けて from Amazon Web Services Japan PDF Q. APNのビジネスプロフェッショナルやテクニカルプロフェッショナルはどの位置づけになりますか? A. eラーニングの内容は、クラウドコンセプトやAWSサービスの基本的なことを学習できる コンテンツです。AWS認定の「クラウドプラクティショナー」の学習コンテンツとして 最適な位置づけであり、AWSとしても強く推奨しています。 Q. アソシエイト新旧の違いを再度フォローしていただけると助かります。 A. 新しいバージョンの「AWS 認定ソリューションアーキテクト – アソシエイト」は、旧バージョンのリリースから 4 年間のソリューションアーキテクトの変更に対応した、新しい試験ガイドに基づいた試験です。過去数年にわたって開発された、適切に設計されたプログラムを反映しています。詳細につきましては、こちらをご参照ください。 Q. Eメールによる合格通知が来るまでにはどれくらいかかりますか。 A. 通常、試験終了から3日以内にメールでの試験結果が通知されます。ただし、以下 3 試験につきましては、メール内に試験結果の詳細は記載されず、アカウントに試験結果のアップロードが完了した時点(5営業日以内)で通知メールが送信されます。 AWS 認定ソリューションアーキテクト – アソシエイト (新版) AWS 認定クラウドプラクティショナー AWS 認定セキュリティ […]

Read More