Amazon Web Services ブログ

Amazon SageMaker を使用して、人口区分のために米国の国勢調査データを分析する

米国では 2018 年の中間選挙に向けて、人々は投票プロセスについてより多くの情報を求めています。このブログ記事では、有権者を理解するタスクに科学を有効に統合するために、機械学習 (ML) を適用する方法を探っています。 通常、機械学習アプリケーションでは、ラベルの付いたデータから明確なユースケースが得られます。例えば、古さや型番などデバイスの属性に基づいて、障害の可能性を予測できます。特定の結果を予測する際に監督またはガイドがあるため、これは教師あり学習と呼ばれます。 しかし、現実世界では、きれいなラベルを定義するのが難しい場合、予測する特定の結果が存在しない大規模なデータセットがしばしば存在します。適切な結果が予測するものを、正確に特定することは困難です。この種類のユースケースはしばしば探索的です。これはデータセットの作成と、どのような自然パターンが存在するかを理解することが目的です。この種類のユースケースは、教師なし学習です。この一例は、属性セットに基づいて類似の個人をグループ化する試みです。 このブログ記事で紹介するユースケースは、人口区分です。私たちは次のサイトから一般公開されている、米国の国勢調査から得られた米国の郡ごと匿名化された人口統計データを入手できます。https://factfinder.census.gov/faces/nav/jsf/pages/index.xhtml(この製品は Census Bureau Data API を使用していますが、国勢調査局による保証または認定は行われていません)。この分析結果は、変換された特徴空間における類似した郡の自然なグループ化です。例えば、ある集団に共鳴するメッセージをハイライトすることで、類似する郡のグループに到達する方法を理解するなど、郡が所属するクラスターを活用して選挙運動を計画することが可能です。より一般的には、この技術は企業が対象を定めたマーケティングキャンペーンを作成するために、顧客やユーザー区分に対して適用できます。この種類の分析には、CA-Fresno 郡と AZ-Yuma 郡という同じグループにされた、表向きは分からない類似点を明らかにする能力があります。直感的には人口サイズや人種構成など一般的に調べられる属性が異なりますが、雇用タイプの組み合わせなど、軸に沿って調べたときには類似しています。 ブログ記事に従って、サンプルノートブックを使用してコードを実行し、データをやり取りすることができます。 この演習には 2 つの目標があります。 1) PCA と Kmeans モデリング技術を使用して教師なし学習のための Amazon SageMaker を使用したデータ科学ワークフローを説明する。 2) 有用なモデル属性を抽出するために、Amazon SageMaker 内に構築された基礎モデルにユーザーがどのようにアクセスできるかを説明する。教師なし学習から結論を引き出すことが難しい場合が往々にしてあり、PCA と Kmeans のモデルにアクセスできることが単にモデルを使用して予測を生成する以上に重要になります。 データ科学ワークフローには 4 つのメインステップがあります。 Amazon S3 からのデータの読み込み 探索的データ分析 (EDA) – データのクリーニングと探索 データのクリーニング データの可視化 特徴エンジニアリング データモデリング 次元縮退 PCA モデル属性へのアクセス PCA モデルのデプロイ 教師なしクラスタリングを使用した人口区分 […]

Read More

Performance Insights を使用した Amazon RDS データベースの負荷分析

AWSは Amazon Aurora with PostgreSQL compatibility の一般リリースを先日発表しました。このリリースには Performance Insights と呼ばれる Amazon Relational Database Service (Amazon RDS) に有用な機能の最初のリリースも含まれます。データベースの負荷(どのSQL文が負荷を発生させており、それはなぜなのか)を可視化するダッシュボードを使用して、エキスパートな方とエキスパートではない方の両方が、Performance Insights でパフォーマンス問題を容易に検出できます。

Read More

Amazon RDS for PostgreSQLにおける自動バキュームのケーススタディ

PostgreSQLデータベースにおいて、自動バキューム処理(autovacuum)は複数の重要なメンテナンス操作を実行します。周回を防止するためにトランザクションIDをフリーズすることに加えて、デッドタプルを削除し空きスペースを回復させます。書き込み回数の多いデータベースの場合は、自動バキュームを頻繁に実行するようにチューニングすることをお勧めします。そうすることで、テーブルやインデックスを膨らませるデッドタプルの蓄積を避けることができます。

この記事では、デッドタプルが蓄積される状況でどのように自動バキューム処理を監視し、チューニングするかを実際に示すために、ケーススタディを用いてご説明します。

Read More

[AWS Black Belt Online Seminar] AWS で実現するライブ動画配信とリアルタイムチャットのアーキテクチャパターン 資料及び QA 公開

先日 (2018/6/12) 開催しました AWS Black Belt Online Seminar「AWS で実現するライブ動画配信とリアルタイムチャットのアーキテクチャパターン」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。

Read More

AWS 内部ユースケース : AWS マーケティングにおける Amazon SageMaker の評価と採用

こんにちは。AWS マーケティングデータサイエンスチームです。 高度な分析および機械学習 (ML) 技術を使用して、セールスリードのML 主導スコアリング、ML によるセグメントをターゲティング化、およびダウンストリームへのインパクト測定の計量モデルといった、AWS のお客様のライフサイクル全体にわたるビジネス上の問題解決に向けて、お客様とともに取り組みます。 アマゾン内では、各チームが独立して運営されており、独自のテクノロジースタックの選択方法や、お客様が利用する AWS サービスの採用方法に関して意思決定を行います。 これにより、各チームは各自のロードマップを管理できます。 結果、サービス評価と採用が類似したものとなって、ML の経験がまだこれからというお客様にお役に立てることでしょう。 このブログでは、Amazon SageMaker サービスの評価に関して、初めの一歩を踏み出す情報をお届けしますので、皆さまのお役に立てれば何よりです。 AWS サービスをどう利用して、ビジネス目標を達成し ML モデルを拡張するか、といった最新情報をお届けしていきます。 このブログ記事では、Amazon SageMaker を使用して、独自の ML トレーニングおよびホスティングインフラストラクチャを置き換えるための実証支援 (POC) をどう実施するか、当社の経験をシェアしたいと思います 。 当社の既存の ML インフラストラクチャは、データ処理パイプラインを管理する Amazon の内部ワークフローツールと、モデルの構築、トレーニング、およびホストのための Amazon EC2 インスタンスで構成されています。 こうしたインフラストラクチャ管理に多大な時間を費やしており、それが Amazon SageMaker サービスをより高めていく動機となりました。 POC は、Amazon SageMaker の機能と性能を調べ、インフラストラクチャの作業と運用の複雑さを最小限に抑えます。 鍵となるワークストリームは次の 3 つです。 AWS IT セキュリティチームと協力して、データセキュリティとコントロールを特定し、実装。 Amazon SageMaker の既存のMLモデルの 1 […]

Read More

[AWS Black Belt Online Seminar] AWS 認定取得に向けて 資料及び QA 公開

先日 (2018/6/6) 開催しました AWS Black Belt Online Seminar「AWS 認定取得に向けて」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180606 AWS Black Belt Online Seminar AWS 認定取得に向けて from Amazon Web Services Japan PDF Q. APNのビジネスプロフェッショナルやテクニカルプロフェッショナルはどの位置づけになりますか? A. eラーニングの内容は、クラウドコンセプトやAWSサービスの基本的なことを学習できる コンテンツです。AWS認定の「クラウドプラクティショナー」の学習コンテンツとして 最適な位置づけであり、AWSとしても強く推奨しています。 Q. アソシエイト新旧の違いを再度フォローしていただけると助かります。 A. 新しいバージョンの「AWS 認定ソリューションアーキテクト – アソシエイト」は、旧バージョンのリリースから 4 年間のソリューションアーキテクトの変更に対応した、新しい試験ガイドに基づいた試験です。過去数年にわたって開発された、適切に設計されたプログラムを反映しています。詳細につきましては、こちらをご参照ください。 Q. Eメールによる合格通知が来るまでにはどれくらいかかりますか。 A. 通常、試験終了から3日以内にメールでの試験結果が通知されます。ただし、以下 3 試験につきましては、メール内に試験結果の詳細は記載されず、アカウントに試験結果のアップロードが完了した時点(5営業日以内)で通知メールが送信されます。 AWS 認定ソリューションアーキテクト – アソシエイト (新版) AWS 認定クラウドプラクティショナー AWS 認定セキュリティ […]

Read More

Amazon Comprehend、AWS Glue、Amazon Athena を使用して感情分析をスケールする方法

現代の消費者は、ソーシャルメディア、ブログ、レビュープラットフォームを通じて企業や製品に満足感や不満を表明することがよくあります。感情分析は、企業が顧客の意見やニーズをよりよく理解し、情報に基づいてビジネスの意思決定を行うのに役立ちます。Amazon は、複数のカテゴリと言語で 1 億 3,000 万件以上の製品レビューを含むデータセットを公開しました。このデータセットを、今回のユースケースで使用します。 この記事では、Amazon S3 から未処理の Amazon 製品レビューを取り出し、データセットをクリーンアップし、各レビューから感情を抽出し、Amazon S3 に出力を書き戻すサーバーレスのデータ処理パイプラインを構築する方法を学びます。次に、最終結果を探索して視覚化します。クラウドベースの機械学習 API や他の選択した API を使用してデータを充実させる方法を強調したいと考えています。柔軟性は、パイプラインに組み込まれています。 Amazon Comprehend は機械学習を使用して、テキストにある洞察や関係を見つけます。私たちのユースケースでは、Amazon Comprehend を使用して、顧客の製品レビューから感情を判断します。使いやすい API を使用しても、意味のある洞察を得るには、未処理のデータセットをクリーンアップしてテキストをレビューする必要があります。この目的のために、Apache Spark のパワーを活用する完全マネージド型でサーバーレスの ETL (抽出、変換、ロード) サービスである AWS Glue を使用します。最後に、Amazon Athena と Amazon QuickSight を使用してデータをクエリし、視覚化します。 データパイプラインのアーキテクチャ 私たちのユースケースはシンプルですが、複雑なシナリオに合わせて簡単に拡張することができます。未処理データから始めて、すべてを一気に充実させたいと考えています。この場合、バッチ ETL プロセスが理想的です。 次の図は、私たちの処理パイプラインのアーキテクチャを示しています。 Apache Parquet 形式で Amazon S3 から未処理の Amazon 製品レビューのデータセットを読み取る (1) Glue ETL ジョブの実行から開始します。ETL は、レビューの行ごとに Comprehend API (2) […]

Read More

2018 年 7 月の AWS Black Belt オンラインセミナーのご案内

こんにちは。マーケティングの鬼形です。7 月の AWS Black Belt オンラインセミナーの配信についてご案内させて頂きます。 !!オンラインセミナーお申し込み方法: オンラインセミナー登録ページよりお申し込みください 【一般提供開始!】Amazon Neptune 2018 年 7 月 3 日 | 12:00 – 13:00 | IT 知識レベル:★★☆☆☆ | AWS 知識レベル:★★☆☆☆ 2018年6月に Amazon Neptune の一般提供が開始されました。この Webinar ではグラフデータベースの概念、および Amazon Neptune の基本的なアーキテクチャーを説明し、どのようなシーンで利用するのか、Amazon Neptune 利用時に押さえておくべきポイントについてご紹介致します。 対象者 グラフデータベースについて知りたい方 既にグラフデータベースを使用されている/検討されている方 本セミナーで学習できること Amazon Neptune の基礎、利用シーン、活用のポイントを学ぶことができます スピーカー 五十嵐 建平 Solutions Architect   【東京リージョン一般提供開始!】Amazon Elastic File System (Amazon EFS) 2018 年 7 […]

Read More

双方向の扉を活用した、AWS上のミッションクリティカルなSAPシステムの変革

この記事は、Amazon Web Services (AWS)で戦略的ISVパートナーのGMを務めるBas Kamphuisによるものです。 誰もが一方通行の扉を通ることを好みません。 一方通行の扉が閉まった後、始めた場所に戻るための簡単な方法はありません。お客様の選択肢は限られており、無意識に始めた旅の方向性を変えるには多大な時間とリソースを費やす必要があります。 最初の扉を開けないほうが良かったと思うかもしれません。 SAPをお使いの多くのお客様にとって、複雑でミッションクリティカルなSAP環境をどのように構築して稼働するかを決定することは、一方通行の扉を通り抜けることに似ています。SAPは多くのエンタープライズオペレーションにとって重要なツールですが、SAPの導入を成功するには、従来より大幅な設備投資、複雑に連携したシステムアーキテクチャ設計、企業の厳しい要件に合わせたカスタマイズソリューション、そして弾力性と信頼性を兼ね備えた堅牢なITバックボーンが必要です。

Read More

Amazon EKS – 一般向け利用を開始

Amazon Elastic Container Service for Kubernetes を発表し、re:Invent 2017 の期間中にお客様をプレビューにご招待しました。本日謹んで、Amazon EKS が、お客様が利用可能な実稼働状態に達したことをお知らせいたします。その Kubnernetes 適合性が認証され、既存の Kubernetes ワークロードを実行できるようになりました。 Cloud Native Computing Foundation の最新のデータによれば、Kubernetes を実行している全企業の 57% が AWS は 選択しており、Kubernetes 環境としては AWS が先頭を走っています。Kubernetes はお客様の IT 戦略のコアであり、毎週 AWS で数億ものコンテナを実行しています。Amazon EKS は Kubernetes クラスターのビルド、保護、操作、保守のプロセスを簡略化し、Kubernetes クラスターをゼロから設定することなく、アプリケーションのビルドに集中したいと考える組織にコンテナベースのコンピューティングの便益をもたらしています。 AWS インサイド Amazon EKS は AWS クラウド内で実行できるため、多くの AWS サービスと機能を大いに活用しながら、Kubernetes に関する既知の知識すべてをそのまま有効に適用できます。概要は以下の通りです。 Multi-AZ – Kubernetes コントロールプレーン (API サーバーおよび […]

Read More