Amazon Web Services ブログ

Category: Analytics

Kinesis と DynamoDB をイベントソースにする際の AWS Lambda の新しいスケーリング管理

AWS Lambda は、Amazon Kinesis Data Streams と Amazon DynamoDB ストリームのイベントソースで利用可能な、新しいスケーリングパラメータを導入しました。Parallelization Factor は、各シャードにおける Lambda 関数呼び出しの同時実行数を増やす設定を可能にします。このパラメータは、デフォルトでは 1 です。これによって、処理されるレコードの順序を保証しながら、シャード数を過大にスケールすることなく、より高速なストリーム処理が可能になります。

Read More

[AWS Black Belt Online Seminar] Amazon Managed Streaming for Apache Kafka (Amazon MSK) 資料及び QA 公開

先日 (2019/11/20) 開催しました AWS Black Belt Online Seminar「 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。   20191120 AWS Black Belt Online Seminar Amazon Managed Streaming for Apache Kafka (Amazon MSK) AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. MSK の Kafka クラスタを構成する broker インスタンスにログインしたり、システムログを確認する方法はありますか? A. Broker インスタンスはフルマネージドで提供しており、SSH ログインするといったことはできません。Amazon Managed Streaming for Kafka (以下、Amazon MSK) の API […]

Read More

AWS Data Exchange を使用してデータ製品を動的に公開し、更新する

あらゆるサイズの組織において、データがビジネスの方法を大変革しています。会社はますます、サードパーティのデータを、社内のデータを補完し、顧客に価値を提供できるようにするために使用するようになっています。サードパーティのデータは、様々なユースケースで使用されています。その中には、顧客のためのアプリケーションの構築、事業の運営とマーケティング活動を改善するためのワークロードの分析、機械学習(ML)のテクニックに基づく予測モデルの構築が含まれます。 しかし、データが会社の事業の中心になったにもかかわらず、データプロバイダーがサブスクライバーにデータを提供する方法は何年も変わっていません。データプロバイダーの側からすると、提供物としてのデータと、エンタイトルメントの管理機構を構築するために、代わり映えのしないヘビーリフティングに時間と労力を費やして、顧客にサービスを提供してきたわけです。多くのデータプロバイダーは、従来式の販売方法と配信チャネルに依存しており、多くの場合、自社のデータに関心を持っている多くの見込み客にアクセスすることはできないでいます。そのため、データ製品をニーズに適合させることは遅れています。 AWS Data Exchange の世界に入ってください。 AWS Data Exchange を使用すると、クラウド内のデータを簡単に交換できます。顧客は数分で、金融サービス、ヘルスケア、ライフサイエンス、消費者および小売などの業界の 80 を超える認定データプロバイダーからの数百のデータ製品を見つけて購読できます。購読の後、顧客はデータセットをダウンロードすること、またはAmazon S3 にコピーして、AWS の様々な分析と機械学習サービスを使用しての分析することができます。AWS Data Exchange を使えば、データプロバイダーは、セキュアで透明、そして信頼できるチャネルを通して幾百万の AWS の顧客に接触する機会が得られます。AWS Data Exchange はまた、データの配信、ライセンス、または課金のインフラストラクチャを構築する必要をなくすので、既存の顧客サブスクリプションをより効率的に、そしてより低コストで提供できるようにする点でも助けになります。 多くのデータプロバイダーは、定期的に更新されるデータ製品を公開しています。たとえば、株式価格のデータプロバイダーは毎日の終値を公開したいと思うでしょうし、天気予報のデータプロバイダーは、予報を毎週更新したいと思うでしょう。この記事では、AWS Data Exchange で製品の公開と更新を動的に行う方法について、手順を追って説明します。まず、新しい製品を公開して、サブスクライバーが利用できるようにします。これは AWS Data Exchange コンソールを使用して数分間で行えます。それから、Lambda 関数を使用して、基本となるデータセットに新しいリビジョンを公開することにより、製品を自動的に更新するワークフローも知ることができます。 前提条件 開始する前に、次の前提条件を満たしてください。 AWS Data Exchange の登録プロバイダーとなる必要があります。資格があり、登録プロバイダーだけが、AWS Data Exchange でデータ製品を公開できます。資格があるプロバイダーは、米国または EU の成員国に本拠を置く有効な法人の下で AWS Marketplace の利用条件に合意し、有効な銀行および課税当局の身分証明書を提出し、AWS Data Exchange のビジネスオペレーションチームによって資格を認定される必要があります。詳細については、Providing Data Products on AWS Data Exchange(AWS […]

Read More

メインとなる AWS Lake Formation アカウントから、複数のアカウントのデータにアクセスおよび管理を行う

 この記事では、中心的な AWS Lake Formation アカウントが、複数のアカウントにあるデータのアクセスや管理を行う方法を解説していきます。このウォークスルーでは、異なるアカウントにあるデータを使い、マスターとなる Lake Formation アカウントにある一元管理されたカタログを示します。 記事の中では、別のアカウントにあるカタログの読み出し、書き込み、更新、およびデータへのアクセスを行う許可を、Lake Formation サービスから付与する方法を説明します。 また、2 つのデータセットを使って、世界中から集めたニュース (gdelt) と、Amazon の製品が受けたレビューの数 (amazonreviews) との間に 相関性 が存在するかを判断していきます。 前提条件 今回の例では、それぞれ S3 バケットとアカウント番号がある、3 つのアカウントを使用する必要があります。 環境の設定 3 つのアカウントは次なようなものです。 Account Products (AP) – これは、Amazon の製品が受けたレビューを保存するためのアカウントです。この記事では、AWS CloudFormation を使って構成したものをデプロイします。 Account External (AE) – このアカウントは、100 を超える言語による放送、印刷物、ウェブニュースを世界中から集めモニタリングします。これは、毎日毎秒のように国際社会を動かし続けている、人々、場所、組織、数、テーマ、情報ソース、感情、引用、画像、出来事などを抽出します。この記事では、AWS CloudFormation を使って構成したものをデプロイします。 Main Account (MA) – メインとなるアカウントです。他の 2 つのアカウントからのデータを集約します。今回は、このアカウントに Lake Formation を定義します。このアカウントには、製品データと国際ニュース用のアカウントへのアクセス権限があります。 次の図は、全体的なアーキテクチャを示しています。 […]

Read More

ironSource が多目的データレイクを Upsolver、Amazon S3、および Amazon Athena で構築する方法

ironSourceは、独自の言葉で言えば、アプリ内の収益化と動画広告の主要なプラットフォームで、世界中の 15 億人を超える人々が無料でプレイおよび使用できるようにしています。 ironSource は、業界最大のアプリ内動画ネットワークなどを含めて、アプリ開発者がアプリを次のレベルに引き上げることを支援します。80,000 を超えるアプリが ironSource テクノロジーを使用して、ビジネスを成長させています。 ironSource がさまざまな収益化プラットフォーム(アプリ、ビデオ、メディエーションを含む)にわたって動作する巨大な規模は、膨大な量のストリーミングデータを生成する数百万のエンドデバイスにつながります。インフラストラクチャとエンジニアリングのオーバーヘッドを最小限に抑える一方で、複数のユースケースをサポートするために、データを収集、保存、準備する必要があります。 この記事では以下について説明します。 ironSource が Amazon S3 に基づくデータレイクアーキテクチャを選択した理由。 ironSource が Upsolver を使用してデータレイクを構築する方法 Amazon Athena、Amazon ES、および Tableau などのアナリティックサービスに対して出力を作成する方法。 このソリューションの利点 データレイクアーキテクチャの利点 データベースに焦点をあてたアプローチで数年間仕事をした後で、ironSource のデータは以前のシステムをコストとメンテナンスの観点で、実行不可能にしました。代わりに、生イベントデータをオブジェクトストレージに保管し、複数のアプリケーションとアナリティックフローに対応してカスタマイズされた出力ストリームを作成するデータレイクアーキテクチャを採用しました。 ironSource が AWS データレイクを選択した理由 データレイクは以下の理由で ironSource の正しいソリューションでした。 規模 – ironSource は、1 秒あたり 50 万件のイベントと毎日 200 億件を超えるイベントを処理しています。S3 でほぼ無限の量のデータを、データの事前処理なしで保管する能力は重要です。 柔軟性 – ironSource は複数のビジネスプロセスをサポートするデータを使用します。同じデータを複数のサービスにフィードして、異なるユースケースを提供することが必要なため、会社はデータベースアプローチによりもたらされる堅牢姓とスキーマ―の制限をバイパスすることが必要でした。代わりに、元のデータを S3 に保管して、臨時の出力と変換を必要に応じて作成します。 弾力性 – すべての履歴データが […]

Read More

【開催報告】Amazon Analytics 事例祭り – データウェアハウスマイグレーション

こんにちは。アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクトの平間です。 9月24日に、「Amazon Analytics 事例祭り – データウェアハウスマイグレーション」を開催いたしました。今回は既存のデータウェアハウス(DWH)環境から、AWSの高速かつ完全マネージド型のDWHであるAmazon Redshiftへ移行されたお客様に、移行の決め手や移行後の効果について「本音」でお話ししていただきました。セミナーは前半がAWSソリューションアーキテクトからAWSのデータレイク及びアナリティクスサービスの概要と、DWHの移行をどのように検討すればよいかの方法をお話させていただき、後半はお客様より移行時の体験談をお話しいただいております。

Read More

【開催報告】第9回 AWS Data Lake ハンズオンセミナー

こんにちは。AWS ソリューションアーキテクトの上原誠(@pioh07)です。 9月27日に、「AWS Data Lake ハンズオンセミナー」を開催いたしました。去年から行ってきた恒例のワークショップで第9回目となります。去年から引き続き盛況で、今回も80名以上のお客様にご参加頂きました。 はじめに、AWSにおけるデータ活用のベストプラクティスである Amazon S3 を中心とした Data Lake について解説し、ビッグデータ分析基盤の考え方として有名なラムダアーキテクチャの解説を行いました。 当イベントでは、Amazon Athena や Amazon Redshift の各 AWS サービスを駆使して実際にラムダアーキテクチャを構築することがゴールです。とはいえ全てを構築するのはボリュームが大きいため、スピードレイヤー or バッチレイヤー or 全部入りでコース分けて取り組めるようハンズオンコンテンツを用意しました。最初にコースの説明を行い、出席いただいたお客様ご自身の課題に合わせてコースを選択頂き、ハンズオンを行っていただきました。今回、参加者も多くいらっしゃいましたので、サポートするソリューションアーキテクトも7名で対応させていただきました。 今回参加できなかった方も、ソリューションアーキテクトのサポートを受けながらハンズオンを行いログ分析を初めてみてはいかがでしょうか? 次回はハロウィンも待ち遠しい11月に開催予定です。ご参加お待ちしております。

Read More

MIMIC-III データと Amazon Athena を使用して、データベースなしでバイオメディカルインフォマティクスを実行

バイオメディカル研究者は、正確で詳細なデータにアクセスする必要があります。MIT MIMIC-III データセットは人気のあるリソースです。Amazon Athena を使用すると、最初にデータをデータベースにロードすることなく、MIMIC-III に対して標準 SQL クエリを実行できます。分析は常に MIMIC-III データセットの最新バージョンを参照します。 この投稿では、Athena で MIMIC-III データセットを使用可能にし、AWS の MIMIC-III 分析環境への自動アクセスを提供する方法について説明します。また、従来のデータベースを使用した MIMIC-III リファレンスバイオインフォマティクス研究と、Athena を使用した同じ研究を比較します。 概要 長期にわたって多くの患者のさまざまな測定値をキャプチャするデータセットは、研究の発見と改善された臨床的判断に分析と機械学習を用いて推進できます。これらの機能は、MIT 計算生物学研究所 (LCP) MIMIC-III データセットについて記述しています。LCP 研究者の発言: 「MIMIC-III は、2001 年から 2012 年にかけてベスイスラエルメディカルセンターの救命治療室に入院した患者約 6 万人の匿名化された健康関連データを含む、大規模な公開データベースです。MIMIC は、疫学、臨床的判断ルールの改善、電子ツールの開発に及ぶさまざまな分析研究をサポートしています。中でも 3 つの要因に注目したいと思います。まず、公開的かつ自由に利用可能で、ICU 患者の多様で大規模な集団を含みます。そして実験結果、電子文書、ベッドサイドモニターの傾向と波形を含む高時間解像度データを包含します」

Read More

AWS Lake Formation でメタデータを見つける: パート 2

データレイクは、構造化データおよび非構造化データの両方を集計、保存、分析する方法としてますます定評が高まっています。AWS Lake Formation を使用すると、データレイクの設定、セキュリティ保護、管理が簡単になります。 このシリーズのパート 1 では、Lake Formation を使用してデータレイクを作成および探索する方法を学びました。この投稿では、コンソールにある Lake Formation のメタデータ検索機能を使ってのデータ検出、さらに列のアクセス許可が制限するメタデータ検索結果について説明します。 前提条件 この記事では、以下が必要です。 AWS アカウント。 Amazon S3、AWS Glue、AWS Lake Formation にアクセスできる AWS Identity and Access Management (IAM) ユーザー。 コンソールでのメタデータ検索 この投稿では、Lake Formation コンソールが提供するカタログ検索機能のデモを行います。 分類による検索 キーワードによる検索 タグによる検索: 属性 複数の フィルター検索 分類による検索 メタデータカタログ検索機能を使用して、データレイク内のすべてのテーブルを検索します。2 つは名前 amazon_reviews を共有しますが、シミュレートされた「prod」と「test」データベースに別々に属します。3 つ目は trip-data です。 Lake Formation コンソールの [Data catalog] で、[Tables] をクリックします。 検索バーの […]

Read More

[AWS Black Belt Online Seminar] AWS Glue 資料及び QA 公開

先日 (2019/8/6) 開催しました AWS Black Belt Online Seminar「AWS Glue」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。     20190806 AWS Black Belt Online Seminar AWS Glue AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. データソースをクロールする際にデータソース側で開放するポートはなんですか? A. データソースがVPC内に存在するRDSやRedshiftの場合、クローラーからアクセスするためには「すべての TCP ポート」に対して自己参照のインバウンドルールを持つセキュリティグループを指定します。自己参照ルールを作成することで、ソースを VPC 内の同じセキュリティグループに制限することができる為、ネットワーク全体には公開されません。なお、VPCのデフォルトのセキュリティグループには、すでに ALL Traffic (すべてのトラフィック) の自己参照インバウンドルールがある場合があります。 また、オンプレミスのデータベースを使用する場合、接続するデータベースのポートおよびネットワークへのアクセスができるように、ファイアウォールを設定していただく必要があります。下記、参考URLをご確認ください。 ・JDBC データストアに接続するための VPC の設定はこちら ・How to access and analyze on-premises data stores using AWS Glue(英語)はこちら Q. AWS BatchとGlue (python […]

Read More