Amazon Web Services ブログ

Category: Analytics

Amazon EMR、AWS Glue、Amazon QuickSight を使用して自動データプロファイリングおよびレポートソリューションを構築する

 典型的な分析パイプラインでは、データレイクにデータをインポートした後に通常実行する最初のタスクの 1 つは、データプロファイリングと高レベルのデータ品質分析です。これにより、データセットのコンテンツをチェックします。このようにして、テーブル名、列名とそのタイプなどの情報を含む基本的なメタデータを充実させることができます。 データプロファイリングの結果は、データセットに予期した情報が含まれているかどうか、およびそれらを分析パイプラインのダウンストリームでどのように使用するかを決定するのに役立ちます。さらに、これらの結果は、オプションのデータセマンティクス分析ステージへの入力情報の 1 つとして使用できます。 最新のデータレイクには膨大な量のさまざまなタイプのデータがあり、構造化されていない手動のデータプロファイリングとデータセマンティクスの分析は非現実的で時間がかかります。この記事では、AWS Glue データカタログメタデータの拡張として、データプロファイリングリポジトリの自動作成プロセスを実装する方法と、レポートシステムについて説明します。レポートシステムは、分析パイプラインの設計プロセスを支援するもので、信頼性の高いツールを提供することでさらに分析を行えるようにします。 この記事では、AWS Glue データカタログのアプリケーションデータプロファイラーについて詳しく説明し、実装例をステップバイステップで示します。 概要とアーキテクチャ 次の図は、このソリューションのアーキテクチャを示しています。 AWS Glue データカタログのデータプロファイラーは、Apache Spark Scala アプリケーションです。これにより、Amazon Deequ ライブラリのプロファイリング機能を使用して、データカタログ内のデータベースで定義されたすべてのテーブルをプロファイリングし、その結果をデータカタログと Amazon S3 バケットにパーティション化された Parquet 形式で保存します。Amazon Athena や Amazon QuickSight などの他の分析サービスを使用して、データをクエリして視覚化できます。 Amazon Deequ データライブラリの詳細については、「Deequ を使用した大規模なテストデータ品質」、または GitHub リポジトリのソースコードをご覧ください。 メタデータは、「データに関するデータ」と定義できます。テーブルのメタデータには、テーブル名とその他の属性、列の名前とタイプ、データを含むファイルの物理的な場所などの情報が含まれています。データカタログは AWS のメタデータリポジトリであり、Athena、Amazon EMR、Amazon Redshift などの他の AWS のサービスで使用できます。 データベース内のテーブルのメタデータを作成または更新した後 (テーブルへの新しいデータの追加など)、AWS Glue クローラを使用して、または手動でアプリケーションを実行して各テーブルをプロファイルできます。結果は、テーブルのメタデータの新しいバージョンとしてデータカタログに保存されます。保存された結果は、AWS Lake Formation コンソールからインタラクティブに表示したり、AWS Glue […]

Read More

Amazon Kinesis Video Streams ハンズオンを公開 – カメラデバイスからの動画の収集、ストリーミング再生、分析方法を学ぶことができます

こんにちは、IoT Specialist ソリューションアーキテクトの三平です。この記事では、Amazon Kinesis Video Streams ハンズオンをご紹介します。 Amazon Kinesis Video Streams は、分析、機械学習 (ML)、再生、およびその他の処理のために、接続されたデバイスから AWS へ動画を簡単かつ安全にストリーミングできるマネージドサービスです。数百万のデバイスからの動画をセキュアに取り込み、時系列でインデックスして保存、再生や分析のために容易に取り出すためのインフラストラクチャを、自動的にプロビジョンして、伸縮自在にスケールします。 このハンズオンでは Amazon Kinesis Video Streams を用いた PoC などを容易に行っていただけるよう、カメラデバイス (Raspberry Pi) からクラウドへ動画を収集・保存し、ライブやオンデマンドでストリーミング再生したり、動画ファイルとしてダウンロードしたり、Amazon Rekognition Video と組み合わせてライブ顔認識やニアリアルタイムでの分析などを行ったりする方法を、実際に手を動かしながら3〜4時間で学ぶことができます。

Read More

Zendesk がレガシーシステムを Amazon Aurora と Amazon Redshift に移動してパフォーマンスを 3 倍にした方法

 この記事は、Zendesk のエンジニアリングリーダーである James Byrne 氏によるゲスト投稿です。Zendesk は、Zendesk Explore アナリティクス製品のデータパイプラインにおける開発と運用、および AWS ソリューションアーキテクトの Giedrius Praspaliauskas に焦点を当てています。 Zendesk は、より良い顧客関係を促進するために設計されたサポート、販売、顧客エンゲージメントソフトウェアを構築する CRM 企業です。規模、業界、または野心に関係なく、大企業からスタートアップ企業にいたるまで、強力で革新的な顧客体験がすべての企業に届くと、私たちは信じています。Zendesk は、さまざまな業界の 150,000 社以上の顧客に 30 以上の言語でサービスを提供しています。Zendesk はサンフランシスコに本社を置き、世界中に 17 ヵ所のオフィスを展開しています。 Zendesk Explore は、企業が顧客体験全体を測定して改善できるように分析を提供します。Zendesk Explore を使用すれば、企業は重要な顧客分析にすぐにアクセスでき、顧客とその関連ビジネスについてより深く理解できます。 この記事では、レガシーシステムを Amazon Aurora と Amazon Redshift に移行する方法について説明します。新しいデータストアと 3 倍のパフォーマンスを構築できるプロセスとアーキテクチャについて詳しく説明します。 移行を決定する 2015 年、Zendesk はビジネスインテリジェンスのスタートアップ企業である BIME Analytics を買収しました。BIME 製品は、現在のレポート製品である Zendesk Explore の構成要素として機能していました。Zendesk Explore は、Zendesk サポート、トーク、チャット、ガイドなど、さまざまな Zendesk […]

Read More

AWS Glue の自動コード生成機能とワークフローを利用して、データパイプラインをシンプル化する

 これまでの一連の記事では、AWS Glue のジョブブックマークを使用して Amazon S3 やリレーショナルデータベースからデータを増分ロードする方法についてご紹介しました。また、AWS Glue に最適化された Apache Parquet ライターを使用してパフォーマンスを向上させ、スキーマ進化を管理する方法についても説明しました。 3 つ目の記事となる今回は、次の 3 つのトピックを取り上げます。まず、特定の列を選択する、深くネストされたレコードを展開する、ネストされたフィールドを効率的に解析 (パース) する、列データの展開処理といった一般的なユースケースにおいて、AWS Glue でデータの変換に役立つコードを自動生成方法について説明します。 次に、AWS Glue のワークフローとCrawlers、Apache Spark 、Python Shell ETL ジョブといったさまざまな Glue コンポーネントを使用してデータパイプラインを構築し、オーケストレーションする方法について説明します。 最後に、ETL ジョブで SparkSQL を活用し、Amazon S3 とリレーショナルデータベースに保存されたデータセットで SQL ベースの変換を実行する方法について説明します。 自動コード生成と変換: ApplyMapping、Relationalize、Unbox、ResolveChoice AWS Glue では、さまざまなデータ変換タスクの実行に使用するコードを自動的に生成できます。これらの変換では、複雑で深くネストされたデータセットの処理するための、使いやすいインターフェイスを提供します。たとえば、一部のリレーショナルデータベースやデータウェアハウスは、ネストされたデータ構造をネイティブにサポートしていません。AWS Glue を使用すると、データをターゲットデータベースにロードする前にネストされたデータ構造を展開するためのコードを自動生成できるので、時間が節約できるだけでなく、技術に詳しくないユーザーでもデータを扱うことができます。 AWS Glue が提供する、データ処理をシンプル化するための変換のうち、よく利用されるものを次に示します。 ApplyMapping は、列の投影やデータ型の変更に使用される変換処理です。この例では、action.id などいくつかのフィールドのネストを解除し、トップレベルの action.id フィールドにマッピングします。また、id 列を long […]

Read More

小規模な Amazon Elasticsearch Service ドメインのコストを削減する

 Amazon Elasticsearch Service (Amazon ES) ドメインをデプロイして本番環境のワークロードをサポートする場合、使用するデータインスタンスのタイプと数、アベイラビリティーゾーンの数、専用マスターインスタンスを使用するかどうかを選択する必要があります。ベストプラクティスのための推奨事項をすべて実行するには、次のように設定する必要があります。 3 つの専用マスターインスタンス M5.large 3 つの M5.large データノードを備えた 3 ゾーンレプリケーション プライマリに 2 つのレプリカの使用 必要に応じたストレージ、最大 512 GB、データノード用の GP2 Amazon Elastic Block Store (EBS) ボリューム この設定の場合、最大 400 GB のソースデータと 1 秒あたり数十万のリクエストを、1 か月あたり最大 800 USD (米国東部、バージニア北部の料金) のオンデマンドコストでサポートします。実行可能なデプロイを最小限に抑えることで、このコストを削減できます。本番ワークロードで実行可能な最小のデプロイは、次のとおりです。 専用マスターインスタンスなし M5.large ノードを備えた 2 ゾーンレプリケーション プイマリに 1 つのレプリカの使用 必要に応じたストレージ、最大 512 GB、データノード用の GP2 EBS ボリューム このデプロイでは、同じ […]

Read More

AWS Data Exchange で TruFactor のウェブセッションインテリジェンスをクエリ、視覚化、予測する

データは無限にあるという性質を考えると、ビジネスの洞察を得るために適切なデータセットを見つけることは困難な場合があります。さまざまなデータセットの中央リポジトリにアクセスして、クエリ、視覚化、予測を行うことで、ビジネスを改善できます。AWS Data Exchange により、適切なデータセットを見つけることがはるかに簡単になりました。例として、ウェブセッションの訪問と人口統計に関するデータセットを使用して、どの人口統計グループが最も頻繁にウェブサイトにアクセスするかを理解するのに役立ちます。その後、機械学習 (ML) モデルと訪問予測を使用してビジネスを改善できます。 AWS Data Exchange では、クラウドでサードパーティのデータを簡単に検索、サブスクライブ、使用できます。AWS Data Exchange 内でデータ製品をサブスクライブした後、AWS Data Exchange API、AWS CLI や AWS マネジメントコンソールを使用して、データを直接 Amazon S3 にロードできます。その後、分析から機械学習に至るまで、さまざまな AWS のサービスでインポートされたデータを分析できます。 この記事では、AWS Data Exchange 上の TruFactor Intelligence-as-a-Service データを紹介します。TruFactor の匿名化プラットフォームと独自の AI は、ワイヤレスキャリア、OEM、モバイルアプリから毎日 850 億以上の高品質の生信号を取り込み、フィルターにかけ、物理的およびデジタルの次元にわたる統合された「フィジタル」消費者グラフに変換します。TruFactor インテリジェンスは、アプリケーション対応で AWS アナリティクスまたは ML サービス内で使用でき、AWS で実行されているモデルやアプリケーションを強化します。追加の処理は必要ありません。一般的なユースケースは次のとおりです。 消費者セグメンテーション – 米国のインターネット閲覧行動に関するウェブインテリジェンスは、興味、意見、価値観、デジタル行動、感情などの消費者の全体像を提供し、顧客と競合他社のセグメンテーションを伝えます。 顧客獲得またはチャーンキャンペーン – インターネットの閲覧行動は、新しい見込み顧客の類似性の特性を特定できるだけでなく、競合他社のウェブサイトに切り替える可能性も特定できます。 このチュートリアルでは、TruFactor の Daily Mobile Web Session […]

Read More

IoT@Loft #9 IoTにおけるカメラ・動画の扱い方

IoT@Loft の第9回目は「IoTにおけるカメラ・動画の扱い方」をテーマに、初のオンライン開催を行いました。 見守りカメラや監視カメラ、ドライブレコーダーやロボットなど、IoTではカメラや動画を扱う様々なユースケースが存在します。一方で、デバイスやメディアを取り扱う際には、セキュリティやスケーラビリティなどのIoTならではの課題があります。また、Webカメラの普及や低価格化により、デバイスだけではなくサービスとしての差別化が必要になってきており、例えばクラウド側やエッジ側での認識技術などと組み合わせることによる付加価値の提供も重要です。 この回では、エッジAI処理カメラやIoT通信プラットフォームを提供されているソラコム様、防犯カメラのクラウドサービスを提供されているセーフィー様に登壇いただき、カメラデバイスや動画を扱うサービスやソリューションにおけるAWSのユースケースや課題についてお話しいただきました。また、AWSからは、IoTにおける動画ソリューションの構築方法やその事例について紹介しました。

Read More

ワイヤレスサービスプロバイダー向けの AWS でクラウドネイティブのネットワークパフォーマンス分析ソリューションを構築する

この記事では、AWS のサービスを使用してネットワークパフォーマンス分析ソリューションを構築するサーバーレスのクラウドベースアプローチを紹介します。従量課金制の AWS サービスでコストを抑えながら優れた柔軟性とパフォーマンスを提供できます。 ネットワークパフォーマンスが優れていないと、リアルタイムの低レイテンシーサービスと、顧客が使用する総帯域幅を増やすといった課題に直面するため、苦労することになります。 最適なパフォーマンスモニタリングのために毎秒取り込み、保存や処理を行う必要がある大量のデータを考えると、標準のオンプレミスモニタリングアプローチはもう効率的ではありません。 クラウドネイティブのアプローチでは、ビジネスバリューを生み出すソリューションに投資し、初期費用と過剰なインフラのプロビジョニングを避けることで、通常の資本支出モデルから運用支出モデルに移行できます。 モバイルサービスプロバイダー向けのデータおよび音声ネットワークの複雑さ Cisco のグローバルモバイルデータトラフィック予測によると、2023 年までにモバイル接続デバイスを 131 億台備え、そのうち 14 億台が 5G 対応であると予測されています。 モバイルサービスプロバイダーは、アクセスネットワークとコアネットワークにおける正確なネットワーク計画とサイズ調整を行う方法について理解している必要があります。 ネットワークスループットに対する世界的な需要の増加、およびモバイルネットワークでの VoLTE、IoT、ビデオストリーミングなどのサービス数の増加により、モバイルサービスプロバイダーは、目的のサービス品質 (QoS) に一致する新しいアーキテクチャを実装する必要性に迫られています。 統合ネットワークで多数のサービスを実行しているときに、最適な QoS に対処することは簡単な作業ではありません。ワークフローは複雑です。多数の異なるネットワーク要素からカウンターと統計データを収集することから始め、ネットワークを介して提供される複数のサービスのいずれかの品質にリンクできるよう、収集したデータを重要業績評価指標 (KPI) に変換します。 4G、5G、および IoT サービスの導入による最新のモバイルネットワークでは、テリトリーに導入されるセルの数が増加しているため、カウンターを収集し、何千もの異なるネットワーク要素で KPI を生成する必要があります。 すべてのネットワーク要素が数千のカウンターを生成できることを考えると、ネットワークパフォーマンスシステムは、すべての収集サイクルで数百万の測定値を管理する必要があります。 高コストのソリューションなしでは、オンプレミスデプロイで大規模の管理を行うことは困難です。代わりに、AWS サービスを使用して、通信サービスプロバイダー (TSP) のさまざまな部門ですべての要件をカバーする、最新のネットワークパフォーマンス分析ソリューションを設計できます。 データと音声のネットワークアーキテクチャ サービスプロバイダーとして直面する主な問題は、最新のモバイルネットワークによる複雑さです。これは、過去数十年間に進化を遂げてきた一部の通信規格 (データコアでは 2G から 5G、音声コアでは CS から VoLTE) と、ハードウェアやネットワーク要素の機能に由来しています。 次の図は、現在デプロイされているモバイルワイヤレスネットワーク要素の簡略化されたスキーマを示しています。 2G から 5G の範囲に必要なネットワーク要素を備えたネットワークにアクセス コアネットワークには、ネットワーク上のすべてのユーザーに対してサービス、認証、データベースを提供するために必要なすべての機能でのネットワーク要素が含まれています。 音声 (PSTN/PLMN)、インターネット […]

Read More

COVID-19 データの分析用のパブリックデータレイク

COVID-19 のパンデミックは、世界中に脅威をもたらし、命を奪い続けています。私たちはこの病気と戦うために組織や科学的分野を超えて協力する必要があります。数え切れないほどの医療従事者、医学研究者、科学者、公衆衛生担当者は、すでに最前線で患者の世話、治療法の探求、国民の教育、政策立案の手助けをしています。AWS は、COVID-19 の原因となるウイルスをよりよく理解および追跡し、対応を計画し、最終的に封じ込めて制圧するために必要なデータとツールをこれらの専門家に提供することが一助になることを信じています。 今日、私たちはパブリックの AWS COVID-19 のデータレイクを用意しました。このデータレイクは、新型コロナウイルス (SARS-CoV-2) とこれに関連する病気である COVID-19 の拡大と特性に関する、キュレーション済みの最新のデータセットを一元化したリポジトリです。世界的には、このデータを収集するためにいくつかの取り組みが進行中であり、当社はパートナーと協力して、この重要なデータを自由に利用できる状態にし、最新の状態に保てるように尽力しています。AWS クラウドでホストされており、ジョンズ・ホプキンズ大学とニューヨークタイムズからの COVID-19 のケーストラッキングデータ、Definitive Healthcare からの病院の病床の利用可能性、およびアレン人工知能研究所からの COVID-19 および関連するコロナウイルスに関する 45,000 を超える研究記事をキュレーションされたデータレイクに提供しています。その他の信頼できる情報源からデータが公開されれば、このデータレイクに定期的に追加していきます。 誰もがこの重要な情報に簡単にアクセスして実験できるようになることで、この病気との戦いに打ち勝つための飛躍的な進歩をより早く実現できます。AWS COVID-19 データレイクを使用すると、実験者は、利用可能なすべてのデータソースからデータを抽出してラングリングする時間を無駄にすることなく、所定の場所にあるデータについての分析を迅速に行うことができます。AWS またはサードパーティーのツールを使用して、傾向分析の実行、キーワード検索の実行、質問/回答分析の実行、機械学習モデルの構築と実行、またはカスタム分析の実行により、特定のニーズを満たすことができます。この戦いに関わるステークホルダーは独自の視点を持っているので、ユーザーは、このパブリックデータレイクを使うことも、このデータレイクを独自のデータと組み合わせて使うこともできますし、あるいは AWS Data Exchange 経由で提供されるソースデータセットを直接サブスクライブすることもできます。 私たちは、各地の保健当局が感染を追跡するためのダッシュボードを構築し、病院の病床や人工呼吸器などの重要なリソースを効率的に配給するために協力できると考えています。あるいは、疫学者は、独自のモデルとデータセットを補完して、ホットスポットや傾向についてのより優れた予測を取得できます。 たとえば、科学分野とテクノロジー分野のリーダーが協力して、病気の治療、予防、または管理を行う非営利団体である Chan Zuckerberg Biohub では、科学者が AWS COVID-19 データレイクを使用して新たな疫学的洞察を得ています。「私たちの研究チームは、COVID を疫学的により適切に予測するために、AWS COVID-19 データレイクのデータセットを独自のデータと組み合わせて活用することで、病気の広がり、その地理的側面、および時間発展の傾向を分析しています」と Chan Zuckerberg Biohub のデータサイエンスおよび情報技術担当の Vice President である Jim Karkanias 氏は述べています。 この投稿では、AWS COVID-19 データレイクを分析に使用する方法の例を紹介します。このデータレイクは、パブリックに読み取り可能な Amazon […]

Read More

AWS Lake Formation と Amazon RDS for SQL Server の統合

 ビジネスを成長および発展させるには、無数のソース (リレーショナルデータベース、NoSQL データベース、クリックストリーム、IoT イベントなど) からデータを収集し、分析を用いてそのデータを組み合わせて洞察を抽出する必要があります。AWS Lake Formation により、さまざまなソースからのデータを Amazon S3 に基づくデータレイクに取り込むことがでるようになります。さらに、Lake Formation を使用すれば、単一の場所からこのデータへのアクセスが制御できます。 この投稿では、Lake Formation ブループリントを使用して Amazon RDS から Amazon S3 のデータレイクにデータを取り込む方法と、Amazon Athena から抽出されたデータに対して SQL クエリを実行するための列レベルのアクセス制御を行う方法を示します。 ブループリント とは、データをデータレイクに簡単に取り込むことができるデータ管理テンプレートです。Lake Formation は、リレーショナルデータベースや AWS CloudTrail ログなど、予め定義されたソースタイプごとにいくつかのブループリントを提供します。ブループリントから、ワークフローを作成できます。ワークフローは、AWS Glue クローラー、ジョブ、およびデータのロードと更新を調整するトリガーで構成されています。ブループリントは、データソース、データターゲット、およびスケジュールを入力として取り、ワークフローを設定します。 Lake Formation の詳細については、「AWS Lake Formation: How It Works」をご参照ください。 チュートリアルの概要 データレイクは、集中管理された安全なリポジトリで、すべてのデータを元の形式のデータと分析のためにデータの両方を保存します。データレイクを使用すると、データサイロを分解し、さまざまなタイプの分析を組み合わせて、洞察を得たり、より適切なビジネス上の意思決定に導くことができます。 Lake Formation を使用すると、安全なデータレイクを簡単にすばやく設定できます。このチュートリアルには、次の手順が含まれています。 S3 バケットをデータレイクストレージとして登録する データを表すテーブルを保持する論理データベースを作成する Amazon RDS for […]

Read More