Amazon Web Services ブログ

Category: Analytics

【開催報告】AWS 上でのデータ活用ワークショップ

こんにちは。AWS ソリューションアーキテクトの上原誠 (@pioho07) です。 3月14日のホワイトデーに、AWS上でのデータ活用ワークショップを開催いたしました。 直前のご案内にもかかわらず80名ほどのお客様にご参加頂きました。   まずはソリューションアーキテクトの八木より、データ活用のための一般的なDataLakeの考え方について触れ、ラムダアーキテクチャの解説を行いその優位性を説明しました。その後でAWS上でこられらを実現するためのAWSの各サービス Amazon S3 や Amazon Elasticsearch Service や Amazon Kinesis などを紹介し、アーキテクチャー図と共に解説を行いました。     次に、私上原からラムダアーキテクチャーを使ったDataLakeを構築するハンズオンを実施しました。まだデータ量は大きくないが、今後増え続けるデータに対してデータ活用を始めていきたい!そんな方がすぐに実践で使えるようなサービスやサービスの組み合わせを意識した内容にいたしました。       また、ハンズオン後に実施したソリューションアーキテクトによる個別相談会にも多くのお客様にご参加頂きました。 アンケートでも励みになるお言葉を頂けました。 無料で受けたセミナーなのにとても充実していてすごいと思った 内容が事業会社のエンジニア向けと感じた 次回は夏ごろに開催予定です。ご応募是非お待ちしております。      

Read More

Pgpool と Amazon ElastiCache を使って Amazon Redshift でクエリーキャッシュを実現する

Felipe Garcia と Hugo Rozestraten は  Amazon Web Services の  Solutions Architect です。 この記事では、実際のお客様の事例をもとに、Amazon Redshift の前段に pgpool と Amazon ElastiCache を使ってキャシングレイヤを構築する方法を紹介します(訳注:原文執筆時にはRedshiftにキャッシュ搭載されていなかったのですが、現在はRedshiftには結果キャッシュの機能が備わっているため、キャッシュするだけのためにこのようなソリューションを作成する必要はありません。しかしpgpoolはキャッシュ以外にも利用できる柔軟なソリューションであり、それを分かりやすく示している資料として価値があるため、翻訳記事を掲載しています) 近年、業務アプリケーションはほとんどの場合データベースの利用を想定して構築されます。SQLによるデータベースへのクエリは広く普及した技術ですが、エンドユーザとアプリケーション間の協調を意識しないアーキテクチャ設計が、まったく同一のクエリの複数回実行といった無駄な処理を時として発生させます。このような冗長な処理は計算資源の無駄遣いであり、こういった無駄を省くことができれば他の処理に計算資源を有効活用することができるようになります。 キャッシュとは コンピュータ用語としてのキャッシュは、将来発生し得るリクエストに迅速に回答するためにデータを事前に蓄積しておくハードウェアコンポーネントまたはソフトウェアコンポーネントを指します。また、必要なデータがキャッシュの中に見つかることをキャッシュヒットといい、必要なデータがキャッシュの中に存在しないことをキャッシュミスといいます。キャッシュの存在により、重い計算の再実行や遅いデータストアからの読み出しが発生しなくなり、高速に結果を得られるようになります。より多くの要求がキャッシュで処理できれば、システムはより高いパフォーマンスを発揮することができます。 お客様事例:臨床研究での遺伝子情報の検索 この事例では、6-10名程度からなる科学者のチームが200万からなる遺伝子のコードの中から特定の遺伝子変異を探し出します。特定の遺伝子変異に隣接する遺伝子も重要な遺伝子で、これらにより異常や病気などが特定できるようになります。 科学者たちは、1つのDNAサンプルをチームで同時に解析し、その後ミーティングを開き自分たちの発見について議論し、結論へと到達します。 この事例では、Node.js のウェブアプリケーションにロジックを実装し、Amazon Redshift にクエリを発行しています。Amazon Redshfit に直接接続したアプリケーションでは、クエリのレイテンシは約10秒でした。アーキテクチャを変更しpgpoolを使用するようにしたところキャッシュにヒットした際に1秒未満で同一のクエリの結果を得られるようになりました。(言い換えると、キャッシュヒット時に10倍高速に応答できるようになりました。) (訳注:現時点ではRedshiftに結果キャッシュの機能が存在するため、こういった仕組み無しでもキャッシュヒット時に高速な応答が実現されています) Pgpoolの紹介 Pgpool はデータベース・クライアントとデータベース・サーバの間で動作するソフトウェアです。リバースプロキシとして動作し、クライアントからの接続要求を受け、サーバへとそれをフォワードします。もともと PostgreSQL のために書かれており、キャッシング以外にも、コネクションプーリング、レプリケーション、ロードバランシング、コネクションキューイングといった機能を備えます。本稿では、キャッシング機能のみを検証しています。 Pgpool は、Amazon EC2 上でも、オンプレミス環境でも動作させることができます。たとえば、開発やテスト目的でEC2のシングル構成をとるこもできますし、本番環境のために Elastic Load Balancing 、Auto Scaling 構成のEC2複数台構成をとることもできます。 臨床研究の事例では、psql(コマンドライン)と Node.js アプリケーションから Amazon Redshift に対してクエリを発行していて、実際に期待通りに動作することが確認できています。ご自身の環境に適用する場合には、十分な検証を経た上での採用をおすすめいたします。   […]

Read More

[AWS Black Belt Online Seminar] データウェアハウスのAWSへの移行 資料及びQA公開

こんにちは、ソリューションアーキテクトの有岡です。 先日(2018/3/19)開催致しました AWS Black Belt Online Seminar「データウェアハウスのAWSへの移行」の資料を公開いたしました。当日、参加者の皆様から頂いた QA の回答と併せてご紹介致します。

Read More

Amazon CloudWatch を使用して、自動アラーム付き Amazon Elasticsearch Service ドメインの運用効率を向上させる

顧客は、複数の Amazon Elasticsearch Service (Amazon ES) ドメインを適切に作成および実行して、製品、注文、サポートドキュメントに対するビジネスユーザーの検索ニーズ、および増加している同様のニーズのサポートで成功しています。このサービスは、組織全体で頻繁に使用されています。  これにより、ピーク時に 100% の容量で動作するドメインがいくつか発生し、ストレージスペースが不足し始めたドメインもありました。このように使用量が増えたため、テクニカルチームはサービスレベル契約を守れなくなる危険性がありました。  彼らは私に支援を求めました。 この記事では、自動アラームを設定して、ドメインに注意が必要なときに警告する方法を示します。

Read More

DeNA TechCon 2018 – AWS IoTを用いたDeNAオートモーティブアーキテクチャ

AWS IoTを用いたDeNAオートモーティブアーキテクチャ   先日、2018年2月7日に、渋谷ヒカリエにて開催された、DeNA TechCon 2018におきまして、「AWS IoTを用いたDeNAオートモーティブアーキテクチャ」と題した、DeNAの放地宏佳様による講演がありました。 AWS IoTをふんだんに活用して、Vehicle Architecture on AWSを実現されている舞台裏に関し、車両情報管理基盤の話を中心に、詳細な内容を発表いただきました。 車載デバイスから車両管理情報を収集して、車両情報集約基盤へと連携している具体的なワークフロー デバイス認証にどのような実装を施して、AWS IAMとのスムーズな連携を行なっているのかの詳細な解説 ビジネス要求の変化に柔軟に対応できるよう、拡張性を考慮したデバイスシャドウとルールエンジンの組み合わせによる利用の工夫 バックエンドのElasticsearchへのindexingのしやすさを考慮したデバイスシャドウのアトリビュート設計に対する工夫 もちろん、この他にも様々なAWSを活用いただいた事例を、Deep Learningや機械学習など、多くのセッションで触れていただいております。 ぜひ皆様にも、DeNA TechCon 2018のイベントページに訪れて、それぞれのセッションスライドに目を通していただきたいです。 DeNA様、放地様、素晴らしいカンファレンスと発表を、本当にありがとうございました!   ソリューションアーキテクト 半場光晴

Read More

Amazon Redshift – 2017 まとめ

Amazon Redshift に新しい特徴や機能を追加することに忙しかったので、この 1 年間で何をしてきたのかをまとめたいと考えています。この記事では、いくつかの機能拡張をまとめ、Amazon Redshift の実装を学び、最大限に活用するためのリソースを提供します。 2017 年には、Amazon Redshift に関して 30 件以上の発表を行いました。お客様の声に耳を傾けて、Amazon Redshift の機能である Redshift Spectrum を提供しました。これにより、データを移動することなく、データレイクに分析機能を拡張することができます。新しい DC2 ノードを開始し、同じ価格で性能を倍増させました。また、スケーラビリティの拡張、パフォーマンスの向上、自動化の強化、およびアナリティックワークロードの管理を容易にする方法など多くの新機能も発表しました。 ローンチの完全なリストを見るには、最新情報ページをご覧ください。RSS フィードの登録もお忘れなく。

Read More

2018年3月のAWS Black Belt オンラインセミナーのご案内

こんにちは。ソリューションアーキテクトの石井です。2018 年 3 月の AWS Black Belt オンラインセミナーの配信についてご案内をさせて頂きます。 2018 年 3 月の BlackBelt セミナーでは、ソリューションカットとして、働き方改革を実現するための AWS の VDI やオンラインミーティングサービス、Well-Architected Framework を活用したコスト最適化、データウェアハウスの AWS クラウドへの移行方法、AWS IoT でのデバイス管理・運用をする際に検討すべきポイント、などをご紹介します。 サービスカットでは、機械学習モデルの開発・学習・推論を素早く簡単に行うための Amazon SageMaker、ストレージとコンピューティング機能を備えた 100TB のデータ転送デバイス AWS Snowball Edge、動画ストリーミングを低遅延で分析処理に配信するための Amazon Kinesis Video Streams など、盛り沢山でお送りします。 なお、2018 年 3 月の BlackBelt セミナーは通常の火・水以外の変則的な開催日もございますのでご注意下さい。 3 月の開催予定 ソリューションカット 3/6(火)12:00-13:00 働き方改革を実現する AWS のエンドユーザーコンピューティングサービス 3/13(火)12:00-13:00 Well-Architected Framework によるコスト最適化 3/19(月)12:00-13:00 […]

Read More

Realtor.com が、AWS CloudTrail および Amazon QuickSight によって Amazon Athena の使用状況を監視する方法

これは、Realtor.com のスタッフデータエンジニアである Ajay Rathod 氏の寄稿です。 Realtor.com は、同社の説明によれば「Move、Inc. が運営する Realtor.com® は、住宅の購入者、売り手、いつか購入を夢見ている人にとって信頼できるリソースです。競合する全国のサイトの中で販売用物件に関する最も総合的なデータベース、情報、ツール、専門家の専門知識を提供し、人々が自宅を手に入れるまでのあらゆるステップを自信を持って進めるように支援します。」 Move, Inc. は、日付や時間で区分された数百万テラバイトのデータを処理します。さまざまなチームがこのデータに対して何百ものクエリを実行します。Move, Inc. は、AWS のサービスを利用して、データの収集および分析のためのインフラストラクチャを構築しました。 データは、様々な情報源から取得します。 Amazon Kinesis と AWS Data Pipeline を使用して Amazon S3 データレイクにデータをロードします。 ストレージとその後のクエリの有効性を高めるために、データは Parquet 形式に変換され、再度 S3 に保存されます。 Amazon Athena は、S3 のデータを照会する SQL (Structured Query Language) エンジンとして使用されます。Athena は使いやすく、多くの場合、さまざまなチームによって速やかに採用されます。 チームは、Amazon QuickSight でクエリ結果を可視化します。Amazon QuickSight は、データを迅速かつ簡単に可視化したり、アカウント内の他のユーザーと共同作業を行うことがでるビジネス分析サービスです。 データアクセスは、AWS Identity and Access Management (IAM) ロールによってコントロールされます。

Read More

AWS Cloudtrail Logs を AWS Glue と Amazon Quicksight 使って可視化する

AWS CloudTrail ログを簡単に視覚化できることは、AWS インフラストラクチャがどのように使用されているかについてより良い理解を提供してくれます。また、AWS API コールの監査とレビューを行って、AWS アカウント内のセキュリティ異常を検知するためにも役立ちます。これを行うには、CloudTrail ログに基づいた分析を実行できる必要があります。 この記事では、Amazon S3 内の AWS CloudTrail ログを JSON 形式からクエリ用に最適化された形式のデータセットに変換するための AWS Glue と AWS Lambda の使用について詳しく説明します。その後、Amazon Athena と Amazon QuickSight を使用してデータをクエリし、視覚化します。 ソリューションの概要 CloudTrail ログを処理するには、以下のアーキテクチャを実装する必要があります。 CloudTrail は Amazon S3 バケットフォルダにログファイルを配信します。これらのログを正しくクロールするには、S3 バケットの単一フォルダ内に変換済みファイルを格納する Amazon S3 によってトリガーされる Lambda 関数を使ってファイルコンテンツとフォルダ構造を変更します。ファイルが単一のフォルダ内にある場合、AWS Glue はデータをスキャンし、それを Apache Parquet フォーマットに変換して、Amazon Athena と Amazon QuickSight を使用したクエリと視覚化を可能にするためにカタログ登録します。   チュートリアル ソリューションを構築するために必要なステップを見て行きましょう。 CloudTrail ログのセットアップ 最初に、S3 バケットにログファイルを配信する証跡をセットアップする必要があります。CloudTrail […]

Read More