Amazon Web Services ブログ

AWS について学ぶ – 11 月の AWS オンラインテックトーク

 AWS オンラインテックトークは、様々な技術レベルで幅広いトピックをカバーするライブでのオンラインプレゼンテーションです。 今月は、AWS のサービスとソリューションについて学びましょう。ご質問があれば、オンラインで専門家がお答えします。 今月の特集! テックトークをチェック: Virtual Hands-On Workshop: Amazon Elasticsearch Service – Analyze Your CloudTrail Logs、AWS re:Invent: Know Before You Go、AWS Office Hours: Amazon GuardDuty Tips and Tricks いますぐ登録を! 注意 – すべてのセッションは無料で、太平洋時間です。 今月のテックトーク: AR/VR 2018 年 11 月 13 日 | 午前 11:00 ~ 12:00 (太平洋時間) – How to Create a Chatbot Using Amazon […]

Read More

リソースレベルの IAM アクセス許可とリソースベースのポリシーで、AWS Glue データカタログへのアクセスを制限する

データレイクはあらゆる規模で構造化および非構造化データを格納するために使用できる集中リポジトリを提供します。データレイクには、未加工のデータセットと整理され、クエリ用に最適化されたデータセットの両方を格納できます。未加工のデータセットは本来の形式で、素早く取り込むことが可能で、事前定義されたスキーマに無理矢理押し込める必要がありません。データレイクを使用すると、未加工と整理されたデータセットの両方に異なるタイプの分析を実行できます。データレイクのストレージレイヤーに Amazon S3 を使用することで、バケットとオブジェクトレベルの両方を細かくコントロールできるようになります。レイクのデータセットのアクセスコントロールポリシーを定義するためにこれらを使用できます。 AWS Glue データカタログは、永続型のフルマネージドメタデータストアで、AWS のデータレイクに使用できます。Glue データカタログを使用することで、Apache Hive Metastore で実行するのと同じ方法で AWS クラウドでもメタデータの保存、注釈の付与、共有を実行できます。Glue データカタログはまた、Amazon Athena、Amazon EMR、Amazon Redshift Spectrum などと、シームレスで、細かな設定の不要な統合を実現できます。 AWS Glue を使用することで、ユーザー、ロールをベースにした、または、リソースレベルに適用した、カタログの異なる部分へのアクセスを制限するポリシーの作成も可能です。これらのポリシーを使って、どのユーザーがデータレイク内で種々のメタデータ定義にアクセスできるかを詳細にコントロールできます。 重要: S3 および AWS Glue データカタログのポリシーは、それぞれ、データとメタデータ定義のアクセス許可を定義します。言い換えれば、AWS Glue データカタログのポリシーは、メタデータへのアクセスを定義し、S3 ポリシーはコンテンツそのものへのアクセスを定義します。 GetDatabases、GetTables、CreateTable、およびその他の個人識別ベースのポリシー (IAM) を使用して、どのメタデータを操作できるようにするか制限できます。また、その操作で実行するデータカタログオブジェクトも制限できます。さらに、結果の呼び出しで戻されるカタログオブジェクトを制限できます。ここで言う Glue データカタログの「オブジェクト」とは、データベース、テーブル、ユーザー定義の関数、または Glue データカタログに格納された接続を指します。 データレイクの本番環境のデータベースとテーブルに読み取りアクセスが必要で、他にはリソースを開発するための追加的なアクセス権限があるユーザーがいるとします。また、未加工データのフィードとビジネスインテリジェンス、分析、機械学習などのアプリケーションで使用された整理済みのデータセットの両方を格納するデータレイクがあるとします。これらの構成を簡単に設定でき、AWS Glue データカタログのアクセスコントロールメカニズムを使用して、他のものも多数簡単に設定できるようになります。 注意: 以下の例では、AWS Glue データカタログでポリシーをセットアップする方法について解説します。関連付けられた S3 バケットやオブジェクトレベルのポリシーは設定しません。これは、Athena、EMR、AWS Glue データカタログと統合されるツールの使用時、メタデータが検出できないことを意味します。誰かが S3 オブジェクトに直接アクセスしようとしたときに、S3 ポリシーが強制されることが重要です。データカタログと S3 バケットまたはオブジェクトレベルのポリシーを一緒に使用する必要があります。 […]

Read More

Camp re:Invent Trivia Challengeに参加してください

AWS re:Invent 2018まで3週間を切った中で、同僚と私は、地球上で最高の教育イベントを生み出すためにこれまで以上に努力をしています! 複数の主要点、2000以上のセッション、ブートキャンプ、チョークトーク、実践的なワークショップ、ラボ、そしてハッカソンから選択することで、あなたがここに到着したときよりもラスベガスの情報をより良く伝えられることを確信しています。 私にChallenge 今日、AWSの知識を新しい形で使用する機会についてお話したいと思います。今すぐ申し込み、Camp re:Invent Trivia Challenge(11月28日午後7時、ヴェネツィアシアター)に参加してください。AWSに関する質問に答えたり、楽しい時間を過ごしたり、限定版Camp re:InventやJeff Barrのピンを手にすることで、私と競争する機会があります。何を勉強したいのか、どのように準備するのかが分からないので、本当にすごく面白いことが起こります。 チャレンジしよう、おいしいもののために立ち寄ろう ちなみに、様々なイベントや特定のセッションに参加することで獲得できる60以上のAWSピンに加えて、パートナーとスポンサーからそれらを得ることができます。他のre:Invent参加者とピンを交換することもできます。これは、獲得できる、見つけられる、または取引できるピンのほんの一部です(非公式@reinventPartiesリスト経由): また、私は新しくて可愛いステッカーをいくつか持っていきます: ラスベガスでお会いしましょう ラスベガスでファンやお友達と会うのを楽しみにしています。私は週に多くの課題を持っていますが、いつも立ち止まって挨拶する時間はあります。どうか恥ずかしがり屋にならないでください! — Jeff;

Read More

AWS IoT とサーバーレスデータレイクを使用したフロントライン脳震盪モニタリングシステムの構築方法 – パート 2

本シリーズのパート 1 では、データレイクをサポートするデータパイプラインの構築方法について説明しました。そのために、Amazon Kinesis Data Streams、Kinesis Data Analytics、Kinesis Data Firehose、および AWS Lambda などの AWS の主なサービスを使用しました。パート 2 では、主要分析を使って実用的なデータを作成するサーバーレスデータレイクを作成することによってデータを処理し、可視化する方法について説明します。 サーバーレスデータレイクの作成と、AWS Glue、Amazon Athena、および Amazon QuickSight を使用したデータの調査 パート 1 で説明した通り、心拍数データは Kinesis Data Streams を使用して Amazon S3 バケットに保存できます。しかし、リポジトリにデータを保存するだけでは十分ではありません。分析のための有意義なデータを抽出できるように、リポジトリに関連する関連メタデータをカタログ化し、保存することができる必要もあります。 サーバーレスデータレイクには、完全マネージド型のデータカタログおよび ETL (抽出、変換、ロード) サービスである AWS Glue を使用できます。AWS Glue は、困難で時間のかかるデータ検出、変換、およびジョブスケジュールのタスクを簡素化し、自動化します。AWS Glue Data Catalog のデータを最適なパフォーマンスのためにパーティション分割して圧縮すると、S3 データへの直接クエリのために Amazon Athena を使用できます。その後、Amazon QuickSight を使用してデータを可視化できます。 以下の図は、このデモで作成されるデータレイクを表しています。 今現在、Amazon S3 […]

Read More

AWS Glue を使用することによってオンプレミスデータストアにアクセスして分析する方法

AWS Glue は、データのカタログ化、クリーニング、強化を行い、様々なデータストア間で確実に移動させる完全マネージド型 ETL (抽出、変換、ロード) サービスです。AWS Glue ETL ジョブは、AWS 環境の内外にある多種多様なデータソースとやり取りすることができます。ハイブリッド環境での最適な運用には、AWS Glue に追加のネットワーク、ファイアウォール、または DNS 設定が必要になる場合があります。 この記事では、一般的なデータレイクの取り込みパイプラインをシミュレートする、AWS Glue を使用したデータの変換と、オンプレミスデータストアから Amazon S3 へのデータの移動のためのソリューションについて説明します。AWS Glue は、Amazon S3 と、Amazon RDS、Amazon Redshift、または Amazon EC2 で実行されているデータベースなどの Virtual Private Cloud (VPC) に接続できます。詳細については、「データストアに接続を追加する」を参照してください。AWS Glue は、PostgreSQL、MySQL、Oracle、Microsoft SQL サーバー、および MariaDB などの各種オンプレミス JDBC データストアにも接続できます。

Read More

AWS IoT とサーバーレスデータレイクを使用したフロントライン脳震盪モニタリングシステムの構築方法 – パート 1

 スポーツ関連の軽度外傷性脳損傷 (mTBI) は、医学界、スポーツ界、そして子育てコミュニティの異なるグループの中で懸念を生じ続けています。アメリカでは、レクリエーションレベルで毎年約 160~380 万件の mTBI 事故が起こっており、そのほとんどが病院で治療を受けていません。(その他のリソースにある「The epidemiology and impact of traumatic brain injury: a brief overview」を参照してください。) 軽度外傷性脳損傷の医療および間接的な費用の推定額は、毎年 600 億 USD に上っています。 北アメリカの救急医療施設では、入院患者の外傷性脳損傷 (TBI) ケースに関するデータを収集していますが、スポーツ選手たちの中で起こった未報告の mTBI の件数について、意味のあるデータはありません。最近の研究では、スポーツ関連の mTBI について、多くの要因による極めて高い過小報告率が示されています。これらの要因には、チームスタッフが単に兆候や症状を認識できない、またはその影響を実際に目にしていないことが含まれます。(その他のリソースにある「A prospective study of physician-observed concussions during junior ice hockey: implications for incidence rates」を参照してください。) ホッケーやフットボールの選手の大部分は、大学の選手でもなければ、プロの選手でもありません。ユースホッケーの選手は 300 万人を超え、約 500 万人がフットボールに参加登録しています。(その他のリソースにある「Head Impact Exposure in Youth Football」を参照してください。) これらのレクリエーション選手たちには、脳震盪の認識、サイドラインでの外傷評価における訓練を受けた医療スタッフへの基本的なアクセスがありません。利用しやすい測定とスマートフォンベースの評価ツールは、頭部外傷の可能性の特定、評価、および競技復帰 (RTP) […]

Read More

Amazon EMR および IoT センサーネットワークで Apache Flink の複合イベント処理を使用したリアルタイムの山火事警告

 山火事は、1 年のうち、気候が暑く乾燥している温暖な月に頻繁に発生します。オーストラリアおよび米国といった国々は、人々の生活と土地に甚大な傷跡を残す山火事によって大きな影響を受けています。長年の間、山火事の予測は様々な研究プロジェクトの研究テーマとされてきました。これらのプロジェクト多くが、複雑な機械学習アルゴリズムを使用します。これらのアルゴリズムは、特定の地理的地域におけるリアルタイムの火の延焼から山火事を予測することを学びます。 このブログ記事では、IoT からリアルタイムで受信する温度イベントを通じて潜在的な山火事のパターンを検知し、E メールでアラートを送信するために、Apache Flink の複合イベント処理 (CEP) によって提供されるイベント処理パラダイムを使用します。監視対象地域のリアルタイムでのヒートマップ可視化も、モニタリング目的のために統合されています。 この記事では、以下の AWS のサービスを使用します。 Amazon EC2 インスタンス: IoT シミュレーター AWS IoT Core: IoT メッセージゲートウェイ Amazon Kinesis Data Streams: 耐久性のあるメッセージキュー Apache Flink をインストールした Amazon EMR: ストリーミングデータ処理エンジン Amazon SNS: アラート生成 Amazon Elasticsearch Service: アラートストレージおよび可視化プラットフォーム AWS CloudFormation: 開始から終了までのスタックの作成とデプロイメント

Read More

Annalect が Amazon Redshift を使ってイベントログデータ分析ソリューションを構築した方法

ほぼリアルタイムでイベントログデータをデータウェアハウスに取り込み、分析することは困難な作業です。データインジェストは、高速かつ効率的である必要があります。データウェアハウスは、受信データボリュームを処理するために迅速にスケールできなければなりません。アクセス頻度の低い大量の履歴データをデータウェアハウスに保存するためのコストは、とてつもなく高額です。データウェアハウス外にアクセス頻度の低いデータを保存する場合、ロード時間が許容できない長さになります。 Annalect では、これらの課題を克服する方法を見いだしました。この記事では、Annalect が、広告テクノロジーパートナーからのイベントログデータを管理、強化、そして分析するために、どのように AWS でソリューションを構築したかについて説明します。Annalect では、ストレージ用に Amazon S3、コンピューティング用に Amazon EC2 と AWS Batch、データのカタログ化に AWS Glue、そして分析用に Amazon Redshift と Amazon Redshift Spectrum を使用しています。このスケーラブルなオンデマンドのアーキテクチャは、Annalect の分析ユーザーに対する高パフォーマンスソリューションであり、かつコスト効率性が極めて高いことが明らかになりました。

Read More

EMR – Sqoop を使用して RDBMS またはオンプレミスデータを EMR Hive、S3、および Amazon Redshift に移行する

 このブログ記事では、AWS のお客様が Apache Sqoop ツールの使用によって利益を得る方法について説明します。このツールは、データをリレーショナルデータベース管理システム (RDBMS) から AWS の EMR Hadoop Distributed File System (HDFS) にインポートし、データを Hadoop で変換して、それをデータウェアハウス (例: Hive または Amazon Redshift) にエクスポートするために設計されています。 Sqoop ツールのデモを行うために、この記事では以下の 3 つのシナリオにおいて、Amazon RDS for MySQL をソースとして使用し、データをインポートします。 シナリオ 1 — AWS EMR (HDFS -> Hive および HDFS) シナリオ 2 — Amazon S3 (EMFRS)、次に EMR-Hive シナリオ 3 — S3 (EMFRS)、次に […]

Read More

Amazon SageMaker ノートブックインスタンスのためのライフサイクル設定の更新

Amazon SageMaker では顧客が更新された API を使用して、ノートブックインスタンスのライフサイクル設定を更新するか、関連付けを解除できるようになりました。 ノートブックインスタンスを停止して、ノートブックインスタンスのライフスパンの任意の時点で UpdateNotebookInstance API を使用することで、必要に応じて、ライフサイクル設定を関連付けるか、切り替えるか、または無効にすることができます。 ライフサイクル設定 は、ノートブックインスタンスでデータ科学ワークスペースを構築するときに必要なセットアップを整理して、自動化するときに便利です。 ノートブックインスタンスが開始するたびに、タスクのリストを実行できます。ライフサイクル設定を使用して、ノートブックインスタンスにパッケージやサンプルノートブックをインストールするか、データを事前ロードするか、ネットワークやセキュリティを設定するか、シェルスクリプトを使用してそれをカスタマイズすることができます。ライフサイクル設定を作成した後で、それを複数インスタンスで使用するか、将来の使用のために保存することができます。 以前、ノートブックインスタンスを初めて作っているときに割り当てた1つである場合のみ、ライフサイクル設定を使用できます。また、ノートブックインスタンスを削除することによってのみ、ライフサイクル設定を無効にできます。UpdateNotebookInstance API を使用して、ノートブックインスタンスのこれらのライフサイクル設定を 更新するか、関連付けを解除できるようになりました。 AWS コンソールのライフサイクル設定を更新する方法は、次のとおりです。 まず、設定の更新のために、実行中のインスタンスを停止する必要があります。それを停止した後で、設定の更新が有効になったことがわかります。 Update setting (設定の更新)をクリックして、メニューを使用してライフサイクル設定に進み、既存の設定を切り離すか、別のものに置き換えます。 API 要求パラメータを示す例は、以下のとおりです。 { “DisassociateLifecycleConfig”: boolean, “InstanceType”: “string”, “LifecycleConfigName”: “string”, “NotebookInstanceName”: “string”, “RoleArn”: “string” } パラメータの詳細な説明については、ここに示した Amazon SageMaker API ドキュメンテーションページにアクセスできます。https://docs.aws.amazon.com/sagemaker/latest/dg/API_UpdateNotebookInstance.html.   著者について Erkan Tas は、Amazon SageMaker のシニアテクニカルプロダクトマネージャーです。彼は、AWS プラットフォームを使用して、人工知能を簡単に、アクセス可能に、スケーラブルにするという役割を担っています。また、彼は船乗りであり、科学と自然を崇拝し、碁やストラトキャスターのプレイヤーでもあります。        

Read More