Amazon Web Services ブログ

Amazon Athena を使用したクロスアカウントの AWS Glue データカタログ

多くの AWS のお客様は、複数アカウント戦略を用いています。一元化された AWS Glue データカタログは、異なるアカウント間におけるメタデータの共有に関連する管理の量を最小化するために重要です。この投稿では、Amazon Athena が異なる AWS アカウント間で一元化されたデータカタログをクエリすることを可能にする機能を紹介します。 ソリューションの概要 2019 年後半、AWS は、Amazon Athena を Apache Hive Metastore に接続する機能を導入しました。この機能により、別のアカウントのデータカタログをポイントするように Athena を設定することもできます。Hive Metastore 機能は、AWS Lambda 関数を使用して、選択したデータカタログにクエリをフェデレーションします。この同じ機能で、カタログクエリを別のアカウントのデータカタログにプロキシできます。 次の図は、2 つの異なるアカウントで使用される必要なコンポーネントと、Athena を使用したクロスアカウントの Glue データカタログアクセスのためのアカウント間のフローを示しています。 このチュートリアルでは、Athena クエリを実行するのと同じアカウント (アカウント B) で Lambda 関数を作成します。リソースポリシーを使用して Lambda 関数にクロスアカウントアクセスを許可します。これにより、アカウント B の関数がアカウント A のデータカタログをクエリできます。アカウント B のユーザーは、テーブルがポイントし、Lambda 関数を実行するためのアクセス権を有する Amazon S3 リソースへのアクセス権を持っている必要があります。Lambda 関数の実装の詳細は、Github リポジトリを参照してください。 この投稿では、Lambda 関数およびその関数の読み取り専用 IAM […]

Read More

NeurIPS 大会が気候データの課題に取り組む

地球の気候は非常に複雑で動的なシステムです。異なる気候変数がどのように相互作用するかを理解し、予測することは困難です。今日の気候研究で因果関係を見つける作業は、主に高価で時間のかかるモデルシミュレーションに依存しています。幸いなことに、大規模な気候データの利用可能性が爆発的に増加し、クラウドを介した計算能力が向上しているため、機械学習 (ML) と因果推論を使用して、降雨や海水温などの気候データの関係を理解するための新しい補完方法があります。この理解は、天気予報を改善し、ハリケーンや竜巻などの極端なイベントの原因を特定するのに役立ちます。進歩を加速するために、AWS は 2019 年に NeurIPS で気候の因果関係 (C4C) 大会を後援しました。この大会は気候データを理解するための新しい方法論における原因の発見と開発に焦点を当てており、承認された NeurIPS 2019 の大会 12 個のうち 1 つでした。Jakob Runge とドイツ航空宇宙センターの同僚とバレンシア大学の協力者によって組織されました。 機械学習は、厳格な統計モデルを前提とするのではなく、気候データの特性を学習して適応する柔軟な方法を提供します。これは、複数のサブコンポーネント間の相互依存性を示す気候データの複雑な性質を考える上で重要なことです。気候観測の量がかつてないほど増えたとしても、パターンを見つけてデータ間の複雑な関係を特定することは困難です。大会の目標は、新しいベンチマークを開発し、現実世界の気候課題に適用できる新しい方法を見つけることでした。参加者には、気候データ (降水量、湿度、温度など) と AWS クレジットを特徴とする時系列データセットが提供されます。ここで新しい方法論を発見し、気候データを分析するための新しい学際的研究を開くことを目指しました。 最優秀賞は、コペンハーゲン大学数学科学部のコペンハーゲン因果関係研究所の博士号と博士研究員のチームに贈られました。彼らは 34 個の異なるデータセットを使用し、変数間の因果関係を特定することを目的としていました。チームはシンプルなベースラインアプローチから始め、新しいバリエーションを導入して綿密に結果を監視し、競技トラック全体で最高のパフォーマンスを発揮した方法を特定しました。全体的に、気候データはブラインドで、参加者は異なる時系列がどの測定に対応するかを知らなかったため、先入観が含まれる仮説や仮定に影響されることなく、最良の方法論を最適化できました。詳細については、GitHub リポジトリを参照してください。 コペンハーゲン大学の博士研究員である Sebastian Weichwald 氏は、次のように述べています。「現代の最も差し迫った問題の 1 つに集中するようにコミュニティの意識を高めることは、このような大会の利点ですね」「大会データの背後にあるものを見つけることにわくわくしています。次の手順として、私たちが採用した方法がこの大会でうまくいった理由をさらに調査し、繰り返し続け、最終的に持続可能性と気候科学に影響を与える方法を学びたいと思います」 コペンハーゲン大学の優勝チームです。左から: Lasse Petersen、Nikolaj Thams、Phillip Bredahl Mogensen、Sebastian Weichwald、Gherardo Varando、Martin Emil Jakobsen。 ゲント大学 (ベルギー)、パレルモ大学 (イタリア)、バーリ大学 (イタリア)、ローマ・ラ・サピエンツァ大学 (イタリア) の教授と博士で構成されるチームは、気候相互作用の非線形性に焦点を当て、2 位として受賞しました。その方法は、カオスシステムの理論に影響を受けました。この理論は、天気を研究するところから生まれました。天気は、数日後の天気を予測できないカオスシステムです。チームは、これらの動的機能をより適切にとらえるアプローチを使用しました。そのため、カオス非線形データセットを含むカテゴリで成功しました。天気予報を予測するためのより良いツールの開発に取り組むことで、気候変動や極端な気象現象を理解できます。詳細については、GitHub リポジトリを参照してください。 受賞者は、2019 年 12 […]

Read More

AWS でのゲノミクスワークフローに Amazon FSx for Lustre を使用する

  ゲノミクスのデータセットは、年々大きくなっています。世界中の研究イニシアチブからのデータを組み合わせ、それを迅速に処理する能力を持つことが重要な科学的発見を可能にするメカニズムとして重要であることが、大規模なバイオインフォマティクスおよびゲノミクスのコミュニティによって確認されています。グローバルな規模でのコラボレーションには、世界中からアクセス可能で、可用性が高く、高性能のデータ処理を可能にするデータストレージソリューションが必須です。 Amazon FSx for Lustre は、高性能 POSIX 準拠の共有ファイルシステムの使いやすさと、Amazon Simple Storage Service (Amazon S3) の業界をリードするスケーラビリティとデータ可用性を兼ね備えています。Amazon FSx for Lustre は Amazon S3 とネイティブに連携し、S3 オブジェクトをファイルとして透過的に提示するため、高性能ファイルシステムでクラウドデータセットを処理し、結果を S3 に書き戻すことが簡単になります。データを Amazon S3 に保存することで、Amazon Redshift、Amazon Athena、Amazon EMR、Amazon SageMaker などの分析および機械学習のソリューションによるダウンストリーム分析が可能になります。 このブログ記事では、Amazon FSx for Lustre を簡単に使用して、AWS でのゲノミクスワークフローを簡素化および高速化する方法を示します。 ゲノミクスワークフロー ゲノミクスワークフローは通常、ファイルの操作用に設計された複数のコマンドラインツールで構成されています。つまり、入力として FASTQ や BAM などのファイルを受け取り、出力として TSV/CSV や VCF などのファイルを生成します。 私たちが使用するゲノミクスワークフローは、二次解析パイプラインです。この特定のパイプラインは、コンテナ化されたツールのセットを使用して、未加工の全ゲノム配列を変形 (標準リファレンスと比較した配列の違い) に変換します。 以前のブログ記事投稿で、AWS Batch および […]

Read More

2019 AWS コンテナセキュリティアンケートの結果

  AWS そして当然ながらコンテナセキュリティに重点を置いているサービスチームにとっても、セキュリティは最も優先すべき事項です。現在の状況をより適切に評価するために、2019年後半に AWS のコンテナユーザーを対象に匿名アンケートを実施しました。全体で運用担当者や SRE から InfoSec、開発者、アーキテクトといったさまざまな役割を持つ 68 名の方々から回答を得ましたので結果を紹介します。さまざまな解釈や結論が含まれています。アンケートに協力してくれた皆さんに感謝したいと思います。質問と結果は GitHub からも入手できます。 まず、主な統計から始めましょう。アンケートを閲覧した 90 名のうち、68 名がアンケートに回答しました。回答にかかった平均時間は、7 分強でした。デモグラフィック情報に関して、我々は 1 つ疑問がありました。それは役割に関するものでした。 質問:私の役割はチーム/組織の中で〇〇〇です。 スペクトル全体は素晴らしい分布でした。テスト/QA に関心があったことは嬉しかったですが、リリース管理に関心が薄いことに少し驚きました。 コンテナセキュリティ全般 全体的な設定に移ります。それほど驚くことではありませんが、特定のユーザーが複数のコンテナオーケストレーターとサービスを使用していることがわかりました。詳細は、次の通りです。 質問:AWS上でどのようにコンテナを起動していますか? EC2 の EKS と EC2 の ECS がそれぞれ 52% と44% で全体をリードしています。ロングテールでは、Docker EE や Nomad の使用が他のシステムでよく見られます。 次に、先を見越した、つまり予防的な方法として、スキャン、署名、およびサプライチェーン管理について注目がありました。全体的な結果は次のようになります。 質問:コンテナイメージをスキャンしていますか? 2019 年 10 月に導入したネイティブ ECR スキャン機能は人気がありますが、それの大部分 (62%) は静的スキャンが注目されていることがわかりました。しかし、動的つまりランタイムスキャンに関する動向はどうでしょうか? 質問:動的にコンテナをスキャンしていますか? それほど大きくはありませんが、ここでは回答者の 83% の大多数がまだ使用していないという結果でした。また、CNCF Falco […]

Read More

2 月 5 日(水)に AWSome Day Online Conference を開催いたします

こんにちは! AWS Webinarチームです。 令和2年最初のAWSome Day Online Conference のご案内です。約 2.5 時間の本ウェビナーを 2 月 5 日(水)15 時から配信開始いたします。 新しくクラウドを始めようと思っている方、年末年始のお休みでクラウドの基礎知識がぼんやりしてしてしまったので復習したいと思っている方、どちらの方にもお勧めの内容ですので、ぜひこの機会にご登録・ご視聴ください。 日程:2 月 5 日(水) 時間:15:00 – 17:40 終了予定 費用:無料 ご視聴はこちらからお申込みください。 AWSome Day Online Conferenceとは? 「AWSome Day Online Conference」は、AWS に関する基礎知識を 体系的に学ぶ無償のトレーニングイベントです。AWS テクニカルインストラクターが主導するセッションを通じて、コンピューティング、ストレージ、データベース、ネットワークといった AWS の主要なサービスを段階的に学ぶことができます。また、AWSに関わる方への基礎知識として、請求、アカウントマネジメント、料金モデル等、実際の導入に向けた内容となっております。 技術的な面だけではなく、これから AWS クラウドを学ぶために必要となる知識を身に付けたい方、エンジニアのみならず、営業職、プリセールス職、学生まで幅広い方々におすすめします。 セッションは二人の講師による掛け合い形式となっており、飽きることなく、短時間で、そして場所を選ばずに効率的に学習したい方はぜひご活用ください! ご注意事項:本セッションは AWS Innovate Online Conference(2019年 4 月 / 10 月)にて開催されたものと同じ内容です。見逃した方はこの機会にご視聴ください。 AWS Webinarチーム

Read More

日本語版のホワイトペーパー公開: PCI DSS スコーピングおよび AWS 上でのセグメンテーションのためのアーキテクチャの設計

AWS は、AWS クラウドで実行する Payment Card Industry (PCI) Data Security Standard (DSS) のワークロードの適用範囲を適切に定義するためのガイドとして、PCI DSS スコーピングおよび AWS 上でのセグメンテーションのためのアーキテクチャの設計の日本語版のホワイトペーパーを公開しました。このホワイトペーパーは、クラウドネイティブの AWS サービスを利用するスコープ内のリソースとスコープ外のリソース間のセグメンテーションの境界を定義する方法について説明しています。 このホワイトペーパーの対象読者は技術者とソリューション開発者ですが、認定審査機関 (Qualified Security Assessors、QSA) および認定内部監査人(Internal Security Assessors、ISA) が AWS の製品とサービスで使用できる様々なセグメンテーション制御およびそれに関連するスコープ設定の考慮事項に関する理解を深めるガイドとしても利用できます。 AWS のソフトウェアで定義されたネットワークでは、ネットワークのセグメンテーションを超えた追加のセグメンテーション制御が可能なので、アプリケーションのスコープ設定プロセスがオンプレミス環境の場合と異なります。アプリケーションの設計およびセキュリティに影響するサービスの選択を慎重に考慮して必要な制御を実装すれば、カード会員データ環境 (Cardholder Data Environment、CDE) のシステム数とサービス数を減らせます。 このホワイトペーパーは PCI 協議会の Information Supplement: Guidance for PCI DSS Scoping and Network Segmentation に基づいています。 Avik Mukherjee Avik は IT ガバナンス、セキュリティ、リスク、コンプライアンスの分野で 10 […]

Read More

AWS 大阪ローカルリージョンをフルリージョンへ拡張中

大阪でのサービスに対するお客様からの大きなご要望にお応えし、大阪のローカルリージョンが 2021 年初頭までに 3 つのアベイラビリティーゾーンを持つ完全な AWS リージョンに拡大することになりました。 他のすべての AWS リージョンと同様、アベイラビリティーゾーンはそれぞれ独自の電源、冷却システム、物理的セキュリティにより分離されます。また、可用性に影響を与える単一のイベントのリスクを大幅に減らすため離れて配置されますが、高可用性アプリケーションの低レイテンシーは維持されます。 AWS はインフラストラクチャを継続的に拡張しており、お客様が拡大できる十分な能力と、可用性と堅牢性を高めるためのさまざまなシステムを設計するために必要なツールを提供しています。AWS は現在、22 のリージョンと 69 のアベイラビリティーゾーンをグローバルに運用しています。 2011 年 3 月に、2 つのアベイラビリティーゾーンを持つ 5 番目の AWS リージョンとして AWS 東京リージョンを立ち上げました。その後、2012 年に 3 番目の東京のアベイラビリティーゾーン、2018 年に 4 番目のアベイラビリティゾーンを立ち上げました。 2018 年 2 月には大阪ローカルリージョンを立ち上げました。単一のデータセンターに含まれるインフラストラクチャは分離されかつ対障害性のある設計で、既存の AWS リージョンを補完する新しいリージョン構成となりました。東京リージョンから 400 キロ離れた大阪ローカルリージョンは、東京リージョンだけでは難しい災害対策の提供を目指して、国内のさまざまな場所で必要とされるアプリケーションを持つお客様をサポートしてきました。 大阪ローカルリージョンの将来 大阪リージョンは、立ち上げ時より他の AWS リージョンと同様の幅広いサービスを提供し、あらゆる AWS のお客様が利用できるようになる予定です。お客様は日本国内にマルチリージョンシステムをデプロイすることができ、西日本のユーザーは現在よりもさらに低いレイテンシーを享受できます。 最高のグローバルネットワークパフォーマンスを備えた、最も柔軟で、信頼性が高く、かつスケーラブルでセキュアなクラウドコンピューティング環境を提供する AWS グローバルインフラストラクチャの設計と構築に関心があるお客様は、グローバルインフラストラクチャサイトをご覧ください。このサイトでは、すべてを分かりやすく説明しています。 ご期待ください 今回の件や他の今後の AWS リージョンに関する新たな情報が分かり次第、皆さまにお知らせします。どうぞご期待ください。 4 つのリージョン […]

Read More
Weekly AWS

週刊AWS – 2020/1/13週

みなさん、こんにちは。AWSソリューションアーキテクトの小林です。 次週改めてピックアップしますが、大阪ローカルリージョンを通常リージョンへ拡張する計画があることを発表させていただきました。新たに2つのアベイラビリティゾーンを設置し、利用可能なサービスのポートフォリオも拡充される予定です。現時点では2021年の早い時期にご利用いただけるようにする計画ですので、ぜひご期待ください。 それでは、先週の主なアップデートについて振り返っていきましょう。

Read More

Amazon Polly のスタンダード音声が、中東およびアジアパシフィックリージョンで利用可能に

Amazon Polly はテキストをリアルな音声に変換するサービスです。これを利用して、音声対応アプリケーションの作成が可能です。AWS は、中東 (バーレーン) およびアジアパシフィック (香港) リージョンにおいて、すべてのスタンダード音声が一般に利用可能になったことを発表しました。これらのリージョンのお客様は、Amazon Polly のポートフォリオで 29 言語でご利用いただける 60 種類を超えるスタンダード音声を音声合成できるようになりました。 Amazon Polly をご使用のお客様は、ニュースコンテンツ、ゲーム、e ラーニングプラットフォーム、テレフォニーアプリケーション、ユーザー補助アプリケーション、IoT などの音声認識対応製品という新しいカテゴリを構築しています。Amazon Polly の音声は高品質で費用対効果が高く、またレスポンスも速いため、低レイテンシーのユースケースに適しています。Amazon Polly は SSML タグもサポートしています。このため、音声出力をさらに制御できます。 詳細については、「Amazon Polly とは」をご参照ください。 利用可能な音声の完全なリストについては、「Amazon Polly の音声」をご覧ください。または、Amazon Polly コンソールにログインして、ご自分で試してみてください。 著者について Ankit Dhawan は Amazon Polly のシニアプロダクトマネージャーです。テクノロジーを愛し、Liverpool FC の大ファンです。お客様の対応をしていないときには、奥さんと愛犬とともにアメリカ太平洋岸の北西部エリアを探索しています。いつも楽観主義で、また伝記を読んだり、ポーカーをプレイするのが大好きです。テクノロジーや起業家精神、サッカーについてなら、話が尽きることはありません。  

Read More

FactSet が Amazon DynamoDB から Amazon S3 Parquet へのデータのエクスポートを自動化して、データ分析プラットフォームを構築する方法

この記事は、FactSet のリードソフトウェアエンジニアである Arvind Godbole と AWS プリンシパルソリューションアーキテクトの Tarik Makota によるゲスト投稿です。「FactSet は、世界中の何万人もの投資専門家向けの柔軟でオープンなデータとソフトウェアソリューションを作成し、投資家が重要な決定を下すために使用する金融データと分析に即座にアクセスできるようにします。FactSet では、製品が提供する価値を常に向上するために取り組んでいます」 私たちが検討してきた分野の 1 つは、クライアントの検索結果の関連性です。さまざまなクライアントの使用例と 1 日あたりの検索回数が多いため、匿名化された使用データを保存し、そのデータを分析してカスタムスコアリングアルゴリズムを使用して、結果を高めることができるプラットフォームが必要でした。計算をホストするために Amazon EMR を使用するのは明らかな選択肢でしたが、匿名化されたデータを Amazon EMR が使用できる形式に変える方法について疑問が生じました。そこで私たちは AWS と協力し、Amazon DynamoDB を使用して Amazon EMR で使用するデータを準備することにしました。 この記事では、FactSet が DynamoDB テーブルからデータを取得し、そのデータを Apache Parquet に変換する方法について説明します。Amazon S3 に Parquet ファイルを保存して、Amazon EMR でほぼリアルタイムの分析を可能にします。途中で、データ型変換に関連する課題に直面しました。これらの課題をどのように克服できたかについて説明しようと思います。 ワークフローの概要 ワークフローには次の手順が含まれています。 匿名化されたログデータは DynamoDB テーブルに保存されます。これらのエントリには、ログの生成方法に応じて異なるフィールドがあります。テーブルに項目を作成するたびに、DynamoDB ストリームを使用してレコードを書き出します。ストリームレコードには、DynamoDB テーブルの単一項目からの情報が含まれます。 AWS Lambda 関数は DynamoDB ストリームにフックされ、DynamoDB […]

Read More