Amazon Web Services ブログ

Category: AWS Lake Formation

COVID-19 データの分析用のパブリックデータレイク

COVID-19 のパンデミックは、世界中に脅威をもたらし、命を奪い続けています。私たちはこの病気と戦うために組織や科学的分野を超えて協力する必要があります。数え切れないほどの医療従事者、医学研究者、科学者、公衆衛生担当者は、すでに最前線で患者の世話、治療法の探求、国民の教育、政策立案の手助けをしています。AWS は、COVID-19 の原因となるウイルスをよりよく理解および追跡し、対応を計画し、最終的に封じ込めて制圧するために必要なデータとツールをこれらの専門家に提供することが一助になることを信じています。 今日、私たちはパブリックの AWS COVID-19 のデータレイクを用意しました。このデータレイクは、新型コロナウイルス (SARS-CoV-2) とこれに関連する病気である COVID-19 の拡大と特性に関する、キュレーション済みの最新のデータセットを一元化したリポジトリです。世界的には、このデータを収集するためにいくつかの取り組みが進行中であり、当社はパートナーと協力して、この重要なデータを自由に利用できる状態にし、最新の状態に保てるように尽力しています。AWS クラウドでホストされており、ジョンズ・ホプキンズ大学とニューヨークタイムズからの COVID-19 のケーストラッキングデータ、Definitive Healthcare からの病院の病床の利用可能性、およびアレン人工知能研究所からの COVID-19 および関連するコロナウイルスに関する 45,000 を超える研究記事をキュレーションされたデータレイクに提供しています。その他の信頼できる情報源からデータが公開されれば、このデータレイクに定期的に追加していきます。 誰もがこの重要な情報に簡単にアクセスして実験できるようになることで、この病気との戦いに打ち勝つための飛躍的な進歩をより早く実現できます。AWS COVID-19 データレイクを使用すると、実験者は、利用可能なすべてのデータソースからデータを抽出してラングリングする時間を無駄にすることなく、所定の場所にあるデータについての分析を迅速に行うことができます。AWS またはサードパーティーのツールを使用して、傾向分析の実行、キーワード検索の実行、質問/回答分析の実行、機械学習モデルの構築と実行、またはカスタム分析の実行により、特定のニーズを満たすことができます。この戦いに関わるステークホルダーは独自の視点を持っているので、ユーザーは、このパブリックデータレイクを使うことも、このデータレイクを独自のデータと組み合わせて使うこともできますし、あるいは AWS Data Exchange 経由で提供されるソースデータセットを直接サブスクライブすることもできます。 私たちは、各地の保健当局が感染を追跡するためのダッシュボードを構築し、病院の病床や人工呼吸器などの重要なリソースを効率的に配給するために協力できると考えています。あるいは、疫学者は、独自のモデルとデータセットを補完して、ホットスポットや傾向についてのより優れた予測を取得できます。 たとえば、科学分野とテクノロジー分野のリーダーが協力して、病気の治療、予防、または管理を行う非営利団体である Chan Zuckerberg Biohub では、科学者が AWS COVID-19 データレイクを使用して新たな疫学的洞察を得ています。「私たちの研究チームは、COVID を疫学的により適切に予測するために、AWS COVID-19 データレイクのデータセットを独自のデータと組み合わせて活用することで、病気の広がり、その地理的側面、および時間発展の傾向を分析しています」と Chan Zuckerberg Biohub のデータサイエンスおよび情報技術担当の Vice President である Jim Karkanias 氏は述べています。 この投稿では、AWS COVID-19 データレイクを分析に使用する方法の例を紹介します。このデータレイクは、パブリックに読み取り可能な Amazon […]

Read More

AWS Lake Formation と Amazon RDS for SQL Server の統合

 ビジネスを成長および発展させるには、無数のソース (リレーショナルデータベース、NoSQL データベース、クリックストリーム、IoT イベントなど) からデータを収集し、分析を用いてそのデータを組み合わせて洞察を抽出する必要があります。AWS Lake Formation により、さまざまなソースからのデータを Amazon S3 に基づくデータレイクに取り込むことがでるようになります。さらに、Lake Formation を使用すれば、単一の場所からこのデータへのアクセスが制御できます。 この投稿では、Lake Formation ブループリントを使用して Amazon RDS から Amazon S3 のデータレイクにデータを取り込む方法と、Amazon Athena から抽出されたデータに対して SQL クエリを実行するための列レベルのアクセス制御を行う方法を示します。 ブループリント とは、データをデータレイクに簡単に取り込むことができるデータ管理テンプレートです。Lake Formation は、リレーショナルデータベースや AWS CloudTrail ログなど、予め定義されたソースタイプごとにいくつかのブループリントを提供します。ブループリントから、ワークフローを作成できます。ワークフローは、AWS Glue クローラー、ジョブ、およびデータのロードと更新を調整するトリガーで構成されています。ブループリントは、データソース、データターゲット、およびスケジュールを入力として取り、ワークフローを設定します。 Lake Formation の詳細については、「AWS Lake Formation: How It Works」をご参照ください。 チュートリアルの概要 データレイクは、集中管理された安全なリポジトリで、すべてのデータを元の形式のデータと分析のためにデータの両方を保存します。データレイクを使用すると、データサイロを分解し、さまざまなタイプの分析を組み合わせて、洞察を得たり、より適切なビジネス上の意思決定に導くことができます。 Lake Formation を使用すると、安全なデータレイクを簡単にすばやく設定できます。このチュートリアルには、次の手順が含まれています。 S3 バケットをデータレイクストレージとして登録する データを表すテーブルを保持する論理データベースを作成する Amazon RDS for […]

Read More

患者記録を AWS Lake Formation FindMatches 変換と一致させる

患者のマッチングは、医療の相互運用性を実現する上で大きな障害です。患者レコードの不一致や患者の履歴の取得ができないと、十分な情報に基づいた臨床上の意思決定に大きな支障が生じ、診断ミスや治療の遅れを招く可能性があります。さらに、医療従事者は、患者データの重複排除にお金をかけることがよくあります。データベースで患者レコードの数が急速に増加している場合は特にそうです。電子医療記録 (EHR) により、患者の安全とケアの手配は近年大幅に改善しましたが、多くの医療機関は、患者の正確なマッチングの課題に未だに頭を抱えています。 患者レコードの重複は、人為的な番号の挿入、削除、置換、または置き間違えなど、さまざまな理由で発生します。患者レコードをデジタル化する光学式文字認識 (OCR) ソフトウェアもエラーを引き起こす可能性があります。 この問題を解決するために、複数のタイプのレコード一致アルゴリズムが存在します。これらのアルゴリズムには、関連フィールド (SSN、名前、生年月日など) 、音声符号化システムをグループ化して比較するといった基本的な決定論的方法に加えて、機械学習 (ML) を使用したより高度なアルゴリズムも含まれます。 AWS Lake Formation は、いくつかの簡単な手順を踏むだけで安全なデータレイクを構築できる HIPAA 対象サービスです。Lake Formation には FindMatches も含まれていて、さまざまなデータセットにわたってレコードを一致させたり、重複レコードを特定して削除したりできます。 この記事では、FindMatches ML 変換を使用して、合成的に生成されたデータセット内で一致する患者レコードを識別する方法を説明します。FindMatches を使用するのに、コードを書く必要も ML の仕組みを知っている必要もありません。これは、フィールドが完全に一致しない場合でも、信頼できる一意の個人識別子が含まれていない場合に、データ内で一致を見つけるのに役立ちます。 患者データセット 患者データは、その機密性により、さまざまな国のさまざまな規制を受けています。そのため、マッチングアルゴリズムをトレーニングする患者データが不足していることが多く、モデル開発が複雑になります。このような課題を回避するためによく用いられているのは、合成データを使う方法です。この記事では、オープンソースの Freely Extensible Biomedical Record Linkage Program (FEBRL) に基づいて患者データを生成します。FEBRL は、隠れマルコフモデル (HMM) を使用して、患者レコードの一致を調べるために名前と住所のデータを用意します。また、重複につながる実際の患者データセットを模倣することもできますが、これには以下の不一致が生まれる可能性があります。 空白のフィールド。 スペルミス、文字の転置、記入欄の取り違えなどの誤植。 ミドルネームの短縮形がある一方、ミドルネームを略さずに記述したレコードもある。 さまざまな形式の住所と詳細。 OCR 関連のエラー。 音声エラー。 グローバルに一意の患者または個人の識別子なし。医療従事者はどこも、その人に割り当てられた患者識別子を持っているかもしれませんが、SSN のような人の識別子を持っていない可能性もあります。そのため、キーのないデータセットを持っています。 FEBRL は、設定可能なパラメータに基づいてこれらのタイプのデータセットを生成して、各タイプのエラーの確率を変更できるため、重複に至るさまざまなシナリオを組み込むことができます。合成データセットの生成については、この記事の範囲外です。この記事では、事前に生成されたデータセットについて説明します。FindMatches の実行に使用する合成データセットを生成する手順は、簡単に説明すると次のとおりです。 FEBRL をダウンロードしてインストールします。 パラメータを変更して、期待どおりのデータセットを作成します。詳細については、FEBRL […]

Read More

メインとなる AWS Lake Formation アカウントから、複数のアカウントのデータにアクセスおよび管理を行う

 この記事では、中心的な AWS Lake Formation アカウントが、複数のアカウントにあるデータのアクセスや管理を行う方法を解説していきます。このウォークスルーでは、異なるアカウントにあるデータを使い、マスターとなる Lake Formation アカウントにある一元管理されたカタログを示します。 記事の中では、別のアカウントにあるカタログの読み出し、書き込み、更新、およびデータへのアクセスを行う許可を、Lake Formation サービスから付与する方法を説明します。 また、2 つのデータセットを使って、世界中から集めたニュース (gdelt) と、Amazon の製品が受けたレビューの数 (amazonreviews) との間に 相関性 が存在するかを判断していきます。 前提条件 今回の例では、それぞれ S3 バケットとアカウント番号がある、3 つのアカウントを使用する必要があります。 環境の設定 3 つのアカウントは次なようなものです。 Account Products (AP) – これは、Amazon の製品が受けたレビューを保存するためのアカウントです。この記事では、AWS CloudFormation を使って構成したものをデプロイします。 Account External (AE) – このアカウントは、100 を超える言語による放送、印刷物、ウェブニュースを世界中から集めモニタリングします。これは、毎日毎秒のように国際社会を動かし続けている、人々、場所、組織、数、テーマ、情報ソース、感情、引用、画像、出来事などを抽出します。この記事では、AWS CloudFormation を使って構成したものをデプロイします。 Main Account (MA) – メインとなるアカウントです。他の 2 つのアカウントからのデータを集約します。今回は、このアカウントに Lake Formation を定義します。このアカウントには、製品データと国際ニュース用のアカウントへのアクセス権限があります。 次の図は、全体的なアーキテクチャを示しています。 […]

Read More

AWS Lake Formation でメタデータを見つける: パート 2

データレイクは、構造化データおよび非構造化データの両方を集計、保存、分析する方法としてますます定評が高まっています。AWS Lake Formation を使用すると、データレイクの設定、セキュリティ保護、管理が簡単になります。 このシリーズのパート 1 では、Lake Formation を使用してデータレイクを作成および探索する方法を学びました。この投稿では、コンソールにある Lake Formation のメタデータ検索機能を使ってのデータ検出、さらに列のアクセス許可が制限するメタデータ検索結果について説明します。 前提条件 この記事では、以下が必要です。 AWS アカウント。 Amazon S3、AWS Glue、AWS Lake Formation にアクセスできる AWS Identity and Access Management (IAM) ユーザー。 コンソールでのメタデータ検索 この投稿では、Lake Formation コンソールが提供するカタログ検索機能のデモを行います。 分類による検索 キーワードによる検索 タグによる検索: 属性 複数の フィルター検索 分類による検索 メタデータカタログ検索機能を使用して、データレイク内のすべてのテーブルを検索します。2 つは名前 amazon_reviews を共有しますが、シミュレートされた「prod」と「test」データベースに別々に属します。3 つ目は trip-data です。 Lake Formation コンソールの [Data catalog] で、[Tables] をクリックします。 検索バーの […]

Read More