Amazon Web Services ブログ

Category: Amazon Comprehend

Amazon Comprehend MedicalとAmazon Rekognitionを使用した医療画像の匿名化

現代医学において医療画像は、臨床医が患者の診察と治療のための重要な情報を可視化する基本的なツールです。医療画像のデジタル化により、これらの画像を確実に保存、共有、表示、検索、整理する能力が大幅に向上し、医療従事者を支援しています。医療画像のためのモダリティの数も増加しています。CTスキャンからMRI、デジタル病理学、超音波まで、医療画像アーカイブに収集された膨大な量の医療データがあります。 これらの医療画像はまた、医学研究に有用です。機械学習を利用することで、世界中の医療研究機関の科学者は数十万または数百万もの画像データを解析して、医学的問題への深い洞察を得る事が可能です。医療従事者にとって、医療保険の相互運用性と説明責任に関する法令 (HIPAA)のような規制を遵守しながら、このような医療画像をどう扱うかが課題となっています。多くの場合、医療画像には画像自身にテキストとして保存されている保護対象医療情報(PHI)が含まれています。匿名化と呼ばれるPHIを除去するプロセスは、手作業で画像の確認と編集が必要となるため、歴史的に課題として挙げられてきました。この作業は画像1枚あたり何分もかかってしまい、大規模なデータセットの匿名化となると多くの時間と費用がかかります。2017年にAmazon Web Services (AWS)は、機械学習サービスであるAmazon Rekognitionを使用して画像から簡単にテキストを検出、抽出する事ができる事を発表しました。2018年には、テキスト内にあるPHIの検出と識別をサポートするAmazon Comprehend Medical と呼ばれる、医療テキストのための自然言語処理(NLP)の新しい機械学習サービスを発表しました。これら2つのサービスと数行のPythonコードで、blog記事で示しているような医療画像からPHIを安価かつ迅速に検出、識別、マスクする事ができます。 匿名化のアーキテクチャ この例では、Amazon SageMakerのJupyter Notebooksを利用してPythonコードでインタラクティブなノートブックを作成します。 Amazon SageMakerは事前にビルドされたJupyter notebookとアルゴリズムを使用して、迅速に学習用データの準備と機械学習モデルのビルドができるエンドツーエンドの機械学習プラットフォームです。このblog記事では、実際の機械学習と予測について、Amazon Rekognitionで画像からテキストを抽出し、Amazon Comprehend MedicalでPHIの特定と検出をしています。全てのイメージファイルは、Amazon Simple Storage Service (Amazon S3)という業界トップのスケーラビリティ、データの可用性、セキュリティ、パフォーマンスを提供するオブジェクトストレージサービスのバケットから読み書きされます。 Amazon Comprehend Medical を使用して保護された医療情報を検出・識別する際に留意すべきことは、識別されたエンティティごとに、そのサービスは検出したエンティティの精度に対する信頼度を示す信頼スコアを提供している点です。これらの信頼スコアを考慮に入れて、識別されたエンティティがあなたのユースケースに合致しており適切であるかを確認してください。信頼性スコアの詳細については、 Amazon Comprehend Medicalのドキュメントを参照してください。 Notebookの利用 このblog記事のJupyter NotebookはGitHubからダウンロードできます。 このnotebookは、NIH Clinical Centerによって提供されたデータセットの胸部X線画像の例を示しています。このデータセットは、こちらのリンクからダウンロード可能です。 詳細については、NIH Clinical CenterのCVPR 2017 paperを参照してください。 notebookを開始するにあたり、この例では以下の調整可能な5つのパラメータを利用して匿名化プロセスを制御します。 bucketは、読み書きされる画像が格納されたAmazon S3バケットを定義します。 objectは、匿名化したい識別画像を定義します。PNG, JPG , DICM形式の画像が利用可能です。オブジェクト名が拡張子.dcmで終わっていれば、その画像はDICOM画像であるとみなされ、ImageMagickユーティリティによって、識別処理を行う前にPNGに変換されます。 redacted_box_colorは 、画像内の識別されたPHIテキストをマスクする際の色を定義します。 dpiは、出力する画像で使用するdpi設定を定義します。 phi_detection_thresholdは、前述した信頼スコアの閾値です(0.00から1.00の間)。Amazon Comprehend Medicalで検出・識別されたテキストは、出力画像からマスクされるように設定した最小信頼スコアを満たす必要があります。デフォルト値は0.00で、この値は信頼スコアとは関係なく、Amazon Comprehend MedicalがPHIと識別して検出した全てのテキストをマスクします。 […]

Read More

新機能 – Amazon Comprehend Medical – ヘルスケア業界のお客様のための自然言語処理

私は胃腸科医と皮膚科医の息子で、解剖学的構造、手術手順、投薬名、またそれらの略語など、複雑な医学用語が飛び交う、専門外には理解できない会話を聞きながら育ちました。好奇心を抱いた子供にとってこの経験はとても魅惑的で、両親がある種の魔法使いのようなものなのか、またはとってもちんぷんかんぷんなことを言っているのか、と不思議に思っていました。 このような理由から、Amazon Comprehend の拡張版である、ヘルスケア業界のお客様向けの Amazon Comprehend Medical をご紹介できることは、とても嬉しく思います。   Amazon Comprehend の簡単な振り返り Amazon Comprehend は、昨年の AWS re:Invent でローンチされたものです。簡単にいうと、言語検出、エンティティのカテゴリ分類、感情分析、キーフレーズ抽出などの、シンプルなリアルタイム API を提供する自然言語処理サービスです。さらに、テキストドキュメントを自動的に整理する、教師なし学習である「Topic modeling」もお使いいただけます。

Read More

【開催報告】Digital Advertising Japan Seminar 2018 – Machine Learning 事例祭り –

こんにちは。AWS ソリューションアーキテクトの八木達也 ( @ygtxxxx ) です。 7月23日に、「Digital Advertising Japan Seminar 2018 – Machine Learning 事例祭り –」を開催いたしました。 AWSジャパン主催でデジタル広告業界の方向けのイベントを開催するのは2年ぶりでしたが、定員60人のところ55名の方にお集まりいただき、盛況となりました。             このイベントは「Digital Advertising、AdTech 領域における Machine Learningの実践知」を「互いに学び合う」ことができる場を作ることを目標としていたため、AWSメンバーによるプレゼンテーションだけではなく、お客様プレゼンテーションを中心としたAGENDAを構成しました。機会学習という領域における、テクノロジー視点でのお取組み、組織育成視点でのお取組み、それぞれの視点で最先端な活動をなさる方々よりご登壇を頂きました。 まずは主催者の唐木/八木よりオープニングセッションを行いました。 唐木より全体の説明を行い、八木より「Machine Learning for Digital Advertising」というタイトルでプレゼンテーションを行いました。 Machine Learning for Digital Advertising from Amazon Web Services Japan 次に、アナリティクス スペシャリスト ソリューションアーキテクトの志村より「AWS ML Services Update」というタイトルでプレゼンテーションを行いました。 AWS ML Update from Amazon […]

Read More

AWS 機械学習ソリューションについて学べる新しいデジタルトレーニング

こんにちわ。 アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。   今年の1月に、AWSがご提供している機械学習関連サービスの、無料のトレーニングコースについてご案内しました。このコースはクラウドのスキルを磨いたり Machine Learning (ML)を学びやすくするために提供しており、「ディープラーニングの概要 (Introduction to Deep Learning)」や「Amazon SageMaker の概要 (Introduction to Amazon SageMaker)」といった新しいコースが含まれています。   こちらの日本語版がリリースされましたので、みなさんにご案内いたします。 オンデマンドウェビナー一覧 以下のコースが日本語字幕付きで提供を開始しています。動画視聴がポップアップブロックで開始されない場合は、ブラウザのポップアップブロックを設定してください。 https://www.aws.training にて登録後、各トレーニングをご利用いただけます。 Introduction to AWS Machine Learning Services (Japanese) (日本語字幕版) Introduction to Deep Learning (Japanese) (日本語字幕版) Introduction to AWS Greengrass (Japanese) (日本語字幕版) Introduction to Artificial Intelligence (Japanese) (日本語字幕版) Introduction to […]

Read More

ClearView Social によるソーシャルシェアリングの影響を測定するための Amazon Comprehend の使用

ClearView Social は、企業の従業員が 1 クリックするだけで LinkedIn、Twitter、およびその他ソーシャルネットワークに承認済みコンテンツをシェアできるようにします。ClearView Social はその後、ピーク時にコンテンツをこれらのソーシャルネットワークにブロードキャストして、その結果として生じるエンゲージメントをリーダーボードと分析ダッシュボードで追跡します。 ClearView Social の最高技術責任者である Bill Boulden 氏によると、ClearView Social プラットフォームの主な差別化要因は、顧客がソーシャルシェアリングからの投資利益率 (ROI) を計算して追跡することを可能にする点です。ClearView Social を使用する企業は、アーンドメディア価値に基づくと、20 倍もの ROI 向上を実現しています。 これまで、ソーシャルエンゲージメントの価値を測定することは困難でした。ソーシャルシェアの価値を計算する方程式は、ユーザーがコンテンツを手動で堅実かつ正確にタグ付けすることに依存していました。しかし、コンテンツはいつも正確にタグ付けされるわけではなく、全くタグ付けされないこともありました。 手動でのタグ付けに対する依存を排除するため、ClearView Social は、テキスト内におけるインサイトと関連性の検出に機械学習を使用する自然言語処理 (NLP) サービスである Amazon Comprehend に頼りました。Amazon Comprehend のエンティティ検知機能は、人、場所、ロケーションなどの名前付きのエンティティのリストを返します。 Boulden 氏は、「当社では、記事を読んでトピックを抽出するために Amazon Comprehend を使用しており、これらは機械学習を使って自動的にタグ付けされます。この自動タグ付けは、顧客が Google AdWords API からの現行の入札価格に照らしてエンゲージメントの市場価格を簡単に見積るために役立ちます」と説明しています。 仕組み: ClearView Social と Amazon Comprehend AWS AI ブログからの記事、AWS DeepLens の拡張機能: 独自のプロジェクトの構築を例に取ってみましょう。まず、記事からの非構造化データを […]

Read More

Amazon Comprehend を使用したカスタマーレビューからのセンチメントの検知

今日の社会では、パブリックコンテンツがこれまでにない重要性を持っています。カスタマーレビューからのデータは、それに関連するセンチメントの理解がビジネスに貴重な市場認識と早期かつ積極的に問題に取り組む能力を提供することから、消費関連の意思決定に対する洞察を得るためのツールとして使われています。 センチメント分析は、文書が肯定的、否定的、中立的、または混合的のどれであるかを計算によって判断するプロセスを使用します。Amazon Comprehend は、自然言語処理 (NLP) テキスト分析サービスで、キーフレーズ、挙げられた組織名、および言語と併せてセンチメントを検知し、ドキュメントコレクションからトピックモデリングを実行することを可能にするいくつかの API で構成されています。センチメントを検知するこのサービスの機能は、テキストの評価時にスコア付けのメカニズムと属性を使用する最先端のディープラーニングアルゴリズムを用いて行われます。Amazon Comprehend トレーニングデータセットは、世界で最も大規模な自然言語コレクションのひとつである Amazon.com からの製品説明と消費者レビューにあるデータを中心に構成されています。AWS は、言語の進化に遅れを取らないために新しいデータでの再訓練が継続的に行われる完全に訓練されたモデルを提供します。一般の機械学習では、大半のデータエンジニアと開発者に対して現在持っているものとは異なるスキルセットが求められます。Amazon Comprehend はこのギャップを取り除き、開発者がすでに持っているスキルを使って簡単に NLP を実行できるようにしました。 このブログ記事では、カスタマーセンチメントを検知するために、AWS のサービスを使って構築されたサーバーレスイベント駆動型アーキテクチャの一部として Amazon Comprehend を活用する方法を説明します。 ソリューションのアーキテクチャ概要 Amazon.com の製品レビューを取り上げて、一定のレビューのセンチメントを分類するために Amazon Comprehend を使ってみましょう。Amazon Echo、Amazon Echo Dot、および Amazon Echo Show のレビューを例として使用します。次に、ブランドを損なわないようにするために追加の架空サンプルデータをアップロードし、リコールされている欠陥、破損、または危険アイテムといったニュアンスを持つ否定的な製品センチメントの取得をシミュレートします。最後に、Amazon Athena を使用して否定的なレビューに対するインタラクティブなクエリを行い、レポートをエクスポートすることによって、ビジネスが即座に対策を講じられるようにします。 レビューのアップロード: ユーザーは、カスタマーレビューをテキスト形式でカスタマーレビューバケットにアップロードします。  カスタマーレビューセンチメント分析関数: セキュアなレビューのアップロードが、レビューを一時ファイルにダウンロードし、それに対するテキスト分析を実行するように Amazon Comprehend を呼び出してから、肯定的、否定的、中立的、または賛否混合的な信頼スコアと共に全体的なセンチメントを CSV ファイルに出力するレビューセンチメント分析関数をトリガーする Amazon S3 イベントとして使用されます。センチメントが出力された CSV ファイルは、同じカスタマーレビューバケットのセンチメントフォルダに保存されます。 インタラクティブな SQL クエリ: Amazon […]

Read More

Amazon Comprehend – 継続的に学習される自然言語処理

数年前、私はメリーランド大学の図書館 をさまよい、What Computers Can’t Do というタイトルのホコリをかぶった古い本と、その続編 What Computers Still Can’t Do を見つけました。2冊めの本はより分厚く、コンピューター・サイエンスが学ぶべき価値ある領域であることを認識させる内容でした。このブログを書く準備をしている間に、私は最初の1冊の保存されたコピーを見つけ、面白い考えを見つけました。 人間は自然言語で記述された文脈依存する暗黙的な知識を必要とする文章を使い、理解しているので、同じように自然言語を理解し、翻訳できるコンピューターを作る唯一の方法は、チューリングが嫌疑していたように、多分コンピューターが世界について学ぶようにプログラムすることだろう。 これは、とても先見の明のある考えでした。そして、私は Amazon Comprehend についてお話したいと考えています。Amazon Comprehend は現実に世界のことを相当詳しく知っている新しいサービスで、そのことを共有できるのがとても幸せです。 Amazon Comprehend の紹介 Amazon Comprehend はテキストを分析し、最初にアフリカ語からヨルバ語まで、その間にある 98 以上の言語に始まり、見つけたことを教えてくれます。Amazon Comprehend は英語かスペイン語で記述されたテキストからエンティティ(人、場所、ブランド、製品、など)の違い、キーフレーズや感情(ポジティブ、ネガティブ、混合、中立)を識別し、キーフレーズやその他全ての情報を抽出することができます。最後に、Comprehend のトピックモデリングサービスが巨大なドキュメントセットの中から分析やトピックに基づくグルーピングのために複数のトピックを抽出します。

Read More