Amazon Web Services ブログ

Amazon Comprehend MedicalとAmazon Rekognitionを使用した医療画像の匿名化

現代医学において医療画像は、臨床医が患者の診察と治療のための重要な情報を可視化する基本的なツールです。医療画像のデジタル化により、これらの画像を確実に保存、共有、表示、検索、整理する能力が大幅に向上し、医療従事者を支援しています。医療画像のためのモダリティの数も増加しています。CTスキャンからMRI、デジタル病理学、超音波まで、医療画像アーカイブに収集された膨大な量の医療データがあります。 これらの医療画像はまた、医学研究に有用です。機械学習を利用することで、世界中の医療研究機関の科学者は数十万または数百万もの画像データを解析して、医学的問題への深い洞察を得る事が可能です。医療従事者にとって、医療保険の相互運用性と説明責任に関する法令 (HIPAA)のような規制を遵守しながら、このような医療画像をどう扱うかが課題となっています。多くの場合、医療画像には画像自身にテキストとして保存されている保護対象医療情報(PHI)が含まれています。匿名化と呼ばれるPHIを除去するプロセスは、手作業で画像の確認と編集が必要となるため、歴史的に課題として挙げられてきました。この作業は画像1枚あたり何分もかかってしまい、大規模なデータセットの匿名化となると多くの時間と費用がかかります。2017年にAmazon Web Services (AWS)は、機械学習サービスであるAmazon Rekognitionを使用して画像から簡単にテキストを検出、抽出する事ができる事を発表しました。2018年には、テキスト内にあるPHIの検出と識別をサポートするAmazon Comprehend Medical と呼ばれる、医療テキストのための自然言語処理(NLP)の新しい機械学習サービスを発表しました。これら2つのサービスと数行のPythonコードで、blog記事で示しているような医療画像からPHIを安価かつ迅速に検出、識別、マスクする事ができます。 匿名化のアーキテクチャ この例では、Amazon SageMakerのJupyter Notebooksを利用してPythonコードでインタラクティブなノートブックを作成します。 Amazon SageMakerは事前にビルドされたJupyter notebookとアルゴリズムを使用して、迅速に学習用データの準備と機械学習モデルのビルドができるエンドツーエンドの機械学習プラットフォームです。このblog記事では、実際の機械学習と予測について、Amazon Rekognitionで画像からテキストを抽出し、Amazon Comprehend MedicalでPHIの特定と検出をしています。全てのイメージファイルは、Amazon Simple Storage Service (Amazon S3)という業界トップのスケーラビリティ、データの可用性、セキュリティ、パフォーマンスを提供するオブジェクトストレージサービスのバケットから読み書きされます。 Amazon Comprehend Medical を使用して保護された医療情報を検出・識別する際に留意すべきことは、識別されたエンティティごとに、そのサービスは検出したエンティティの精度に対する信頼度を示す信頼スコアを提供している点です。これらの信頼スコアを考慮に入れて、識別されたエンティティがあなたのユースケースに合致しており適切であるかを確認してください。信頼性スコアの詳細については、 Amazon Comprehend Medicalのドキュメントを参照してください。 Notebookの利用 このblog記事のJupyter NotebookはGitHubからダウンロードできます。 このnotebookは、NIH Clinical Centerによって提供されたデータセットの胸部X線画像の例を示しています。このデータセットは、こちらのリンクからダウンロード可能です。 詳細については、NIH Clinical CenterのCVPR 2017 paperを参照してください。 notebookを開始するにあたり、この例では以下の調整可能な5つのパラメータを利用して匿名化プロセスを制御します。 bucketは、読み書きされる画像が格納されたAmazon S3バケットを定義します。 objectは、匿名化したい識別画像を定義します。PNG, JPG , DICM形式の画像が利用可能です。オブジェクト名が拡張子.dcmで終わっていれば、その画像はDICOM画像であるとみなされ、ImageMagickユーティリティによって、識別処理を行う前にPNGに変換されます。 redacted_box_colorは 、画像内の識別されたPHIテキストをマスクする際の色を定義します。 dpiは、出力する画像で使用するdpi設定を定義します。 phi_detection_thresholdは、前述した信頼スコアの閾値です(0.00から1.00の間)。Amazon Comprehend Medicalで検出・識別されたテキストは、出力画像からマスクされるように設定した最小信頼スコアを満たす必要があります。デフォルト値は0.00で、この値は信頼スコアとは関係なく、Amazon Comprehend MedicalがPHIと識別して検出した全てのテキストをマスクします。 […]

Read More

【4回シリーズ/1回目】メディアサービス - ライブ動画ストリーミングの遅延(レイテンシー)

スポーツ中継、ゲーム、ニュース配信、TV番組など、動画配信のニーズは高まっているものの、配信遅延や最適なサービスの選択に困っている方もいらっしゃるのではないでしょうか?メディアサービスを検討する際によくある課題とソリューションについて、以下のように4つのパートに分けて解説します。ひとつ目のテーマは「レイテンシー(配信遅延)の定義と測定」です。 パート 1:レイテンシーの定義と測定(この記事) パート 2:エンコード、パッケージ化、および CDN 配信のおすすめ最適化 パート 3:動画プレイヤーのおすすめ最適化 パート 4:参照アーキテクチャとテスト結果

Read More

Redis 用の Amazon ElastiCache を使用したアプリケーションパフォーマンスの向上とコストの削減

シニアソフトウェア開発エンジニアの Shawn Wang 氏、ソフトウェア開発エンジニアの Maddy Olson 氏、およびソフトウェアエンジニアリング担当シニアマネージャーの Itay Maoz 氏による寄稿。 Redis 用の Amazon ElastiCache を使用すると、クラウド規模で非常に低いレイテンシーで最高のパフォーマンスと最小限の管理コストを実現できます。Redis の高性能、シンプルさ、そして多様なデータ構造サポートは、最も人気のある NoSQL キーバリューストアとなっています。キャッシング、リアルタイム分析、ゲームのリーダーボード、チャットやメッセージングのいずれの場合であっても、スピードが勝ります。Redis 用 Amazon ElastiCache で簡単に実現できます。 昨年、弊社は ElastiCache が AWS でさらに優れたパフォーマンス実現への道を歩み始めました。ElastiCache で M5 および R5 インスタンスのサポートを追加する一環として、AWS Nitro ベースシステムを使って、Redis 用のElastiCache を実行するためにインスタンスを最適化しました。Amazon ベース Linux イメージを最適化することで、M5 と R5 のネットワークパフォーマンスをチューニングしました。この結果は有望でした。R5 では、R4 と比較して、1 秒あたり最大 144% を超えるトランザクションを達成しました。平均 (p50) とテール (p99) のレイテンシーを最大 23% 削減しました。それ以来、多くの大規模な ElastiCache のお客様は、より良く、より速く、そしてより安価な […]

Read More

Amazon Comprehend Medical を使用して、診療記録を OMOP 共通データモデルとヘルスケアオントロジーにマッピングする

看護観察データと共に患者の健康状態を記述できるということは、現代のヘルスケアシステムにおいて重要な側面を持っています。定量化できる個人の健康情報の量は膨大で、新しい健康管理法、基準、デバイスが導入されるに従って、その量は継続的に増えていきます。このデータはいずれも、臨床医や研究員が時間の経過と共に、患者の健康状態がどのように変化するかを把握したり、正確な治療の機会を特定したりするのを可能にします。こうしたデータの集合によって、疫学者は人々の健康状態を知り、因果関係のパターンを特定できるようになるのです。 決まった形のない文字情報、通例、カルテなどの診療記録は、患者の看護観察健康データの豊かな情報源と言えます。形式化された患者の健康状態記録には含まれない重要な情報が、臨床医によって書き込まれることもよくあります。形式化された健康状態記録データの品質評価を支援するために、診療記録が使用されることもあります。これまで診療記録では、そこに含まれる医療的洞察を抽出するために、時間とコストのかかる手作業での検証が必要であることが課題でした。 Amazon Comprehend Medical は健康状態、投薬、服用量、耐久力などの洞察を素早く、正確に抽出するために機械学習を使用する自然言語処理 (NLP) サービスです。お客様は従量課金モデルで Amazon Comprehend Medical を使用し、お客様ご自身で複雑な機械学習モデルを開発したり、トレーニングしたりといった手間をかける必要なく、すぐに医療関連文字情報から洞察を抽出できるようになります。 Observational Health Data Science and Informatics (OHDSI) のコミュニティによって管理されている Observational Medical Outcomes Partnership (OMOP) 共通データモデルは、ヘルスデータに使用される業界標準のオープンソースデータモデルです。OMOP では看護観察健康状態データを格納するために、標準化されたメディカルオントロジー、あるいは、SNOMED などの「単語集」を使用します。出典 OHDSI ウェブサイト: 「OMOP 共通データモデルにより、雑多な看護観察データベースの系統的分析が可能になります。このアプローチの背後にあるコンセプトは、これらのデータベースに含まれるデータを共通のフォーマット (データモデル) と共に、共通の表現 (単語、用語、コーディングスキーマなど)、その後、共通のフォーマットをベースに書かれた標準分析ルーチンのライブラリを使用して体系的な分析することです。」 OMOP の特徴は、雑多なヘルスデータソースから取得された診療記録を格納する機能です。このデータモデルでは、これらの記録は個々の患者と受診を紐付けし、記録をより分かりやすくします。OMOP にはまた、自然言語処理 (NLP) エンジンによって、記録から推測した洞察を格納する機能もあります。本ブログ記事では、OMOP の記録を読み取ったり、医療的洞察を抽出したり、さらには、患者と住民の看護観察健康状態データを強化するため、SNOMED オントロジー用のコードを用いて OMOP に書き込むために、Amazon Comprehend Medical をどのように使用できるかについてご紹介します。 OMOP の記録処理アーキテクチャ この例では、全 OHDSI アーキテクチャのより大きな規模の診療記録を使って作業します。この GitHub のリポジトリにアクセスすることで、AWS における […]

Read More

新機能 - Amazon Direct Connect のギガビット接続オプション

AWS Direct Connect を使用することで、データセンター、オフィス、またはコロケーション環境と AWS の間にプライベートネットワーク接続を作成できます。この接続はネットワークから始まり、91 の AWS Direct Connect ロケーションのうちの 1 ロケーションで終了します。インターネットベースの接続よりもネットワークコストを削減することができ、スループットを向上させ、そして一貫性のあるエクスペリエンスを実現できます。多くの場合、接続を確立するために AWS Direct Connect パートナーと協力する必要があります。 これの記事執筆の準備をしていく中で、AWS Direct Connect についての理解が不完全であり、その名前が実際には 3 つの異なるモデルを網羅していることを私は知りました。概要は次のとおりです。 専用の接続は 1 Gbps と 10 Gbps の容量で利用可能です。AWS マネジメントコンソールを使用して接続をリクエストします。その後、AWS はリクエストを確認し、E メールでフォローアップして追加情報をリクエストするか、または接続用のポートをプロビジョニングします。AWS がポートをプロビジョニングしたら、AWS Direct Connect パートナーが接続を行いますが、数日から数週間で完了します。専用の接続は、ご自身専用の物理的な Ethernet ポートに対応します。各専用の接続は最大 50 個の仮想インターフェース (VIF) をサポートします。始めに「接続の作成」をお読みください。 ホスト接続は 50〜500 Mbps の容量で利用可能で、接続リクエストは AWS Direct Connect パートナーを通じて行われます。AWS Direct Connect パートナーがプレミスへのネットワーク回線を確立した後に、ホスト接続を追加または削除することにより、AWS Direct […]

Read More

オンプレミス環境から Amazon SageMaker を利用する

Amazon SageMaker は、機械学習におけるデータ準備・開発・学習・モデル変換・デプロイ、これら全体のパイプラインをサポートするマネージドサービスです。SageMaker の利用を検討する際に、これらの全てを SageMaker に移行しなければならないのかというと、そうではありません。例えば、開発のみを SageMaker の Jupyter Notebook で行うことや、学習・デプロイのみを SageMaker で行うことも可能です。この特性を活かせば、オンプレミスに機械学習環境を保有しているユーザが、既存のオンプレミス環境をなるべく活用し、追加のリソースが必要な部分に SageMaker を利用することができます。

Read More

[AWS Black Belt Online Seminar] AWS Well-Architected Framework によるコスト最適化 資料及び QA 公開

先日 (2019/3/12) 開催しました AWS Black Belt Online Seminar「AWS Well-Architected Framework によるコスト最適化」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20190312 AWS Black Belt Online Seminar AWS Well-Architected Frameworkによるコスト最適化 from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. W-AレビューをSAにお願いするにあたって金銭的なコストは発生しますか?または契約すべきサポートプランはありますか? A. W-Aレビューは無料でご提供しております(2019年3月現在)。W-Aレビュー実施に際して、AWSサポートは必須ではございません(が、開発フェーズであれば開発者プラン以上、本番運用中であればビジネスプラン以上のご契約をおすすめしております) Q. リザーブドインスタンスを購入するときは、ベストなお知らせが来るのでしょうか?すでに、RIを契約している場合、変更のお知らせなどがあるのでしょうか? A. お知らせはお送りしておりませんので、コストエクスプローラーの「リザーブドインスタンスの推奨事項」をご確認ください。 今後の AWS Webinar スケジュール 直近で以下のオンラインセミナーを予定しています。各オンラインセミナーの詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております。 AWS Innovate オンラインカンファレンス ≫ 申込先 2019 年 4 月 8 日〜5 月 7 日期間中いつでもオンラインで視聴可能 AWS基礎、業種別事例、人材育成、認定対策講座などAWSが厳選した33セッションを一挙に公開 — […]

Read More

Amazon SageMaker に独自のハイパーパラメータ最適化アルゴリズムを持ち込む

このブログ記事では、Amazon SageMaker でモデルをチューニングするためのカスタムの最先端のハイパーパラメータ最適化 (HPO) アルゴリズムを実装する方法について説明します。Amazon SageMaker には HPO アルゴリズムが組み込まれていますが、独自の HPO アルゴリズムを使用するための柔軟性があります。選択した HPO アルゴリズムを組み込むためのフレームワークを提供します。けれどもこれを実行する前に、いくつかの基本事項を確認しましょう。 フレームワークに関係なく、どのような機械学習 (ML) パイプラインでも、4 つの一般的な手順は、構築、トレーニング、チューニング (調整)、そしてデプロイです。構築段階では、データを収集し、マッサージし、そして ML トレーニングのために準備し、そしてアルゴリズムをゼロから記述するか、または一般的な ML フレームワークを使用して記述します。次に、準備されたデータをアルゴリズムで指し示し、何らかのパフォーマンス測定基準 (検証精度など) を段階的に改善することによってモデルをトレーニングします。モデルを望ましいレベルの精度にトレーニングしたら、より大きな ML アーキテクチャで使用するためにホストするか、デプロイする準備が整います。トレーニングを開始する前に、各アルゴリズムは、アルゴリズムのさまざまな側面を定義するハイパーパラメータと呼ばれる値のセットから開始します。たとえば、Amazon SageMaker の組み込みアルゴリズムとしても提供されている一般的な Xgboost (Extreme Gradient Boosted Trees の略) アルゴリズムは、モデルをトレーニングする前に以下のパラメータを設定する必要があり、そしてデータと共に、トレーニングの実行方法、およびモデルの最終的な精度を決定します。 パラメータ名 パラメータタイプ 推奨範囲 alpha 連続 MinValue: 0, MaxValue: 1000 colsample_bylevel 連続 MinValue: 0.1, MaxValue: 1 colsample_bytree 連続 MinValue: 0.5, MaxValue: […]

Read More

新しい認定資格「AWS Certified Machine Learning – Specialty」で認定機械学習開発者になる

2018 年 11 月に、このブログで、Amazon のエンジニアを訓練するために使用されるものと同じ機械学習 (ML) コースが、AWS を通してすべての開発者にご利用いただけるようになったことをお知らせしいたしました。本日は、AWS を使用して機械学習モデルを構築、トレーニング、調整、デプロイする能力を強化および検証する方法があることをお知らせいたします。 AWS トレーニングと認定は、新しい AWS Certified Machine Learning – Specialty 認定の提供を発表いたします。この新しい試験は、特定のビジネス上の問題に対して ML ソリューションを設計、実装、デプロイ、保守する能力を検証したい開発者およびデータサイエンティストのために AWS の専門家によって作成されました。さらに、特定のビジネス上の問題に適した ML アプローチを選択して正当化し、ML ソリューションを実装するのに適切な AWS のサービスを特定し、スケーラブルでコスト最適化された信頼性の高い安全な ML ソリューションを設計および実装する能力を検証します。AWS トレーニングと認定では、ML および人工知能 (AI) サービス、特に Amazon SageMaker、および Amazon EMR、AWS Lambda、AWS Glue、Amazon S3 などのその他のサービスの使用に関して 1 年以上の実務経験があることをお勧めしています。また、受験者がアソシエートレベルの認定またはクラウドプラクティショナー認定を取得していることも推奨されますが、必須ではありません。 AWS の機械学習担当副社長である Swami Sivasubramanian から、この成長分野でのニーズについての彼の考えを聞く機会がありました。「顧客は機械学習の分野でもっと熟練した人材が必要であると言っており、これはアマゾン内でもよく知られている問題です。そのため、開発者を機械学習についてトレーニングするための社内教育の開発に大きな投資をしました」と、彼は言いました。「AWS トレーニングと認定は、同じリソースを顧客に提供することで、顧客がスタッフのスキルを開発および検証し、AWS で発展している AI/ML スイート、およびこのテクノロジが組織や世界経済にもたらす変革の効果を最大限に活用できるようにします。」 ML モデルを構築、トレーニング、調整、デプロイする能力により、新しいビジネスアイデアの発案、新しい雇用機会、新しい顧客体験が生まれます。始める準備はできていますか? 次のステップ […]

Read More

NVIDIA T4 GPU での Works – EC2 インスタンス (G4)

私は過去に CPU のパワーと価値について書き、CG1、G2、G3、P2、P3、および P3dn インスタンスタイプなどの GPU 対応 EC2 インスタンスの多くの世代をローンチするための投稿を書いてきました。 今日、最新の GPU 対応インスタンスである G4 についての概略を示したいと思います。Machine Learning のトレーニングと推論、ビデオトランスコーディング、およびその他の需要の多いアプリケーションに対して設計された G4インスタンスが、さまざまなサイズで、またベアメタル形式でも利用可能になります。引き続き仕様を微調整していますが、皆さまには期待してお待ちいただけます。 AWS カスタム Intel CPU (4 ~ 96 個の vCPU) 1 ~ 8 個の NVIDIA T4 Tensor Core GPU 最大 384 GiB のメモリ 最大 1.8 TB の高速でローカルな NVMe ストレージ 最大 100 Gbps のネットワーク 真新しい NVIDIA T4 GPU は、320 個の […]

Read More