Amazon Web Services ブログ
Amazon SageMaker Canvas を使用して医療画像分類を簡素化する
医療画像の分析は、病気の診断と治療において重要な役割を果たします。機械学習 (ML) 技術を使用してこのプロセスを自動化することで、医療従事者は特定のがん、冠状動脈疾患、眼科疾患をより迅速に診断できます。しかし、この分野の臨床医や研究者が直面する主な課題の 1 つは、画像分類のための ML モデルを構築することの時間と複雑さです。従来の方法では、コーディングの専門知識と ML アルゴリズムに関する幅広い知識が必要であり、これは多くの医療従事者にとって障壁となる可能性があります。
このギャップを解消するために、私たちは Amazon SageMaker Canvas を使用しました。これは臨床医のようなMLの非専門家がコーディングや専門知識を必要とせずに ML モデルを構築してデプロイができるようになるビジュアルツールです。このユーザーフレンドリーなアプローチにより、ML に関連する急な学習曲線がなくなり、臨床医は患者に集中できるようになります。
Amazon SageMaker Canvas には、ML モデルを作成するためのドラッグアンドドロップのインターフェイスが用意されています。臨床医は、使用したいデータを選択し、必要な出力を指定して、モデルが自動的に構築されてトレーニングされるのを見守ることができます。モデルがトレーニングされると、正確な予測が生成されます。
このアプローチは、ML を使用して診断と治療に関する意思決定を改善したいと考えている臨床医にとって理想的です。Amazon SageMaker Canvas を使えば、ML の専門家でなくても、ML の力を利用して患者を助けることができます。
医療画像の分類は、患者の転帰と医療効率に直接影響します。医療画像をタイムリーかつ正確に分類することで、疾患の早期発見が可能になり、効果的な治療計画とモニタリングに役立ちます。さらに、Amazon SageMaker Canvas のようなアクセスしやすいインターフェイスを通じて ML を民主化することで、幅広い技術的背景を持たない医療従事者を含め、幅広い医療従事者が医療画像分析の分野に貢献できるようになります。この包括的なアプローチは、コラボレーションと知識共有を促進し、最終的には医療研究の進歩と患者ケアの向上につながります。
この投稿では、Amazon SageMaker Canvas が医療画像を分類する機能について説明し、その利点について説明し、医療診断への影響を実証する実際のユースケースに焦点を当てます。
ユースケース
皮膚がんは重篤で潜在的に致命的な疾患であり、早期に発見されればされるほど、治療が成功する可能性が高くなります。統計的には、皮膚がん(基底細胞がんや扁平上皮がんなど)は最も一般的ながんの種類の1つであり、毎年世界中で数十万人が死亡しています。皮膚細胞の異常な成長によって現れます。
ただし、早期診断により回復の可能性が大幅に高まります。さらに、外科療法、X線療法、または化学療法が不要になったり、全体的な使用量が減少したりして、医療費の削減に役立つ可能性があります。
皮膚がんの診断プロセスは、皮膚病変の一般的な形状、大きさ、色の特徴を検査するダーモスコピー [1] と呼ばれる検査から始まります。その後、疑わしい病変は、がん細胞型を確認するために、さらにサンプリングと組織学的検査を受けます。医師は、視覚的な検出から始めて、複数の方法で皮膚がんを検出します。米国皮膚科学研究センターは、ABCD(非対称性、境界、色、直径)と呼ばれる黒色腫の考えられる形状に関するガイドを開発し、医師が疾患の初期スクリーニングに使用しています。疑わしい皮膚病変が見つかった場合、医師は皮膚の目に見える病変の生検を行い、それを顕微鏡で調べて、良性または悪性の診断と皮膚がんの種類を調べます。コンピュータービジョンモデルは、疑わしいほくろや病変を特定するうえで重要な役割を果たします。これにより、より早く、より正確な診断が可能になります。
がん検出モデルの作成は、以下に概説するように、複数の段階からなるプロセスです。
- 健康な皮膚やさまざまな種類のがん性または前がん性病変のある皮膚から大量の画像データセットを収集します。このデータセットは、正確性と一貫性を確保するために慎重にキュレーションする必要があります。
- コンピュータービジョン技術を使用して画像を前処理し、健康な皮膚とがん性のある皮膚を区別するための適切な画像を抽出します。
- 教師あり学習アプローチを使用して、前処理された画像で ML モデルをトレーニングし、モデルにさまざまな肌タイプを区別するように教えます。
- 精度や再現率などのさまざまな指標を使用してモデルのパフォーマンスを評価し、がん性皮膚を正確に識別し、誤検知を最小限に抑えるようにします。
- このモデルを、皮膚科医やその他の医療従事者が皮膚がんの検出と診断に役立つ使いやすいツールに統合します。
全体として、皮膚がん検出モデルをゼロから開発するプロセスには、通常、多大なリソースと専門知識が必要です。このような場合に、Amazon SageMaker Canvas はステップ 2 から 5 までの時間と労力を簡素化するのに役立ちます。
ソリューションの概要
コードを書かずに皮膚がんのコンピュータービジョンモデルを作成する方法を実証するために、Harvard Dataverse が公開しているダーモスコピー検査用の皮膚がん画像データセットを使用します。HAM10000 にある10,015枚のダーモスコピー画像からなるデータセットを使用して、皮膚がんのクラスを予測する皮膚がん分類モデルを構築します。データセットに関するいくつかの重要なポイント:
- データセットは、学術的な ML を目的としたトレーニングセットとして機能します。
- 色素性病変の分野におけるすべての重要な診断カテゴリの代表的なコレクションが含まれています。
- データセットには、日光角化症と上皮内がん/ボーエン病(akiec)、基底細胞がん(bcc)、良性角化症様病変(日光性黒子/脂漏性角化症および扁平苔癬様角化症、bkl)、皮膚線維腫(df)、悪性黒色腫 (mel)、色素性母斑 (nv) および血管病変 (血管腫、被角血管腫、化膿性肉芽腫および出血、vasc)
- データセット内の病変の50%以上が組織病理学(ヒストー)によって確認されています。
- 残りの症例の根拠は、フォローアップ検査(
follow_up
)、専門家の合意(コンセンサス)、または生体内共焦点顕微鏡による確認(共焦点)によって決定されます。 - データセットには複数の画像を含む病変が含まれており、
HAM10000_metadata
ファイル内のlesion_id
列を使用して追跡できます。
Amazon SageMaker Canvas を使用してコードを記述することなく、複数の皮膚がんカテゴリの画像分類を簡素化する方法を紹介します。SageMaker Canvas の画像分類では、皮膚病変の画像が与えられると、その画像は良性またはがんの可能性のある画像に自動的に分類されます。
前提条件
- ステップセクションで説明されているリソースを作成する権限を持つ AWS アカウントへのアクセス。
- Amazon SageMaker を使用するための完全な権限を持つ AWS アイデンティティおよびアクセス管理 (AWS IAM) ユーザー。
ウォークスルー
- SageMaker ドメインのセットアップ
- データセットのセットアップ
- Amazon Simple Storage Service (Amazon S3) バケットをユニークな名前 (
image-classification-<ACCOUNT_ID>
) で作成します。ACCOUNT_ID はお客様固有の AWS アカウント番号です。 - このバケットに
training-data
とtest-data
という 2 つのフォルダーを作成します。 - トレーニングデータで、データセットで特定された皮膚がんのカテゴリーごとに、
akiec
、bcc
、bkl
、df
、mel
、nv
、vasc
の 7 つのフォルダーを作成します。 - データセットには多数の病変の画像が含まれており、
HAM10000_metadata
ファイル内のlesion_id-column
で追跡できます。lesion_id-column
を使用して、対応する画像を右側のフォルダーにコピーします (つまり、分類ごとに100枚の画像から始めることができます)。
- Amazon Simple Storage Service (Amazon S3) バケットをユニークな名前 (
- Amazon SageMaker Canvas を使用する
- コンソールの Amazon SageMaker サービスに移動し、リストから Canvas を選択します。Canvas ページに移動したら、Open Canvas ボタンを選択してください。
- Canvas ページが表示されたら、My models を選択し、画面の右側にある New model を選択します。
- 新しいポップアップウィンドウが開き、モデルの名前として image_classify という名前を付け、Problem type で画像解析を選択します。
- データセットをインポートする
- 次のページで、Import an Image dataset を選択し、ポップアップボックスでデータセットに image_classify という名前を付け、Create ボタンを選択してください。
- 次のページで、Data Source を Amazon S3 に変更します。画像を直接アップロードすることもできます (つまり、Local upload)。
- Amazon S3 を選択すると、アカウントにあるバケットのリストが表示されます。データセットをサブフォルダーに保持する親バケット (例:
image-classification-<ACCOUNT_ID>
) を選択した後にtraining-data
フォルダを選択し、Create dataset ボタンを選択します。これにより、Amazon SageMaker Canvas はフォルダ名に基づいて画像にすばやくラベルを付けることができます。 - データセットが正常にインポートされると、ステータス列の値が Processing から Ready に変わります。
- 次に、ページの下部にある Select dataset を選択してデータセットを選択します。
- モデルを作成する
- Build ページに、Amazon S3 のフォルダ名に従ってデータがインポートされ、ラベルが付けられているのがわかります。
- Quick build ボタン (つまり、以下の画像で紫で強調表示されているコンテンツ) を選択すると、モデルをビルドするための 2 つのオプションが表示されます。1 つ目は Quick build で、2 つ目は Standard build です。名前が示すように、クイックビルドオプションは精度よりもスピードが優先され、モデルのビルドには約 15 〜 30 分かかります。標準ビルドはスピードよりも正確さを優先し、モデル構築が完了するまでに 45 分から 4 時間かかります。Standard build は、ハイパーパラメータのさまざまな組み合わせを使用して実験を実行し、バックエンドで (SageMaker Autopilot 機能を使用して) 多数のモデルを生成してから、最適なモデルを選択します。
- Standard build を選択してモデルの構築を開始します。完了するまでに約 2 ~ 5 時間かかります。
- モデルの構築が完了すると、Figure 11 に示すような推定精度を確認できます。
- Scoring タブを選択すると、モデルの正解率 (accuracy) に関する洞察が得られるはずです。また、Scoring タブの Advanced metrics ボタンを選択すると、適合率 (precision)、再現率 (recall)、F1 値(適合率と再現率の調和平均)が表示されます。
- Amazon SageMaker Canvas に表示される高度なメトリクス(Advanced metrics)は、モデルがデータに対して数値、カテゴリ、画像、テキスト、または時系列予測のどれを実行するかによって異なります。この場合、精度よりも再現率が重要であると考えています。なぜなら、がんの検出を見逃すことは、正しい検出よりもはるかに危険だからです。2 カテゴリ予測や 3 カテゴリ予測などのカテゴリ予測は、分類の数学的概念を指します。高度なメトリクス の再現率は、すべての実際の陽性(TP + 偽陰性)のうち、真陽性(TP)の割合です。モデルによって陽性と正しく予測された陽性インスタンスの割合を測定します。高度なメトリクスの詳細については、こちらの「あなたのモデルは最適ですか? Amazon SageMaker Canvas の高度なメトリクス deep dive」を参照してください。
これで、Amazon SageMaker Canvas でのモデル作成ステップは完了です。
- モデルをテストする
- Predict ボタンを選択すると、Predict ページに移動します。Predict ページでは、Single prediction または Batch prediction を使用して独自の画像をアップロードできます。お好みのオプションを設定し、Import を選択して画像をアップロードし、モデルをテストしてください。
- まず、単一画像での予測から始めましょう。Single predict を使用していることを確認し、Import image を選択します。これにより、Amazon S3 から画像をアップロードするか、Local upload を実行するかを選択できるダイアログボックスが表示されます。この例では、Amazon S3 を選択し、テストイメージがあるディレクトリを参照して、任意のイメージを選択します。次に、Import data を選択します。
- 選択すると、Generating prediction results という画面が表示されます。以下に示すように、数分で結果が出るはずです。
- それでは、バッチ予測を試してみましょう。Run predictions で Batch prediction を選択し、Manual から Create dataset を選択し、BatchPrediction という名前を付けて Create ボタンを押します。
- 次のウィンドウで、Amazon S3 アップロードを選択したことを確認し、テストセットがあるディレクトリを参照して、Import data ボタンを選択します。
- 画像が Ready になったら、作成したデータセットのラジオボタンを選択し、Generating predictions を選択します。これで、バッチ予測のステータスが Generating predictions になっているはずです。結果が出るまで数分待ちましょう。
- ステータスが Ready になったら、データセット名を選択すると、すべての画像の詳細な予測を表示するページに移動します。
- バッチ予測のもう 1 つの重要な機能は、結果を検証できることと、予測を zip または csv ファイルでダウンロードして、さらに使用または共有できることです。
これで、Amazon SageMaker Canvas を使用してモデルを作成し、トレーニングし、その予測をテストすることができたはずです。
クリーンアップ
左側のナビゲーションペインで Log out を選択して Amazon SageMaker Canvas アプリケーションからログアウトし、SageMaker Canvas ワークスペースのインスタンス時間の消費を停止し、すべてのリソースを解放します。
引用
[1]Fraiwan M, Faouri E. On the Automatic Detection and Classification of Skin Cancer Using Deep Transfer Learning. Sensors (Basel). 2022 Jun 30;22(13):4963. doi: 10.3390/s22134963. PMID: 35808463; PMCID: PMC9269808.
まとめ
本記事では、ML 技術を用いた医療画像解析が皮膚がんの診断を迅速化する方法と、他の疾患の診断への応用について紹介しました。ただし、画像分類用の ML モデルの構築は、多くの場合、複雑で時間がかかり、コーディングの専門知識と ML の知識が必要です。Amazon SageMaker Canvas は、コーディングや専門的な ML スキルを必要としないビジュアルインターフェイスを提供することで、この課題に対処しました。これにより、医療従事者は急な学習なしで ML を使用できるようになり、患者のケアに集中できるようになります。
がん検出モデルを開発する従来のプロセスは、面倒で時間がかかります。これには、精選されたデータセットの収集、画像の前処理、ML モデルのトレーニング、パフォーマンスの評価、医療従事者向けの使いやすいツールへの統合が含まれます。Amazon SageMaker Canvas は前処理から統合までのステップを簡素化し、皮膚がん検出モデルの構築に必要な時間と労力を削減しました。
この投稿では、医療画像分類において、Amazon SageMaker Canvas が非常に有効であることを説明しました。私たちが調査した説得力のあるユースケースの 1 つは、皮膚がんの検出と、早期診断によって治療成績が大幅に向上し、医療費が削減されることが多いというものでした。
モデルの精度は、トレーニングデータセットのサイズや採用するモデルの種類などの要因によって異なる可能性があることを認識することが重要です。これらの変数は、分類結果のパフォーマンスと信頼性を決定する役割を果たします。
Amazon SageMaker Canvas は、医療従事者がより正確かつ効率的に病気を診断するのを支援する非常に貴重なツールとして役立ちます。ただし、医療従事者の専門知識や判断に取って代わるものではないことに注意することが重要です。むしろ、能力を強化し、より正確で迅速な診断を可能にすることで、彼らに力を与えます。意思決定プロセスにおいて人的要素は依然として不可欠であり、医療専門家と Amazon SageMaker Canvas などの人工知能 (AI) ツールとのコラボレーションは、最適な患者ケアを提供する上で極めて重要です。
翻訳はソリューションアーキテクト菊地が担当しました。原文はこちらです。
著者について
Ramakant Joshi は AWS ソリューションアーキテクトで、分析とサーバーレスドメインを専門としています。ソフトウェア開発とハイブリッドアーキテクチャのバックグラウンドを持ち、お客様のクラウドアーキテクチャの近代化を支援することに情熱を注いでいます。
Jake Wen は AWS のソリューションアーキテクトで、ML、自然言語処理、ディープラーニングへの情熱に基づいています。彼は、企業のお客様がクラウドでのモダナイゼーションとスケーラブルな導入を実現できるよう支援しています。テクノロジーの世界以外でも、ジェイクはスケートボード、ハイキング、エアドローンの操縦に喜びを見出しています。
Sonu Kumar Singh は、分析ドメインを専門とする AWS ソリューションアーキテクトです。彼は、データ主導の意思決定を可能にし、それによってイノベーションと成長を促進することにより、組織の変革をもたらす変化を促進することに尽力してきました。彼は自分がデザインしたり作ったものがポジティブなインパクトをもたらすことを楽しんでいます。AWS では、お客様が AWS の 200 を超えるクラウドサービスから価値を引き出し、クラウドへの移行を支援することを目指しています。
Dariush Azimi は AWS のソリューションアーキテクトで、
機械学習、自然言語処理 (NLP)、Kubernetes によるマイクロサービスアーキテクチャを専門としています。彼の使命は、データストレージ、アクセシビリティ、分析、予測機能を含む包括的なエンドツーエンドソリューションを通じて、組織がデータの可能性を最大限に活用できるようにすることです。