Amazon Web Services ブログ
Amazon SageMaker を使用して、整形外科的病理を予測するためのモデルを作成する
人工知能 (AI) および機械学習 (ML) の分野は、ヘルスケア産業、特に医用画像化において、勢いを増しつつあります。ML に対する Amazon SageMaker のアプローチは、ヘルスケア分野において将来有望であると言えます。ML は、産業間全体のどの分野においても、適用可能であると考えられています。ヘルスケア分野の範囲で言えば、ML は最終診断を下すための重要な要素として、放射線検査または検査報告のような役割を果たすことが可能なのです。
このブログ投稿では、UCI ML Dataset を使用して、整形外科における ML の使用について説明し、脊椎の病状予測を自動化することを目指します。この技術は、診断時間を短縮し、ML を用いた拒絶選択肢技術を促すことによって、診察訪問数および / または処方数を最小限に抑える対策について考えるよい機会となるでしょう。 この技術により、難しい症例は整形外科医などの専門家に委ねられることになるでしょう。データセットの 2 つの診断である、椎間板ヘルニアおよび脊椎すべり症は、筋骨格疼痛障害を引き起こしうる脊髄病変の 1 つです。疼痛障害のためのオピオイド処方を最小限に抑えるため、リスクにさらされている患者を客観的かつ効果的に特定し治療を行うことのできる ML 技術を駆使することで、コンピュータ支援診断システムに可能性を見出すことができるのです。
このブログの記事では、これらのデータセットをダウンロードして、脊柱の特徴または特性に基づいて、正常または異常な整形外科的あるいは脊髄の病状 (ヘルニアまたは脊椎すべり症) を有するかどうかを予測するための例を提示しています。これらの病状の特性を考慮する予備診断ツールは、高い偽陽性率を有します。MRI は、腰椎椎間板ヘルニアの抑制を検出するのに使用しますが、この技法では ~ 33% の偽陽性率を有します。診断に用いる脊髄ブロック (注射) は、22% から 47% の偽陽性率があります。(注: これを ML モデルを評価する際のベースラインとして使用します)。
これらのデータセットは、マルチクラスおよびバイナリ分類問題の両方を提示します。
病理予測のための Amazon SageMaker での ML モデルの作成
この投稿では、マルチクラスのカテゴリ分類モデルとバイナリ分類モデルという 2 つのモデルを作成し、両方を評価します。マルチクラスのカテゴリ分類は、正常、椎間板ヘルニア、または脊椎すべり症の病状を有するかどうかを予測します。バイナリ分類はバイナリ応答を予測します。0 – 正常、または 1 – 異常です。
この例では、高次レベルでの手順を実行しています。
- Amazon SageMaker Jupyter ノートブックを用意する
- Amazon SageMaker を使用して、Amazon Simple Storage Service (S3) からデータセットをロードする
- Amazon SageMaker XGBoost (eXtreme GradientBoosting) アルゴリズムを使用して、モデルを評価する
- Amazon SageMaker 上でモデルをホストして、予測を継続する
- テストデータセットで、最終的な予測を生成する
設定
first notebook をダウンロードし、SageMaker インスタンスにアップロードしてから、このブログの投稿に従ってください。まず、以下を指定してみましょう。
- データに対するラーニングとホスティングのアクセスを与えるのに使用する Amazon SageMaker ロールの Amazon Resource Name (ARN) を指定するノートブックインスタンス、トレーニング、および / またはホスティングに複数のロールが必要な場合は、boto3 コールを適切で完全な Amazon SageMaker ロールの ARN 文字列に置き換える必要があることに注意してください。
- モデルオブジェクトのトレーニングおよび保存に使用する Amazon S3 バケットを指定する
Attribute-Relation File Format (ARFF) 形式は、データセットを与えられた際に使用するフォーマットなので、liac-arff もインストールします。
ここで、分析中に使用する、関連する Python ライブラリをインポートする必要があります。
この例で使用する Amazon S3 バケットを定義しましょう。
データ
データは、2 つの別々のファイル (column_2c_weka.arff と column_3c_weka.arff) で提供されます。列名は両方のファイルにあります。
ホストした zip ファイル (“vertebral_column_data”) は、4 つのデータファイルで構成され、そのうちの 2 つは実際のデータと属性 (バイナリ分類の場合は column_2C_weka.arff、カテゴリ分類の場合は column_3C_weka.arff) を含んでいます。データセットは、310 人の患者記録を表す 310 行で構成されています。
クラスと属性
このデータセットは、患者の 6 つの生体力学的特性、および結果、あるいは病状を含んでいます。属性は、脊柱 (脊椎骨、無脊椎動物の椎間板、神経、筋肉、髄質および関節のグループ) を説明しています。これらの脊髄 – 骨盤系パラメータは、骨盤形態角度 (PI)、骨盤回旋角度 (PT)、前弯角度、仙骨傾斜角度 (SS)、骨盤半径、および滑り度を含みます。
各患者は、骨盤と腰椎 (この順で) の形状および方向から得られる 6 つの生体力学的属性 (骨盤形態角度、骨盤回旋角度、腰椎前弯角度、仙骨傾斜角度、骨盤半径、および脊椎すべり症の等級) を有します。正常 (NO)、および異常 (AB)、またはマルチクラス: DH (椎間板ヘルニア)、脊椎すべり症 (SL)、正常 (NO) のいずれかのバイナリで、各患者のクラスまたは診断も含みます。
準備
Amazon S3 へデータを XGBoost が読み取れる形式で取得するため、圧縮したファイルから関連するファイルを抽出し、CSV に変換して Amazon S3 バケットに追加しました。これで、Amazon S3 と Amazon SageMaker がデータを読み取れるようになります。
ファイルの抽出と変換前データの読み取り
変換
今度は、抽出したファイルを取り込み、適切な形式 (バイナリの場合は Ortho_dataset.csv、マルチクラスの場合は Ortho_dataset_2.csv) で、.csv ファイルに変換します。XGBoost は、バイナリ属性を 0 と 1 に分類する必要があります。したがって、バイナリ分類ファイルでは、クラス変数列「診断」の「異常」と「正常」をそれぞれ「1」と「0」に置き換え、マルチクラスのカテゴリ分類ファイルでは、「正常」、「ヘルニア」および「脊椎すべり症」をそれぞれ「0」、「1」、「2」に置き換えました。
.arff ファイルを読み取り、.csv 形式に変換するには、次の Python スクリプトを参照してください。
データ検索
次に、データのサイズ、さまざまなフィールド、異なる特性が取る値、およびターゲット値の分布を知るために、データセットを調べます。
データの検索と変換
データが多いほど、ML モデルがより効果的になり、潜在的により高い精度を得ることができます。このブログ投稿で使用しているデータセットは非常に限られているため、どの特性も削除していません。この方法論は、より大きなデータセットに適用できます。
データヒストグラムと相関関係
ここでは、データを視覚化して、ヒストグラムと散乱行列の各特性内でのデータの拡散を確認します。散布図行列には、変数のペア間の相関関係が表示されます。散布図行列は、1 ヶ所で全ての一対相関を見ることができます。
データ記述
さて、データについてです。高次レベルでは、次のものを見ることができます。
- トレーニングデータには、7 つの列と 217 の行があります。
- テストデータは、7 列と 93 行あります。
- 診断がターゲットフィールドです。
特性の詳細 :
- 6 つの特性のうち、6 つが数字です。
ターゲット変数:
- 診断: マルチクラス: 患者がヘルニア、脊椎すべり症を有するか、または正常かバイナリか: 患者が異常な背骨条件を有するかどうか。
トレーニング
最初のトレーニングアルゴリズムでは、 xgboost
アルゴリズムを使用します。 xgboost
は、勾配ブースティング木のための、一般的なオープンソースのパッケージです。計算においてパワフルで、十分な機能を有しており、多くの機械学習コンテストで使用され成功を収めています。シンプルなものから始めてみましょう。 xgboost
は、Amazon SageMaker が管理する分散トレーニングフレームワークを使用してトレーニングしたモデルです。
初めに、トレーニングパラメータを指定する必要があります。これには、次のものが含まれます。
- 使用するロール
- トレーニングジョブ名
xgboost
アルゴリズムコンテナ- トレーニングインスタンスのタイプとカウント
- トレーニングデータのための Amazon S3 の場所
- 出力データのための Amazon S3 の場所
- アルゴリズムハイパーパラメータ
サポートするトレーニング入力形式は csv、libsvm です。csv 入力の場合、入力は区切り文字で区切られており (Python のビルトインスニファツールを使用してセパレーターを自動的に検出します)、ヘッダー行はなく、ラベルは最初の列にあると仮定します。スコアリング出力形式は csv です。データは CSV 形式ですので、データセットを Amazon SageMaker XGBoost がサポートする方法に変換します。ターゲットフィールドを最初の列に、残りの特性は次の数列に残しておきます。ヘッダー行を削除します。データを、別々のトレーニングセットと検証セットに分割します。最後に、Amazon S3 バケットにデータを保存します。
XGBoost を呼び出す前に、データを 70% のトレーニングと 15% の検証に分割し、保存します。
後ろに接頭辞が付いた S3 バケットに、トレーニングと検証のデータセットをアップロードする。(例: ‘train/’)
モデルに基づいたパラメータを指定する
- マルチクラス: objective: “multi:softmax”, num_class: “3”
- バイナリ: objective: “binary:logistic”, eval_metric: “error@t” (t はエラーのスコアしきい値)
ホスティング
データ内の xgboost
アルゴリズムをトレーニングしたので、後でホストできるモデルを設定しましょう。以下の作業を実行します。
- スコアリングコンテナを提示する
- 生じた Model.tar.gz を提示する
- ホスティングモデルを作成する
モデルの設定後、ホスティングエンドポイントの設定を構成することができます。ここでは、以下のように指定します。
- ホスティングに使用する EC2 インスタンスタイプ
- インスタンスの最初の数字
- ホスティングモデル名
エンドポイントを作成する
最後に、前に定義した名前と構成を指定して、モデルを表示するエンドポイントを作成します。最終結果は、検証され、製品アプリケーションに組み込まれるエンドポイントです。完了するのに、約 7 分から 11 分かかります。
予測
作成されたモデルがこちらです。このモデルは、値を予測するために使用されます。
トレーニング、検証、およびテストセットに関する予測を生成する
マルチクラスカテゴリのモデル精度を評価する
機械学習モデルの性能を比較するには、多くの方法があります。
マルチクラスモデルでは、一般的に、バイナリモデルで通常使用される ROC 曲線の下の面積で示される AUC スコアではなく、F1 値を使用します。F1 値とは、モデル内の全てのクラスの精度と再現率の統計的尺度です。スコアの範囲は 0 から 1 で、スコアが高いほど、モデルの精度は良くなります。例えば、~0.9 の F1 値は、0.7 のスコアを持つモデルよりも良いモデルであることを示します。
その他の評価基準には、感度、真陽性率、精度、または陽性適中率が含まれます。これに関しては、バイナリ分類の例で詳しく説明します。
この ML モデルの平均 F1 スコアは ~0.9 でした。
混同行列
混乱行列を考察することで、各クラスの性能を詳しく調べることもできます。
混同行列は、マルチクラス分類予測モデルの精度に基づいて、性能を視覚的に表すことができます。この表では、真陽性と偽陽性の割合を知ることができます。
例えば、脊椎すべり症のクラス (または診断) の精度が高い (97%) ことが分かります。評価データセットでは、150 例中 146 例が正確に予測されています。0.97 の F1 スコアも、比較的高いと言えます。しかし、ヘルニアのクラスの F1 スコアは 0.85 と低く、モデルが正常病態と混同していたことを示しています。マルチクラスモデルの評価および見解の詳細については、Multiclass Model Insights: https://docs.aws.amazon.com/machine-learning/latest/dg/multiclass-model-insights.html をご参照ください。
完了したら、次のコマンドを実行し、エンドポイントを削除します。
バイナリ分類のモデル
ここで、二値応答 (0 または 1) を生成するバイナリ分類モデルを示します。この場合、0 は正常、1 は異常です。この評価では、同様の混同行列で以下の 4 つの統計を生成します。
設定、データ、およびトレーニング
バイナリの設定は、マルチクラスカテゴリの設定と類似しています。パート 2 のノートブックをダウンロードして、このセクションを開始しましょう。ですが、いくつか異なる部分がありますので、注意してください。
データファイルの抽出:
変換 :
最終的にデータセットは 310 行あり、200 は異常、100 は正常です。
トレーニングでは、ハイパーパラメータが異なります。
モデルに基づいてパラメータを指定します (例: objective: binary:logistic, eval_metric: error@0.40)。
バイナリ分類モデルの評価指標
バイナリ分類の場合、モデルは曲線の下の面積で示される AUC をスコアとして使用します。AUC は、バイナリ分類 ML モデルの品質を測定するために使用される指標です。0.5 から 1 の範囲にあり、AUC スコアが高いほど、ML モデルの品質が高いことを示します。この場合、スコアのしきい値を調整することもできます。
トレーニング、検証、テストデータセットの性能指標を計算する
変化するしきい値に基づいた真陽性率対偽陽性率のグラフプロットを見てみます。目標は、高い真陽性率 (TPR または感度) および低い偽陽性率 (FPR またはフォールアウト) を有し、その結果、より高い AUC を有することです。
その他のモデル評価指標
- F1 スコア: 精度と再現率の加重平均
- 感度、ヒット率、再現率、または真陽性率
- 特異性、または真陰性率
- 精度、または陽性適中率
- 陰性適中率 (NPV)
- フォールアウトまたは偽陽性率 (FPR)
- 偽陰性率 (FNR)
- 偽発見率 (FDR)
- 全体的な精度
ここでは、偽陰性がゼロに近くなるように、しきい値を調整して感度を高め、FNR を最小限に抑えます。
偽陰性の場合、または患者の診断がすでに遅すぎる場合、費用がかさんだり、治療がより積極的となり、患者の命を危険にさらすことがあります。したがって、ゼロに近い偽陰性を最小限に抑えることが正しいとは思いません。
この場合、0.3 の切り捨ての高い精度 (89%) と低いエラー率 (11%) で、4.3% の偽陰性に向かうようにしきい値を調整しました。エラーパーセンテージは、モデルが予測ミスをした割合を示します。エラー率は、この場合も偽陽性率で、25% に設定しています。Amazon SageMaker に基づくモデルを使用して、このデータセットで、この偽陽性 (FP) 率と MRI (33% FP) および診断ブロック (22%~47% FP) の業界基準値を比較すると、一般的に使用する他のツールの範囲内での結果であることが分かります。
まとめ
このブログ投稿で分かるように、整形外科におけるバイナリの「異常」および「正常」病理分類は、重大な症例にラベル付けする (厳密な病理に完全に分類するのではなく) 意思決定支援システムを生み出す可能性があります。ML フィルタでは、整形外科医などの人間である専門家に、複雑かつ重大なケースは委ねられます。さらに、このアプローチはオピオイドを処方する際のガイドラインの要素を提供し、よって、オピオイドの処方を絞り込むことが可能となります。ML によるヘルスケア診断の発展への模索は、始まったばかりです。もっと多くのデータを入手し学んでいくことで、さらなる進歩を遂げることができるでしょう。
今回のブログ投稿者について
Sunaina Ahuja Rajani は、ビデオゲーム、メディア、女の子用おもちゃ、イベント、さらに季節によっては 2 時間のお届けサービスを持つ e コマースチャンネル Prime Now をマネジメントしています。ヘルスケアと認知神経科学の分野で、学士号と修士号を取得しました。テキサス出身で、ユタ、ワシントンD.C.、ニューヨーク市、ケンブリッジに住んだことがあり、現在はシアトル在住です。ウォールストリートジャーナルやヘルスケアとテクノロジーに関するニュースを読むことの他、ダンス、サイクリング、投資、映画「マトリックス」3 部作を観るのが好きです。