オックスフォード大学は、セクタートップクラスの画像認識機械学習製品のプロトタイプを導入し、貨幣のデジタル化を強化

2021 年

オックスフォード大学 は、Gardens, Libraries & Museums (GLAM) のコレクションに 2,100 万点のオブジェクトを収容しています。これは、世界でも指折りのアーティファクトや標本のコレクションです。これらの資産を保存し、教育と研究のために世界中で利用できるようにすることも GLAM の使命の 1 つの側面です。ただし、組織にはを一度に約 10% の所蔵品を展示するスペースしかなく、未だカタログ化されていないアーティファクトの膨大なバックログがあります。その障害に取り組むために、GLAM はアマゾン ウェブ サービス (AWS) を使用して、アーティファクトのカタログ化プロセスを加速するのに役立つ拡張画像認識システムを構築しました。

Gardens and Museums の IT チームは、Amazon SageMaker を利用しました。これは、デベロッパーやデータサイエンティストが機械学習 (ML) モデルを迅速に構築、トレーニング、デプロイできるようにするフルマネージドサービスです。Amazon Elastic Compute Cloud (Amazon EC2) インスタンスを搭載したモデルは低コストでトレーニングおよびデプロイされ、英国初の公立博物館であり世界初の大学博物館であるアシュモレアン博物館の膨大なコインコレクションを自動的にカタログ化しました。AWS では、画像認識システムは、人間のボランティアが同じタスクを完了するのにかかる時間の何分の 1 かでコインを識別してカタログ化します。

アシュモレアン博物館の外観。
kr_quotemark

このプロジェクトは複雑で時間がかかると思いましたが、AWS を利用することで簡単になりました」

Anjanesh Babu 氏
オックスフォード大学の Gardens, Libraries & Museums のガーデンおよびミュージアム IT 部門システムアーキテクト兼ネットワークマネージャー

AWS でインフラストラクチャを更新し、機械学習ベースのカタログシステムを作成する

GLAM は、アシュモレアン美術および考古学博物館、オックスフォード大学自然史博物館、ピットリバー博物館、科学史博物館の 4 つの博物館と、ボドリアン図書館、オックスフォード植物園とハーコート樹木園で構成されています。2019 年、GLAM はデジタルコレクションに 90 万人のビジターを迎えました。その 2,100 万のオブジェクトには、生きた標本や植物、歴史的遺物、さらには損傷、紛失したか、コレクターに返却されたオブジェクトの画像が含まれます。「長年にわたり、博物館はすべてのデジタルサービスを支える情報技術インフラストラクチャへの投資と管理にあまり積極的ではありませんでした」と Gardens and MuseumsIT の Systems Architect and Network Manager である Anjanesh Babu 氏は述べています。「時代遅れのインフラストラクチャへの長年の不十分な投資の後、University of Oxford は GLAM Digital プログラムを通じてデジタルトランスフォーメーションに戦略的な焦点を当てました」 このプログラムの一環であるデジタル資産改善プロジェクトは、インフラストラクチャの根幹と枝葉末節を改善し、目標に掲げられているデジタル化を図るための基盤となる部分でした。2017 年、このプロジェクトは 60 TB のデジタルレコードを Amazon Simple Storage Service (Amazon S3) にアップロードしました。これは、業界をリードするスケーラビリティ、データ可用性、セキュリティ、パフォーマンスを提供するオブジェクトストレージサービスです。

GLAM は、デジタル教育と研究のためのコレクションへのアクセスを最適化するために、研究部門がオブジェクトの識別やカタログ作成に必要な時間を短縮する機械学習ソリューションに着目しました。このため、Babu 氏は、プロトタイピングの候補となる適切にカタログ化されたコレクションを特定する必要がありました。アシュモレアン博物館の Heberden Coin Room のキュレーターである Jerome Mairat 氏は、デジタルコレクションを一から開発した経験があり、この試みの支援をお願いしました。このソリューションは、最初に、貨幣の世界的に有名な研究プロジェクトである Roman Provincial Coinage online で機能します。「利害関係者に何ができるかをアピールするための実践的な例が欲しかったのです」と Babu 氏は言います。「コインはそのメッセージを自然に伝えることができ、人を巻き込む大きな力を持っているので、AWS のデータサイエンスチームと仕事をすることにしました。」 機械学習の最初のステップは、何を予測するかを決定することです。この場合、Babu 氏は裏か表か、つまりコインの裏面か表面かという単純な結果を予測したいと考えていました。一連の既知のトレーニングデータが与えられた場合、機械学習ソリューションはコインの正しい面を高い精度で予測できるでしょうか? これが機械学習の世界に入るために必要なきっかけとなりました。結果、単純な「裏か表か」を超えて、はるかに充実したデータ分類になりました。

AWS で画像処理を自動化しながら時間とお金を節約する

GLAM は AWS を利用して、Amazon SageMaker で約 10 週間かけて 11 の機械学習モデルを構築およびデプロイしました。その間、研究と実験に約 1 か月かかりました。「プロトタイピングは迅速で、私の期待以上でした」と Babu 氏は言います。GLAM は、100,000 枚の画像の初期データセットを使用して、最初に Amazon SageMaker Notebook を使用してモデルを構築、トレーニング、実験しました。その後、Amazon SageMaker トレーニングジョブに切り替えました。これは、Amazon EC2 P3 インスタンス (NVIDIA V100 Tensor Core GPU を搭載) で Amazon EC2 スポットインスタンスとして多くのトレーニングジョブを同時に起動できるためです。トレーニングジョブは Amazon SageMaker で管理することで、コンピューティング性能に空きが出た時点で実行されるようにしました。スポットインスタンスの料金設定を使用することで、GLAM は Amazon EC2 オンデマンドインスタンスの料金設定の 10% のコスト、かつ 50% 少ない時間でモデルをトレーニングできます。また、Amazon SageMaker はフレームワークに依存しないため、GLAM は PyTorch でモデルをトレーニングし、独自のアルゴリズムとスクリプトを実装することができました。

結果として得られる画像認識システムには、一連のモデルが含まれます。まず、いくつかの機械学習モデルが画像の前処理を実行して、画像認識モデルが最良の結果を生成できるようにします。例えば、コインをデジタル化するために、ボランティア (通常は大学生) がそれぞれの面を写真に撮り、カタログ化します。コインが 20 度でもずれている場合、機械学習モデルもそれを処理できないため、畳み込みニューラルネットワークを使って各画像を 90 度回転させます。このプロセスにより、Mairat 氏はアシュモレアン博物館の 3 年分の仕事を節約できると述べています。別のモデルでは、コインの画像から背景を削除し、さらに別のモデルでは、最先端の敵対的ネットワークを使用して、画像のぼかし、ノイズ除去、およびアップスケールを行い、画像を高品質にします。このプロセスは非常に効果的であるため、携帯電話からの写真でも使用できます。

画像の準備が整うと、より多くの機械学習モデルがコインの特徴 (金額が記載されているか、金属でできているか、人物を描写しているかなど) を抽出し、この情報を使用して GLAM のインデックスで同様の特徴を持つコインを見つけます。次に、トランスフォーマーモデルは、画像キャプションまたはメタデータを生成し、各画像にタグ付けされます。すべてのモデルは、Amazon EC2 G4 インスタンス (NVIDIA T4 Tensor Core GPU を搭載) にデプロイされ、推論時間を数分から数秒に短縮します。

画像認識システムは、30 万枚のコインのコレクションに対して最大 3 年間の作業を節約することが期待されています。「生産ラインを機械学習モデルに置き換えて、キュレーション手順を改善しています」と Babu 氏は言います。Mairat 氏はまた、次のように述べています。「これで、ボランティアに付加価値のある他のステップに集中してもらうことができます。機械学習プロセスは、ワークフローと生産性を向上させ、一般の人々に付加価値をもたらします」 機械学習モデルは、将来的に GLAM のバルク画像データセットを分類する方法をリードすることが期待されています。

以前はボランティアが 10 分から数時間かかっていたコインの分析は、画像認識システムが導入されるとわずか数分で完了すると予想されます。「データセットに対する機械学習モデルがあり、検証と画像の補正を行ってもらえれば、スタッフの時間を節約できるだけでなく、ボランティアを教育し、おそらくそのようなモデルで作業するためのスキルを向上させることができます。学生がそこから得られる知識もまた、私たちが全体のプロセスに加えることのできる価値です」と Mairat 氏は言います。

画像認識システムはまた、訪問者との視覚的なやり取りを促進するために用いることもできます。例えば、アシュモレアン博物館は、オブジェクト識別セッションを開催したことがあります。このセッションでは、人々はオブジェクトを持ちより、学芸員からアドバイスをもらってこれらのオブジェクトを識別し、ストーリーを学ぶことができました。現在、AWS を利用した画像認識により、オブジェクトを写真に撮り、その画像を自宅からアップロードして詳細を知ることができ、仮想オブジェクトを識別できる可能性が生まれます。

AWS で GLAM のコレクションへのアクセスのしやすさを引き続き向上させる

GLAM は、コイン以外のオブジェクト (植物、宝石、蝶、その他のコレクションなど、より複雑なアイテムを含む) に画像認識システムを適用することを計画しています。また、GitHub でシステムのオープンソースバージョンを他の大学や研究機関と共有して、より大きな戦略的ロードマップの一部としてデータセットの共有を促進したいと考えています。

将来を見据えて、Babu 氏は、機械学習が GLAM のコレクションへのアクセシビリティを改善し、内部プロセスを合理化できる方法は他にないかと想像を膨らませています。現在、ウェブサイトの訪問者は、1 つの検索ボックスを使用して GLAM のコレクション全体から特定のオブジェクトを検索することはできません。美術館や図書館ごとに別々のウェブサイトにアクセスする必要があります。すべての GLAM に施設横断的なコレクション検索機能を提供したいという想いがあります。最終的に、Babu 氏は、世界中の多数の参加大学とヘリテージパートナーのコレクションを結集させる、さらに壮大な検索機能を想定しています。また、より局所的には、機械学習ソリューションを使ってギャラリーの温度をモニタリングおよび調整し、展示物の保存状態を最適化することで、コレクションケアチームの作業を強化することができます。

AWS で画像認識システムを構築することにより、GLAM は、学生、研究者、一般の訪問者のコレクションへのアクセスを大幅に増やす一方、スタッフとボランティアの作業量を大幅に軽減しました。「AWS が払った努力に感謝しています」と Babu 氏は言います。「このプロジェクトは複雑で時間がかかると思いましたが、AWS を利用することで、ポータブルで迅速に提供できる一般的な既製のツールを使って難なく遂行できました」


オックスフォード大学の Gardens, Libraries & Museums について

オックスフォード大学の Gardens, Libraries & Museums は、世界で最も重要なコレクションの一部を所蔵しています。同施設は、学術的な探求の重要な場であり、オックスフォードで生み出された豊富な知識と研究への玄関口として、毎年 300 万人以上の訪問者を迎えています。

AWS の利点

  • 約 10 週間で 11 の機械学習モデルを構築およびデプロイ
  • 300,000 枚のコインのコレクションをカタログ化するのに最大 3 年間かかる作業時間を節約できると予想
  • コイン分析には、10 分から数時間かかっていたのに対して数分で済むと予想
  • 推論時間を数分から数秒に短縮
  • ボランティアが既に手がけている作業を補完

使用されている AWS のサービス

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) は、安全でサイズ変更可能なコンピューティング性能をクラウド内で提供するウェブサービスです。デベロッパーがウェブスケールのクラウドコンピューティングを簡単に利用できるように設計されています。

詳細はこちら »

Amazon EC2 スポットインスタンス

Amazon EC2 スポットインスタンスを使うと、AWS クラウド内の使用されていない EC2 キャパシティーを活用できます。スポットインスタンスは、オンデマンド料金に比べ最大 90% の割引価格でご利用いただけます。

詳細はこちら »

Amazon SageMaker

Amazon SageMaker は、事実上あらゆるユースケースの機械学習モデルを構築、トレーニング、およびデプロイするために使用できる機械学習サービスです。

詳細 »

Amazon Simple Storage Service

Amazon Simple Storage Service (Amazon S3) は、業界をリードするスケーラビリティ、データ可用性、セキュリティ、およびパフォーマンスを提供するオブジェクトストレージサービスです。

詳細 »


使用を開始する

あらゆる業界のさまざまな規模のお客様が、AWS を活用してビジネスを日々変革しています。当社のエキスパートにお問い合わせの上、今すぐ AWS クラウドジャーニーを開始しましょう。