Amazon Web Services ブログ

Category: Amazon SageMaker

Amazon SageMaker Studio と Apache Spark を用いた Delta Lake からのデータのロードと変換

AWS Lake Formation をはじめ、複数のベンダーがデータレイクアーキテクチャを作成しています。また、オープンソースのソリューションにより、企業は簡単にデータにアクセスし、ロードし、共有することができます。AWS クラウドにデータを保存するためのオプションの1つが Delta Lake です。Delta Lake ライブラリは、オープンソースの Apache Parquet ファイルフォーマットでの読み込みと書き込みを可能にし、ACID トランザクション、スケーラブルなメタデータ処理、統一されたストリーミングおよびバッチデータ処理といった機能を提供します。Delta Lake は、Amazon Simple Storage Service (Amazon S3) のようなオブジェクトレイヤーのストレージの上にデータを格納するために使用できるストレージレイヤー API を提供しています。

グローバルサプライチェーンにおける通関リスクの管理

前回のブログ「動的なサプライチェーンプラットフォームを構築する方法: 入門書」では、企業が AWS を利用して […]

the labeling and ML journey using Ground Truth and MLflow

Amazon SageMaker Ground Truth と Databricks MLflow を用いた MLOps 感情分析パイプラインの構築

より深いインサイトを得るために機械学習(ML)を導入する企業が増える中、ラベリングとライフサイクル管理という2つの重要な課題に直面しています。ラベリングとは、データを確認し、ML モデルがそこから学習できるようにラベルを追加して、データのコンテキストを提供することです。ラベルとは、音声ファイルの文字起こし、写真内の車の位置、または MRI 画像内の臓器の箇所などが該当します。データのラベリングは、ML モデルがデータに対してうまく動作するようにするために必要です。ライフサイクル管理は、ML 実験のセットアップと、結果を得るために使用したデータセット、ライブラリ、バージョン、モデルを文書化するプロセスなどに関係するものです。あるチームは、1つのアプローチに落ち着くまでに何百もの実験を行うかもしれません。その実験の要素を記録しておかないと、過去のアプローチに立ち戻って再現するのは難しいでしょう。