Amazon Web Services ブログ

Amazon SageMaker のトレーニングと推論の間でデータ処理コードの一貫性を確保する

このブログ記事では、推論パイプラインを紹介します。これは、推論リクエストごとに実行される一連の手順を指定できる、Amazon SageMaker の新機能です。この機能を使用すると、同じコードの 2 つの別のコピーを保持する必要なしで、推論中のトレーニングで適用されたデータ処理手順を再利用できます。これにより、予測が正確になり、開発のオーバーヘッドを削減できます。ここでの例では、Apache Spark MLlib で変換器を使用してトレーニングと推論の入力データを前処理し、Amazon SageMaker の XGBoost アルゴリズムを使用して自動車の状態を予測する機械学習モデルをトレーニングします。 概要 データサイエンティストや開発者は、機械学習 (ML) モデルをトレーニングする前に、データのクリーニングと準備に多くの時間を費やしています。これは、現実のデータを直接使用することができないためです。値が欠落していたり、情報が重複していたり、標準化する必要がある同じ情報の複数のバリエーションがあったりするからです。さらに多くの場合、機械学習アルゴリズムで使用できるために、データをある形式から別の形式に変換する必要があります。たとえば、XGBoost アルゴリズムは数値データしか受け入れないため、入力データが文字列またはカテゴリ形式の場合は、使用する前に数値形式に変換する必要があります。他には、複数の入力の特徴を単一の特徴に組み合わせることで、より正確な機械学習モデルとなります。たとえば、気温と湿度を組み合わせて飛行遅延を予測すると、より正確なモデルが作成されます。 機械学習モデルを本稼働にデプロイして新しいデータを予測する場合 (推論と呼ばれるプロセス)、トレーニングで使用されたのと同じデータ処理手順がそれぞれの推論リクエストにも適用されるようにする必要があります。そうしないと、誤った予測結果となる可能性があります。今までは、トレーニングと推論に使用するために同じデータ処理手順の 2 つのコピーを維持し、それらが常に同期していることを確認する必要がありました。また、データ処理手順を、機械学習モデルへのリクエストを行うアプリケーションコードと組み合わせるか、推論ロジックに組み込む必要がありました。その結果、開発のオーバーヘッドと複雑さが必要以上に高くなり、迅速に繰り返す能力が制限されていました。 現在は、Amazon SageMaker に推論パイプラインを作成することで、推論中のトレーニングと同じデータ処理手順を再利用できます。推論パイプラインを使用すると、最大 5 つのデータ処理および推論の手順を指定できます。これらの手順は、全ての予測リクエストに対して実行されます。トレーニングのデータ処理手順を再利用できるので、データ処理コードのコピーを 1 つだけ管理し、クライアントアプリケーションや推論ロジックを更新することなくデータ処理手順を個別に更新することができます。 Amazon SageMaker は、推論パイプラインの作成方法に柔軟性をもたらします。データ処理手順では、Scikit-Learn および Apache SparkMLlib で利用可能な組み込みのデータ変換器を使用して、一般的なユースケースのためにデータをある形式から別の形式に処理および変換するか、カスタムの変換器を作成することができます。推論では、Amazon SageMaker で利用可能な組み込みの機械学習アルゴリズムとフレームワークを使用することもできますし、カスタムのトレーニングモデルを使用することもできます。リアルタイム推論とバッチ推論で同じ推論パイプラインを使用できます。推論パイプラインのすべての手順が同じインスタンスで実行されるため、レイテンシーによる影響は最小限になります。 例 この例では、AWS Glue を使用するデータ処理に Apache Spark MLLib を使用し、推論中にデータ処理コードを再利用します。UCI の Machine Learning Repository の Car Evaluation データセットを使用します。目標は、unacc、acc、good、vgoodの値の中から、特定の車の容認可能性を予測することです。根本的には分類問題であり、Amazon SageMaker の組み込みの […]

Read More

Amazon マネージドブロックチェーンで、ハイパーレジャーファブリックのアプリケーションを構築およびデプロイする

2018 年の re:Invent で、AWS は Amazon マネージドブロックチェーンを発表しました。一般的なオープンソースフレームワークのハイパーレジャーファブリックおよびイーサリアムを使用して、スケーラブルなブロックチェーンネットワークを簡単に作成および管理できる完全マネージド型のサービスです。このサービスのプレビューは、ハイパーレジャーファブリックフレームワークのサポートとともに利用できます。イーサリアムのサポートも間もなく開始されます。マネージドブロックチェーンの詳細については、「Amazon マネージドブロックチェーンとは何ですか?」を参照してください。 サービスを利用するには、プレビューにサインアップしてください。 この記事では、マネージドブロックチェーンを使用して、ハイパーレジャーファブリックのブロックチェーンネットワークを構築する方法を学びます。ファブリックネットワークを作成したら、そのネットワークを使用して非営利組織への寄付を追跡する 3 層アプリケーションをデプロイします。非営利組織は、その後援者に可視性を提供し、寄付金の使い方に対して透明性を保ちたいと思っています。ハイパーレジャーファブリックは、篤志家による各寄付金の使い方について詳細を追跡します。篤志家はこの情報を使用して、非営利組織が期待通りに寄付金を使っているかどうかを判断できます。 ブロックチェーンは、援助機関、投資家、慈善機関、サプライヤー、および非営利組織自身を含むネットワーク内の全メンバーの間で信頼を深められるため、このシナリオに適しています。ネットワーク内の全メンバーは、寄付および支出記録に対して、独自の不変で暗号化された安全なコピーを持ちます。メンバーは単独で、寄付金がいかに効果的に使われているかを見直すことができます。透明性は、非営利組織のコスト削減に対する効率性と洞察力の向上につながります。

Read More

[AWS Black Belt Online Seminar] AWS Certificate Manager 資料及び QA 公開

先日 (2018/12/19) 開催しました AWS Black Belt Online Seminar「AWS Certificate Manager」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 AWS Black Belt Online Seminar 2018 AWS Certificate Manager from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. DNS検証に成功した後、Route53の該当するレコードを削除した場合、証明証の自動更新がされないなどの影響がありますか? A. 影響がございます。こちらをご確認ください。 Q. RDSにSSL証明書があると思いますが、ACMで管理できるものですか?妄想的な質問で恐縮ですが、自動で更新されると良いかと思いまして A. ACMの管理対象ではありませんが、RDSの機能でメンテナンスウィンドウで自動更新されますが、RDSに接続するクライアント側で対応が必要な場合があります。 https://docs.aws.amazon.com/ja_jp/AmazonRDS/latest/UserGuide/UsingWithRDS.SSL.html Q. ACMで使えるドメインを教えてください A. 下記よくある質問の内容をご確認ください。 よくある質問では、複数ドメイン対応、ワイルドカードドメイン、ドメインに利用できる文字形式についての質問を掲載しております。 今後の AWS Webinar スケジュール 直近で以下のオンラインセミナーを予定しています。各オンラインセミナーの詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております! AWS Black Belt Online Seminar 1月分申込先 ≫ Redshift […]

Read More

クラウド規模での Western Digital HDD シミュレーション – HPC タスク 250 万件、EC2 スポットインスタンス 4 万個

今月の初めに、同僚の Bala Thekkedath がエクストリームスケール HPC についての記事を公開し、AWS のお客様である Western Digital が AWS でクラウド規模の HPC クラスターを構築し、それを使用して次世代ハードディスクドライブ (HDD) のための将来のヘッドにおける極めて重要な要素をシミュレートした方法について語りました。 この記事で説明されているシミュレーションには 250 万強のタスクが含まれており、その実施は vCPU 100 万個の Amazon EC2 クラスター上でわずか 8 時間で完了しました。Bala がその記事で述べたように、Western Digital でのシミュレーション作業のほとんどが、HDD を包含するテクノロジーとソリューションの異なる組み合わせを評価する必要性を中心に展開されています。エンジニアはその過程において、ますます多くのデータを同じ領域に詰め込むこと、ストレージ容量を改善すること、そして転送速度を向上させることに焦点を当てます。材料、エネルギーレベル、および回転速度の何百万もの組み合わせのシミュレートすることは、Western Digital が最も高い密度と最も速い読み取り/書き込み時間を追求することを可能にし、結果をより迅速に得ることは、より良い判断を行うことを可能にすると共に、新しい製品を以前より速く市場に出すことができるようにします。 以下は、Western Digital のエネルギーによる記録処理が行われる様子を可視化したものです。上の横棒は磁気、中央の横棒は付加されたエネルギー (熱)、そして下の横棒は磁気と熱の組み合わせによって媒体に書き込まれた実際のデータを表しています。 先日、私は記録を塗り替えるこのシミュレーションを実現するために共に取り組んだ私の同僚、Western Digital のチーム、そして Univa に話を聞きました。私の目的は、このシミュレーションのための準備方法についての詳細を解明し、彼らが学んだ事柄を理解して、独自の大規模ジョブを実行する準備が整っている皆さんとそれらを分かち合うことでした。 規模の拡大 約 2 年前、Western Digital チームは、可能な限りコスト効率を良くするために、EC2 スポットインスタンスによって作動する、vCPU 8 万個もの大きさのクラスターを実行していました。クラスターは、8,000 個、1 万 6,000 個、および […]

Read More

Amazon DynamoDB のベストプラクティスに従うという 2019 年の計を立てる

AWS ではこの 2019 年、DynamoDB での作業時にミッションクリティカルなワークロードのパフォーマンスを最大化して、コストを最適化するために役立つ Amazon DynamoDB のベストプラクティスに従うことをお勧めします。この記事は、このような抱負の維持を助ける DynamoDB のコンテンツに焦点を当てて行きます。

Read More

タグベースのスケーリングプランを使って AWS Auto Scaling ポリシーを簡単に管理する方法

このブログ記事では、リソースをひとつ、または複数のタグに基づいてグループ化し、スケーリングプランを使用することによって AWS Auto Scaling ポリシーを集約、設定、および管理する方法をご紹介します。スケーリングプランを使用すると、タグを用いることによって AWS Auto Scaling ポリシーの作成を自動化し、これらのポリシーを簡単に変更できます。

Read More

AWS Systems Manager Automation を使用したマルチアカウントおよびマルチリージョン環境のパッチ管理

AWS Systems Manager Automation は AWS リソースを集中管理するためにマルチアカウントおよびマルチリージョンを対象としたアクションを実行することができます。この機能を活用することでアカウント全体への設定の適用、運用アクション、コンプライアンス管理、に必要な時間とオーバーヘッドを減らすことができます。 このブログ記事では、AWS Systems Manager Automation を使用して、マルチアカウントおよびマルチリージョン環境のマネージドインスタンスにパッチを適用する方法を紹介します。またパッチ適用のために、インスタンス管理にどのようにリソースグループを活用するか説明します。例えば、開発、テスト、および本番などのさまざまな環境用のリソースグループを作成できます。そして Patch Manager を活用したカスタム自動化ドキュメントの作成方法と、カスタム自動化ドキュメントを実行してマネージドインスタンスにパッチを適用する方法を説明します。

Read More

[AWS Black Belt Online Seminar] Amazon DynamoDB Advanced Design Pattern 資料及び QA 公開

先日 (2018/12/25) 開催しました AWS Black Belt Online Seminar「Amazon DynamoDB Advanced Design Pattern」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. 「時系列データが必要なアプリケーション」のスライドで GSIKey Rand(0-N) というのがありましたが、これはどのような目的がありますか? A. こちらにあるような形で、書き込み後の検索効率向上の為のテクニックになります。 今後の AWS Webinar スケジュール 直近で以下のオンラインセミナーを予定しています。各オンラインセミナーの詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております! AWS Black Belt Online Seminar 1月分申込先 ≫ Redshift Recently Features Update 2019 年 […]

Read More

AWS IoT ボタンによる、ジャストインタイムの VPN アクセス

AWS コミュニティヒーローである Teri Radichel による寄稿。Teri Radichel は、彼女の会社である 2nd Sight Lab を通じてサイバーセキュリティ評価、ペネトレーションテスト、調査サービスを提供しています。また、彼女は AWS Architects Seattle Meetup の創設者でもあります。 クラウドセキュリティのトレーニングを行うために旅行している間、私はホテルの部屋でも、教室でも VPN を使用して Wi-Fi ネットワークに接続します。ほとんどの企業は、リモート VPN エンドポイントをインターネット全体に公開しています。そこで、必要な場所にだけネットワークアクセスを許可するために AWS IoT ボタンを使用できるという仮説を思いつきました。VPN ユーザーがクリックするとアクセスできるようになり、ネットワークルールが起動され、ダブルクリックすると再びネットワークトラフィックが許可されなくなるとしたらどうでしょうか。 このアイディアを試したところ、以下の結果が分かります。 なぜ、VPN をリモートクラウド管理に使用するのか、疑問に思われるかもしれません。なぜ、ノートパソコンやモバイルアプリケーションではなくて AWS IoT ボタンなのでしょうか? それについての詳細は、私のクラウドセキュリティに関するブログをご覧ください。 最初は、デバイスで使用される証明書を組織が管理できるので、AWS IoT エンタープライズボタンを使用したいと考えていました。また Wi-Fi も使用し、ネットワークアクセスを許可するためにボタンの IP アドレスを取得することを望んでいました。そのためには、ラップトップと同じ IP アドレスをボタンが Wi-Fi ネットワークから受け取ったことを証明できなければなりませんでした。残念ながら、一部のワイヤレスネットワークで使用されるキャプティブポータルのために、一部の場所でボタンを接続するのに問題がありました。 次に、AT&T LTE-M ボタンを試しました。このボタンを今回のユースケースのために機能させることはできましたが、必要とされるほどユーザーフレンドリーではありませんでした。このボタンは、ホテルの部屋で VPN に接続するために使用している Wi-Fi ではなく、セルラーネットワークにあるため、IP アドレスを自動的に判断することができないのです。AWS IoT モバイルアプリケーションを使用して手動で設定しなければなりません。 […]

Read More

新しい Database Migration Playbook が公開されました—Microsoft SQL Server から Amazon Aurora MySQL への移行

このプレイブックは、AWS Schema Conversion Tool の自動変換機能に焦点を当て、自動変換プロセスの制限事項に対する代替方法について説明します。SQL Server と Aurora MySQL の違い、非互換性、類似点を中心に説明し、幅広い種類のトピックを網羅しています。そうしたトピックとしては、T-SQL、構成、高可用性と災害対策 (HADR)、インデックス作成、管理、パフォーマンスチューニング、セキュリティ、物理ストレージなどが含まれます。

Read More