Amazon Web Services ブログ

edX と Amazon SageMaker を使用するすべての開発者のための機械学習

 お客様が深層学習科学と機械学習 (ML) のバックグラウンドをお持ちでないときに、どのように始めればよいかお尋ねになることがよくあります。 AWS において、私たちの目標はすべての開発者とデータ科学者の手に ML をもたらすことにあります。 AWS トレーニングと認定では edX と提携して、素早く容易に対話形式のコース「Amazon SageMaker: Simplifying Machine Learning Application Development」で ML を使用して開始できるようにしています。 edX でのみ利用できる 「Amazon SageMaker: Simplifying Machine Learning Application Development」は ML の基礎的な理解のための中程度のデジタルコースで、Amazon SageMaker を使用して構築、トレーニング、デプロイできる方法について学ぶことができます。 Amazon SageMaker は ML のワークフロー全体を対象にした 完全マネージド型サービスです。これは、データにラベルを付けて準備し、アルゴリズムを選択し、モデルをトレーニングし、それをデプロイし、予測を行い、動作させるために、微調整して最適化するために役立ちます。 このコースは、AWS 専門家により開発されました。次のことを説明しています。 ML が対応でき、最終的に解決に役立つことができる重要な問題 Amazon SageMaker の組み込みアルゴリズムと Jupyter Notebook インスタンスを使用してモデルをトレーニングする方法 Amazon SageMaker を使用してモデルをデプロイする方法 アプリケーションでパブリッシュされた SageMaker エンドポイントを組み込む方法 Amazon SageMaker: Simplifying Machine […]

Read More

Apache Hive メタストアを Amazon EMR に移行してデプロイする

 Amazon EMR の速さと柔軟性を、Apache Hive の有用性とユビキタス性と組み合わせることで、両方の長所が得られます。ただし、ビッグデータプロジェクトを始めるのは容易なことではありません。EMR に新しいデータをデプロイする場合でも、既存のプロジェクトを移行する場合でも、この記事では開始するための基本を説明します。 Apache Hive は、Apache Hadoop クラスターで動作するオープンソースのデータウェアハウスおよび分析パッケージです。Hive メタストアには、パーティション名やデータ型など、テーブルとその基礎となるデータの説明が含まれています。Hive は、EMR で実行できるアプリケーションの 1 つです。 この記事が提示するソリューションの大半は、メタストアを管理するために、Hiveにスケーラビリティを提供する Apache Hadoop を使用していることを前提としています。Hadoop を使用しない場合は、Amazon EMR のドキュメントを参照してください。 Hive メタストアのデプロイメント Hive メタストアでは、埋め込み、ローカル、またはリモートの 3 つの構成パターンのいずれかを選択できます。 オンプレミスの Hadoop クラスターを EMR に移行する場合、移行戦略は既存の Hive メタストアの構成によって異なります。 設定を検討する際は、いくつかの重要な事実を考慮してください。Apache Hive には、埋め込みメタストアに使用できる Derby データベースが付属しています。ただし、Derby は本番稼働レベルのワークロードには対応できません。 EMR を実行している場合、Hive はマスターノードのファイルシステム上の MySQL データベースにメタストア情報を一時ストレージとして記録し、ローカルメタストアを作成します。 クラスターが終了すると、そのマスターノードを含めてすべてのクラスターノードがシャットダウンし、データが消去されます。 これらの問題を回避するには、外部 Hive メタストアを作成します。これにより、Hive メタデータストアを実装に合わせて拡張できるようになり、クラスターが終了してもメタストアが維持されるようになります。 EMR 用の外部 Hive メタストアを作成する方法は […]

Read More

GitOps を使用したサーバーレス時代における最新の CI/CD パイプライン構築

 AWS コミュニティヒーローで、Datree.io の CTO 兼共同創設者、Shimon Tolts 氏によるゲスト投稿。彼は開発者向けのツールとインフラストラクチャが専門分野で、100% サーバーレスの会社を運営しています。 近年、ソフトウェアの構築と配信の方法に大きな変化がありました。主にマイクロサービスに関するもので、コードを小さなコンポーネントに分割し、インフラストラクチャをコードとして使用し、Git を信頼できる唯一のソースとして利用することでこれらすべてを結び付けたのです。 この記事では、最新のソフトウェア開発の推移とさまざまな手段について説明しながら、サーバーレスの世界での選択可能なソリューションをご紹介します。さらに、現代にふさわしい便利なツールもご紹介します。 サーバーレスとは サーバーレスの開発とツーリングの魅力あふれる世界をご紹介する前に、サーバーレスとは何かを考えてみましょう。AWS のウェブサイトには、主に 4 つの利点があります。 サーバー管理の必要がない。 適応性のあるスケーリング。 価値に対する支払い。 高可用性の自動化。 サーバーレスとは​​管理やスケーリングを必要としないインフラストラクチャであると、私は考えています。 私の会社の Datree.io では、ワークロードの 95% を AWS Fargate で、そして残りの 5% を AWS Lambda で実行しています。当社はサーバーレスの会社であるため、AWS アカウントには Amazon EC2 インスタンスがありません。詳細については、以下をご参照ください。 io での導入事例 Migrating to AWS ECS Fargate in production CON320: Operational Excellence w/ Containerized Workloads Using […]

Read More

Amazon SageMaker を使用した fastai モデルの構築、トレーニング、およびデプロイ

 深層学習は世界を変えています。しかし、コンテナの構築など、その基礎的な作業の多くでは、多くの時間がかかる場合があります。この記事では、fastai モデルを Amazon SageMaker トレーニングとホスティングに構築、トレーニング、デプロイする方法を説明します。この場合は、Amazon SageMaker Python SDK および PyTorch ベースイメージを使用します。このことにより、自分のコンテナを構築するための追加手順を行わずに済みます。 Amazon SageMaker は、フルマネージドの機械学習 (ML) サービスです。これにより、データ科学者と開発者は、低コストで、素早く ML モデルを構築、トレーニングし、本番稼働にデプロイできるようになります。Amazon SageMaker Python SDK は、ML モデルのトレーニングとホスティングのためのオープンソースライブラリです。TensorFlow、MXNet、PyTorch、および Chainer などの一般的な深層学習フレームワークを容易に使用し、互換性を持たせることができます。AWS は最近 fastai ライブラリを基本の PyTorch コンテナに追加しました。これにより、自分自身おコンテナを提供する代わりに、Amazon SageMaker で fastai 深層学習モデルを利用することができるようになります。 最新のベストプラクティスを使用して、fastai ライブラリは数行のコードだけで、高度な深層学習モデルを作成するときに役立ちます。これには、コンピュータビジョン、自然言語処理、構造化データ、または協調フィルタリングなどのドメインが含まれます。 組織の fast.ai は fastai ライブラリを開発して維持します。これは、一般的な深層学習オープンソース PyTorch パッケージと共に動作します。組織は最近、DAWNBench Competitionで優位な地位を得ました。また、一般的な オンラインコースを提供して、そのモデルを使って ML のバックグラウンドも経験もない開発者のトレーニングさえもしています。 環境のセットアップ fastai ライブラリをインストールした上で新しい Amazon SageMaker ノートブックインスタンスをセットアップするためには、[Launch Stack] […]

Read More
週刊AWS

週刊AWS – 2019/7/22週

こんにちは、AWSソリューションアーキテクトの小林です。先週末の東京はまるで夏が来たかのように暑かったのですが、ブログ執筆時点ではまだ梅雨明けは発表されていないようです(追記:午後に梅雨明けが発表されました)。そういえば、今年の東京の梅雨は数年ぶりに梅雨らしい雨の日が多かったような気がします。これから夏本番。暑い時期がやってきましたが、AWSの夏もとびきりホットになるといいなーと、なんとなく思っている今日この頃です。

Read More

AWSが加盟する欧州のクラウド推進団体CISPEが、クラウド調達時の仕様書作成に役立つホワイトペーパーを公開しました

2019年5月28日に、ヨーロッパの業界団体であるCISPE (Cloud Infrastructure Services Providers in Europe) から『“Buying Cloud Services in the Public Sector”(パブリック・セクターにおけるクラウドサービスの買い方)』と題したハンドブックが公開されました(こちらのCISPEのウェブサイトからダウンロードいただけます https://cispe.cloud/1983-2/)。 CISPEは、ヨーロッパの数百万の顧客にサービスを提供するクラウドコンピューティング業界のリーダーの集まりです。AWSもCISPEのメンバーであり、今回のハンドブックの作成にあたっては、公共政策・法務・公共調達渉外等の各メンバーが全面的に協力することにより、コンテンツ構成や最終段階のピアレビュー等の各段階をリードしました。 “『パブリック・セクターにおけるクラウドサービスの買い方』ハンドブックの目的は、競争的な調達プロセス(Cloud Services Request for Proposal- RFP)を通じてクラウドサービスを調達したいと望んでいるものの、これまではそうしたCloud Framework Agreementに関する知見をお持ちでなかった機関向けに、ガイダンスを提供することです。(CISPEのウェブサイト)”。すなわち、パブリック・セクターのお客様がクラウドサービスの調達仕様書・要件定義書を作成するための考え方と合わせ、コピー&ペーストでそのまま調達仕様書・要件定義書に盛り込んでいただくことを想定してCISPEメンバーが書き下ろした具体的な表現例に関する提案がふんだんに盛り込まれています(ハンドブック中では青色でハイライト)。今回のこのハンドブックのこうした記載の多くは、AWSのこれまでの数多くのお客様との意見交換やベストプラクティスを反映したものとなっています。 クラウドサービスに適合的な新しい調達仕様書を作り込むことは、調達担当者にとって容易ならざるチャレンジですが、今回のハンドブックは、日本政府が推進する「クラウド・バイ・デフォルト原則」の下で具体的な調達プロジェクトに取り組む日本の調達担当者の皆様に、グローバルな議論の積み上げを豊富な具体的な表現例付きで知っていただく「教科書」としてご活用いただけるものと考えています。今後、AWSとしては、このハンドブックの日本語への翻訳を進め、日本のパブリック・セクターの皆様に更にご活用いただきやすくすると同時に、具体的な調達プロジェクトへの当てはめを含め、各機関からのご相談にも対応させていただきたいと考えています。具体的なご相談は、ぜひ、AWSパブリック・セクター公共調達渉外担当までお問い合わせください。 本ブログは、CISPEのウェブサイト上の投稿をもとに、小木郁夫が執筆いたしました。

Read More

AWS と CLOUD 法

英国で EU 離脱(Brexit)のニュースがトップ記事となっていますが、先日、ロンドンでもう 1 つ重要なできごとがありました。Richard W. Downing 米国 司法副長官補佐が、Academy of European Law Conference において「海外のデータの合法的使用を明確化する法律」(Clarifying Lawful Overseas Use of Data Act) (通称「“CLOUD 法”」) についての誤解と真実に関してスピーチを行い、その後、米国司法省 (DOJ) から CLOUD 法の目的と範囲を明確にし、多くの誤解に対処するためのホワイトペーパーと FAQ が発表されました。このスピーチと DOJ のホワイトペーパーおよび FAQ をぜひお読みいただき、CLOUD 法の実態をご理解ください。簡単に言うと、CLOUD 法とは、国際的な犯罪やテロ活動に法執行機関が対処することを唯一の目的とした古い法律に、軽微な変更を加えたものです。CLOUD 法によって米国の法執行機関にクラウド内のデータに対して自由なアクセス権をが与えられる、という噂は事実ではありません。 DOJ のスピーチとガイダンスは正しい方向に進むための足掛かりにはなりますが、それだけでは不十分です。クラウドコンピューティング利用者がデータのアクセスに関する重要な問題を理解できるようにするために、各国の政府が行うべきことはたくさんあります。今日は、CLOUD 法に伴いクラウドサービスの利用方法を変える必要はないということをお客様に理解していただけるように、この法律に対する主な誤解について説明しようと思います。 過去 30 年にわたる法執行機関のデータアクセス権 1986 年に、「保管された通信に関する法律」 (Stored Communications Act (SCA)) が議会で制定され、電子的コミュニケーションに対する法執行機関のアクセスについて対応が行われました。制定当時は SCA が将来を見据えた法律だと思われていましたが、その後に新しいインターネットアプリケーションやクラウドコンピューティングなどの技術が出てくると、その対応は困難で何年もかかってしまいました。そこでの議論の 1 つは、米国外にあるデータを米国の法執行機関が取得することができるかどうかということでしたが、この議論は CLOUD 法の成立によって決着しました。米国でビジネスを行っている事業体 […]

Read More

Amazon Athena ワークグループを使用したクエリの分離とコストの管理

Amazon Athena は、Amazon S3 のデータに対するサーバーレスのクエリエンジンです。多くのお客様が、Athena を使用してアプリケーションおよびサービスのログを照会し、自動化されたレポートをスケジュールし、それらのアプリケーションと統合し、新しい分析ベースの機能を可能にしています。 ビジネスアナリスト、データサイエンティスト、セキュリティ、オペレーションエンジニアなど、さまざまな種類のユーザーが Athena を活用しています。しかし、コストを最小限に抑えながらユーザーが最高の体験を得られるには、こうしたワークロードをどのように分離および管理すればよいでしょうか? この記事では、ワークグループを使用して以下を行う方法を説明します。 ワークロードを分離する。 ユーザーのアクセスをコントロールする。 クエリの使用状況およびコストを管理する。

Read More

AWS が 9 年連続で、ガートナーによるマジッククアドラントの Infrastructure as a Service (IaaS) 分野においてリーダーに選ばれる

AWS サービスチームのスタッフたちは、お客様が今必要としているものを提供するだけでなく、明日必要になるものを予測することにも最善を尽くしています。この「顧客へのこだわり」と「ベストな人材を確保し育てる」(14 か条ある Amazon リ ーダーシッププリンシプルのうちの 2 つ) ことに取り組むことで、私たちはビジョンを見据え、実現しています。弊社の努力がお客様を喜ばせ続けている、さらにガートナーや他の一流のアナリストたちから認められていると分かるのは、いつでもうれしいものです。 AWS は 9 年連続して、ガートナーによるマジッククアドラントのクラウド IaaS 分野において右上隅のリーダーのポジションを確保し、実行能力とビジョンの完成度において最高位を獲得してきました。 フルレポートには AWS に関する詳細情報が数多く記載されており、お客様がクラウドプロバイダーを選択する際、機能や条件を検討するための優れた要約資料となるでしょう。 Jeff ガートナーは、研究出版物に記載されているベンダー、製品、サービスを推薦するものではなく、テクノロジーユーザーに最高の評価や他に指名されたベンダーのみを選択するように助言するものでもありません。ガートナーの研究出版物はガートナーの研究組織による見解で書かれたものであり、事実を表明するものではありません。ガートナーは、商品性または特定目的適合性に関するいかなる保証も含め、この調査に関する明示黙示の如何を問わず、あらゆる保証の適用を排除します。

Read More

深く掘り下げて問題を解決する: Well Data Labs が、石油およびガス分野の課題に機械学習を適用

2014 年に CEO の Josh Churlik 氏が Well Data Labs を共同設立したとき、彼は業界における奇妙な二分法を強く意識していました。石油およびガス会社にとって、「坑内」の技術革新 (つまり地下で起こること) は、データや分析の技術革新のペースをはるかに上回っていたのです。当時使用されていたデータシステムは 1990 年代の遺物であり、必要とする人々にとって有益であるよりも、歴史への敬意がより強いものでした。 業界の他の多くの人と同様に、Josh と Well Data Labs のチームは、現場のエンジニアの仕事をずっと容易にする可能性がある情報にアクセスできないことに不満を感じていました。業界がスプレッドシートで発展している間、Churlik 氏と彼のチームは、クラウドコンピューティングの急速な進歩に基づいて最新のソフトウェア会社を設立する機会を見つけました。 その結果生まれた会社である Well Data Labs は、「事業者が自社の内部データを管理、分析、報告するための最速かつ最も簡単な方法を提供するために構築された最新のウェブアプリケーション」と自称しています。 つまり、Well Data Labs は、運用中に作成された厄介な時系列データ (キャプチャ、正規化、構造化、およびそのデータに対する分析の有効化) をすべてウェブベースのアプリケーション内で効率的に処理するのです。 Well Data Labs が提供するものを使用すると、エンジニアはより迅速で、より情報に基づいた決定、つまり運用のコストと成功に直接かつ直接的な影響を及ぼす決定を下すことができます。Well Data Labs の顧客が現場での操作をリアルタイムで監視できるように、同社は手動によるフロントエンドのデータ収集と分析を AWS で実行されるカスタム開発の機械学習 (ML) モデルに置き換えました。 AWS の技術スタックがこのソリューションの原動力です。Churlik 氏は、次のように説明しています。「開始したときに、他のクラウドプロバイダーと AWS の間でベイクオフを行いました。私たちは .NET スタックと SQL データベースを使いましたが、AWS ははるかに高性能でした。」 それで、AWS […]

Read More