Amazon Web Services ブログ

[AWS Black Belt Online Seminar] Amazon SageMaker Basic Session 資料及び QA 公開

先日 (2019/2/6) 開催しました AWS Black Belt Online Seminar「Amazon SageMaker Basic Session」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. バッチ推論とは何ですか? A. バッチ推論とは、大量の推論対象データに対して、一括で推論処理を行うことを指します。Amazon SageMaker においては、推論用のインスタンスを立ち上げて、S3 から対象データを読み込んで推論を行い、結果を S3 に書き出す形で実現しています。 Q. SageMakerの各コンポーネントで、モデル変換とありましたが、このモデル変換後出てくるモデルの形式は何になりますでしょうか(例:Keras⇒Chainer等) A. モデル変換は、Neo-AI プロジェクトとして OSS で公開されておりますコンパイラによって実施されます。出力形式は、Neo の独自フォーマットとなり、Neo Runtime にて動作いたします。Neo-AI プロジェクトの詳細については、こちらのブロク記事も参照ください。 Q. SDKの基本コード3行目のchainer_estimator.fitはestimator.fitの間違いでしょうか?chainer_estimatorという変数が宣言されていないように思えます。 A. ご指摘の通りです。こちらの資料間違いでご迷惑をおかけして申し訳ありません。公開バージョンの資料では、こちらの間違いは修正いたしました。 Q. SageMakerのハイパーパラメータチューニングについて、通常のGridSearchやベイズ最適化をPythonで組んで実行するのと何か違いはありますか?例えばGridSearchの範囲を指定しなくても最適なものを選んでくれるとか。 A. SageMaker のハイパーパラメタチューニングは、ベイズ最適のみをサポートしています。通常の最適化ライブラリとの違いは、SageMaker […]

Read More

Amazon RDS for MySQL のパラメータ設定 パート 2: レプリケーション関連のパラメータ

このシリーズの前回のブログ投稿では、Amazon RDS for MySQL のパフォーマンスを調整および最適化するために使用する MySQL パラメータと、それらに関連するベストプラクティスについて説明しました。今回の投稿では、RDS MySQL 環境でのレプリケーション構成とレプリケーションの最適化に使用される最も重要な MySQL パラメータについて説明します。 シングルスレッドおよびマルチスレッドの両方のレプリケーションに関連するパラメータ 以下に、シングルスレッドのレプリケーションとマルチスレッドのレプリケーションの両方に使用できるパラメータと、それぞれを設定するためのベストプラクティスの提案を示します。 sync_binlog sync_binlog オプションは、MySQL がバイナリログをディスクにフラッシュする方法をコントロールします。 sync_binlog のデフォルト値は 1 です。マスターサーバで、sync_binlog が 0 に設定されているとディスクと同期しません。この場合、他のファイルと同様に、バイナリログの内容をフラッシュするタイミングはオペレーティングシステムに依存します。したがって、この設定は、MySQL がバイナリログ (binlog) をディスクにフラッシュしないようにすることでレプリケーションのパフォーマンスを向上させます。この方法で、最高のパフォーマンスが得られます。 ただし、MySQL がクラッシュした場合、いくつかのトランザクションが失われる可能性があります。通常、確実にレプリカをマスターと同期させるために、レプリカを再構築する必要があります。バックアップを無効にし、「チェーン接続された」リードレプリカがないRDS リードレプリカでは、binlog を同期する必要がないため、sync_binlog は適用されません。バイナリログが生成されないように、レプリカのバックアップ保存期間を 0 に設定することをお勧めします。 ただし、データの損失を最小限に抑えるには、レプリカソースで sync_binlog パラメータを 1 に設定する必要があります。設定する最善の値は、パフォーマンスと耐久性のどちらを優先するかによって異なります。 binlog_row_image binlog_format パラメータを使用すると、バイナリログでサポートされている 2 つのイベントフォーマットを指定することができます。STATEMENT と ROW です。行ベースのフォーマットを使用すると、非決定性のクエリをログに記録することができるので、レプリカで一時テーブルは作成されません。一方、ステートメントベースのフォーマットは、行ベースのフォーマットよりもコンパクトです。 binlog_row_imag パラメータを使用して、行ベースのイベントについてバイナリログに記録される情報量をコントロールすることができます。行の状態は、バイナリログの「イメージ」で表されます。どの行ベースのイベントでも、変更前イメージと変更後イメージの 2 種類のイメージがあります。変更が行われる前の行は、変更前イメージによって表されます。変更が行われた後の行は、変更後イメージによって表されます。すべてのイベントに、変更の前後のイメージがあるわけではありません。 次の表は、さまざまな行ベースのイベントとそれらの使用可能なイメージをまとめたものです。INSERT ステートメントは Write_rows イベントを作成します。 イベントのタイプ […]

Read More

MySQL との互換性を持つ Amazon Aurora での MariaDB JDBC ドライバーの使用

このブログ記事は、Amazon Aurora クラスターへの接続に MariaDB Connector/J として知られる MariaDB JDBC ドライバーを使用する方法について説明するものです。この記事では、フェイルオーバーの状況下でマスターとレプリカを迅速かつシームレスに切り替えるために、このコネクターの自動フェイルオーバー機能を使用します。MariaDB Connector/J は MariaDB サイトからダウンロードできます。 MariaDB Connector/J を使用した Aurora MySQL への接続 この記事を書いている時点でのコネクターの最新バージョンは MariaDB Connector/J 2.3.0 です。コネクターは 2 つの方法でインストールできます。 Maven または Gradle などのパッケージマネージャーを利用する .jar ファイルを直接使用する この記事では、.jar ファイルを使用します。完全なインストールガイドは、MariaDB サイトでご覧いただけます。 コネクターをインストールしたら、次のステップは Aurora MySQL クラスターの作成です。まず、AWS マネジメントコンソールにサインインします。RDS を選択してから [データベース] を選択し、次に [データベースの作成] を選択します。次のページで、エンジンのオプションをデフォルトの [Amazon Aurora] のままにしておき、エディションに [MySQL 5.6 との互換性] または [MySQL 5.7 との互換性] […]

Read More

Amazon EMR で Apache Atlas を使用して、メタデータの分類、系統および発見を行う

  今日の世界ではデータの役割が絶えず進化し、増大しているため、データガバナンスが効果的にデータを管理する上で重要な側面となっています。多くの組織は、データレイクを単一のリポジトリとして使用して、組織の事業体に属するデータをさまざまな形式で格納しています。メタデータ、カタログ化、およびデータ系統の使用は、データレイクを効果的に使用する上で鍵をにぎります。 この記事では、Amazon EMR にインストールされた Apache Atlas がこれを行う上でどのように機能するかについて説明します。この設定を使用すると、データを動的に分類し、さまざまなプロセスを経る際にデータの系統を表示できます。この一部として、Atlas のドメイン固有言語 (DSL) を使用してメタデータを検索できます。 Amazon EMR と Apache Atlas の紹介 Amazon EMR は、Apache Hadoop や Spark などのビッグデータフレームワークの実装を簡素化するマネージドサービスです。Amazon EMR を使用している場合、定義済みのアプリケーションセットから選択するか、リストから独自のものを選択できます。 Apache Atlas は、Hadoop のエンタープライズ規模のデータガバナンスおよびメタデータフレームワークです。Atlas は、組織がデータ資産のカタログを作成するためのオープンなメタデータ管理およびガバナンス機能を提供します。Atlas は、データがどのように進化したかを表す、ストレージ系統を含むデータ分類をサポートしています。また、重要な要素とそのビジネス定義を検索する機能も提供します。 Apache Atlas が提供するさまざまな機能の中でもとりわけこの記事で関心を寄せる中核的な機能は、Apache Hive のメタデータ管理とデータ系統です。Atlas のセットアップが成功したら、ネイティブツールを使用して Hive テーブルをインポートし、データを分析して直感的にエンドユーザーにデータ系統を提示します。Atlas とその機能の詳細については、Atlas のウェブサイトをご覧ください。 AWS Glue Data Catalog 対Apache Atlas AWS Glue Data Catalog は、さまざまなデータソースとデータ形式にわたる統一されたメタデータリポジトリを提供します。AWS Glue Data […]

Read More

公共分野で加速するAWSの利用

クラウドの活用による公共機関のサービス(電子行政)や教育分野(ゲノム研究などの高度計算処理への活用など)のAWSの活用が加速しています。 AWSでは、毎年、AWSを活用した行政サービスの革新を立案もしくは実現した政府機関、地方自治体、公共団体やパートナー企業様などを表彰する「City on a Cloudアワード」を開催しており、AWSにおけるイノベーションの実例をお客様は知ることができます。 一方、こうしたサービス活用の背景として、多くのクラウド利用者が懸念するセキュリティに対し、AWSの活用により、よりセキュアなサービスを容易に構築、運用することが出来るようになったことも挙げられます。 先日、オーストラリア政府のThe Australian Cyber Security Centre (ACSC)によって、42のAWSサービスがオーストラリア政府の定める”PROTECTED”(最も高度なデータセキュリティに対する認証)を取得したことを公表しました。 AWS Security Blog「AWS awarded PROTECTED certification in Australia」 日本においては、2018年6月7日に公表された第77回各府省庁情報化統括責任者(CIO)連絡会議における「政府情報システムにおけるクラウドサービスの利用に係る基本方針(案)」では「クラウド・バイ・デフォルト原則」として、政府サービスの調達において”コスト削減や柔軟なリソースの増減等の観点から、クラウドサービスの採用をデフォルト(第一候補)”と考えていくことを打ち出しています。こうした動きを受けて、官公庁だけはなく、地方自治体など、多くの公共分野においてもクラウドの活用が加速することが想定されます。 しかし、従来のITとはサービスモデルや技術の異なるクラウドを採用する上で、多くの不安や疑問をもたれるお客様が多いことも事実です。セキュリティ上の不安、また、そもそも調達においてどのような点を留意すべきか、といった課題をお持ちの方も多いのではないでしょうか。 さて、海外の方と話をしていると”Apple to Apple”という言葉が出てくることがあります。これは物事の比較を行うときには、同質のものと比較しないと意味がないため、現在の物差しで無理やり新しい技術やサービスを評価することの困難を表します。 新しい技術を採用する場合、無理に従来の基準をそのまま適用せず、比較される項目や対象の目的、新しい技術を採用する目的に焦点をあてて判断を行っていくことが求められます。例えば、AWSが事実上他のすべてのテクノロジーインフラストラクチャプロバイダーと異なる点として、単一のデータセンターにサービスを構築するものではなく、規制要件などを踏まえた地理的な範囲であるリージョン内に、分散した複数のデータセンター群であるアベイラビリティーゾーンを利用することで可用性および耐障害性の高いサービスを設計、利用することが出来ます。 2/5(火) 12:00-13:00に開催されるAWSの無料のウェビナーである Blackbelt Webinar「公共機関におけるAWSの利活用」では、このようなお客様やパートナー様の疑問を解消するため、AWSが様々な政府調達などでの知見を踏まえた考え方、セキュリティやコンプライアンスの取り組みを紹介します。 本ウェビナーはどなたでも無料で聴講できます。ご興味をお持ちの方は、こちらからご登録ください。 また、お時間があわない場合でも別途、ストリーミング動画および資料の公開を予定しています。    

Read More

[AWS Black Belt Online Seminar] AWS Identity and Access Management (AWS IAM) Part1 資料公開

本日 (2019/1/29) 開催しました AWS Black Belt Online Seminar「AWS Identity and Access Management (AWS IAM) Part1」の資料を公開しました。 20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (IAM) Part1 from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) 今後の AWS Webinar スケジュール 直近で以下のオンラインセミナーを予定しています。各オンラインセミナーの詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております! AWS Black Belt Online Seminar 1月分申込先 ≫ AWS Black Belt Online Seminar 2月分申込先 ≫ AWS […]

Read More

Amazon Rekognition に関する最近の研究論文および関連記事についての考察

昨日発表された研究論文と関連記事は、Amazon Rekognition の精度について触れています。私たちはフィードバックを歓迎しており、実際に常に人々からフィードバックを得ていますが、この研究論文と記事は誤解を招きやすく、誤った結論に導いています。このブログ記事が、いくつかの誤解や不正確さを明確にするのに役立つことを願っています。 多くの場合、精度は絶対的な尺度と考えられます。たとえば、数学の試験のパーセンテージスコアでは、それぞれの答えは正しいか、間違っているかのどちらかです。 機械学習システムの精度を理解、解釈、比較するには、何が予測されているか、予測の信頼性、どのように予測を使うべきかを理解することが重要であり、これを単一の絶対数またはスコアから収集することは不可能です 。 何が予測されているか: Amazon Rekognition は、コンピュータービジョンと呼ばれる一種の機械学習を使用して、2 つの異なる顔機能を提供します。最初の機能は顔分析です。特定の画像やビデオについて、このサービスは顔がどこに表示されているか、および画像の特定の特性 (画像に笑顔、めがね、口ひげ、顔の性別が含まれているかなど) を知らせることができます。こうした属性は通常、写真のカタログを検索するのに役立ちます。Amazon Rekognition の 2 番目の機能は、一般に顔認識と呼ばれている機能です。これは、顔分析とは明確に異なる機能であり、似ているように見える顔を照合します。これは、一部の電話のロックの解除、建物に入る人の認証、または対象となる人物を識別するために法執行機関がフィールドを絞り込むために使用するのと同じアプローチです。後者は、昔の映画に登場する写真の本をめくる探偵に似ていますが、はるかに高速です。 顔分析と顔面認識は、基盤となるテクノロジとそれらをトレーニングするために使用されるデータの点でまったく異なります。そうした目的を意図したアルゴリズムではないので、顔認識の精度を測定するために顔分析を使用することは軽率です (説明は、ドキュメントをご覧ください)。 信頼性: 顔分析と顔認識の両方について、Amazon Rekognition は、特定の結果がどの程度の信頼性であるかについても説明します。すべての機械学習システムは本質的に確率論的なので、信頼スコアはシステムがその結果にどれだけ信頼を置いているかの尺度と考えることができます。信頼度が高いほど、結果を信頼できます。結果を解釈するために使用される信頼度閾値について透明かつ思慮深くなければ、顔分析または顔認識のいずれかの品質を解釈することは不可能です。この調査で使用されている閾値はまだ分かっていませんが、以下に示すように、推奨される信頼水準で実行した場合の結果は大きく異なります。 予測のユースケース: 信頼性と組み合わせることで、精度を適切な文脈でとらえるのに役立つので、機械学習による予測の使用の意図は重要です。たとえば、写真のカタログで「サングラス」を含む画像を検索するために顔分析を使用する場合、完全に一致しないものが含まれるとしても、検索結果に表示する画像の数を増やすことが望ましい場合があります。このユースケースにおける不完全な結果のコストは低いので、より多い結果とそれらの結果のより少ない手作業による検査と引き換えに、より低い信頼レベルが受け入れられることが多くなります。ただし、捜査で関心のある人物を識別するために顔認識を使用する場合は、法執行機関は推奨されている 99% の信頼度閾値 (文書化されているとおり) を使用し、あくまでも捜査の 1 つの要素としてのみ使用することが必要です。 Amazon Rekognition の「テスト」についてどのように考えるかについての上記の文脈で、私たちはこの最新のレポートとその誤った主張にたどり着きました。 この研究論文は「商業的な顔認識製品のパフォーマンスの脆弱性をさらす」ことを目指していますが、実際には代わりに顔分析を使用しています。 上述したように、顔分析と顔認識は 2 つの別々のツールです。顔認識の場合と同じ方法で顔を照合するために顔分析を使用することはできません。これは単に意味や定義の問題ではありません。2つの異なる目的を持つ 2 つの異なる機能なのです。顔分析では、主に画像のフィルタ処理や整理に役立つ一般的な特徴 (髪の毛、笑顔、眉をひそめる、性別など) しか見つけることができません。顔を一意に特定する知識は持ちません (これを画像からリバースエンジニアリングすることはできません)。対照的に、顔認識は、顔を照合するための顔の一意な特徴に焦点を合わせており、顧客が持ち込むデータセット内の顔と照合するために使用されます。顔認識を行うために顔分析を使用することは、一意の個人を識別するには不正確で推奨されない方法です。  これについてはドキュメントで説明していますが、この問題について混乱している顧客からの報告は受けていません。 その研究論文は、Amazon Rekognition が低品質の顔分析結果を提供していると述べています。しかし、これは、私たち自身の広範囲にわたるテストや、サービスを利用している顧客から聞いたことを反映していません。 まず、この研究者達は古いバージョンの Amazon Rekognition を使用しています。私たちは、11 月に大幅な改善を行っています。次に、AWS が Amazon Rekognition […]

Read More

Microsoft Excel を使用した AWS DMS タスクのための AWS CloudFormation テンプレートの作成

このブログ記事では、AWS Database Migration Service (AWS DMS) タスクのための AWS CloudFormation テンプレートの作成を自動化するツールについてお話します。DMS タスクのための CloudFormation テンプレートの作成方法をお探しで、CloudFormation に関する知識をお持ちでない場合は、ぜひこの記事をお読みください。

Read More

Amazon WorkLink – 内部ウェブサイトとアプリケーションにセキュアなワンクリックでモバイルアクセス

ユーザーとその同僚がモバイルデバイスを使用して社内ウェブサイトとアプリケーションに容易にアクセスできるようにします。当社の目標は、ワークフォースに貴重なインターネットコンテンツへの制御されたアクセスを提供する一方で、強力なセキュリティプロファイルを維持することです。 Amazon WorkLinkを紹介 今回は、Amazon WorkLink について説明したいと考えています。コンテンツを修正したり、移行する必要なく、社内ウェブサイトとアプリケーションにシームレスなアクセスが得られます。Amazon WorkLink は完全に管理された従量制のサービスで、組織のニーズに合わせてスケール自在です。セットアップと実行が容易で、既存のサイトやコンテンツを移行したり、修正したりする必要はありません。モバイルデバイスからアクセス可能なドメインに対して完全なコントロールを取得し、ユーザーベースを管理するために、既存の SAML ベースのアイデンティティプロバイダー (IdP) を使用できます。 Amazon WorkLink は、Virtual Private Cloud (VPC) を通じて社内リソースにアクセスできます。リソースは、その VPC 内 (たとえば、EC2 インスタンスでホストされるアプリケーション)、それとピアリングする別の VPC 内、またオンプレミスに存在することができます。オンプレミスの場合、リソースは IPsec トンネル、AWS Direct Connect、または新しい AWS Transit Gateway 経由でアクセスできなければりません。VPC で実行中のアプリケーションは、AWS ネットワークのすべてのトラフィックを維持しながら、AWS PrivateLink を使用して AWS サービスにアクセスできます。 お客様のユーザーはセキュアで、非侵襲的な閲覧経験が得られます。法人のコンテンツは AWS クラウド 内でレンダリングされ、セキュアな接続を通じて各デバイスに配信されます。今後数週間以内に iOS 12 を実行するデバイスのサポートを、Androind 6+ のサポートで開始します。 Amazon WorkLink の内部 Amazon WorkLink は、作成する各 WorkLink […]

Read More

EI 対応の TensorFlow 1.12 で利用できる柔軟性のある新型 Python API を使用して、Amazon Elastic Inference で TensorFlow モデルをデプロイする

Amazon Elastic Inference (EI) が、TensorFlow 1.12 の最新バージョンのサポートを開始しました。EI は、新しくなってさらに使いやすくなった Python API 関数である EIPredictor を備え、EI アクセラレーターを使用してTensorFlow モデルをデプロイします。EI で TensorFlow モデルを実行するのに、TensorFlow Serving に代わって、この新しい Python API 関数を推論スクリプト内で使用できるようになりました。EIPredictor では簡単な実験が可能で、EI の有無でのパフォーマンスも比較できます。このブログ記事では、EIPredictor を使用して EI にモデルをデプロイする方法を説明します。 まず、この背景から始めましょう。Amazon Elastic Inference は re:Invent 2018 で発表された新しい機能です。EI は、スタンドアロンの GPU インスタンスを使用するよりも、コスト効果が非常に優れた新しい方法を提供し、深層学習推論ワークロードを高速化します。EI を使用すると、任意の Amazon SageMaker または Amazon EC2 インスタンスタイプにアクセラレーターをアタッチでき、GPU の高速化によってもたらされる低いレイテンシー、高スループットといった利点を、極めて低いコスト (最大75%) で実現できます。EI では、TensorFlow、Apache MXNet、および ONNX モデルをデプロイし、推論を実行できます。 TensorFlow Serving を使用して、EI […]

Read More