Amazon Web Services ブログ

EMR Notebooks: Jupyter ノートブックをベースとしたマネージド型分析環境

ノートブックは、インタラクティブにビッグデータアプリケーションを開発するための標準ツールとなりつつありますが、その理由は簡単に想像がつきます。柔軟性のあるアーキテクチャは、複数言語でのデータの実験、インタラクティブなコードのテスト、そして大規模データセットの可視化を可能にしてくれます。科学者と開発者がノートブックツールに簡単にアクセスできるように、AWS は Amazon EMR ノートブックのサービスを開始しました。これは、人気のあるオープンソースアプリケーション、Jupyter ノートブックをベースとしたマネージド型ノートブック環境です。EMR Notebooks は Spark Magic カーネルをサポートし、このカーネルは PySpark、Spark SQL、Spark R、および Scala といった言語を使用して、EMR クラスターにジョブをリモートで送信することができます。Spark Magic カーネルは、クラスターで実行される Spark の REST サーバーである Apache Livy 経由で Spark コードを送信します。 EMR Notebooks は、Apache Spark でのアプリケーションの実験と構築を容易にするように設計されています。このブログ記事では、まず EMR Notebooks が提供するいくつかのメリットについてお話しします。その後、異なる EMR クラスターへのノートブックのアタッチとデタッチ、ノートブック内からの Spark アクティビティの監視、ユーザーアクセス許可を制御するためのタグの使用、およびノートブックユーザーとそのアクションを追跡するためのユーザー偽装のセットアップなどの機能をいくつかご紹介します。EMR Notebooks の作成と使用について学ぶには、「Amazon EMR ノートブックの使用」にアクセスする、または AWS オンラインテックトークのオンラインセミナーの手順に従うことができます。 EMR Notebooks のメリット EMR Notebooks の便利な機能のひとつは、基礎となるクラスターインフラストラクチャからのノートブック環境の分離です。この分離は、新しいクラスターを起動するたびにノートブックをデプロイまたは設定する作業に煩わされることなく、一時的なクラスターに対してノートブックコードを簡単に実行できるようにしてくれます。SSH アクセスをセットアップするための時間を費やしたり、ポートフォワーディングのためにブラウザを設定したりすることなく、EMR の AWS […]

Read More

AWS Ground Station – 衛星データの取り込み処理の準備完了

去年の秋、AWS Ground Station について話をし、衛星からのデータをダウンリンクするために取るべきステップのプレビューにこっそり触れました。最初の 2 つの地上ステーションが現在稼働中で、 AWS Ground Station を今すぐ利用できます。 AWS Ground Station の利用 当時述べたように、最初のステップは、衛星の NORAD ID やその他の情報を当社と共有することで、お客様の AWS アカウン衛星を追加することです。 オンボーディングプロセスには通常数日かかります。テストのため、Ground Station チームは私のアカウントに次の 3 つの衛星を追加しました。 Terra (NORAD ID 25994) – この衛星は 1989 年に打ち上げられ、高度 705 km で周回しています。同衛星は地球の表面を調べるように設計された 5 つのセンサーを搭載しています。 Aqua (NORAD ID 27424) – この衛星は 2002 年に打ち上げられ、高度 705 kmで周回しています。同衛星は地表水を調べるように設計された 6 つのセンサーを搭載しています。 NOAA-20 (NORAD ID 43013) – […]

Read More

新機能 – 新規 EBS ボリュームのデフォルト暗号化へのオプトイン

AWS チームにいる私の同僚達は、皆さんがデータを不正アクセスから守るためのより簡単な方法を常に考えています。今回は、AWS クラウドセキュリティページ、AWS セキュリティブログ、AWS セキュリティホワイトペーパーの豊富なコレクションや、充実ぶりではそれに引けを取らない AWS のセキュリティ、アイデンティティ、コンプライアンスサービス、および個々のサービス内の広範なセキュリティ機能など、様々な方法で皆さんにご利用いただけます。本記事を読まれて思い出される方もおられるでしょう。多数の AWS サービスが、保管時およびトランジット中、ロギング、IAM ロールおよびポリシー等における暗号化をサポートしています。 デフォルト暗号化 今回お話しするのは、暗号化した Amazon EBS (Elastic Block Store) ボリュームの使用をさらにシンプルにする新機能についてです。今回の新機能は、次のような既存の EBS セキュリティ機能をベースに構築しました。 EBS Encryption for Additional Data Protection Encrypting EBS Snapshots Via Copying Encrypted EBS Boot Volumes Encryption with Custom Keys at Instance Launch Time Sharing of Encrypted AMIs Across AWS Accounts 新規作成する EBS ボリュームはすべて暗号化された形で作成できるようになります。AWS 提供のデフォルトキーか、皆さんが作成したキーのいずれかを選んでいただけます。キーおよび EC2 […]

Read More

[AWS Black Belt Online Seminar] Amazon API Gateway 資料及び QA 公開

先日 (2019/5/14) 開催しました AWS Black Belt Online Seminar「Amazon API Gateway」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20190514 AWS Black Belt Online Seminar Amazon API Gateway AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. API GatewayかLambdaのどちらかの採用を検討するにはどのようにしたらいいでしょうか (とくにコスト面で) A. Web APIとして公開する場合は、AWS Lambdaの手前にAmazon API Gatewayを配置することによって疎結合化がなされ、実装を隠蔽化できるという利点があります。 ただシンプルにAWS SDK等を利用し直接Lambdaを呼び出したいケースであれば、必要な権限を呼び出し元のアプリケーションに付与した上でLambdaのみを利用する構成もご検討頂けます。 (例:呼び出し元がAmazon Elastic Compute Cloud (EC2) であればそのIAMロール、呼び出し元がブラウザやモバイルアプリであれば、Amazon CognitoのIDプールを利用したAWS Credentialsを利用)。 また、Lambda関数をバックエンドとしてHTTPリクエストを受け付ける他の方法としては、Elastic Load Balancing (ELB) の一種である Application Load Balancer (ALB) を利用する方法もあります (参照:Amazon Web […]

Read More
Weekly AWS

週刊AWS – 2019/5/13週

みなさん、こんにちは!ソリューションアーキテクトの小林です。 AWSでは日々新しいサービスや機能をリリースしていますが、数が多く全体像を把握するのが難しいというお声を頂くケースがあります。そこで、日本チームの取り組みとして「週刊AWS」というブログポストを始めることにしました。週刊AWSでは毎週火曜日か水曜日に、前の週に発表された主要なアップデートや、日本のお客様に興味を持っていただけそうなものをピックアップして、その概要をご紹介していきます。「これを見れば先週のアップデートが大体わかる」を目標に、分量が多くなりすぎないように注意しながら(書きたくなってしまうのですが……)やっていきますので、どうぞおつきあいください。 それでは、先週(5/13週)の主なアップデートについて振り返っていきましょう。

Read More

AWS が行うグローバル化支援 – 韓国からの報告

Amazon Web Services Korea LLC (AWS 韓国) は 2012 年に、韓国のソウルに事務所を開設しました。この事務所ではスタートアップ企業から大企業まで、多くのお客様を教育しサポートしてきました。お客様のご要望に応えて、2016 年 1 月には 2 つのアベイラビリティーゾーンと 2 つのエッジロケーションを持つアジアパシフィック (ソウル) リージョンを開設しました。このリージョンでは韓国の AWS のお客様に、弊社一連の AWS インフラストラクチャサービスを低レイテンシーで提供しています。 アマゾン ウェブ サービス CEO、Andy Jassy が AWS クラウド 2016 でソウルリージョンの開設を発表。 この開設に続いて、Amazon CloudFront は 2 つの新しいエッジロケーションと 1 つのエッジキャッシュを発表しました (2016 年 5 月に 3 番目、2018年2月 に 4 番目を開設)。韓国での CloudFront の拡大により、このリージョンのユーザーはさらに向上したコンテンツ配信の可用性とパフォーマンスを期待できます。 本日より、AWS アジアパシフィック (ソウル) リージョンに […]

Read More

Deequ で大規模なデータ品質をテスト

一般的に、コード用のユニットテストを書くと思いますが、お使いのデータもテストしているのでしょうか? 不正確または不正なデータは、本番システムに大きな影響を与える可能性があります。データ品質問題の例は次のとおりです。 値がない場合は、本番システムで null 以外の値を必要とするエラー (NullPointerException) が発生する可能性があります。 データ分布が変化すると、機械学習モデルで予期しない出力につながることがあります。 データの集計を誤ると、ビジネスでの判断を下す際に誤った意思決定につながる可能性があります。 このブログ記事では、Amazon で開発し、使用されているオープンソースツールである Deequ を紹介したいと思います。Deequ では、データセットのデータ品質メトリクスを計算したり、データ品質の制約を定義および確認したり、データ分布の変化について通知を受け取ったりすることができます。確認や検証のアルゴリズムを直接実装する代わりに、データの外観を記述することに集中できます。Deequ は確認を提案することでお客様をサポートします。Deequ は Apache Spark に実装されています。通常は分散型ファイルシステムまたはデータウェアハウスに存在する大規模なデータセット (数十億行の規模と考えられる) に合わせて拡張するように設計されています。 Amazon での Deequ Deequ は、多くの大規模な本番データセットの品質を検証するために Amazon で内部的に使用されています。データセットの製作者は、データ品質の制約を追加および編集できます。このシステムは、定期的に (データセットの新しいバージョンごとに) データ品質メトリクスを計算し、データセットの製作者によって定義された制約を検証し、成功した場合にはデータセットをコンシューマーに公開します。エラーが発生した場合、データセットの公開は中止され、製作者はアクションをとるように通知を受けます。データの品質問題はコンシューマーのデータパイプラインに伝播しないため、問題が発生したときの影響範囲が減少します。 Deequ の概要 Deequ を使用するために、その主要コンポーネントを見てみましょう (図 1 も参照)。 メトリクス計算 — Deequ はデータ品質メトリクス、つまり完全性、最大値、相関関係などの統計情報を計算します。Deequ は、Spark を使用して Amazon S3 などのソースから読み取り、最適化された一連の集計クエリを通じてメトリクスを計算します。データに基づいて計算された未加工メトリクスに直接アクセスできます。 制約の検証 — ユーザーは、一連のデータ品質において検証する制約を定義することに集中できます。Deequ は、データに対して計算される、必要な一連のメトリクスを導き出します。Deequ は、制約の検証結果を含むデータ品質レポートを生成します。 制約の提案 — 独自のカスタムデータ品質の制約を定義するか、有用な制約を推測するためにデータをプロファイルする自動制約提案方法を使用することを選択できます。 図 […]

Read More

SimilarWeb が Couchbase から Amazon DynamoDB に移行し、70% 節約した方法

今回は AWS ソリューションアーキテクトの Leonid Koren、および AWS シニアテクニカルアカウントマネージャーの Ziv Shenhav との共同著作による、SimilarWeb のソフトウェア開発者 Doron Grinzaig 氏のゲストブログ投稿です。 NoSQL データベースはスケーラブルで適応性があり、高機能のデータベースを必要とする現代のモバイル、ウェブ、ゲーム用アプリケーションに最適です。しかしながら、NoSQL データベースは分散型の性質を持つため、特に大きな規模になると管理が難しく、多くのリソースとかなりの注意が必要になります。SimilarWeb は数年の間、2 つの Couchbase クラスターを運用していましたが、コストと運用オーバーヘッドは高くついていました。そのため SimilarWeb は、安定性の向上とコストおよび運用オーバーヘッドの削減を目指して、Amazon DynamoDB に移行したのです。DynamoDB は完全マネージド型のデータベースサービスで、現在では複数の AWS リージョンで SimilarWeb の顧客にデータを提供している信頼性の高いデータベースの 1 つです。 このブログ投稿では、SimilarWeb が DynamoDB への移行を決めた理由を詳しく説明します。移行プロセスについて説明し、コスト削減に役立った最適化の方法についても解説します。 SimilarWeb について SimilarWebは、デジタル世界全体の動向に関する洞察を提供するマーケットインテリジェンス企業です。何千にもおよぶ顧客が同社の洞察を基に、マーケティング戦略の改善、販売促進、さらに投資に関する重要な決定を下しています。重要な意思決定に SimilarWeb が関わっていることが、データを効果的に収集かつ利用し、最終的にはユーザーに提供する SimilarWeb の能力を証明しています。 SimilarWeb はさまざまなソースから大量の生データを継続的に収集し、取り込みます。Cloudera クラスター (Apache Spark を実行している) を使って、これらのデータを並び替えて構造化します。データを Apache HBase クラスターにロードし、Amazon S3 ベースのデータレイクに保存します。過去にはデータの一部を […]

Read More

AWS DeepRacer League の仮想サーキットが進行中。re:Invent 2019 への参加旅行を獲得しよう!

誰でも参加できる、世界初のグローバル自走型レーシングリーグ、AWS DeepRacer League がますますヒートアップしています。ファーストラウンドは、現在ほぼ中間地点をむかえ、Summit サーキットのスケジュールの 21 レースのうち 9 レースが終了しています。開発者が継続的に新しい機械学習のスキル向上を目指し、ラップタイムをリーダーボードに投稿します。こちらで、今週の動きからのニュースをまとめました。

Read More

エッジデバイス上のAWS IoT Greengrassへ顔認識モデルをインストールする方法

皆様は、リモートデバイスの通信と制御のためにAWS IoT CoreとAWS IoT Greengrassを使用する方法をすでに知っているかもしれません。 AWS IoT Greengrassの機械学習(ML)推論を使用すると、送信遅延なしにローカルデバイスで機械学習モデルを実行できます。 このブログ記事では、Raspberry PiでAWS IoT Greengrass ML推論を使用して自宅の監視のためにローカルの顔認識を実行する方法を紹介します。 Raspberry Piのカメラの制御装置として、Alexa Voice Serviceに接続されているAmazon Echo Dotを使用すると、ドアの外にいる人の写真を撮ることができ、その写真を使用して顔の検出と比較を実行できます。 Raspberry Piに展開された事前学習済みのMLモデルを使用したローカルデータセット 比較結果はドアロックや他のスマートデバイスでも使用できますが、これらの使用例はこの記事では扱いません。

Read More