Amazon Web Services ブログ

AWS PrivateLink エンドポイントを使用することで、Amazon VPC から Amazon SageMaker ノートブックに直接アクセスする

Amazon SageMaker は、AWS PrivateLink を ノートブックインスタンスに対してサポートするようになりました。 この記事では、Amazon SageMaker ノートブックへの接続を確保するために、AWS PrivateLink をセットアップする方法を示します。 HIPAA または PCI などの規制へのコンプライアンスを維持するために、情報がインターネットを経由しないようにすることが必要になることがあります。 さらに、公共インターネットへのデータの露出を防止することで、ブルートフォースや分散サービス拒否攻撃などの脅威ベクトルの可能性が減少します。 AWS PrivateLink は、公共インターネットへのデータの露出を排除することにより、クラウドベースのアプリケーションと共有するデータのセキュリティを簡素化します。複数の VPC、AWS サービス、オンプレミスアプリケーションの間のプライベート接続を可能にします。AWS PrivateLink により、プライベートネットワークで直接、ホストされる場合と同様に、お使いのサービスが機能します。 AWS PrivateLink を使用してAmazon SageMaker APIと予測呼び出しを保護するため、以前、API オペレーションとランタイムのための PrivateLink サポートを導入しました。 AWS PrivateLink を使用して、ノートブックインスタンスへの接続も同様に保護することができるようになります。 AWS PrivateLink を介して Amazon SageMaker ノートブックを使用するために、Amazon Virtual Private Cloud (VPC) エンドポイントをセットアップする必要があります。 AWS PrivateLink は、インターフェイス VPC エンドポイントを使用することで、スケール自在な方法で VPC からすべての Amazon SageMaker API オペレーションにプライベートにアクセスすることができます。VPC エンドポイント は、プライベート IP アドレスをもつサブセットの Elastic Network Interface […]

Read More

Amazon Aurora を使用してエンドユーザーの待ち時間を 3 倍に改善する方法

  AWS で誕生 2011年の創業以来、我々の旅に加わっている InfoScout は AWS で誕生しました。友人や家族からアップロードされたレシートを収集する 1 つの Amazon EC2 インスタンス とともにすべてが始まりました。それから7年後、モバイルアプリケーション、データパイプライン、マシンラーニングモデル”→”機械学習モデル、SaaS 分析プラットフォームをサポートするため、現在では 150 以上の AWS インスタンスを管理しています。この記事では、増加するインフラストラクチャとデータベース移行での課題を詳細に分析しています。 我々のビジネスはシンプルです。日常の消費者がショッピングレシートの写真を撮影してクラウドにアップロードが可能なモバイルアプリケーションのポートフォリオを持っています。我々はこのデータを分析し、ブランド、小売業者、代理店、消費者パッケージ商品 (CPG) 企業の買い物客に深い識見を提供します。大規模なデータ収集に対するこの消費者中心のアプローチは、ブランドが最終的に非常に多くの問いの背後にある「なぜ」に答えることを可能にします。「なぜ、私のカテゴリーで売上高が 5% 減少したのでしょうか ? 」「このカテゴリーのどのような消費者シフトが私のブランドに売上に貢献しているのでしょうか ? 」「消費者のどのセグメントがオンラインに移行しているのでしょうか ? 」 米国では 500 回の購入で 1 回のキャプチャを行い、1 日に 300,000 枚のレシート画像をストリームします。 AWS でインフラストラクチャとアプリケーション全体を強化するために、Amazon EC2 、Amazon RDS 、Amazon S3 、Amazon VPC 、および Route 53 を大量に使用しています。2011 年にはカリフォルニア北部の single VPC 1 […]

Read More

Amazon QuickSight で表計算による高度な分析を行う

Amazon QuickSight は最近、表計算機能を公開しました。これにより、ユーザーはデータに対し複雑な計算を実行し、より意味のある洞察を得られるようになりました。このブログ記事では、これらの計算をサンプルの販売データセットに適用する例を解説し、皆さんのニーズに合わせてこの機能をすぐに活用していただけるようにします。 使用したサンプルデータセットはこちらより参照できます。 表計算とは? Amazon QuickSight で表計算を使用すると、前期比の傾向など、メトリクスを導き出すことができます。指定したウィンドウでそのウィンドウ内のメトリクスを算出するため、または固定ウィンドウの計算に対して評価するために計算を作成することもできます。また、これらすべてのタスクをカスタマイズした詳細レベルで実行することも可能です。たとえば、各産業の売上の前年比増加分を算出したり、ある州で特定の産業の貢献度をパーセンテージで表示したりできます。また、1 年間の前月比の累積売上を算出したり、ある州で、ある産業の売上のランキングを出したりすることも可能です。 これらのメトリクスは関数を組み合わせることで算出できます。これらの関数としては、runningSum、percentOfTotal、percentDifference などのほか、ベースのパーティション関数が挙げられます。このケースで使用できるベースのパーティション関数には、sum、avg、count、distinct_count、rank および denseRank などがあります。パーティションに対し、最小および最大を計算できる minOver や maxOver もあります。 パーティション関数 これらの計算を実行する前に、パーティション関数に関する簡単な説明をご覧ください。パーティションを使用することで、計算が含まれるウィンドウの範囲を指定できるようになります。つまり、パーティションは計算が実行されるウィンドウを定義する際に役立ちます。 例として、複数の区分にまたがる各産業の平均売上を計算してみましょう。まず、図に、industry、segment、sales を追加します。通常の集計フィールド avg(sales) をテーブルに追加することで、産業内の各区分の平均売上が算出されますが、産業全体の平均ではありません。これを達成するには、avgOver 計算を使用する集計フィールドを作成します。 avgOver(aggregated measure, [partition by attribute, …]) ここでの aggregated measure は、図の範囲ごとにグループ分けされたとき、その単位で実行する計算を意味します。この計算は各産業のパーティションに平均が適用される前に実行されます。 産業別平均 = avgOver(sum(sales), [industry]) 同様に、sumOver、minOver、maxOver および countOver の関数を使用することで、それぞれ、売上の合計、売上の最低値と最高値、各産業の区分数を計算できます。 基準対実際の売上 ここでもう 1 つ別のユースケースを使って、ある州の各産業が、その州の平均売上に照らして評価したとき、どのような動きになるか見ていきましょう。 これを実行するには、テーブルの図に state、industry、sales を追加し、州ごとにソートします。基準を計算するために、avgOver 関数で集計フィールドを作成し、State の範囲でパーティションを区切ります。 avgOver(aggregated measure, [partition […]

Read More

Amazon Kinesis Agent for Microsoft Windows を使用して、Windows イベント、ログ、およびメトリックを収集、解析、変換、ストリーム配信する

Amazon Kinesis Agent for Microsoft Windows (KA4W) を含む完全なデータパイプラインは、Windows ベースのサービスのパフォーマンス、セキュリティ、および可用性を分析および監視するのに役立ちます。Windows サービスにほぼリアルタイムのダッシュボードとアラームを構築できます。また Amazon Athena、Kibana、Amazon QuickSight、Amazon CloudWatch などの可視化およびビジネスインテリジェンスツールを使用して、迅速に位置の特定、診断、および解決を行うこともできます。 KA4W は、ログを解析して JSON などの標準形式に変換することで、クラウドベースのログ処理を排除します。これらの形式は、データパイプラインの可視化ツールやビジネスインテリジェンスツールですぐに使用できます。 KA4W を使ってみた経験についてあるお客様から寄せられた声を少しご紹介します。 「Microsoft Windows 用の新しい Amazon Kinesis Agent は、複数の相互接続されたシステム間の複雑なオーケストレーションを排除することで、ログをストリーミングするワークフローを簡略化しました。エージェントはセットアップ、構成、更新が容易でしたが、最も重要な点は、パフォーマンスが大幅に改善された点です。総体的に見て、Amazon Kinesis Agent for Microsoft Windows は、環境内の問題の可視性を大幅に改善し、運用コストを著しく削減するポテンシャルを秘めています」- Sanjay Kumar 氏、シニアソフトウェアエンジニア、Autodesk Inc. この記事では、新しい Kinesis Agent for Windows が Windows アプリケーション、サーバー、およびワークステーションに関連するストリーミング分析のユースケースをどのように行うかを検証します。新しいエージェントを使い始める方法もご紹介します。KA4W を使用してリアルタイムデータを Amazon Kinesis サービスにプッシュすることで、次のようなさまざまな運用上の問題を解決できます。 枯渇したスコープの場合に IP リースが拒否されたことを識別するための Dynamic Host […]

Read More

RStudio を実行するために Amazon EMR のエッジノードを立ち上げる

RStudio Server は R およびデータサイエンティストの間で人気のツールにブラウザベースのインターフェイスを提供します。データサイエンティストは分散型トレーニングを実行するために、Amazon EMR 上で実行する Apache Spark クラスターを使用します。前回のブログ記事では、著者が Amazon EMR クラスターに RStudio Server をインストールする方法を紹介しました。しかし、特定のシナリオでは、スタンドアロンの Amazon EC2 インスタンスにインストールし、リモートの Amazon EMR クラスターに接続するケースも考えられます。EC2 上で RStudio を実行することの利点としては次のようなものが考えられます。 EC2 インスタンス上で RStudio Server を実行することにより、インスタンス上に科学的モデルとモデルアーティファクトをそのまま保存できます。アプリケーションの要件を満たすために、EMR クラスターの再起動が必要になることがあります。RStudio Server を別途実行することで、柔軟性が向上し、Amazon EMR クラスターにすべて依存する必要がなくなります。 Amazon EMR のマスターノード上に RStudio をインストールするには、同一ノード上で稼動しているアプリケーションとリソースを共有する必要があります。スタンドアロンの Amazon EC2 インスタンス上で RStudio を実行することで、他のアプリケーションとリソースを共有する必要なく、リソースを使用できるようになります。 ご使用の環境に複数の Amazon EMR クラスターをお持ちの方もおいでかと思います。エッジノードに RStudio を配置すると、ご使用の環境で任意の EMR クラスターに接続できるという柔軟性が得られます。 Amazon EMR […]

Read More

新低コストAMD動力M5a および R5a EC2インスタンス

 当初より、AWSは選択を経済に焦点を当ててきました。弊社の良く知られたVirtuous Cycleに力を与える、決して終わらない顧客要望の雨あられにより動かされ、私は数年にわたり両方について成果を上げたと思います。 選択 – AWSはあなたに、場所 (18の経営の地理的 地方、 4 箇所の作業場、および 1 箇所の地方)、計算モデル(インスタンス、 コンテナ、および サーバーなし)、EC2 インスタンスタイプ、 関係 および NoSQL データベース チョイス、 開発言語、および価格決定/購入モデルを含む幅広い次元の選択を与えます。 経済性 – 弊社は現在までに 67回の値引きを行い、絶えずコストダウンを行って、長年にわたりAWSの価値をますます高めています。弊社は非常に一定且つ頻繁に全体のAWSクラウドを渡り、使用法パターンの研究、革新および改良領域の割り出し、および更新の分配を行います。 本日、私は今までで最も経済的な、EC2インスタンスの選択を提供するものである、最新の展開についてお伝えしたいと思います。 AMDの動力 2.5 GHzで実行され、比較されるインスタンスよりも10%低価格の、最新のEC2インスタンスは、カスタムAMD EPYCプロセッサーにより動力を与えられています。それはすべての使用可能な計算電力を使用しないワークロード用に設計され、コストと性能を基にしたインスタンスミックスを最適化するための新しい機会を提供しています。 こちらが弊社が立ち上げているものです: 一般目的 – M5a インスタンスは一般目的ワークロード用に設計されています: ウェブサーバー、アプリサーバー、デバイステスト 環境 およびゲーム。M5aインスタンスは6種類のサイズで利用できます。 メモリーが最適かされている – R5aインスタンスはメモリ集約ワークロード向けに設計されています: データマイニング、インメモリ分析、キャッチングなど。R5インスタンスと比較して1ギガバイトに対するメモリ価格が低いR5aインスタンスは6種類のサイズで利用できます。 新しいインスタンスはAWS Nitro System上に構築されています。それらは既存のHVM AMIs (その他すべての最近のEC2 インスタンスタイプでの場合と同じく、AMIはENA およびNVMeドライバーを含まなければなりません)を使用でき、クラスター 配置グループで使用できます。 これらの新しいインスタンスは、Amazon EC2計算環境のコストをさらに最適化しようとしている顧客にピッタリ合うはずです。いつも通り、弊社はあなたがインスタンスタイプを選ぶときに、ワークロードでの性能とコストを測ることをお勧めします。 一般目的インスタンス こちらがM5aインスタンス用の仕様です: インスタンス名 […]

Read More

AWS DevDay Tokyo 2018 Severless&Mobile トラック資料公開

2018年10月29日から11月2日まで行われた AWS DevDay Tokyo 2018の中で、Serverless&MobileのトラックオーナーをしておりましたSAの小梁川です。本投稿では2018/10/31に開催しましたServerless&Mobileトラックの内容をご紹介いたします。 イベント開催においては、お忙しい中に資料作成、登壇を頂いた ZOZOテクノロジーズ 柴田様、クックパッド 渡辺様に御礼申し上げます。また、会場に起こした頂いた、ストリーミング視聴をいただけた皆様へ、イベントご参加への御礼を申し上げます。 資料をゆっくり読みたい、参加できなかったが資料が見たいとの声を頂いておりましたので、本投稿にてServerless&Mobileセッションの資料をご紹介させていただきます。

Read More

Amazon Redshift を使用して、デジタルコンテンツを収益化するプロデューサーを支援している Narrativ

Narrativ は、彼ら自身の言葉によれば、「Narrativ は次世代のデジタルコンテンツプロデューサーのための収益化技術を構築しています。当社の製品ポートフォリオには、毎月数百万ドルの広告主価値と数十億データポイントを生成するリアルタイム入札プラットフォームとビジュアルストーリーツールが含まれています」ということになります。 Narrativ では、過去 15 ヶ月間に当社の製品によって生成されたデータが同様に桁違いに増加し、プラットフォームの使用量が大幅に増加しました。このブログ記事では、AWS を使用した、堅牢でスケーラブルで、パフォーマンスが高く、費用対効果の高い分析環境への進化を共有します。また、データウェアハウジングとデータレイク分析の過程で学んだベストプラクティスについても説明します。 Narrativ の継続的な成長の加速を見越して、私たちは昨年末、次の規模の計画を立て始めました。当社では Amazon Redshift をデータウェアハウスとして使用してきており、非常に役に立っています。データが増え続ける中、Amazon S3 をデータレイクとして利用し、Amazon Redshift Spectrum の外部テーブルを使用して S3 で直接データを照会しました。これにより、コストや複雑さに対するトレードオフなしで、ニーズを満たすためにストレージやコンピューティングのリソースを容易に個別に拡張できるようになったことを嬉しく思いました。 このプロセスで、Redshift Spectrum での作業を簡素化し、多数のベストプラクティスをカプセル化する Spectrify を作成しました。Spectrify は、簡単なコマンドで次の 3 つのことを実現します。まず、Amazon Redshift のテーブルをコンマ区切り値 (CSV) 形式で S3 にエクスポートします。次に、エクスポートされた CSV ファイルを並行して Apache Parquet ファイルに変換します。最後に、Amazon Redshift クラスターに外部テーブルを作成します。これで、クエリは Amazon Redshift のデータを使用して、膨大な量の Parquet データを S3 で展開し、すぐに結果を返すことができるようになりました。   上の図は、Amazon S3 の Parquet データと Amazon […]

Read More

Amazon Athena で CTAS ステートメントを使用して、コストを削減し、パフォーマンスを向上させる

Amazon Athena は、標準 SQL を使用して Amazon S3 でのデータの分析を簡易化するインタラクティブなクエリサービスです。Athena はサーバーレスであるため、インフラストラクチャの管理は不要であり、実行したクエリにのみ課金されます。Athena は最近、SELECT クエリまたは CREATE TABLE AS SELECT (CTAS) ステートメントの結果を使用するテーブルの作成のサポートをリリースしました。 アナリストは、CTAS ステートメントを使用して、データのサブセットまたは列のサブセット上の既存のテーブルから新しいテーブルを作成することができます。また、Apache Parquet や Apache ORC などのカラムナ形式にデータを変換し、分割するオプションもあります。Athena は、結果として得られたテーブルとパーティションを AWS Glue データカタログに自動的に追加し、その後のクエリですぐに使用できるようにします。 CTAS ステートメントは、大きなテーブルから構築された小さなテーブルでクエリを実行できるようにすることで、コストを削減し、パフォーマンスを向上させます。この記事では、元のデータセットよりも小さい新しいデータセットを作成し、その後のクエリをより高速に実行できるという、CTAS の使用の利点を示す 3 つのユースケースについて説明します。これらのユースケースではデータを繰り返し照会する必要があると想定して、より小さく、より最適なデータセットを照会して、より迅速に結果を取得できるようになりました。

Read More

一時的認証情報を使用してフェデレーティッドアイデンティティで、Amazon Athena に接続する

多くの組織では、集中化されたユーザー管理、特に Microsoft Active Directory または LDAP が標準となっています。  AWS リソースへのアクセスも例外ではありません。  Amazon Athena は、データレイク内のデータの迅速で費用効果の高いクエリで一般的である、Amazon S3 のデータ用のサーバーレスクエリエンジンです。  ユーザーまたはアプリケーションが Athena にアクセスできるようにするために、組織は AWS アクセスキーと適切なポリシーが適用されているアクセス秘密鍵を使用する必要があります。一貫性のある認証モデルを維持するために、組織はフェデレーテッドユーザーを使用して Athena の認証と承認を有効にする必要があります。 このブログ記事では、AWS Security Token Service (AWS STS) を使用してフェデレーテッドユーザーによるアクセスを有効にするプロセスを示します。このアプローチを使用すると、一時的セキュリティ認証情報を作成して、Athena でクエリを実行する信頼できるユーザーに提供することができます。

Read More