Amazon Web Services ブログ

【開催報告】第9回 AWS Data Lake ハンズオンセミナー

こんにちは。AWS ソリューションアーキテクトの上原誠(@pioh07)です。 9月27日に、「AWS Data Lake ハンズオンセミナー」を開催いたしました。去年から行ってきた恒例のワークショップで第9回目となります。去年から引き続き盛況で、今回も80名以上のお客様にご参加頂きました。 はじめに、AWSにおけるデータ活用のベストプラクティスである Amazon S3 を中心とした Data Lake について解説し、ビッグデータ分析基盤の考え方として有名なラムダアーキテクチャの解説を行いました。 当イベントでは、Amazon Athena や Amazon Redshift の各 AWS サービスを駆使して実際にラムダアーキテクチャを構築することがゴールです。とはいえ全てを構築するのはボリュームが大きいため、スピードレイヤー or バッチレイヤー or 全部入りでコース分けて取り組めるようハンズオンコンテンツを用意しました。最初にコースの説明を行い、出席いただいたお客様ご自身の課題に合わせてコースを選択頂き、ハンズオンを行っていただきました。今回、参加者も多くいらっしゃいましたので、サポートするソリューションアーキテクトも7名で対応させていただきました。 今回参加できなかった方も、ソリューションアーキテクトのサポートを受けながらハンズオンを行いログ分析を初めてみてはいかがでしょうか? 次回はハロウィンも待ち遠しい11月に開催予定です。ご参加お待ちしております。

Read More

AWS Certificate Manager プライベート認証機関を使用して Microsoft SQL Server への SSL 暗号化接続を有効にする

 重要なデータを保護するために対策を取っている組織は、保管中も転送中も心配が尽きません。リレーショナルデータベースは、ビジネスに不可欠なデータを保護する必要がある状況のよくある例です。Microsoft SQL Server では、Secure Sockets Layer (SSL) 暗号化を使用して転送中のデータを保護できます。 この記事では、AWS Certificate Manager (ACM) および AWS Certificate Manager Private Certificate Authority (ACM プライベート CA) を使用して、SQL Server 接続の SSL 暗号化を有効にするプロセスを説明します。 SQL Server の SSL 暗号化オプションの説明 Microsoft SQL Server は、接続の暗号化を有効にする次の 2 つのメカニズムがあります。 すべてのクライアントからの暗号化を強制する サーバーからの暗号化を強制する クライアントとサーバー間の安全な接続を確保するには、暗号化された接続を要求するようにクライアントを設定します。これにより、クライアントが SQL Server を実行しているサーバーに接続する前に、サーバーが提示した証明書を検証します。 Force Server Encryption オプションを使用することもできます。ただし、このオプションを単独で使用すると、クライアントが証明書を検証せずに暗黙的に信頼するため、中間者攻撃に対して脆弱になります。 この記事では、最初のオプションについてのみ説明します。 ACM ルート CA とプライベート CA […]

Read More

Snowball Edge を使用したデータ移行のベストプラクティス

AWS Snowball Edge は、オンプレミスのストレージ (SAN、NAS、パラレルファイルシステム) またはデータベースから Amazon S3 へのペタバイト規模のオフラインデータ移行を可能にします。AWS Snowball Edge は、AWS Snow Family の一部であり、データ移行に使用できるデータ転送サービスの優れた AWS ポートフォリオです。データ転送サービスの AWS ポートフォリオには、高速オンライン転送のための AWS DataSync も含まれています。 使用可能なネットワーク帯域幅は、オンラインまたはオフラインの転送メカニズムを選択する際の重要な考慮事項です。たとえば、500 Mbps の専用ネットワーク接続を介して 1 PB のデータを転送するには約 8 か月かかり、移行プロジェクトのスケジュールを過ぎてしまう可能性があります。Snowball Edge は、AWS へのネットワーク帯域幅が制限され、データボリュームが大きい場合に、大規模の移行を行うための高速メカニズムを提供します。 Snowball Edge サービスは、堅牢なストレージとエッジコンピューティングデバイスを使用して、データを安全かつ信頼できる方法でお客様が AWS に物理的に転送できるようにするため、ネットワーク帯域幅の必要性を減少します。このブログ投稿では、Snowball Edge を使用した効率的で費用対効果の高い移行を実現するために、当社のお客様が使用しているベストプラクティスを紹介します。 概要 図 1 は、Snowball Edge を使用して、NAS アレイ、データベース、データウェアハウス、またはその他のストレージシステムなどのオンプレミスデータソースから AWS にデータを移行するために一般的に使用するアーキテクチャを示しています。Snowball Edge Storage Optimized (SBE -SO) デバイスには、Amazon S3 […]

Read More

クラウドベースの次世代バンキング

従来の銀行では、プロダクションサポートグループ、セキュリティ対応チーム、コンティンジェンシープランニング組織といった、労働集約型の人間中心の制御構造を主に利用しています。こうした制御構造は、責任を分散し、リスクを回避するセキュリティ体制を維持するのに必要であると考えられていました。残念ながら、この従来のモデルでは組織の特定分野のエキスパートと開発チームとの間に距離ができてしまうため、効率が低下し、イノベーションの妨げになります。 銀行などの金融テクノロジー (フィンテック) 企業は、最新世代の顧客のニーズを満たすためにより速く動く必要があることを認識しています。こうした顧客は、従来の銀行によるサービス提供が不十分な市場に身を置く顧客も含め、豊富なモバイルファーストのエクスペリエンス、一流の顧客サービス、幅広いサービスと製品へのアクセスを期待しています。彼らは小売よりもデバイスでの販路を好み、そのニーズに応える銀行をひいきにしたいと考えています。 AWS で稼働するバンキング 本日は、こうしたニーズに対応する AWS で稼働する 2 つの銀行についてお話ししたいと思います。両銀行ともクラウド上での挑戦から生まれたものであり、新しく興味深い方法で AWS の規模、パワー、柔軟性を活用しています。たとえば、両行は主にマイクロサービスを利用したり、新しいコードを 1 日に数十回から数百回デプロイしたり、分析とビッグデータを使用して顧客の理解をより深めたりしています。また、コンプライアンスや制御タスクにはオートメーションを適用したり、コミット時にコードの脆弱性をスキャンしたり、最小特権 IAM ロールの使用を体系的に付与、強制するシステムを作成したりもしています。 NuBank – ブラジルに本社を置き、1,000 万人以上の顧客にサービスを提供している NuBank は、Fast Company が世界で最も革新的な企業の 1 社として認めている企業です。2013 年に設立後、わずか 4 年でユニコーンステータス (評価額 10 億 USD) に達しました。最新の資金調達協議後、同社の評価額は 100 億 USD に跳ね上がりました。同社の AWS 活用方法の詳細については、以下のリソースを参照してください。 NuBank の導入事例。 How the Cloud Helps NuBank Support Millions of Daily Customers (動画)。 Starling […]

Read More

Amazon Comprehend Medical のバッチモード処理の導入

AWS re:Invent 2018 でローンチした Amazon Comprehend Medical は HIPAA に対応した自然言語処理サービスで、機械学習を使用して構造化されていないテキストから関連する医療情報の抽出を簡単に行うことができます。 たとえば、ロシュ・ダイアグノスティックスや Fred Hutchinson Cancer Research Center などの顧客企業は Amazon Comprehend Medical を使って、医師のメモ、臨床試験報告書、患者の健康記録といったさまざまな情報源から病状、投薬、投与量、含量、頻度などの情報を迅速​​かつ正確に抽出しています。また、これらのドキュメント内に存在する保護された医療情報 (PHI) を識別し、データ交換の前に匿名化することもできます。 以前のブログ投稿で、Amazon Comprehend Medical API を使って、単一のドキュメントでエンティティを抽出し、PHI を検出する方法をご紹介しました。本日は、この API が Amazon Simple Storage Service (S3) バケットに保存されたドキュメントのバッチ処理が可能になったことをお知らせします。それでは、デモを始めましょう。 バッチモード API の導入 まず最初にデータを取得して、バッチモードをテストする必要があります。MT Samples は匿名化された本物の医療記録をコレクションしたもので、無料での使用と配布が可能です。いくつかのトランスクリプトを選択し、それらを Amazon Comprehend Medical が期待するシンプルな JSON 形式に変換しました。本番ワークフローでは、アプリケーションコードや などの分析サービスのいずれかを使って、ドキュメントを簡単にこの形式に変換できます。 {“Text”: ” VITAL SIGNS: The […]

Read More

AWS DataSync 最新情報 - S3 ストレージクラスのサポートなど

AWS DataSync を使うと、AWS クラウド内外への大量のデータ移動が簡単になります (詳細については、私の前の投稿「New – AWS DataSync – Automated and Accelerated Data Transfer」をご参照ください)。その投稿で説明したように、DataSync は、移行、アップロードとプロセス、バックアップ/DR といったユースケースに最適です。DataSync はマネージド型サービスで、任意のサイズの 1 回限りの転送や、定期的な転送に使用できます。 追加された最新の機能 DataSync は 2018 年の AWS re:Invent でローンチし、それ以来どんどん機能が追加されています。今日は、いくつかの最新機能の簡単なまとめと、いくつかの新しい機能を取り上げてご紹介します。 S3 ストレージクラスのサポート SMBの サポート リージョンの追加 VPC エンドポイントのサポート 米国で FIPS 検証済みエンドポイントをサポート ファイルとフォルダーのフィルタリング 埋め込み CloudWatch メトリクス 各機能を見ていきましょう。 S3 ストレージクラスのサポート Amazon S3 バケットにデータを転送する場合、オブジェクトに使用するストレージクラスを制御できるようになりました。DataSync で使用する新しい場所を作成する際に、クラスを選択するだけで実行できます。 任意の S3 ストレージクラスから選択可能です。 特定のストレージクラスに格納してあるオブジェクトの上書き、削除、取得には、追加料金が発生する場合があります。詳細については、DataSync で S3 ストレージクラスを使用する際の考慮事項についてご覧ください。 […]

Read More

AWS DMS でのテーブルマッピング作成の自動化

AWS Database Migration Service (AWS DMS) を使えば、オンプレミスデータベースを AWS に迅速かつ安全に移行できます。同種間だけでなく、異種間の移行もサポートしています。移行の実行中やテスト中でも、ソースデータベースは稼働を続けます。移行は、DMS レプリケーションサーバー、ソース、ターゲットエンドポイント、移行タスクを使って行います。 DMS を使って多くのデータベースを移行したい、そして少数のテーブルだけを選択して JSON ファイルの作成を自動化したいなら、この投稿はお役に立つことと思います。この投稿では、DMS タスクの JSON ファイル作成を自動化するツールについて説明します。 自動化の必要性 DMS は、移行プロジェクトに関連する難しいまたは面倒なタスクを数多く引き継いでくれます。ロギングやエラー処理などの特別な処理を行うとともに、移行するスキーマとテーブルを指定します。 移行タスクには次のものが含まれます。 名前 内容 ソース ターゲットエンドポイント テーブルマッピング この投稿では、特にテーブルマッピングのセクションに焦点を当てています。テーブルマッピングではいくつかのタイプのルールを使用して、データソース、スキーマ、タスク中に発生する変換などを指定します。 テーブルマッピングを指定するには、ガイド付きと JSON の 2 つの異なる方法があります。 ガイド付きの方法では、個々のテーブル名またはワイルドカード文字 (% や ABC%) としてテーブル名を入力できます。移行のために選択したテーブルを含めたり除外したりする必要のあるテーブルが多数ある場合、ガイド付きの方法は時間がかかります。 一方 JSON の自動化オプションは、同じ情報を詳細に入力できます。 この投稿では、Python ツールを使用した JSON ファイル作成の自動化を取り上げています。JSON ファイルは手動で作成できますが、記述されているルールの数によっては扱いにくく、あるいはエラーが発生しやすくなります。 自動化ソリューションの説明 この投稿では Python ベースのツールをご紹介します。これは、入力を CSV ファイルとして受け取り、必要とする除外ルールとアクションルールのコンポーネントを含んだ単一の JSON ファイルを生成します。特定のフォルダーに複数の入力ファイルが存在する場合があります。ツールへ唯一入力できる場所はフォルダーです。 このフォルダー内のすべてのファイルの名前は、include* または […]

Read More

AWS Direct Connect の AWS Transit Gatewayサポートが東京リージョンに対応しました

みなさん、こんにちは。アマゾン ウェブ サービス、プロダクトマーケティング エバンジェリストの亀田です。 AWS Direct Connect の AWS Transit Gatewayサポートが東京リージョンに対応しましたのでご紹介いたします。 AWS Direct Connect オンプレミスから AWS への専用ネットワーク接続の構築をシンプルにするクラウドサービスソリューションです。AWS Direct Connect を使用すると、AWS とデータセンター、オフィス、またはコロケーション環境との間にプライベート接続を確立することができます。これにより、多くの場合、ネットワークのコストを削減し、帯域幅のスループットを向上させ、インターネットベースの接続よりも安定したネットワークエクスペリエンスを体験いただくことが可能です。 802.1q VLAN を使用して、この専用接続を複数の仮想インターフェイスに分割することができ、今回のアップデートでは 1/2/5/10 Gbps での接続がサポートされています。  AWS Direct Connect Gateway AWS Direct Connect Gateway は中国を除くAWSのすべてのリージョンにおいて、グローバル IP ルートを受信するパブリック仮想インターフェイスを作成することや、エンドポイントへのアクセスの有効化機能が提供されます。また、複数の AWS リージョンに渡り Virtual Private Cloud (VPC) で接続性を確立することができ、それぞれ複数の BGP セッションを確立する必要がないので、管理作業を減らしネットワークデバイスへの負担も軽減することができます。 ドキュメントの以下の図を参照ください。 Direct Connect ゲートウェイを介して接続する VPC には重複する CIDR ブロックの設定はサポートされていないことに留意してください。 AWS Transit […]

Read More

AWS Well-Architected Toolが日本語をサポートしました(東京リージョンでご利用いただけます)

私たちが、2015年に発表したAWS Well-Architected フレームワークは、クラウドにおけるシステム設計・構築・運用において、設計原則と「運用の優秀性」「セキュリティ」「信頼性」「パフォーマンス効率」「コストの最適化」の5つの柱を使用して、ガイダンスとベストプラクティスを提供するものです。 さらに2018年にはAWS Well-Architected Toolをリリースし、お客様のワークロードがAWSアーキテクチャの最新ベストプラクティスに則っているか、どのようなギャップがあって、どのようなリスクや改善点があるかを自分自身でご確認いただけるようになりました。このツールは昨年のリリース以降、すでに世界中で何万ものワークロードレビューで活用されており、お客様ワークロードの改善に貢献してきました。 AWS Well-Architected Toolが日本語をサポートしました(東京リージョンでご利用いただけます) 本日より、AWS Well-Architected Toolが日本語のサポートし、アジアパシフィック(東京)リージョンでご利用いただけるようになります。みなさんは、AWSマネジメントコンソールにアクセスして、AWS Well-Architected Toolを日本語でご利用いただけます。詳細については、ドキュメントと製品ページもご参照ください。 また、合わせてAWS Well-Architected フレームワークの最新日本語版をこちらからご参照いただけるようになりました。 AWS Well-Architected フレームワーク(ウェブサイト形式で閲覧)  |  ホワイトペーパー(PDF) 日本語対応したAWS Well-Architected Toolを試してみましょう まず、AWS Well-Architected Toolコンソールを開いて、「ワークロードの定義」をクリックして開始します: なおツール内での「ワークロード」という用語は、ビジネス価値を提供する一連のコンポーネント(システム)を識別するために使用します。ワークロードは通常、ビジネスリーダーとテクノロジーリーダーが話し合う場合のレベルになります。 最初にワークロードに名前をつけ、定義することから始めます。次に業界や業種、運用するリージョン、本番環境かなどを選択します。また任意にAWSアカウントIDを入力することも出来ます。続いて「ワークロードの定義」をクリックして次に進みましょう: レビューを開始する準備が出来ました。[レビューを開始]をクリックして次へ進みましょう: 最初の柱は「運用の優秀性」です。ここでは9つの質問があり、選択肢から複数の回答(ベストプラクティス)を選択できます。画面の右側には質問ごとの解説が表示されています。また各質問や各回答の内容について詳しく知りたいときは、各質問や各回答横の「情報」リンクをクリックすると、それぞれについて詳しい情報を参照することも出来ます。: 順番に従って、質問に回答することも出来ますし、保存や中断をすることも可能です。レビューを完了すると、改善すべき計画を確認することが出来ます。: 「改善計画」では、すべての質問に対する AWS ベストプラクティスのアドバイスが提供されます。改善計画は、柱の優先順位に基づいて順序付けられます。柱のデフォルトの順序を使用するか、ユーザーの優先順位に基づいて柱の順序を変更することもできます。: レビュー結果について、PDF形式でのレポートを出力することも可能です:   日本語対応したAWS Well-Architected Toolは、今すぐに利用可能です! ツールは今回サポートを開始したアジアパシフィック(東京)に加えて、すでに提供中の米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、ヨーロッパ (アイルランド)、ヨーロッパ (ロンドン)、アジアパシフィック(シドニー)の各リージョンでもご利用いただけます。   AWS Well-Architectedパートナーのご紹介 自社のみのシステム設計・構築・運用に不安がある場合は、AWS Well-Architected パートナーにご相談いただくことも出来ます。日本では2019年9月26日現在、下記の9社が認定パートナーとなっています。   AWS […]

Read More

AWS Data Wranglerを使って、簡単にETL処理を実現する

2019年9月、Github上にAWS Data Wrangler(以下、Data Wrangler)が公開されました。Data Wranglerは、各種AWSサービスからデータを取得して、コーディングをサポートしてくれるPythonのモジュールです。 現在、Pythonを用いて、Amazon Athena(以下、Athena)やAmazon Redshift(以下、Redshift)からデータを取得して、ETL処理を行う際、PyAthenaやboto3、Pandasなどを利用して行うことが多いかと思います。その際、本来実施したいETLのコーディングまでに、接続設定を書いたり、各種コーディングが必要でした。Data Wraglerを利用することで、AthenaやAmazon S3(以下、S3)上のCSVからPandasを利用するのが、数行で実施できたり、PySparkからRedshiftに連携できるなど、お客様側はETLの処理の記述内容に集中することができます。 本モジュールはインスタンスに対してpipでインストールできることに加え、Lambda Layerとしての利用やGlue上でeggファイルをアップロードして利用することができます。 本ブログでは、Amazon SageMaker(以下、SageMaker) Notebookを用いて、Athenaにクエリを実行、前処理をし、結果をS3に配置するチュートリアルをご紹介いたします。   チュートリアル 実行するシナリオは下記の通りです。 シナリオ ユースケースとしては、AWSサービスの構築のご経験が少ない方でもノートブック上から機械学習の前処理などでご利用いただけるかと思います。例えば、SageMaker内のビルトインアルゴリズムであるXG Boostを利用する目的で、データベース内のデータを必要な形に変換したり、またそれ以外にも欠損値を平均値で穴埋めするといったことがあるでしょう。 このチュートリアルでは、Athenaでクエリした結果の中から分析対象外データを削除し、その後、項目を別の値に置き換える一連の手順をご紹介します。なお、環境構築自体は“東京リージョン”(ap-northeast-1)で実施します。 手順 0.データのダウンロード サンプルデータのダウンロードを行います。 (サンプルデータのURL内にある2019年6月の“Green Taxi Trip Records(CSV)”を利用します。) 1.データセットの準備 1-1.AWSマネジメントコンソールにログインして、サービス一覧から“S3”を選択します。 1-2.[バケットを作成する]ボタンをクリックし、“バケット名”に任意の名前(※世界で一意)を入力、リージョンが“アジアパシフィック(東京)”になっていることを確認し、[作成]ボタンをクリックします。 1-3.バケットが作成されたら、作成したバケットに手順“0”でダウンロードしたCSVファイルをアップロードします。 1-4.サービス一覧から“Athena”を選択します。 1-5.下記クエリを実行し、Athenaのデータベースとテーブルを作成します。 ・データベースの作成 CREATE DATABASE [YOUR DATABASE NAME]; ・テーブルの作成 CREATE EXTERNAL TABLE green_tripdata( VendorID string, lpep_pickup_datetime string, lpep_dropoff_datetime string, store_and_fwd_flag string, RatecodeID […]

Read More