Amazon Web Services ブログ

AWS Glue を使用して Salesforce.com データを抽出し、Amazon Athena で分析する

Salesforce は、広く使用されている人気の高い顧客関係管理 (CRM) プラットフォームです。連絡先情報、取引先、見込み客、販売機会など、見込み客やお客様の情報を 1 か所にまとめて管理できます。Salesforce に保存されている見込み客情報を、データレイク内の他の構造化データおよび非構造化データと組み合わせることで、多くの有用な情報を引き出すことができます。 この記事では、AWS Glue を使用して Salesforce.com アカウントオブジェクトからデータを抽出し、それを Amazon S3 に保存する方法を説明します。次に、Amazon Athena を使用して、Salesforce.com のアカウントオブジェクトデータと別の注文管理システムの注文データを結合してレポートを生成します。 データを準備する 無料の Salesforce.com アカウントにサインアップすると、多数の Salesforce.com オブジェクトが入った少数のサンプルレコードが付いてきます。AWS Glue コードの SOQL クエリを変更することで、組織の開発用 Salesforce.com アカウントを使用して、同時に複数のオブジェクトからデータを取得できます。これらのオブジェクトからデータを抽出する方法を示すため、Account オブジェクトのみを使用してクエリを単純なものにします。 Amazon Athena を使用して Salesforce.com データを別のシステムのデータと結合する方法を示すために、注文管理システムから出される注文を示すサンプルデータファイルを作成します。 AWS Glue ジョブを設定する Apache Spark と Salesforce.com を接続するため、オープンソースの springml ライブラリを使用します。このライブラリには、Apache Spark フレームワークを使用して Salesforce.com オブジェクトの読み取り、書き込み、および更新を可能にする便利な機能が多数付属しています。 springml GitHub リポジトリから JAR ファイルをコンパイルするか、Maven […]

Read More

AWS Storage Gateway を使用して Amazon S3 に SQL Server バックアップを保存する

Alkami や Acadian Asset Management などのお客様は、AWS Storage Gateway を使用して Microsoft SQL Server データベースを直接 Amazon S3 にバックアップし、オンプレミスのストレージ占有領域を削減し、耐久性、拡張性、および費用対効果の高いストレージとして S3 を活用しています。 Storage Gateway は、オンプレミスアプリケーションに対して、実質的に無制限のクラウドストレージへのアクセスを提供する、ハイブリッドなクラウドストレージサービスです。このサービスは、ストレージ管理を簡素化し、3 つの主な使用例でコストを削減します。 クラウドへのバックアップ移動 クラウドベースのファイル共有によるオンプレミスストレージの削減 オンプレミスアプリケーション用に AWS 内のデータへのアクセスを低レイテンシーで提供 この記事では、Storage Gateway のファイルゲートウェイ設定を使用してバックアップをクラウドに移動する 1 つの方法を説明します。 概要 次の手順を使用してファイルゲートウェイをデプロイし、SQL Server のバックアップターゲットとしてファイル共有を作成して、S3 にバックアップを保存します。 オンプレミス環境にファイルゲートウェイをデプロイします。 ファイル共有認証でドメインユーザーとグループを使用できるように、ファイルゲートウェイを Microsoft Active Directory ドメインに接続します。 ファイルゲートウェイに SMB ファイル共有を作成し、その共有を S3 バケットに関連付けます。Active Directory ドメインを使用して共有へのオンプレミスアクセスを設定します。 共有をマウントしてクイックバックアップを作成し、SQL Server がその共有にアクセスできることを確認します。 ファイルゲートウェイをデプロイする 始めるには、オンプレミス環境でファイルゲートウェイを作成します。ファイルゲートウェイは、オンプレミスの […]

Read More

AWS New York Summit 2019 – ローンチおよび発表の概要

AWS New York Summit が終了しました! 以下は、ローンチおよび発表の概要です。 Amazon EventBridge – この新しいサービスは、Amazon CloudWatch Events の基礎となるイベント処理モデルに基づいており、AWS のアプリケーションを Zendesk、Datadog、SugarCRM、Onelogin などの SaaS アプリケーションと簡単に統合することができます。詳細については、私のブログ記事「Amazon EventBridge – Event-Driven AWS Integration for your SaaS Applications」をお読みください。 Werner が EventBridge を発表 – 写真撮影 Serena Cloud Development Kit – CDK が一般利用可能になり、TypeScript と Python をサポートしています。詳細については、Danilo のブログ記事「AWS Cloud Development Kit (CDK) – TypeScript and Python are Now Generally […]

Read More

Course Hero, により学生の学習を支援、Amazon SageMaker による対応

Course Hero は学生に学習ガイド、クラスノート、および多くの科目の練習問題を含む 2500 万のコース特有の学習資料へのアクセスを提供するオンライン学習プラットフォームです。このプラットフォームは AWS 上で実行され、各学生が自信をもち、準備ができた気持ちでコースを受講できるように設計されています。Course Hero はそれを実現するために、Course Hero にパワーを与え、主たる人工知能と ML プラットフォームとして機能する Amazon Machine Learning (Amazon ML) を使用して、自ら学習できるように装備しています。 Course Hero の人工知能グループは、会社のセマンティック知識グラフを作成することをタスクとしています。この常に拡大しているグラフにより、受講生はパーソナライズされた学習体験にアクセスでき、教育者は独自のコースコンテンツを作成するためのツールを利用できます。 Course Hero のオファーのほとんどの側面は、様々な形態で AWS に依存しています (計算または ML のいずれか)。たとえば、Amazon Elasticsearch Service (Amazon ES) は、学生と教育者が教材を検索するために使用する検索機能を強化します。Amazon ES プラットフォームは、Course Hero チームが API 拡張プラグイン を通じて独自の実施を書くことができるようにします。このプラグインにより、ローカルに凝縮したセマンティック検索機能を必要とするより難解な検索に対しても、関連性のあるユーザーエクスペリエンスを柔軟に作成できます。 学生および教育者は、自分のコンテンツをアップロードするのと引き換えに、Course Hero のドキュメントライブラリ(自由にアクセス可能)を検索します。Course Hero はすべての文書を公開可能なライブラリ資料として受け付けていません。 文書は、クラウド主導の審査プロセスを経た後でライブラリに受け入れられます。新しい文書がアップロードされると、Amazon EMR および Amazon SageMaker Inference Pipelines で実行中の人工知能プラットフォームが文書に不正、倫理規定違反、著作権侵害、およびスパムがないかどうか確認し、検証します。 […]

Read More

Amazon RDS または Amazon EC2 を使ってホストされているデータベースで実稼働ワークロードを実行するためのストレージのベストプラクティス

AWS は、OLTP ワークロードを処理するデータベースをホストするために複数のオプションを提供しており、Amazon EC2 インスタンスで独自のマネージドデータベースをホストする、または AWS が管理する Amazon RDS を使用することができます。RDS は、高可用性、自動バックアップ、データベースのアップグレード、OS パッチ、セキュリティ、およびリードレプリカを管理します。RDS は、クラウドネイティブのオプションである Amazon Aurora データベースエンジンも提供し、このエンジンは MySQL および PostgreSQL に対応しています。Aurora は、標準の MySQL と PostgreSQL データベースよりも優れたスループットを実現します。 Amazon RDS または Amazon EC2 を使ってホストされているデータベースで実稼働ワークロードを実行している時は、次のような疑問を思い浮かべたことがあるかもしれません。 最良のデータベースストレージタイプのオプションは何か? ストレージのパフォーマンス問題はどのように解決すればよいのか? EC2 インスタンスでホストされているデータベースに対する RAID 設定オプションには何があるのか? 最適なパフォーマンスのためのアプリケーション変更は何か? Amazon CloudWatch を使用してストレージパフォーマンスのトラブルシューティングを行うにはどうすればよいのか? Amazon RDS とAurora の運用パフォーマンスの違いは? この記事では Amazon RDS または EC2 インスタンスでホストされているデータベースで実稼働ワークロードを実行するためのストレージのベストプラクティスについて説明します。 テスト、QA、またはステージングの環境と比べて、実稼働ワークロードには高速で一貫した I/O パフォーマンスが必要です。リレーショナルデータベースは多目的に使用できますが、それらの最も一般的なユースケースはオンライントランザクション処理 (OLTP) […]

Read More

Amazon Redshift 用の AWS Step Functions を使用した ETL プロセスのオーケストレーション

現在のデータレイクは、大量の情報を使用可能なデータに変換する抽出、変換、ロード (ETL) 操作をベースとしています。この記事では、AWS Step Functions、AWS Lambda、AWS Batch を緩やかに結合して Amazon Redshift クラスターをターゲットにする ETLオーケストレーションプロセスの実装について詳しく説明します。 Amazon Redshift はカラムナストレージを使用するため、便利な ANSI SQL クエリを使用した迅速な分析的インサイトに最適です。Amazon Redshift クラスターを数分ですばやく増減して、エンドユーザーレポートとデータウェアハウスへのタイムリーなデータ更新の両方の厳しいワークロードに対応することができます。 AWS Step Functions を使用すると、拡張性に優れた繰り返し可能なワークフローを簡単に開発および使用できます。Step Functions によって、個々の Lambda 関数から自動化ワークフローを構築できます。各関数は個別のタスクを実行し、ワークフローのコンポーネントを迅速かつシームレスに開発、テスト、変更することを可能にします。 ETL プロセスは、データウェアハウスをソースシステムから更新し、未加工データをより簡単に使用できる形式に編成します。大半の組織は、ETL をバッチとして、またはリアルタイムの取り込みプロセスの一部として実行し、データウェアハウスを最新の状態に保ち、タイムリーな分析を提供します。完全に自動化されたスケーラビリティの高い ETL プロセスにより、通常の ETL パイプラインの管理に投入する必要がある運用上の労力を最小限に抑えることができます。また、データウェアハウスのタイムリーで正確な更新も保証されます。このプロセスをカスタマイズして、データを任意のデータウェアハウスまたはデータレイクに更新することができます。 また、この記事では、TPC-DS データセットを更新するためにワンクリックでサンプル ETL プロセス全体を開始する AWS CloudFormation テンプレートも提供しています。テンプレートへのリンクは、AWS CloudFormation を使用してワークフロー全体を設定するセクションにあります。 アーキテクチャの概要 次の図は、ETL ワークフローのオーケストレーションに関連するさまざまなコンポーネントのアーキテクチャの概要を示しています。このワークフローは Step Functions を使用して Amazon S3 からソースデータを取得し、Amazon Redshift データウェアハウスを更新します。 […]

Read More

Amazon EventBridge – SaaS アプリケーション用のイベント駆動型での AWS の統合

AWS のお客様の多くが、SaaS (Software as a Service) アプリケーショ ンを大いに活用しています。たとえば、カスタマーサービスとサポート用チケットの管理には Zendesk を、インシデント対応の処理には PagerDuty を、そしてリアルタイムモニタリングには SignalFX といったものを利用しています。これらのアプリケーションはそれ自体極めてパワフルですが、顧客独自のシステム、データベース、ワークフローと統合した場合には、さらに優れた機能を発揮します。 新しくなった Amazon EventBridge 最近一般的となってきたこうしたユースケースをサポートするため、本日、Amazon EventBridge の発表に至りました。CloudWatch イベントや EventBridge の基盤をなす強力なイベント処理モデル上にアプリケーションを構築することで、お客様独自の AWS アプリケーションが SaaS アプリケーションと簡単に統合できるようになります。SaaS アプリケーションはどこでもホストでき、AWS のお客様それぞれに固有のイベントバスにイベントを発行すればよいだけです。非同期のイベントベースのモデルは、迅速、クリーン、かつ操作しやすいです。パブリッシャー (SaaS アプリケーション) とコンシューマー (AWS で実行しているコード) は完全に分離されており、共有通信プロトコル、ランタイム環境、あるいはプログラミング言語に依存しません。シンプルな Lambda 関数を使って SaaS アプリケーションから発生するイベントを処理したり、イベントを他のさまざまな AWS ターゲットにルーティングすることもできます。インシデントやチケットのデータを Amazon Redshift に保存したり、カスタマーサポートのクエリに関する機械学習モデルをトレーニングしたりすることも可能です。 CloudWatch イベントについてすでに分かっている (もしかしたらお気に入りとなるかもしれない) 情報はすべて引き続き適用されますが、1 つだけ重要な変更があります。AWS のサービス、PutEvents への呼び出し、および他の認証済みアカウントからのイベントを受け入れる既存のデフォルトイベントバスだけでなく、サブスクリプションしている各パートナーアプリケーションもイベントソースを作成します。その後 AWS アカウントでイベントバスに関連付けることができます。任意のイベントバスを選択して、EventBridge ルールを作成し、着信イベントがルールと一致したときに呼び出すターゲットを選択できます。 本日からの利用開始の一環として、パートナープログラムも同時に開始されました。統合プロセスはシンプルで操作しやすく、たいていの場合開発期間は […]

Read More

AWS クラウド開発キット (CDK) – TypeScript と Python 用がご利用可能に

Infrastructure as Code を管理することで享受できるメリットは数多くあります。そのため、DevOps のプラクティスをうまく適用するきっかけとなることがよくあります。Infrastructure as Code によって、手動での実行手順に頼る代わりに、管理者と開発者の両方が構成ファイルを使用し、アプリケーションに必要なコンピューティング、ストレージ、ネットワーク、アプリケーションサービスのプロビジョニングを自動化できるようになります。 たとえば、Infrastructure as Code を定義すると、次のことが可能です。 インフラストラクチャとアプリケーションコードを同じリポジトリに保管する さまざまな環境、AWS アカウント、AWS リージョンにわたって実行されるインフラストラクチャの変更を再現かつ予測できるようにする 継続的なテストができるように、ステージング環境で本番環境を再現する ストレステストの実行に必要な時間だけ使用するパフォーマンステスト環境で、本番環境を再現する デプロイにインフラストラクチャの更新が含まれるように、コードの変更と同じツールを使用してインフラストラクチャの変更をリリースする コードレビューや小さな変更を頻繁にデプロイするなどのインフラストラクチャ管理に、ソフトウェア開発のベストプラクティスを適用する インフラストラクチャの管理に使用する設定ファイルは、従来的には YAML または JSON テキストファイルとして実装されていますが、この方法だと最新のプログラミング言語が持つ利点のほとんどを見逃してしまっています。特に YAML では、別のシステムへの転送中に切り捨てられたファイルを検出したり、あるテンプレートから別のテンプレートにコピーして貼り付けた際に行が欠落したことを検出するのは極めて困難です。 お好みのプログラミング言語が持つ表現力を大いに活用し、クラウドインフラストラクチャを定義できればいいと思いませんか? こうした考えから、昨年の開発者向けプレビューで、AWS クラウド開発キット (CDK) を発表しました。これは、使い慣れたプログラミング言語を使ってクラウドインフラストラクチャをモデル化およびプロビジョニングするための拡張可能なオープンソースソフトウェア開発フレームワークです。 そして本日、TypeScript および Python 用の AWS CDK の一般利用を開始することができました。 AWS CDK を使用すると、固有の要件を組み込んだ独自のカスタムコンポーネントを設計、構成、共有できます。たとえば、独自の標準 VPC を設定するコンポーネントや、それに関連付いたルーティングとセキュリティ設定を作成できます。あるいは、AWS CodeBuild や CodePipeline のようなツールを使用したマイクロサービス用の標準的な CI/CD パイプラインも作成可能です。 個人的に気に入っている点は、AWS CDK では同じプログラミング言語を使用し、さらに最新の IDE に組み込まれているオートコンプリートやパラメータサジェスチョンといったサポートを利用することで、インフラストラクチャを含むアプリケーションを IDE […]

Read More
週刊AWS

週刊AWS – 2019/7/8週

こんにちは、AWSソリューションアーキテクトの小林です。7月も中旬にさしかかり、そろそろ梅雨明けが待ち遠しい感じになってきました。まだ若干肌寒いのでシーズンは未だ来たらずですが、夏に食べたくなるのは素麺ですね。私は素麺が好きなのですが、いろいろな食べ方を工夫しています。最近お気に入りの食べ方は、麺つゆに種を抜いた梅干しを溶いて食べるやり方です。酸っぱい梅干しを使うのがコツなのですが、蒸し暑い時期にぴったりの爽やかな味になりますので、ぜひお試しあれ。

Read More

Amazon API Gatewayを使用したSAP IDocとAmazon S3の統合

Amazon Web Services (AWS)上でSAPワークロードを稼働している私たちのお客様は、同様にAWS上のデータレイクソリューションを使用することでデータと分析の変換に投資されています。これらのお客様は、さまざまなサードパーティソリューションを使用してSAPアプリケーションからデータを抽出することがあります。ただし、パフォーマンス向上とコスト削減のために、AWSソリューションを使用するネイティブ統合も必要とされています。 これらのお客様がSAPアプリケーションからデータを抽出するために使用する一般的なパターンは、IDocインターフェース/電子データ交換です。SAP NetWeaver ABAPベースのシステムは、長い間IDocをサポートしています。IDocは非常に安定したフレームワークであり、SAPシステムと非SAPシステム間でのマスターデータとトランザクションデータの配信を支えます。 SAP IDocをAmazon Simple Storage Service (Amazon S3)と統合するためのアーキテクチャ上のアプローチは、ブログ記事「Integrating SAP’s IDOC Interface into Amazon API Gateway and AWS Lambda」のように、既にSAPコミュニティで公開されています。しかしながら、これらのアプローチでは、本稼働環境で使用する上で重要なセキュリティ面がカバーされていません。不正なユーザーの脅威から守るためにビジネスクリティカルなAPIを保護することは重要です。 このブログ記事では、AWS Lambda オーソライザーとAmazon Cognitoで認証レイヤーを提供し、Amazon API Gatewayを使用してSAP IDocをAmazon S3に格納する方法を紹介します。

Read More