Amazon Web Services ブログ

【開催報告】AWS Data Lake ハンズオンセミナー 2019 梅雨

こんにちは。AWS ソリューションアーキテクトの上原誠(@pioh07)です。 7月17日に、「AWS Data Lake ハンズオンセミナー」を開催いたしました。去年から行ってきた恒例のワークショップで第8回目となります。去年から引き続き盛況で、今回も123名のお客様にご参加頂きました。 はじめに、AWSにおけるデータ活用のベストプラクティスである Amazon S3 を中心とした Data Lake について解説し、ビッグデータ分析基盤の考え方として有名なラムダアーキテクチャの解説を行いました。 当イベントでは、Amazon Athena や Amazon Redshift の各 AWS サービスを駆使して実際にラムダアーキテクチャを構築することがゴールです。とはいえ全てを構築するのはボリュームが大きいため、スピードレイヤー or バッチレイヤー or 全部入りでコース分けて取り組めるようハンズオンコンテンツを用意しました。最初にコースの説明を行い、出席いただいたお客様ご自身の課題に合わせてコースを選択頂き、ハンズオンを行っていただきました。今回、参加者も多くいらっしゃいましたので、サポートするソリューションアーキテクトも7名で対応させていただきました。 今回参加できなかった方も、ソリューションアーキテクトのサポートを受けながらハンズオンを行いログ分析を初めてみてはいかがでしょうか? 次回は真夏の9月に開催予定です。ご参加お待ちしております。    

Read More

リザーブドインスタンスの効率的な運用 – Cost Explorer

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。 今日はリザーブドインスタンス(RI)の運用に役に立つツール、AWS Cost Explorerをご紹介します。リザーブドインスタンスはオンデマンド料金に比べて大幅な割引価格 (最大 75%) が適用される非常にコスト効果の優れたソリューションですが、購入後正しくそのライセンスが適応されているか、どれくらいRIで稼働インスタンスがカバーされているか、RIを追加で購入しコスト削減が見込めるか?等の確認が難しい、というお問い合わせをよくいただきます。 このCost ExplorerではAWSアカウントにおけるRIの利用状況をグラフィカルに表示してくれるツールがあり、RIを運用されているお客様にとってとても便利なツールとなります。 Cost Explorerには大きく3つの機能があります。 1. RIの使用状況(適用率)を確認できるRI Utilization 2. 稼働インスタンスに対するRIのカバー率を確認できるRI Coverage 3. 利用状況に応じたRIの提案を行なうRecommendation 現在対応しているサービスはAmazon EC2, Amazon RDS, Amazon Redshift, Amazon ElastiCache, Amazon Elasticsearch Service の5つです。 Cost Explorerへのアクセス URL:https://console.aws.amazon.com/billing/home#/costexplorer もし正しく表示されない場合は、以下の手順でコストエクスプローラーを有効化してください。 https://docs.aws.amazon.com/ja_jp/awsaccountbilling/latest/aboutv2/ce-enable.html 画面左の[Cost Explorer]から各レポートへのアクセスが出ます。試しに[Cost & Usage]へアクセスしてみましょう。 AWSアカウントの費用状態が可視化されて表示されています。(Amazon Neptune や Amazon SageMakerが最近は動いていることがわかりますね!)この画面では、いろいろと値を操作することで別のデータを出すこともできますし、CSV出力も可能です。例えばRegion単位でコストを見ることもできます。 Reserved Utilization(予約の利用率) では2つ目のレポート。本題のRIの利用状況がわかる画面へ遷移してみます。 右側ペインでRIを適応可能なサービスを選ぶと、左側のペインに削減可能額や、(すでにRIを購入済の場合)削減された額などが表示され、全体像を一覧として把握することができます。ここで出てくる[ターゲットライン]は少し考え方がややこしいので注意が必要です。 お客様の中には、RIによるコスト削減とオンデマンドでいつでも変更可能なインスタンス構成を保持するために、意図的にRIを購入せず、オンデマンドで保持されるケースがあります。その場合例えばターゲットを80%と設定することで、残り20%をオンデマンドインスタンスに残しておくことでコスト削減と変更可能な柔軟性を両立することができます。 画面下には購入済RIの一覧が出てきます。こちらをクリックすることでさらに詳細なレポートを入手することができます。   […]

Read More

AWS DMS 3.1.3 での Parquet データ形式のサポートの発表

本日、AWS DMS は、Apache Parquet データ形式で、AWS がサポートするソースから Amazon S3 へのデータの移行のサポートを発表しました。これは、DMS 3.1.3 の多数ある新機能の 1 つです。お客様の多くは、データレイクを構築するために DMS で「ターゲットとしての S3」サポートを利用しています。そして、このデータを Amazon EMR、Amazon Athena、Amazon Redshift Spectrum などの他の AWS のサービスと共に使用しています。そうした中、さまざまな形式で S3 への移行をサポートする方法が求められ、この機能が利用可能になりました。 この記事では、選択した S3 バケットおよびフォルダに、Parquet 形式のデータを移行するように DMS タスクを設定する方法を説明します。 概要 Apache Parquet は、効率的な圧縮およびエンコードスキームをサポートするように構築されています。複数のプロジェクトで、データに適切な圧縮およびエンコードスキームを適用することによるパフォーマンスへの影響が実証されています。Parquet は列ごとのレベルで圧縮スキームを指定することを可能にし、今後発明、実装されるより多くのエンコーディングを追加できることが将来的に保証されています。AWS DMS 3.1.3 では、Parquet 形式で S3 への移行をサポートできます。 ウォークスルー まず、適切な設定で S3 ターゲットエンドポイントを作成します。Parquet 形式のデータを移行するために必要な追加の接続属性を使用してこれを行うには、AWS CLI を使用する方法、DMS コンソールを使用する方法の 2 つの方法があります。 AWS CLI […]

Read More

正確な住宅料金予想を: Entrata が Amazon SageMaker の使用および 1Strategy との提携によりアパートの占有率上昇に成功

住宅市場は複雑な状況に置かれています。  例えば、大学キャンパス付近の学生用物件では供給状態が常に変動します。さらに、賃貸価格の許容値も、物理的・社会的な要因によって絶え間なく変化します。こうした要因には、他の物件と比較してキャンパスに近いか、近隣に友達が住んでいるか、そしてその他の物件と同じように近隣に駐車場があるかが含まれるでしょう。このような相互作用はあらゆるレベルで起こります。物件全体の価値が変化することにより、特定の物件の価値がさらに下がったり、反作用が発生したりするケースもあります。 不動産管理会社が賃貸物件から最大の収益を得るには、テナントごとのプライスポイントの範囲内で各物件の料金を設定する必要があります。しかし、不動産管理会社側は料金制約条件が何か分からないことがあります。  料金を下げ過ぎて収益を失うことはしたくありません。逆に料金を上げ過ぎると空室状態を招き、結局物件の維持費を管理会社側で支払わなければならなくなります。価格のバランスをとるのは難しい問題です。 集合住宅管理ソリューションを提供する総合テクノロジープロバイダーである Entrata は、AWS の機械学習 (ML) を導入することによってこの問題を解決しています。 具体的には、地域、さらには建物に特化したデータ (占有率やキャンパスへの近さ、賃貸契約期間など) を Amazon SageMaker を実行する ML ベースの動的料金エンジンに入力しています。このモデルにより、Entrata の顧客である不動産管理業者は占有率レベルの予測を行い、結果として学生用住宅物件の料金を最適化することができています。 こうして実装されたこのソリューションでは、数多くの AWS サービスが使用されています。  まず、AWS Glue によって Entrata の履歴データが Amazon S3 に抽出されます。このデータによって Amazon SageMaker での料金予想が可能になります。この価格予想は Amazon S3 のアウトプットバケットに書き出されます。Entrata のアプリケーションは API Gateway を使用してこのデータリクエストを消費します。これにより、AWS Lambda 関数がトリガーされ、空室の物件に最も関連性の高い価格予想が提供されます。 このソリューションは、Entrata と、AWS プレミアコンサルティングパートナーである 1Strategy とのパートナーシップによって開発されました。シアトルに拠点を置く同社は、ビジネスによる AWS 上のワークロードのアーキテクチャ設計、移行、最適化をサポートしているコンサルティング会社です。1Strategy と Entrata の長きに渡るパートナーシップの中、この ML プロジェクトは直近のものであり、間違いなく最高の合同テクニカル事業であると言えます。 2 社のコラボレーションは、以前は […]

Read More

言葉がゲームボードであり、Amazon Polly が楽しさをもたらす Volley での音声プレイ

音声による体験が、勢いを増し、人気を集めています。Volley は、一連の人気のあるスマートスピーカーゲームでの音声制御エンターテイメントの最先端にいます。そして、Volley の多くの側面は Amazon Polly を活用しています。 毎日、ますます多くの人々がボタンを押すことによってではなく、スマートスピーカーへの口頭でのコマンドでライトをつけ、お天気をチェックし、音楽を楽しんでいます。Volley は、元はハーバードでのルームメートであった Max Child 氏 (CEO) と James Wilsterman 氏 (CTO) によって 2016 年に共同設立されたサンフランシスコに拠点を置くスタートアップ企業です。同社の使命は、スマートスピーカーを使って、楽しい体験を築くことです。 Volley は、歌のクイズから政治的風刺、ロールプレイングゲームまで、あらゆる種類のゲームを制作しています。「Yes Sire」などの後者のゲームの多くは、自分独自の冒険スタイルを選ぶゲームを特徴としており、そこでは各プレイヤーの選択によって無限の対話が繰り広げられます。Volley が複数のキャラクターがやり取りする中でこうした対話を拡大できるのは、Amazon Polly に大きく依存しています。 「それぞれのキャラクターを特定の Amazon Polly の声に関連付けています」と、Wilsterman 氏は語りました。「私たちのオンザフライ TTS 生成がうまくいくのは、Amazon Polly の text-to-speech API のレイテンシーがユーザーが本質的に知覚できないほど十分に低いからなのです。」 コストの観点からすると、この比較は非常に簡単です。ゲームを発声するために声優を雇うことは、1,000 倍もコストがかかることになります (文字通り、一斉射撃 (Volley) が成果をあげたのです)。Amazon Polly は反応速度が決まっており、人間よりも反応が速いのです。また、録音された脚本に従った声優の場合よりも多様なキャラクターや反応を提供できます。 「私たちは、ゲームで多様で記憶に残るキャラクターを披露したいのです」と、Wilsterman 氏は言いました。「Amazon Polly が、そのために役立つさまざまな言語、アクセント、年齢層をサポートしていることに感謝しています。」 たとえば、Amazon Polly に組み込まれているドイツ語のサポートは、Volley が最近ドイツ向けにローカライズ版の「Yes Sire」 (名前は「Ja […]

Read More

AWS Glue を使用して Salesforce.com データを抽出し、Amazon Athena で分析する

Salesforce は、広く使用されている人気の高い顧客関係管理 (CRM) プラットフォームです。連絡先情報、取引先、見込み客、販売機会など、見込み客やお客様の情報を 1 か所にまとめて管理できます。Salesforce に保存されている見込み客情報を、データレイク内の他の構造化データおよび非構造化データと組み合わせることで、多くの有用な情報を引き出すことができます。 この記事では、AWS Glue を使用して Salesforce.com アカウントオブジェクトからデータを抽出し、それを Amazon S3 に保存する方法を説明します。次に、Amazon Athena を使用して、Salesforce.com のアカウントオブジェクトデータと別の注文管理システムの注文データを結合してレポートを生成します。 データを準備する 無料の Salesforce.com アカウントにサインアップすると、多数の Salesforce.com オブジェクトが入った少数のサンプルレコードが付いてきます。AWS Glue コードの SOQL クエリを変更することで、組織の開発用 Salesforce.com アカウントを使用して、同時に複数のオブジェクトからデータを取得できます。これらのオブジェクトからデータを抽出する方法を示すため、Account オブジェクトのみを使用してクエリを単純なものにします。 Amazon Athena を使用して Salesforce.com データを別のシステムのデータと結合する方法を示すために、注文管理システムから出される注文を示すサンプルデータファイルを作成します。 AWS Glue ジョブを設定する Apache Spark と Salesforce.com を接続するため、オープンソースの springml ライブラリを使用します。このライブラリには、Apache Spark フレームワークを使用して Salesforce.com オブジェクトの読み取り、書き込み、および更新を可能にする便利な機能が多数付属しています。 springml GitHub リポジトリから JAR ファイルをコンパイルするか、Maven […]

Read More

AWS Storage Gateway を使用して Amazon S3 に SQL Server バックアップを保存する

Alkami や Acadian Asset Management などのお客様は、AWS Storage Gateway を使用して Microsoft SQL Server データベースを直接 Amazon S3 にバックアップし、オンプレミスのストレージ占有領域を削減し、耐久性、拡張性、および費用対効果の高いストレージとして S3 を活用しています。 Storage Gateway は、オンプレミスアプリケーションに対して、実質的に無制限のクラウドストレージへのアクセスを提供する、ハイブリッドなクラウドストレージサービスです。このサービスは、ストレージ管理を簡素化し、3 つの主な使用例でコストを削減します。 クラウドへのバックアップ移動 クラウドベースのファイル共有によるオンプレミスストレージの削減 オンプレミスアプリケーション用に AWS 内のデータへのアクセスを低レイテンシーで提供 この記事では、Storage Gateway のファイルゲートウェイ設定を使用してバックアップをクラウドに移動する 1 つの方法を説明します。 概要 次の手順を使用してファイルゲートウェイをデプロイし、SQL Server のバックアップターゲットとしてファイル共有を作成して、S3 にバックアップを保存します。 オンプレミス環境にファイルゲートウェイをデプロイします。 ファイル共有認証でドメインユーザーとグループを使用できるように、ファイルゲートウェイを Microsoft Active Directory ドメインに接続します。 ファイルゲートウェイに SMB ファイル共有を作成し、その共有を S3 バケットに関連付けます。Active Directory ドメインを使用して共有へのオンプレミスアクセスを設定します。 共有をマウントしてクイックバックアップを作成し、SQL Server がその共有にアクセスできることを確認します。 ファイルゲートウェイをデプロイする 始めるには、オンプレミス環境でファイルゲートウェイを作成します。ファイルゲートウェイは、オンプレミスの […]

Read More

AWS New York Summit 2019 – ローンチおよび発表の概要

AWS New York Summit が終了しました! 以下は、ローンチおよび発表の概要です。 Amazon EventBridge – この新しいサービスは、Amazon CloudWatch Events の基礎となるイベント処理モデルに基づいており、AWS のアプリケーションを Zendesk、Datadog、SugarCRM、Onelogin などの SaaS アプリケーションと簡単に統合することができます。詳細については、私のブログ記事「Amazon EventBridge – Event-Driven AWS Integration for your SaaS Applications」をお読みください。 Werner が EventBridge を発表 – 写真撮影 Serena Cloud Development Kit – CDK が一般利用可能になり、TypeScript と Python をサポートしています。詳細については、Danilo のブログ記事「AWS Cloud Development Kit (CDK) – TypeScript and Python are Now Generally […]

Read More

Course Hero, により学生の学習を支援、Amazon SageMaker による対応

Course Hero は学生に学習ガイド、クラスノート、および多くの科目の練習問題を含む 2500 万のコース特有の学習資料へのアクセスを提供するオンライン学習プラットフォームです。このプラットフォームは AWS 上で実行され、各学生が自信をもち、準備ができた気持ちでコースを受講できるように設計されています。Course Hero はそれを実現するために、Course Hero にパワーを与え、主たる人工知能と ML プラットフォームとして機能する Amazon Machine Learning (Amazon ML) を使用して、自ら学習できるように装備しています。 Course Hero の人工知能グループは、会社のセマンティック知識グラフを作成することをタスクとしています。この常に拡大しているグラフにより、受講生はパーソナライズされた学習体験にアクセスでき、教育者は独自のコースコンテンツを作成するためのツールを利用できます。 Course Hero のオファーのほとんどの側面は、様々な形態で AWS に依存しています (計算または ML のいずれか)。たとえば、Amazon Elasticsearch Service (Amazon ES) は、学生と教育者が教材を検索するために使用する検索機能を強化します。Amazon ES プラットフォームは、Course Hero チームが API 拡張プラグイン を通じて独自の実施を書くことができるようにします。このプラグインにより、ローカルに凝縮したセマンティック検索機能を必要とするより難解な検索に対しても、関連性のあるユーザーエクスペリエンスを柔軟に作成できます。 学生および教育者は、自分のコンテンツをアップロードするのと引き換えに、Course Hero のドキュメントライブラリ(自由にアクセス可能)を検索します。Course Hero はすべての文書を公開可能なライブラリ資料として受け付けていません。 文書は、クラウド主導の審査プロセスを経た後でライブラリに受け入れられます。新しい文書がアップロードされると、Amazon EMR および Amazon SageMaker Inference Pipelines で実行中の人工知能プラットフォームが文書に不正、倫理規定違反、著作権侵害、およびスパムがないかどうか確認し、検証します。 […]

Read More

Amazon RDS または Amazon EC2 を使ってホストされているデータベースで実稼働ワークロードを実行するためのストレージのベストプラクティス

AWS は、OLTP ワークロードを処理するデータベースをホストするために複数のオプションを提供しており、Amazon EC2 インスタンスで独自のマネージドデータベースをホストする、または AWS が管理する Amazon RDS を使用することができます。RDS は、高可用性、自動バックアップ、データベースのアップグレード、OS パッチ、セキュリティ、およびリードレプリカを管理します。RDS は、クラウドネイティブのオプションである Amazon Aurora データベースエンジンも提供し、このエンジンは MySQL および PostgreSQL に対応しています。Aurora は、標準の MySQL と PostgreSQL データベースよりも優れたスループットを実現します。 Amazon RDS または Amazon EC2 を使ってホストされているデータベースで実稼働ワークロードを実行している時は、次のような疑問を思い浮かべたことがあるかもしれません。 最良のデータベースストレージタイプのオプションは何か? ストレージのパフォーマンス問題はどのように解決すればよいのか? EC2 インスタンスでホストされているデータベースに対する RAID 設定オプションには何があるのか? 最適なパフォーマンスのためのアプリケーション変更は何か? Amazon CloudWatch を使用してストレージパフォーマンスのトラブルシューティングを行うにはどうすればよいのか? Amazon RDS とAurora の運用パフォーマンスの違いは? この記事では Amazon RDS または EC2 インスタンスでホストされているデータベースで実稼働ワークロードを実行するためのストレージのベストプラクティスについて説明します。 テスト、QA、またはステージングの環境と比べて、実稼働ワークロードには高速で一貫した I/O パフォーマンスが必要です。リレーショナルデータベースは多目的に使用できますが、それらの最も一般的なユースケースはオンライントランザクション処理 (OLTP) […]

Read More