Amazon Web Services ブログ

AWS Japan Staff

Author: AWS Japan Staff

MeetMe での S3 データレイクへのリアルタイムデータのストリーミング

本日のゲスト投稿では、MeetMe の Anton Slutsky 氏が、自社のデータレイク用の実装プロセスについて説明します。 Anton Slutsky 氏は、この分野で 20 年近い経験を持つ経験豊富な情報技術者です。ビラノバ大学でコンピューター科学の修士号を取得し、ドレクセル大学で情報科学の博士号を取得しています。 現在のビッグデータシステムには、しばしばデータレイクと呼ばれる構造が含まれています。データレイクという業界用語は、大量の構造化データと非構造化データを吸収し、多数の同時分析ジョブを実行する機能を備えた大規模なストレージおよび処理サブシステムのことです。 はスケーラブルで信頼性が高く、レイテンシーが短いストレージソリューションを低いオペレーションのオーバーヘッドで提供するため、データレイクインフラストラクチャとして現在人気の高い選択肢となっています。ただし、S3 によってペタバイト規模のストレージのセットアップ、設定、管理に関連する多くの問題が解決される一方で、S3 へのデータの取り込みがしばしば課題となっています。これは、ソースデータのタイプ、ボリューム、速度が組織によって大きく異なっているためです。このブログでは、 を使用して MeetMe で大規模なデータ取り込みを最適化、合理化する当社のソリューションについて説明します。これは毎日数百万人のアクティブなユーザーに対応している人気の高いソーシャル検出プラットフォームです。MeetMe のデータサイエンスチームは、1 日あたり約 0.5 TB のさまざまなタイプのデータを、データマイニングタスク、ビジネス向けレポート、高度な分析に公開するような方法で収集、保存する必要がありました。チームはターゲットのストレージ機能として Amazon S3 を選択し、大量のライブデータを堅牢で信頼性が高く、スケーラブルで運用費用が低い方法で収集するという課題に直面していました。ここでの全体的な目的は、可能な限り低いオペレーションのオーバーヘッドで、AWS データインフラストラクチャに大量のストリーミングデータをプッシュするプロセスをセットアップすることでした。Flume、Sqoop など多くのデータ取り込みツールが現在入手可能ですが、当社は、その自動的なスケーラビリティと伸縮性、設定と管理の容易さ、それに S3、、 など他の Amazon サービスとの即座の統合機能により、Amazon Kinesis Firehose を選択しました。 ビジネス価値 / 正当化 多くのスタートアップ企業と同じように、MeetMe は最大のビジネス価値をできるだけ低いコストで提供することに焦点を置いています。したがって、データレイクについては次のような目標がありました。 効果的な意思決定のための高レベルなビジネスインテリジェンスでビジネスユーザーに力を与える。 収益を生み出す洞察の発見に必要なデータをデータサイエンスチームに提供する。 Scoop や Flume といったよく使われているデータ取り込みツールを検討した結果、データサイエンスチームはデータ取り込みプロセスをセットアップ、設定、調整、維持するためにフルタイムの BigData エンジニアを追加する必要があり、冗長性のサポートを可能にするために、エンジニアリングの時間がさらに必要であると予測されました。このようなオペレーションのオーバーヘッドは MeetMe でのデータサイエンスの費用を増やし、全体的な速度に影響する不要な範囲をチームにもたらします。 サービスにより多くの運用面の懸念が軽減され、それによりコストも削減されました。それでもある程度の社内の統合開発は必要でしたが、データコンシューマーのスケーリング、管理、アップグレード、トラブルシューティングは Amazon によって行われるため、データサイエンスチームの規模と範囲は大幅に減りました。 Amazon Kinesis Firehose […]

Read More

Yemeksepeti: サーバーレスアーキテクチャへの当社の移行

AWS コミュニティヒーローの Onur Salk 氏から、自社のサーバーレスアーキテクチャへの移行をどのように支援したかについて、次のようなゲスト投稿が寄せられました。 私は AWS コミュニティヒーロー、AWS 認定ソリューションアーキテクト – プロフェッショナル、トルコの AWS ユーザーグループの主催者である Onur Salk と申します。私はヒーローとして、AWS の経験と知識を個人ブログやコミュニティでの出会いを通じて共有していきたいと思っています。本日は、当社 Yemeksepeti の事例と、サーバーレスアーキテクチャへの移行についてお話したく思います。 Yemeksepeti の事例 Yemeksepeti はトルコ最大のオンライン注文企業です。ユーザーは、提携先のネットワークレストランから食材の注文を行うことができ、手数料はかかりません。Yemeksepeti では、スケーラブルでパフォーマンスと費用効率の高い、世界中に分散したサービスをセットアップする必要がありました。当社は、サーバーレスアーキテクチャを設計することで、サーバーの管理について心配することなく、チームから多くの運用面の負担を取り除くことができると考えています。つまり、コードの大規模な実行に集中できるということです。 Yemeksepeti.com では、約 4 年前に Joker と呼ばれるリアルタイムの割引システムを開発しました。このシステムの目的は、レストランに関して通常ないような割引を顧客に提案することです。元の Joker プラットフォームは .NET で開発され、その REST API を使ってウェブサイトやモバイルデバイスと統合されました。世界 34 か国で営業している関連会社も顧客にリアルタイムの Joker 割引を提供できるように、関連会社に対してプラットフォームの API を公開することを求められました。 最初はコードを共有し、関連会社にアプリケーションを統合させることを考えました。ただし、他のほとんどの国では異なる技術スタック (プログラミング言語、データベースなど) を使用していました。当社のコードを使用することで、最初は関連会社による開発が迅速化する可能性がありますが、不慣れなシステムを管理しなければなりません。実装がより簡単で、管理費用がより安い統合方法を見つける必要がありました。 当社の要件 これはグローバルなプロジェクトであり、次の 5 つの重点領域がありました。 管理の容易さ 高可用性 スケーラビリティ 複数のリージョンでの使用 費用のメリット […]

Read More

AWS SDK for C++ – 本稼働環境で使用する準備ができました

1 年近くに及ぶ開発者からのフィードバックと貢献により、バージョン 1.0 の AWS SDK for C++ が利用可能になりました。本稼働環境での使用をお勧めします。SDK はセマンティックバージョニングに従っているため、バージョン 1.0 から、任意のバージョン 1.x の C++ SDK を信頼することができ、アップグレードによってビルドが破損することはありません。 SDK のデベロッパープレビューについて寄せられたフィードバックに基づいて、いくつかの重要な変更や機能強化を行いました。 セマンティックバージョニング – SDK はセマンティックバージョニングに従っています。バージョン 1.0 から、1.x シリーズ内のアップグレードによってビルドが破損することはありません。 Transfer Manager – 元の TransferClient は機能が強化された新しい TransferManager インターフェイスへと進化しました。 ビルドプロセス – CMake ビルドチェーンは、プラットフォームのデフォルト値を簡単に上書きできるよう機能が強化されました。 簡略化された設定 – 実行時に SDK 全体の設定オプションを簡単に設定できるようになりました。 暗号化 – SDK には、サポートされるすべてのプラットフォームで対称暗号化のサポートが含まれるようになりました。 NuGet – 現在、SDK は NuGet を通じて入手できます (詳細については、「AWS SDK […]

Read More

週刊AWS – 2016 年 8 月 29 日

これは、AWS Week in Review の 2 番目のコミュニティ型エディションです。 この実現に貢献してくれた 13 名の外部寄稿者に特に感謝します。 寄稿を希望される場合は、GitHub の AWS Week in Review をご覧ください。 関連するコンテンツの追加は、快適なご自分のウェブブラウザから迅速かつ簡単に行えます。 念のためですが、他者によって書かれたコンテンツを追加することもまったく問題ありません。 目標は、よく言われるように、すべてをキャッチすることです。 月曜日 8 月 29 日 CloudWatch ログとダッシュボードの改良を発表しました。 は、楽しく簡単なスナップショットのためのスパースな EBS ボリュームの構築方法を説明しました。 [backspaceblog] は、アプリケーションのフロントエンドセキュリティ (「責任分担 2 – Dynamic CSS セレクタを使用して、ボットを停止する。」) について説明しました。 John McKim はサーバーレスアーキテクチャについて書きました。 Antoni Massó は、「AWS における ElastiCache (Memcached) ノードの自動検出の実装方法」のチュートリアルを共有しました。 火曜日 8 月 30 日 AWS […]

Read More

Amazon Auroraアップデート – Parallel Read Ahead, Faster Indexing, NUMA Awareness

Amazon Aurora はAWSサービスの中で最も速く成長するサービスになりました! リレーショナルデータベースをクラウドに適したデザインにすることで(Amazon Aurora – Amazon RDSに費用対効果の高いMySQL互換のデータベースが登場!! の記事もご覧ください)、Aurora は大きなパフォーマンス改善や、64TBまでシームレスにスケールアップするストレージ、堅牢性・可用性の向上を実現しています。AuroraをMySQL互換にデザインすることによって、お客様は既存のアプリケーションの移行や新しいアプリケーションの構築を簡単に行って頂けています。 MySQL互換を保ちながら、そしてクラウドネイティブなAuroraアーキテクチャを活用することでAuroraには多くのイノベーションを加えられると考えています。 本日、3つのパフォーマンスを改善する新機能をAuroraに追加しました。それぞれの機能は、AWSをご利用の多くのお客様の一般的なワークロードでAuroraのパフォーマンスを改善するように設計されました。   Parallel Read Ahead – レンジ select、 フルテーブルスキャン、テーブル定義の変更やindex作成が最大5倍高速に Faster Index Build – indexの作成時間が約75%短縮 NUMA-Aware Scheduling – 2つ以上のCPUが搭載されているデータベースインスタンスをご利用の場合、クエリキャッシュからの読み込みやバッファキャッシュからの読み込みが速くなり、全体的なスループットが最大10%向上   詳細をご紹介します Parallel Read Ahead MySQLで利用されているInnoDBストレージエンジンは行やindex keyを利用するストレージ(ディスクページ)を管理します。これはテーブルのシーケンシャルスキャンの高速化や新しく作成されたテーブルに効果的です。しかし、行が更新・作成や削除されるにつれて、ストレージがフラグメントされることによって、ページは物理的にシーケンシャルではなくなってきます。そして、スキャン性能が大きく低下します。InnoDBのLinear Read Ahead機能はページが実際に利用されるまでメモリ内で64ページまでまとめることでフラグメントに対処しています。しかし、エンタープライズスケールのワークロードでは、この機能は有効な性能向上にはなりません。 今日のアップデートでは、Auroraは多くの状況で賢くこのような状況を扱う機能をご提供します。Auroraがテーブルをスキャンする際に、論理的に判断し、並列で追加のページをプリフェッチします。この並列プリフェッチはAuroraのレプリケーションが行われているストレージ(3つアベイラビリティゾーンにそれぞれ2つずつのコピー)で優位性を発揮し、データベースキャッシュ中のページがスキャンオペレーションに関連しているかを判断するのに役立ちます。 結果として、レンジselect、フルテーブルスキャン、ALTER TABLE そして、index作成を以前のバージョンと比較して最大5倍高速に行えるようになりました。 Aurora 1.7(詳細はこの後の情報をご覧ください)にアップグレードすることで、すぐにこのパフォーマンス改善をご体験頂けます。   Faster Index Build プライマリー、セカンダリーインデックスをテーブルに作成する時、ストレージエンジンは新しいキーを含んだ木構造を作成します。この処理は、多くのトップダウンのツリーサーチや、より多くのキーの増加に対応するためにツリーの再構築によりページ分割が伴います。 Auroraはボトムアップ戦略でツリーを構築します。リーフを最初に作成し、必要な親ページを追加していきます。この機能によりストレージ内の移動を軽減し、加えて各ページが一旦全て埋まるためページを分割する必要がなくなります。 この変更により、テーブルのスキーマによりますがindexの追加やテーブルの再構築が最大4倍高速になります。例として、Auroraチームが以下の様なスキーマでテーブルを作成し100億行を追加し5GBののテーブルを作製しました:   create table test01 (id […]

Read More

インフォグラフィック – トップ 5 の調査結果: Global Knowledge の IT スキルおよび給与レポート

ビジネスをクラウドに移行する顧客が増えるに伴い、市場では、AWS でアプリケーションとインフラストラクチャを設計、デプロイ、運用できる熟練した IT プロフェッショナルの需要が高まっています。IT 認定資格は、技術的熟練度と職務遂行能力を検証するための究極の判断基準と考えられています。認定資格の取得は、IT プロフェッショナルにとって、キャリアアップにつながることがよくあります。個人がキャリアアップに目を向け、顧客が使用施設に関する知識とスキルを組織内に構築するに伴い、IT 認定資格の取得へと導くトレーニングがより重要になっています。 Global Knowledge は最近、2016 年 IT スキルおよび給与レポートをリリースしました(利用には登録が必要)。このレポートは、Global Knowledge の第 9 回年次 IT スキルおよび給与調査(この種では最大規模)における、北米の 10,000 人以上の IT およびビジネスプロフェッショナルからの回答に基づいています。Global Knowledge の調査結果では、トレーニングの重要性が明らかになり、AWS 認定資格取得者の価値も示されました。 トップ 5 の調査結果 以下に、今年のレポートで際立っていたトップ 5 の調査結果を取り上げます。 回答者の 4 分の 3 は、新しいスキルを構築するために何らかの形式の専門的能力開発トレーニングに参加したと答え、その半分は、キャリアの証明やスペシャリスト試験の準備が主な動機だと答えました。 総じて、IT プロフェッショナルの 59% は、何らかの形式の認定資格取得トレーニングに参加中か、今年中に参加予定です。 昨年に認定資格取得トレーニングに参加した回答者の 73% が、そのトレーニングにより仕事の有効性が上がったと答えました。 大幅な昇給(11% 以上)があったと報告した回答者の 21% は、付加価値として開発された新しいスキルがその要因だと答えました。 トレーニングプランのある組織の従業員は、会社を辞める可能性が低いと答えました(トレーニングプランのない組織では 73%、あるかどうかは不明な組織では 69% に対して、そのようなプランのある組織では 78%)。 これらは実に興味深い調査結果です。以下に、その概要をインフォグラフィック形式で示します(ご自由にお使いください)。 AWS […]

Read More

新機能 – EC2 スポットフリートの Auto Scaling

EC2 スポットフリートモデル(詳しくは「Amazon EC2 スポットフリート API – 1 回のリクエストで数千台のスポットインスタンスを制御」をご覧ください)では、1 回のリクエストで EC2 インスタンスのフリートを作成できます。お客様はフリートのターゲットキャパシティーを指定し、1 時間あたりの入札価格を入力して、フリートに含めるインスタンスタイプを選択するだけです。 バックグランドで、AWS は最安値のスポットインスタンスを起動することにより、必要なターゲットキャパシティー(インスタンスまたは仮想 vCPU の数で表記)を維持します。やがて、フリート内のインスタンスが価格上昇により終了されると、その時点で最安値の交換用のインスタンスが起動されます。 新しい Auto Scaling 今回、Auto Scaling の追加により、スポットフリートモデルが強化されました。 メトリックスに基づいて、フリートをスケールアップ/ダウンできるようになりました。メトリックスには、EC2、、 などの AWS サービスのものを使用できます。代わりに、アプリケーションからパブリッシュしたカスタムメトリックスを使用して、Auto Scaling が開始されるようにもできます。いずれにせよ、これらのメトリックスを使用してフリートのサイズを制御することで、条件や負荷が変わったとしてもアプリケーションの可用性、パフォーマンス、コストをきめ細かく制御できます。以下に示しているのは、この機能の使用開始に必要ないくつかの概念です。 コンテナ – CPU やメモリの使用率メトリックスを使用して、 で動作しているコンテナベースのアプリケーションをスケーリングします。 バッチジョブ – SQS キュー内のメッセージ数に基づいて、キューベースのバッチジョブをスケーリングします。 スポットフリート – スポットフリートメトリックス( MaxPercentCapacityAllocation など)に基づいて、フリートをスケーリングします。 ウェブサービス – 測定された応答時間と 1 秒あたりの平均リクエスト数に基づいて、ウェブサービスをスケーリングします。 スポットフリートコンソール、、または を使用するか、 のいずれかにより API 呼び出しを行うことで、Auto Scaling を設定できます。 私はフリートの起動から始めました。フリートをスケールアップ/ダウンできるようにするために、リクエストタイプとして […]

Read More

新発表 – X1インスタンスのクラスタによるSAP HANAの稼働

SAP HANAの大規模ワークロードにおける新しい利用方法をお伝えするために、私の同僚のSteven Jonesが寄稿してくれました。 — Jeff; AWSクラウド上でSAP HANAのような大規模なインメモリデータベースやインメモリアプリケーションを稼働させるため、Amazon EC2 メモリ最適化インスタンスファミリーに新しいX1インスタンスタイプとして、2TBのRAMを搭載したx1.32xlargeの利用開始を5月に発表しました。 X1インスタンスのシングルノード構成でのSAP HANAにおけるSAP認定取得を同時に発表し、それ以来、SAP S/4HANAとSuite on HANAといったOLTP、またBusiness Warehouse on HANAにBIといったOLAPにおける幅広い用途で、世界中の多くのお客様にご利用いただいています。とはいえ、クラスタ化されたX1インスタンスによるスケールアウト構成でのSAP HANAの提供のご要望も多くいただいていました。 SAP認定プロセスに応じたSAP HANAスケールアウト構成の広範囲なテストとベンチマークを終え、本日、高度に最適化された次世代データウェアハウスSAP BW/4HANAの新発表と同時に、X1インスタンスの最大7ノード、つまり14TBのRAMに対応したSAP BW/4HANAを含むOLAPシナリオの大規模スケールアウト構成におけるSAP認定取得を発表できることを嬉しく思います。 拡張性、柔軟性、コスト効果の高いSAP社の新しいフラッグシップのデータウェアハウスであるSAP BW/4HANAのローンチを私たちがサポートできることに非常に興奮しています。 以下は7台のX1インスタンスで稼働する大規模(14TBメモリ)なスケールアウト構成を表示したSAP HANA Studioのスクリーンショットです: そして、これはほんの始まりに過ぎません。私たちは他のサイズでのX1インスタンスを利用可能にする計画があり、より大きな50TBメモリまでのクラスタ構成を研究室でテストしています。もし、14TBメモリを超える大規模なスケールアウト構成が必要な場合は、ご支援しますので、ぜひご相談ください。 コストと複雑性の削減 多くのお客様が複数のR3インスタンスによるスケールアウト構成でSAP HANAを稼働してきました。今回の新しい認定により、コストと複雑性の両方が削減できる、より少ないインスタンス数での大規模スケールアウト構成に統合できる可能性があります。統合戦略における詳細はSAP HANA Migration Guideをご参照ください。 柔軟性のある高可用性オプション AWSプラットフォームでは、可用性が求められるSAP S/4HANAやSAP BW/4HANAのような環境で使われる重要なSAP HANAを保護するために、お客様のご要望に応じた様々なオプションを提供しています。実際に、従来型のホスティングプロバイダーやオンプレミスのスケールアウト構成でSAP HANAを稼働しているお客様からは、ハードウェア障害に迅速に対応できるように予備のハードウェアやスタンバイノードを購入し非常に高額なメンテナンス契約料を支払わなければならない、とよくお伺いします。他には、残念ながら、何も起こりませんようにと祈って、この余分なハードウェアをなしで済ませようとされています。 AWSプラットフォーム上で活用されている便利なオプションの一つは、Amazon EC2 Auto Recoveryと呼ばれるソリューションです。AWSに起因するハードウェア障害や問題が発生したときに自動的に正常なホスト上で復旧するよう、EC2インスタンスを監視するAmazon CloudWatch アラームを簡単に作成できます。復旧されたインスタンスは、アタッチされたEBSボリュームやホスト名、IPアドレス、AWSインスタンスIDなどの構成情報も元のインスタンスと同じものです。Amazon CloudWatchの標準料金(例えば、米国東部では月当たりアラームごとに0.10ドル)が適用されます。実質、ハードウェア異常への迅速な復旧のために、私たちの持つ空いているキャパシティをすべてお客様の予備機として活用することが可能です。 開始方法 最新のAWS Quick Start Reference Deployment for SAP HANAを使うことで、十分にテストされたX1インスタンスでのシングルノード構成、およびスケールアウト構成のSAP […]

Read More

各国のAWS ホットスタートアップ – 2016 年 8 月

2 回目のゲスト投稿で触れたように、Tina Barr 氏がさらに 4 つのホットスタートアップについてお話します。 今月は、AWS による 4 つのホットスタートアップを取り上げます。 Craftsvilla – 民芸品を購入できるプラットフォームを提供しています。 SendBird – 開発者が 1 対 1 メッセージングとグループチャットをすばやく構築できるようにしています。 Teletext.io – システムが不要なコンテンツ管理ソリューションです。 Wavefront – クラウドベースの分析プラットフォームです。 Craftsvilla Craftsvilla は、インドの工芸品、芸術、文化に対する純粋な愛と感謝のゆえに 2011 年に誕生しました。西インドのグジャラート地域を車で旅しているとき、Monica Gupta 氏と Manoj Gupta 氏は、地元の職人が作る美しい作品に魅了されました。しかし、それらの職人たちが生計を立てるのに苦労していることに 2 人共驚きの色を隠せませんでした。Monica 氏と Manoj 氏は、高い技術を持った職人たちが消費者と直接つながり、より広範なオーディエンスにリーチできるプラットフォームの作成に着手しました。本物の民芸品には、世界中で非常に大きな需要がありますが、消費者がふさわしい購入先を見つけられないことがよくあります。Craftsvilla は、この問題の解決を支援しています。 インドの文化はとても豊かで多様性に富んでいるため、だれも 1 つのプラットフォームに取り込もうとはしてきませんでした。Craftsvilla は、技術革新を利用して、衣料品、アクセサリー、ヘルス & ビューティー製品、食料品、室内装飾すべてを、簡単にアクセスできる 1 つのスペースにまとめています。たとえば、さまざまな衣類 (サルワールスーツ、サリー、レヘンガ、カジュアルウェア) を提供するだけでなく、それらの各カテゴリをさらにサブカテゴリに分けています。消費者は、ニーズに合ったものを見つけることができます。素材、スタイル、状況、さらには作品のタイプ (刺しゅう、ビーズ、クリスタル製品、手作りなど) によって製品をフィルタリングできます。新しい料理に挑戦したくなったときも、Craftsvilla がお手伝いします。マサラから伝統的なスイーツ、おいしい紅茶ブレンドまで、興味深い製品が何百も揃っています。インドのさまざまな地域ごとにフィルタリングして新しい食べ物を発見するオプションも用意されています。 […]

Read More

CloudWatch Logs とダッシュボードを改善

では AWS インフラストラクチャで発生する問題の確認、診断、対応、解決を AWS で実行しているアプリケーション内で行うことができます。今回は CloudWatch Logs (Store and Monitor OS & Application Log Files with Amazon CloudWatch) そして CloudWatch ダッシュボード (CloudWatch Dashboards – Create & Use Customized Metrics Views) に追加された複数のユーザビリティと機能の改善点についてご説明します。 CloudWatch Logs のユーザビリティを改善 CloudWatch Logs はオペレーティングシステムやアプリケーションログファイルを管理する、可用性と拡張性そして耐久性が高く安全なサービスです。ログのデータ取り込み、保管、フィルター、検索、アーカイブを可能にするため、操作の負荷を軽減しアプリケーションとビジネスに集中できるようにします。ログの件数やサイズが増えても効率性と生産性を維持できるようにするため、AWS では CloudWatch Logs コンソールにユーザビリティの改善点をいくつか加えました。 ログデータのフォーマット処理を改善 長いログファイルへのアクセスを簡略化 ロググループ内の検索が簡単に ログファイルの共同作業を簡易化 特定の期間内の検索を改善 今回のリリース前に CloudWatch ダッシュボードにも改善点を加えました。 フルスクリーンモード ダークテーマ グラフ内にある Y 軸の範囲を指定 グラフ名の変更を簡易化 グラフ設定の永続的なストレージ […]

Read More