Amazon Web Services ブログ

Category: Storage

【開催報告】AWS Data Lake ハンズオンセミナー 秋

こんにちは。AWS ソリューションアーキテクトの上原誠(@pioh07)です。 9月21日に、「AWS Data Lake ハンズオンセミナー」を開催いたしました。前回行ったワークショップの3回目となります。前回も盛況でしたが、今回も80名近くのお客様にご参加頂きました。 はじめに、AWSにおけるデータ活用のベストプラクティスであるAmazon S3を中心とした Data Lakeについて解説し、ビッグデータ分析基盤の考え方として有名なラムダアーキテクチャの解説を行いました。 当イベントでは、AthenaやRedshiftのAWSサービスを駆使して実際にラムダアーキテクチャを構築してみる、というのがゴールです。とはいえすべてを構築し切るのはボリュームが大きいため、コース別に取り組めるようにハンズオンコンテンツを用意しました。最初にコースの説明を行い、出席いただいたお客様ご自身の課題に合わせてコースを選択頂き、ハンズオンを行っていただきました。今回、参加者も多くいらっしゃいましたので、サポートするソリューションアーキテクトも4名で対応させていただきました。 今回参加できなかった方も、ソリューションアーキテクトのサポートを受けながらハンズオンを行いログ分析を初めてみてはいかがでしょうか?   次回は冬ごろに開催予定です。ご参加お待ちしております。

Read More

[AWS Black Belt Online Seminar] S3ユースケース紹介及びサービスアップデート解説 資料及び QA 公開

先日 (2018/7/31) 開催しました AWS Black Belt Online Seminar 「S3ユースケース紹介及びサービスアップデート解説」 の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180731 AWS Black Belt Online Seminar Amazon S3 ユースケースおよびサービスアップデート from Amazon Web Services Japan QA Q. S3アクセス速度を改善する方法があれば、教えてください A. 転送の速度について、インターネット経由で利用可能な帯域幅を十分に活用できていない、といった 課題感がおありになる場合には、Amazon S3 Transfer Accelerationを検討いただくと効果がある場合があります。 Webinar内でもご紹介しましたが、S3としては、スケールするリソースを用意していますので、 お手元からAWSへのネットワーク環境(インターネットやプライベートなネットワーク)をしっかり整備 いただくことが改善に繋がることが多いです。 Q. S3バケットを暗号化なしで使っていたが、途中からデフォルト暗号化しても問題はないでしょうか? A. デフォルト暗号化は、すでにオブジェクトが格納されているバケットに対しても適用可能です。 その際、デフォルト暗号化を適用する前に格納されていたオブジェクトについては、 適用されませんので、ご注意ください。既存のオブジェクトの暗号化は、これまで通り、 オブジェクトごとに適用いただけます。 Q. 東京リージョンの S3 バケットにあるファイルを 中国リージョンの S3 へコピーするには、どのような方法がありますか? A. 東京をはじめとする通常のリージョンから中国リージョンへは、S3のクロスリージョンレプリケーションが ご利用いただけないのは、お察しの通りです。 […]

Read More

【開催報告】Digital Advertising Japan Seminar 2018 – Machine Learning 事例祭り –

こんにちは。AWS ソリューションアーキテクトの八木達也 ( @ygtxxxx ) です。 7月23日に、「Digital Advertising Japan Seminar 2018 – Machine Learning 事例祭り –」を開催いたしました。 AWSジャパン主催でデジタル広告業界の方向けのイベントを開催するのは2年ぶりでしたが、定員60人のところ55名の方にお集まりいただき、盛況となりました。             このイベントは「Digital Advertising、AdTech 領域における Machine Learningの実践知」を「互いに学び合う」ことができる場を作ることを目標としていたため、AWSメンバーによるプレゼンテーションだけではなく、お客様プレゼンテーションを中心としたAGENDAを構成しました。機会学習という領域における、テクノロジー視点でのお取組み、組織育成視点でのお取組み、それぞれの視点で最先端な活動をなさる方々よりご登壇を頂きました。 まずは主催者の唐木/八木よりオープニングセッションを行いました。 唐木より全体の説明を行い、八木より「Machine Learning for Digital Advertising」というタイトルでプレゼンテーションを行いました。 Machine Learning for Digital Advertising from Amazon Web Services Japan 次に、アナリティクス スペシャリスト ソリューションアーキテクトの志村より「AWS ML Services Update」というタイトルでプレゼンテーションを行いました。 AWS ML Update from Amazon […]

Read More

[AWS Black Belt Online Seminar] Amazon Elastic File System (Amazon EFS) 資料及び QA 公開

先日 (2018/7/4) 開催しました AWS Black Belt Online Seminar 「Amazon Elastic File System (Amazon EFS)」 の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS) from Amazon Web Services Japan PDF Q. EFSを複数のLambda間でのデータ共有に使ってみたいのですが、可能ですか ? A. Lambda 関数から EFS にアクセスすることはできません。Lambda 関数の間で情報共有を行う場合は DynamoDB を利用するか S3 を介したファイル渡しなどで実装してください。 Q. 最大どれくらいのスループットがでますでしょうか。 A. デフォルトの最大スループットは 1GB/s または 3GB/s が設定されており(リージョンによって異なります)、上限緩和申請を行うことができます。 Q. S3へのバックアップオプションなどはありますか? A. 現時点で EFS の機能として EFS から S3 へのバックアップ機能は提供されておりません。バックアップソフトウエアを利用して(EC2など)、S3に格納することなどをご検討ください。 Q. 拡張するサイズに制限をかけることはできますか? A. ファイルシステムが拡張する際の上限を設ける機能は現時点では提供されていません。 Q. オンプレからはDirect Connect経由でアクセス可能とのことですが、その場合も通信料金(下り課金)は発生しないのでしょうか。 A. AWS Direct Connect のデータ送信の料金が発生します。 Q. AWS Storage Gateway との使い分けはどのように考えるべきですか。 […]

Read More

Amazon EMR と Apache Livy を使用して、同時データオーケストレーションパイプラインを構築する

多くのお客様が、Amazon EMR と Apache Spark を使用してスケーラブルなビッグデータパイプラインを構築しています。大規模な生産パイプラインの場合、一般的ユースケースは、さまざまなソースから発生する複雑なデータを読み取ることです。このデータは、機械学習パイプライン、分析ダッシュボード、ビジネスレポートなどの下流アプリケーションに役立つように変換する必要があります。このようなパイプラインでは、Amazon EMR で Spark ジョブを並行して実行することがたびたび必要になります。この記事では、EMR バージョン 5.9.0 以降で利用可能な Apache Livy を使用して、複数の Spark ジョブを EMR クラスター上で平行して送信する方法を中心に取り扱います。 Apache Livy は、REST インターフェイスを通じて、Spark クラスターとのやりとりを容易にするサービスです。Apache Livy を使用すると、大きな jar ファイルを管理、デプロイする代わりに、REST API コールでシンプルな Scala コードまたは Python コードを送信できます。これは、EMR ステップ API を使用してシリアルで実行するのではなく、複数の Spark ジョブをパラレルで実行することでデータパイプラインを容易に拡張できるためです。お客様は、ワークフローの一環として一時的なクラスターを継続して利用し、結果としてコストを削減できます。 このブログ記事の目的に合わせ、今回は Apache Airflow を使用してデータパイプラインをオーケストレーションします。Airflow は ETL タスクの管理に役立つオープンソースのタスクスケジューラです。ワークフローを 1 か所からスケジューリングして管理できるため、Apache Airflow はお客様に人気があります。Airflow の Configuration as Code […]

Read More

Amazon Elastic File System 東京リージョン 一般提供開始のお知らせと利用上の留意点のまとめ

みなさん、こんにちは。 アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。 AWS Summit Tokyo 2018 の基調講演にてアナウンスいたしました、Amazon Elastic File System (EFS)が東京リージョンで今日一般提供が開始されました。 Amazon EFSは複数のEC2からマウント可能なファイルストレージサービスです。従来ご利用いただいていたブロックストレージであるAmazon Elastic Block Store (EBS)との使い分けの考慮が大事なサービスとなりますので、その特徴とご利用における検討事項を纏めます。 Amazon EFS の特徴 Amazon EFSはシンプルで、スケーラブル、伸縮自在なファイルストレージを、AWS クラウドサービスとオンプレミスの両方でご利用いただくことが可能です。 シンプル – ファイルシステムを迅速かつ容易に作成および構成できるシンプルなウェブサービスインターフェイスを備え、ファイルストレージインフラストラクチャを管理するため、複雑なデプロイ、パッチ適用、複雑なファイルシステムデプロイメントを維持する必要はありません。また課金体系もシンプルであり、保存されているデータ容量にたいしてのみ課金されます。東京リージョンでの価格は0.36USD / GBとなります。 スケーラブル – ファイルシステムの拡大に合わせて、スループットおよび IOPS が自動でスケールされます。こちらにパフォーマンスについてはまとまっています。 伸縮自在 – ファイルの追加や削除に合わせてファイルシステムのストレージ容量を直ちに自動で拡張または縮小でき、これによりスループット及びIOPSが変動します。 高可用性および高耐久性 – ファイルシステムの各オブジェクト (ディレクトリ、ファイル、リンクなど) は、複数のアベイラビリティーゾーンに冗長的に保存されるため、高いレベルの可用性と耐久性を確保できます。 オンプレミス環境からの利用 – AWS Direct Connect で Amazon VPC に接続し、オンプレミスのデータセンターサーバーにファイルシステムをマウントすることが可能です ご利用上の留意点 EFS はNFS v4 プロトコルをサポートしています。NFS […]

Read More

Goodreads はどのように Amazon DynamoDB テーブルを Amazon S3 にオフロードし、Amazon Athena を使用してクエリを実行するのか

Goodreads では現在、モノリシックな Rails アプリケーションをマイクロサービスに分解している途中です。これらのサービスの大半は、Amazon DynamoDB をプライマリデータストアとして使用することに決めました。DynamoDB はストレージとスループットのさまざまなニーズに対応して、一貫した、数ミリ秒のパフォーマンスを提供できるため気に入っています。 しかし DynamoDB は高スループットの読み書きワークロードで優れていますが、1 回限りの、アドホックなクエリやデータウェアハウスワークロードをサポートするようには最適化されていません。しかし、AWS Data Pipeline、Amazon S3、AWS Glue、Amazon Athena を組み合わせることで、DynamoDB から S3 にデータセットをエクスポートし、Athena を使用してデータセットで SQL クエリを実行できます。

Read More

[AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開

こんにちは、マーケティングの鬼形です。 先日 (2018/6/19) 開催しました AWS Black Belt Online Seminar「データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 from Amazon Web Services Japan PDF Q. RDSからGlueでData Catalogを作成する際、負荷などかかるのでしょうか?分析用にユーザ操作から切り離したほうが良いのか?気にしなくて良いのかを知りたいです。 A. RDS をクロールする際、スキーマ取得のため Connection を使用します。瞬間的な処理にはなりますが、Connection が使用される点に留意いただき、検証の実施と実行タイミングの検討をお願いいたします。 Q. ベストプラクティス 2/5, 3/5 で説明されていた Parquetを使用した場合のメトリクスはRedshift Spectrum ではなく、Athenaを使用している場合に同様の情報を知ることは可能でしょうか。 A. Athena では同様の情報を確認いただくことができません。 以上です。 今後の AWS Black Belt Online Seminar のスケジュール 直近で以下のオンラインセミナーを予定しています。各オンラインセミナーの詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております! […]

Read More

AWS DMS を使用して、リレーショナルデータベースのデータを Amazon Glacier にアーカイブする方法

AWS Database Migration Service (AWS DMS) を使用して、複数のソースから、最も普及している商用およびオープンソースのデータベースにデータを移行できます。AWS DMS はまた、移行用にAmazon S3 を ソースおよびターゲットとしてサポートしています。ターゲットとして Amazon S3 を使用するときは、AWS DMS でサポートされている任意のデータベースから情報を抽出するために、AWS DMS を使用できます。その後、ほぼすべてのアプリケーションで使用可能な CSV 形式で、Amazon S3 に書き込むことができます。 次の 2 つのシナリオでは、この機能を使用できます。 Oracle などの商用エンジンから Amazon RDS for PostgreSQL への移行の一部として、Amazon S3 または Amazon Glacier などの AWS ストレージサービスに、アクセスが頻繁ではないデータ、または監査の履歴、アーカイブデータなどを保存できます。こうすることで、長期的なデータ保存のガバナンスやコンプライアンスに準拠しやすくなります。 リレーショナルデータベースのデータサイズが増大するにつれて、データベース管理者 (DBA) と開発者が最適なパフォーマンスを維持するためにインデックスとパーティションのモニタリングと再編成に割く時間も長くなっていきます。この付加的なメンテナンスは、冗長性やバックアップが原因で、データの保存にまつわる運用費の増大を引き起こします。そのため、費用の節約や操作性の向上のために、アクセスが頻繁ではないデータは Amazon S3 または Amazon Glacier にアーカイブするのがベストプラクティスと言えます。 このブログ記事では、アクセスが頻繁ではないデータ、たとえば、数か月まはた数年前の販売情報 (コールドデータと呼ばれる) が、長期間セキュアなボールトにアーカイブされる 2 つ目のユースケースについてお話しします。財務部や情報セキュリティ部は必要なときにこのデータにアクセスできる必要があるものの、そうしたリクエストは極めてまれです。 米国東部 […]

Read More

Amazon S3 アップデート – 新しいストレージクラスと、S3 Selectの一般公開

Amazon Simple Storage Service (S3) にデータを格納及び取り出しをされているすべての皆様に、二つの大きなニュースがあります。 新機能 S3 One Zone-IA ストレージクラス – この新しいストレージクラスは、現在の Standard-IA ストレージクラスよりも 20% ほど低価格です。地域間での冗長性による、より高い保護レベルを必ずしも必要としないデータを格納する用途に設計されているものです。 S3 Select の 一般公開 – このユニークなデータ取得オプションにより、シンプルな SQL式を使って S3 オブジェクトから一部のデータのみを取得することができ、400% もの性能改善を期待できる可能性があります。 両方見てみましょう! S3 One Zone-IA (Infrequent Access) ストレージクラス この新しいストレージクラスは、一つの AWS アベイラビリティゾーン(Availability Zone 以下 AZ)にデータを格納しつつ、これまでの S3 ストレージクラスと同様に、99.999999999% の耐久性が提供されるよう設計されています。他のクラスとは違い、地震や洪水などにより一つの AZ を物理的に失う場合に耐えうるようには設計されていません。そのため、滅多に起こることではないものの、一つの AZ が破壊されるような災害時には、データは失われる可能性があるということです。S3 One Zone-IA ストレージは、オンプレミスデータのセカンダリバックアップとして利用したり、簡単に再作成できるようなデータ格納といった用途のための低価格オプションとなります。また、異なる AWS リージョンからの S3 クロスリージョンレプリケーション のターゲットとしてご利用いただくことも可能です。 […]

Read More