Amazon Web Services ブログ

Category: Amazon Simple Storage Services (S3)

Amazon EMR の Amazon S3 上の Apache HBase への移行: ガイドラインとベストプラクティス

このブログ記事では HDFS 上の Apache HBase から、Amazon EMR の Amazon S3 上の Apache HBase に移行する方法のガイダンスとベストプラクティスについて解説します。 Amazon EMR の Amazon S3 上の Apache HBase Amazon EMR のバージョン 5.2.0 以降では、Amazon S3 上で Apache HBase を実行できます。Apache HBase のデータストアとして Amazon S3 を使用することにより、クラスターのストレージとコンピューティングノードを分割できます。コンピューティング要件のためにクラスターのサイジングをすることになるので、コスト削減につながります。クラスター上の HDFS に 3 倍のレプリケーションでデータセット全体をストアするために料金を払うわけではありません。

Read More

【開催報告】AWS Data Lake ハンズオンセミナー 秋

こんにちは。AWS ソリューションアーキテクトの上原誠(@pioh07)です。 9月21日に、「AWS Data Lake ハンズオンセミナー」を開催いたしました。前回行ったワークショップの3回目となります。前回も盛況でしたが、今回も80名近くのお客様にご参加頂きました。 はじめに、AWSにおけるデータ活用のベストプラクティスであるAmazon S3を中心とした Data Lakeについて解説し、ビッグデータ分析基盤の考え方として有名なラムダアーキテクチャの解説を行いました。 当イベントでは、AthenaやRedshiftのAWSサービスを駆使して実際にラムダアーキテクチャを構築してみる、というのがゴールです。とはいえすべてを構築し切るのはボリュームが大きいため、コース別に取り組めるようにハンズオンコンテンツを用意しました。最初にコースの説明を行い、出席いただいたお客様ご自身の課題に合わせてコースを選択頂き、ハンズオンを行っていただきました。今回、参加者も多くいらっしゃいましたので、サポートするソリューションアーキテクトも4名で対応させていただきました。 今回参加できなかった方も、ソリューションアーキテクトのサポートを受けながらハンズオンを行いログ分析を初めてみてはいかがでしょうか?   次回は冬ごろに開催予定です。ご参加お待ちしております。

Read More

[AWS Black Belt Online Seminar] S3ユースケース紹介及びサービスアップデート解説 資料及び QA 公開

先日 (2018/7/31) 開催しました AWS Black Belt Online Seminar 「S3ユースケース紹介及びサービスアップデート解説」 の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180731 AWS Black Belt Online Seminar Amazon S3 ユースケースおよびサービスアップデート from Amazon Web Services Japan QA Q. S3アクセス速度を改善する方法があれば、教えてください A. 転送の速度について、インターネット経由で利用可能な帯域幅を十分に活用できていない、といった 課題感がおありになる場合には、Amazon S3 Transfer Accelerationを検討いただくと効果がある場合があります。 Webinar内でもご紹介しましたが、S3としては、スケールするリソースを用意していますので、 お手元からAWSへのネットワーク環境(インターネットやプライベートなネットワーク)をしっかり整備 いただくことが改善に繋がることが多いです。 Q. S3バケットを暗号化なしで使っていたが、途中からデフォルト暗号化しても問題はないでしょうか? A. デフォルト暗号化は、すでにオブジェクトが格納されているバケットに対しても適用可能です。 その際、デフォルト暗号化を適用する前に格納されていたオブジェクトについては、 適用されませんので、ご注意ください。既存のオブジェクトの暗号化は、これまで通り、 オブジェクトごとに適用いただけます。 Q. 東京リージョンの S3 バケットにあるファイルを 中国リージョンの S3 へコピーするには、どのような方法がありますか? A. 東京をはじめとする通常のリージョンから中国リージョンへは、S3のクロスリージョンレプリケーションが ご利用いただけないのは、お察しの通りです。 […]

Read More

【開催報告】Digital Advertising Japan Seminar 2018 – Machine Learning 事例祭り –

こんにちは。AWS ソリューションアーキテクトの八木達也 ( @ygtxxxx ) です。 7月23日に、「Digital Advertising Japan Seminar 2018 – Machine Learning 事例祭り –」を開催いたしました。 AWSジャパン主催でデジタル広告業界の方向けのイベントを開催するのは2年ぶりでしたが、定員60人のところ55名の方にお集まりいただき、盛況となりました。             このイベントは「Digital Advertising、AdTech 領域における Machine Learningの実践知」を「互いに学び合う」ことができる場を作ることを目標としていたため、AWSメンバーによるプレゼンテーションだけではなく、お客様プレゼンテーションを中心としたAGENDAを構成しました。機会学習という領域における、テクノロジー視点でのお取組み、組織育成視点でのお取組み、それぞれの視点で最先端な活動をなさる方々よりご登壇を頂きました。 まずは主催者の唐木/八木よりオープニングセッションを行いました。 唐木より全体の説明を行い、八木より「Machine Learning for Digital Advertising」というタイトルでプレゼンテーションを行いました。 Machine Learning for Digital Advertising from Amazon Web Services Japan 次に、アナリティクス スペシャリスト ソリューションアーキテクトの志村より「AWS ML Services Update」というタイトルでプレゼンテーションを行いました。 AWS ML Update from Amazon […]

Read More

Goodreads はどのように Amazon DynamoDB テーブルを Amazon S3 にオフロードし、Amazon Athena を使用してクエリを実行するのか

Goodreads では現在、モノリシックな Rails アプリケーションをマイクロサービスに分解している途中です。これらのサービスの大半は、Amazon DynamoDB をプライマリデータストアとして使用することに決めました。DynamoDB はストレージとスループットのさまざまなニーズに対応して、一貫した、数ミリ秒のパフォーマンスを提供できるため気に入っています。 しかし DynamoDB は高スループットの読み書きワークロードで優れていますが、1 回限りの、アドホックなクエリやデータウェアハウスワークロードをサポートするようには最適化されていません。しかし、AWS Data Pipeline、Amazon S3、AWS Glue、Amazon Athena を組み合わせることで、DynamoDB から S3 にデータセットをエクスポートし、Athena を使用してデータセットで SQL クエリを実行できます。

Read More

[AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開

こんにちは、マーケティングの鬼形です。 先日 (2018/6/19) 開催しました AWS Black Belt Online Seminar「データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 from Amazon Web Services Japan PDF Q. RDSからGlueでData Catalogを作成する際、負荷などかかるのでしょうか?分析用にユーザ操作から切り離したほうが良いのか?気にしなくて良いのかを知りたいです。 A. RDS をクロールする際、スキーマ取得のため Connection を使用します。瞬間的な処理にはなりますが、Connection が使用される点に留意いただき、検証の実施と実行タイミングの検討をお願いいたします。 Q. ベストプラクティス 2/5, 3/5 で説明されていた Parquetを使用した場合のメトリクスはRedshift Spectrum ではなく、Athenaを使用している場合に同様の情報を知ることは可能でしょうか。 A. Athena では同様の情報を確認いただくことができません。 以上です。 今後の AWS Black Belt Online Seminar のスケジュール 直近で以下のオンラインセミナーを予定しています。各オンラインセミナーの詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております! […]

Read More

Amazon S3 アップデート – 新しいストレージクラスと、S3 Selectの一般公開

Amazon Simple Storage Service (S3) にデータを格納及び取り出しをされているすべての皆様に、二つの大きなニュースがあります。 新機能 S3 One Zone-IA ストレージクラス – この新しいストレージクラスは、現在の Standard-IA ストレージクラスよりも 20% ほど低価格です。地域間での冗長性による、より高い保護レベルを必ずしも必要としないデータを格納する用途に設計されているものです。 S3 Select の 一般公開 – このユニークなデータ取得オプションにより、シンプルな SQL式を使って S3 オブジェクトから一部のデータのみを取得することができ、400% もの性能改善を期待できる可能性があります。 両方見てみましょう! S3 One Zone-IA (Infrequent Access) ストレージクラス この新しいストレージクラスは、一つの AWS アベイラビリティゾーン(Availability Zone 以下 AZ)にデータを格納しつつ、これまでの S3 ストレージクラスと同様に、99.999999999% の耐久性が提供されるよう設計されています。他のクラスとは違い、地震や洪水などにより一つの AZ を物理的に失う場合に耐えうるようには設計されていません。そのため、滅多に起こることではないものの、一つの AZ が破壊されるような災害時には、データは失われる可能性があるということです。S3 One Zone-IA ストレージは、オンプレミスデータのセカンダリバックアップとして利用したり、簡単に再作成できるようなデータ格納といった用途のための低価格オプションとなります。また、異なる AWS リージョンからの S3 クロスリージョンレプリケーション のターゲットとしてご利用いただくことも可能です。 […]

Read More

既存の Amazon EMR クラスターから Hue データベースを移行する方法

Hadoop User Experience (Hue) は、Amazon EMR および Apache Hadoop で使用する、オープンソースでウェブベースのグラフィカルユーザーインターフェイスです。Hue データベースには、ユーザー、グループ、許認可、Apache Hive クエリ、Apache Oozie ワークフローなどが格納されています。 Hue データベースを新しい EMR クラスターに移行したいとしましょう。例えば、Amazon EMR AMI (Amazon Machine Image) の古いバージョンからアップグレードしたいとします。Hue アプリケーションとそのデータベースには、数多くのカスタマイズがあります。これらのユーザーエンティティの再作成は必要なく、さらに既存の Hue データベースまたは Amazon RDS のリモートデータベースを新しいクラスターに移行することで、Hue のクエリとワークフロー履歴を保持する必要もありません。 デフォルトでは、Hue のユーザー情報とクエリ履歴は、EMR クラスターのマスターノード上のローカル MySQL データベースに格納されます。ですが、Amazon S3 に格納されている構成とリモートの MySQL データベースを Amazon RDS で使用して、1 つ以上の Hue 対応クラスターを作成できます。これにより、Amazon EMR クラスターを稼動させずに、Hue で作成するユーザー情報とクエリ履歴を保持することが可能となります。 この記事では、既存の EMR クラスターから Hue データベースへ移行するための手順を、ステップバイステップで説明します。

Read More

Amazon CloudFront & Lambda@Edge で画像をリサイズする

多くの画像に対してリサイズを行ったり、新しいデザインレイアウトにウォーターマークを付与したり、ブラウザのサポートのためにフォーマットの最適化を行ったことはありませんか? 画像毎に事前処理を行う必要なく、必要に応じてその場ですぐに画像を自動生成できないかとおもったことはありませんか? Lambda@Edge はそれらを可能にし、ユーザーの利便性を向上させ、帯域使用量を削減します。

Read More