Amazon Web Services ブログ

AWS Japan

Author: AWS Japan

AWS Glue と Amazon S3 を使用してデータレイクの基礎を構築する

データレイクは、大量の様々なデータを扱うという課題に対処するため、データを分析および保存するための方法としてますます一般的になっています。データレイクを使うと、組織は全ての構造化データおよび非構造化データを1つの中央リポジトリに格納できます。データはそのまま保存できるため、あらかじめ定義されたスキーマに変換する必要はありません。 多くの組織は AWS をデータレイクとして使う価値を理解しています。例えば Amazon S3 は高い耐久性があり、コンピューティングとストレージの分離をしながら、オープンデータフォーマットをサポートする費用対効果の高いオブジェクトの開始ができ、全てのAWS 分析サービスと連携します。Amazon S3 はデータレイクの基礎を提供しますが、他のサービスを追加してビジネスニーズに合わせることができます。AWS のデータレイク構築の詳細については What is a Data Lake? を参照してください。 データレイクを使う主な課題は、データの検索とスキーマやデータフォーマットの理解であるため、Amazonは AWS Glue をリリースしました。AWS Glue は Amazon S3 データレイクからデータ構造と形式を発見することで、迅速にビジネスの洞察を導き出すために要する時間と労力を大幅に削減します。AWS Glue は Amazon S3 上のデータを自動的にクロールし、データフォーマットを特定し、他の AWS 分析サービスで使用するためのスキーマを提案します。 この記事では、AWS Glue を使って Amazon S3 上のデータをクロールする方法と他のAWSサービスで使用できるメタデータストアを構築するプロセスを説明します。 AWS Glue の特徴 AWS Glue はフルマネージドのデータカタログとETL(抽出、変換、ロード)サービスで、データの発見、変換、およびジョブスケジューリングなどの困難で時間のかかる作業を簡素化し自動化します。AWS Glue はデータソースをクロールし、CSV, Apache Parquet, JSON などの一般的なデータフォーマットとデータタイプ用に事前作成された Classifire を使用してデータカタログを構築します。 AWS Glue はモダンなデータアークテクチャーのコンポーネントである S3, Amazon RDS, Amazon Athena, Amazon […]

Read More

Amazon Kinesis Firehose, Amazon Athena, Amazon QuickSightを用いたVPCフローログの分析

多くの業務や運用において、頻繁に更新される大規模なデータを分析することが求められるようになっています。例えばログ分析においては、振る舞いのパターンを認識したり、アプリケーションのフロー分析をしたり、障害調査をしたりするために大量のログの可視化が必要とされます。 VPCフローログはAmazon VPCサービス内のVPCに属するネットワークインターフェースを行き来するIPトラフィック情報をキャプチャします。このログはVPC内部に潜む脅威やリスクを認識したり、ネットワークのトラフィック・パターンを調査するのに役立ちます。フローログはAmazon CloudWatchログに格納されます。いったんフローログを作成すれば、Amazon CloudWatchログを用いて見たり取り出したりすることができるようになります。 フローログは様々な業務を助けてくれます。例えば、セキュリティグループのルールを過度に厳しくしすぎたことによって特定のトラフィックがインスタンスに届かない事象の原因調査などです。また、フローログを、インスタンスへのトラフィックをモニタリングするためのセキュリティツールとして使うこともできます。 この記事はAmazon Kinesis Firehose、AWS Lambda、Amazon S3、Amazon Athena、そしてAmazon QuickSightを用いてフローログを収集し、格納し、クエリを実行して可視化するサーバーレス・アーキテクチャを構成する手順を示します。構成する中で、Athenaにおいてクエリにかかるコストや応答時間を低減させるための圧縮やパーティショニング手法に関するベストプラクティスを学ぶこともできることでしょう。 ソリューションのサマリ 本記事は、3つのパートに分かれています。 Athenaによる分析のためにVPCフローログをS3へ格納。このセクションではまずフローログをLambdaとFirehoseを用いてS3に格納する方法と、格納されたデータにクエリを発行するためAthena上のテーブルを作成する方法を説明します。 QuickSightを用いてログを可視化。ここではQuickSightとQuickSightのAthenaコネクタを用いて分析し、その結果をダッシュボードを通じて共有する方法を説明します。 クエリのパフォーマンス向上とコスト削減を目的とした、Athenaにおけるデータのパーティション化。このセクションではLambda関数を用いてS3に格納されたAthena用のデータを自動的にパーティション化する方法を示します。この関数はFirehoseストリームに限らず、他の手段でS3上に年/月/日/時間のプリフィックスで格納されている場合でも使用できます。 パーティショニングはAthenaにおいてクエリのパフォーマンス向上とコスト削減を実現するための3つの戦略のうちの1つです。他の2つの戦略としては、1つはデータの圧縮、そしてもう1つはApache Parquetなどの列指向フォーマットへの変換があります。本記事では自動的にデータを圧縮する方法には触れますが、列指向フォーマットへの変換については触れません。本ケースのように列指向フォーマットへの変換を行わない場合でも、圧縮やパーティショニングは常に価値のある方法です。さらに大きなスケールでのソリューションのためには、Parquetへの変換も検討して下さい。 VPCフローログを分析するためのサーバレスアーキテクチャ 以下の図はそれぞれのサービスがどのように連携するかを示しています。 VPCにフローログを作成すると、ログデータはCloudWatchログのロググループとして発行されます。CloudWatchログのサブスクリプションを利用することにより、S3に書き込むためにFirehoseを用いたLambda関数に対して、リアルタイムにログデータイベントを送り込むことが可能になります。   いったんS3にログデータが格納され始めれば、Athenaを利用してSQLクエリをアドホックに投入することができます。ダッシュボードを構築したり、画面からインタラクティブにデータを分析したりすることを好む場合には、Athenaに加えQuickSightによるリッチな可視化を簡単に構成できます。 Athenaの分析を目的としたS3へのVPCフローログの送信 この章では、Athenaによるクエリを可能とするためにフローログデータをS3に送信する方法を説明します。この例ではus-east-1リージョンを使用していますが、AthenaとFirehoseが利用できるのであればどのリージョンでも可能です。 Firehoseデリバリーストリームの作成 既存もしくは新しいS3バケットを格納先とするFirehoseデリバリーストリームを作成するためには、この手順を参考にして下さい。ほとんどの設定はデフォルトで問題ありませんが、格納先のS3バケットへの書き込み権限を持つIAMロールを選択し、GZIP圧縮を指定して下さい。デリバリーストリームの名前は‘VPCFlowLogsDefaultToS3’とします。 VPCフローログの作成 まず、この手順に従ってデフォルトVPCのVPCフローログを有効にしましょう。(訳注:デフォルトVPC以外の任意のVPCで構いません。) Firehoseに書き込むLambda用のIAMロールの作成 Firehoseに書き込むLambda関数を作成する前に、Firehoseにバッチ書き込みを許可するLambda用のIAMロールを作成する必要があります。次のように定義されるインラインアクセスポリシーを組み込んだ‘lambda_kinesis_exec_role’という名前のLambda用ロールを作成して下さい。 { “Version”: “2012-10-17”, “Statement”: [ { “Effect”: “Allow”, “Action”: [ “logs:CreateLogGroup”, “logs:CreateLogStream”, “logs:PutLogEvents” ], “Resource”: “arn:aws:logs:*:*:*” }, { “Effect”: “Allow”, “Action”: [ […]

Read More

Amazon Aurora (MySQL) Asynchronous Key Prefetchにより、Join性能を10倍以上に高速化

Amazon Aurora (MySQL)はJoinクエリを一桁以上高速化可能なasynchronous key prefetch (AKP)機能をリリースしました。 この機能は、Batched Key Access(BKA)JoinアルゴリズムとMulti-Range Read(MRR)最適化を使用するクエリに適用され、データ・セットがbuffer pooやquery cacheにない場合のパフォーマンスを向上させます。 我々のテストでは、上記の条件を満たすクエリでコールドバッファプールを使用した場合、クエリのレイテンシが10倍以上向上しました。 この機能は、Amazon Aurora version 1.15からご利用頂けます。Amazon Auroraドキュメント中のベストプラクティスの項目を是非ご覧ください。 ハイエンドの商用データベースの速度と可用性をオープンソースデータベースのシンプルさとコスト効率でご利用頂ける、Amazon Aurora MySQL/PostgreSQLついてはこちらをご覧下さい。 翻訳は星野が担当しました。(原文はこちら)

Read More

Amazon Aurora (MySQL)がR4インスタンスをサポート – 最大書き込みスループットが2倍に-

本日より、Amazon Aurora (MySQL)でR4インスタンスファミリーがご利用頂けるようになりました。R4インスタンスファミリーは新世代のメモリ最適化インスタンスでR3インスタンスファミリーよりも大きなL3キャッシュや高速なメモリを搭載することで性能の向上を行えます。 R4インスタンスファミリー内で最大のR4.16xlargeでは、64コア ・488GiBメモリを搭載しています。Amazon Aurora (MySQL)では、R4.16xlargeインスタンスをご利用頂くことで、R3.8xlargeインスタンスと比較して倍の最大200,000 writes/second の書き込み性能を発揮出来ます。 R4インスタンスファミリーはAmazon Aurora (MySQL) version 1.15からご利用頂けます。R4インスタンスはAmazon Aurora (MySQL)がご利用頂ける全てのリージョンでサポートしています。価格に関する詳細情報はこちらをご覧下さい。ハイエンドの商用データベースの速度と可用性をオープンソースデータベースのシンプルさとコスト効率でご利用頂ける、Amazon Aurora MySQL/PostgreSQLついてはこちらをご覧下さい。 翻訳は星野が担当しました。(原文はこちら)

Read More

新インスタンス- NVIDIA Tesla V100 GPUを最大8個搭載したAmazon EC2インスタンス P3

私たちは2006年に最初のm1.smallを発表した後も、お客様のご要望に応じて、そして常に進歩している最先端の技術を利用可能にするために、コンピュート能力、バースト可能な性能、メモリサイズ、ローカルストレージ、アクセラレータなどインスタンスを強化し続けています。 新しいP3インスタンス 本日、次世代のGPUを搭載したEC2インスタンスを4リージョンで公開しました。NVIDIA Tesla V100 GPUを最大8個搭載したP3インスタンスは、コンピュートインテンシブな機械学習、深層学習、流体計算、金融計算、地震解析、分子計算、ゲノム処理を想定して設計しました。 P3インスタンスは、最大2.7GHzで動作するIntel Xeon E5-2686v4プロセッサを搭載し、3種類のサイズを用意しています(VPCのみ、EBSのみ) Model NVIDIA Tesla V100 GPUs GPU Memory NVIDIA NVLink vCPUs Main Memory Network Bandwidth EBS Bandwidth p3.2xlarge 1 16 GiB n/a 8 61 GiB Up to 10 Gbps 1.5 Gbps p3.8xlarge 4 64 GiB 200 GBps 32 244 GiB 10 Gbps 7 Gbps p3.16xlarge 8 128 […]

Read More

Amazon Elasticsearch Service が VPC をサポート

本日より、NAT インスタンスやインターネットゲートウェイを必要とせずに Amazon VPC から Amazon Elasticsearch Service ドメインに接続できるようになりました。Amazon ES の VPC サポートは設定も簡単で信頼性が高く、セキュリティをさらに強化することができます。VPC サポートでは、その他のサービスと Amazon ES 間のトラフィックはパブリックインターネットから分離されており AWS ネットワーク内で維持されます。既存の VPC セキュリティグループを使用してネットワークアクセスを管理できます。また、AWS Identity and Access Management (IAM) ポリシーを使って保護機能を強化することもできます。Amazon ES ドメインの VPC サポートは追加費用なしにご利用いただけます。 ご利用開始にあたって VPC での Amazon Elasticsearch Service ドメインの作成は簡単です。クラスター作成に使ういつもの手順を行い [VPC access] を選択します。 これだけです。その他の手順はありません。これで VPC からドメインにアクセスできるようになりました。 主要事項 VPC をサポートするにあたり、Amazon ES は少なくても 1 つの VPC サブネットにエンドポイントを配置します。Amazon ES はクラスター内の各データノードの […]

Read More

Amazon Lightsail の更新 – Windows 仮想プライベートサーバーの起動と管理

Amazon Lightsail については、去年公開したブログ「Amazon Lightsail – AWS のパワーと VPS のシンプルさ (Amazon Lightsail – the Power of AWS, the Simplicity of a VPS)」でご紹介しました。昨年の公開以来、何千人ものユーザーがこの Lightsail を使用して AWS の利用を始めたり、Linux ベースの仮想プライベートサーバーを起動するようになりました。 そして本日より、Window 仮想プライベートサーバーのサポートも追加しました。ほんの数分で、Windows Server 2012 R2 を実行している VPS や Windows Server 2016、SQL Server 2016 Express を使う Windows Server 2016 を起動することができます。VPS を使用して、インフラストラクチャのセットアップや実行を必要とせずに .NET または Windows のアプリケーションを構築、テスト、デプロイすることができます。1 回または 2 回クリックするだけで、バックアップ、DNS 管理、オペレーションメトリクスにアクセスできます。 512 […]

Read More

アイテリジェンスとAWSが協力してSAP顧客に価値を提供

itelligence(アイテリジェンス)とAWS: AWSクラウドを介してグローバルにSAPの価値とソリューションを提供することに注力している新しいAmazon Partner Network(APN)メンバーをご紹介します。 この記事は、Amazon Web Services(AWS)でSAP担当ジェネラルマネージャーを務めるBas Kamphuisによるものです。   https://www.prnewswire.com/news-releases/itelligence-announces-collaboration-with-amazon-web-services-for-cloud-solutions-300540532.html   世界中のトランザクションの76%がSAPシステムと何らかの形でつながっており、SAP社は引き続きERP(Enterprise Resource Planning)市場の首位を占めています。SAP社の主力ソフトウェア製品であるSAP ECC(ERP Central Component)をお使いの数万のお客様の100%が、このリリースのメンテナンスが終了する2025年までには、どこかに移行することになっているでしょう。これは、SAP S/4HANAやSAP BW/4HANAのような、インメモリデータベースSAP HANAによって強化されたイノベーションを促すためです。この変化の誘発により、SAPをご利用中のお客様とパートナーエコシステム全体が、SAPランドスケープを戦略的に見て、どのようにSAP HANAでデジタル変革を実現できるのか明確にすることを迫られています。 世界で最も成功しているSAPグローバルパートナーの1社であるアイテリジェンスは、現在SAPをご利用中のお客様の多くが直面しているこの状況と複雑さを理解しています。大規模なグローバル組織にサービスを提供し、何十年にもわたってSAP環境を実装、維持してきました。アイテリジェンスとAWSのパートナーシップは、賞を受賞するほどのSAPの実装および運用における専門知識と組み合わせて、お客様がAWSクラウドの利点(伸縮性、弾力性、セキュリティ、グローバルスケールなど)を享受できるよう注力していきます。お客様は、既存のビジネスオペレーションのリスクや混乱を招くことなく、今すぐAWSとSAPが提供するイノベーションの恩恵を受けることができます。 私たちの継続した協調では、SAPのイノベーションの活用、選択肢の拡大、コストの削減、そして価値の創造に費やす時間の短縮など、お客様が求める敏捷性を実現するためにお役立ていただける、AWSで加速するアイテリジェンスのより多くのオファリングの提供を目指しています。 現在、お客様にご活用いただけること: AWSにデータセンターを移設して、オンプレミスの設備投資を廃止 ツールとベストプラクティスを活用して数週間かかっていたSAPシステム移行を数日で実施 複数地域にまたがるビジネス継続性と災害復旧のアーキテクチャを活用して、企業のセキュリティを強化し、弾力性を向上 SAP HANA認定パブリッククラウドの中で最大の品揃えを持つAWS上に本稼働環境を移行し、SAPランドスケープを統合 また、アイテリジェンスのマネージドサービスにAWSを組み込むことで、お客様のIT環境の複雑さを軽減することができます。私たちは連携して、お客様のSAP環境を積極的に自動化、監視および保守するために、人工知能、機械学習やビッグデータなどのAWSサービスを統合していく計画があります。 私たちはアイテリジェンスとの関係について非常に興奮しており、SAPをご利用中のお客様に引き続き最高のソリューションとオファリングを提供するための共同イノベーションを続けていきます。AWS組織全体を代表して、私たちはアイテリジェンスのチームのコミットメントとリーダーシップに感謝を述べたいと思います。Amazon Partner Networkへようこそ。 —Bas 翻訳はPartner SA 河原が担当しました。原文はこちらです。

Read More

今すぐご利用可能 – Amazon Aurora with PostgreSQL Compatibility

昨年後半、Amazon Aurora に PostgreSQL 互換のエンジンを追加する計画をお話しました。このアナウンスのすぐ後に、プライベートベータを開始し、今年の前半にはオープンプレビューを開始しました。このベータとプレビューの期間、非常に素晴らしい数多くのフィードバックをいただき、このサービスがお客様のニーズを満たし、期待値を超えることが確かなものになるように、できる限りのことをしました! 一般利用可能に 本日、Amazon Aurora with PostgreSQL Compatibility が一般利用可能となり、4つのリージョンで利用できるようになったことをお伝えします(その他のリージョンは今後対応していきます)。本サービスは、PostgreSQL 9.6.3 と互換性があり、そのストレージは、64 TB まで自動的にスケールし、そのバックエンドで 6つのレプリカを持ち、性能と可用性を高めています。 Amazon Aurora with MySQL Compatibility のように、このエディションはフルマネージドで、簡単にセットアップし、利用できます。性能の観点ではお客様自身で運用していた PostgreSQL と比較して、最大3倍のスループットを期待することができます(我々がどのようにこれを実現したかについては、Amazon Aurora: Design Considerations for High Throughput Cloud-Native Relational Databases をご確認ください)。 新たにアップデートされた RDS Console から PostgreSQL と互換性のある Amazon Aurora インスタンスを起動することができます。まず、Amazon Aurora をエンジンとして選択し、PostgreSQL-Compatible をエディションとして選択し、[Next] をクリックします。 そして、インスタンスクラス、シングル(開発、テスト環境向き)/Multi-AZ(本番環境向き) デプロイメントの選択を行い、インスタンス名、管理者パスワードを設定し、[Next]をクリックします。 インスタンスクラスは、6つのモデルの中から選択可能です(2 から 64 のvCPUと 15.25 から 488 […]

Read More

【開催報告】第10回 AWS Startup Tech Meetup

こんにちは、ソリューションアーキテクトの篠原英治(@shinodogg)です。 AWSをご利用のStartup企業で働くエンジニアを対象とさせていただいているAWS Startup Tech Communityですが、10回目のMeetupを2017年10月19日にAmazon目黒オフィスで開催しました。カジュアルな雰囲気の中、各セッションともに実践的なQ&Aのやり取りで盛り上がり、私たちAWSの人間も含めた参加者の皆さま同士の非常に濃い学びの場となりました。 – Speee 森岡さん: ヌリカエのデータ集積基盤 on AWS 外壁塗装・屋根塗装の優良業者紹介サービスであるヌリカエのAmazon Kinesis Firehose、Amazon Athena、Amazon QuickSightを活用したデータ基盤について発表していただきました。 20171019_aws_startup_tech – freee 九岡さん: Kubernetes on AWS 全自動クラウド会計ソフトのfreeeにジョインされた九岡さんにk8sをAWS上で稼働させる際の考慮事項やTIPSについて発表していただきました。 – Lightning Talks AWS 桑野 海外のAWSリージョンの活用方法をご紹介しました。 AWS 高山 リザーブドインスタンスの活用方法をご紹介しました。 pixiv 小芝さん pixivにおけるAWSの活用についてご紹介いただきました。 – ネットワーキング セッション以外の時間でも参加者の皆さま同士での活きたノウハウの共有が行われました。写真左:Gunosy小出さん、写真右:Sansan間瀬さん。 先日一周年を迎えたVoicy窪田さんとAWSソリューションアーキテクトの福井と半場。 – 次回開催に向けて AWSをご利用のStartup企業のエンジニアの皆さまをお招きして、カジュアルにディスカッションできる場として、次回は年明け頃に開催予定です。我こそは!というStartupエンジニアの方は是非お近くのAWSジャパンの人間にお気軽にお声がけください。

Read More