Amazon Web Services ブログ

Danilo Poccia

Author: Danilo Poccia

Danilo works with startups and companies of any size to support their innovation. In his role as Chief Evangelist (EMEA) at Amazon Web Services, he leverages his experience to help people bring their ideas to life, focusing on serverless architectures and event-driven programming, and on the technical and business impact of machine learning and edge computing. He is the author of AWS Lambda in Action from Manning.

Amazon Managed Workflows for Apache Airflow (MWAA) のご紹介

データ処理パイプラインはそのボリュームを増し、ますます複雑になっていますが、プロセス全体を一連の小さなタスクに分解して簡素化し、これらのタスクの実行をワークフローの一部として調整することができます。その手段として、多くのデベロッパーやデータエンジニアが Apache Airflow を使用しています。Apache Airflow は、コミュニティによって作成され、プログラムによってワークフローを作成、スケジュール、モニタリングするプラットフォームです。Airflow を使用すると、ワークフローをスクリプトとして管理したり、ユーザーインターフェイス (UI) を介してワークフローをモニタリングしたり、強力なプラグインのセットを使用して機能を拡張したりできます。ただし、Airflow を手動でインストール、保守、スケールし、それと同時にユーザーのセキュリティ、認証、認可の処理を行うには多くの時間がかかり、実際のビジネス上の問題解決に集中できなくなってしまいます。 こうした問題点を解消するため、AWS で Apache Airflow のオープンソースバージョンを簡単に実行し、抽出、変換、読み込み (ETL) ジョブとデータパイプラインを実行するワークフローを構築可能な、フルマネージドサービスである Amazon Managed Workflows for Apache Airflow (MWAA) の提供を開始しましたことをお知らせします。 Airflow ワークフローでは、Amazon Athena クエリを使用して Amazon Simple Storage Service (S3) などのソースから入力を取得し、Amazon EMR クラスターで変換を実行し、結果として生成されたデータを使用して Amazon SageMaker で機械学習モデルをトレーニングできます。Airflow ワークフローは、Python プログラミング言語を使用して、有向非巡回グラフ (DAG) として作成されます。 Airflow の主な利点は、プラグインによりオープンな拡張が可能であることです。これにより、AWS とやり取りするタスクや、AWS Batch、Amazon CloudWatch、Amazon DynamoDB、AWS DataSync、Amazon ECS、AWS Fargate、Amazon Elastic Kubernetes […]

Read More

AWS Glue DataBrew の発表 – データのクリーニングと正規化を迅速にするビジュアルデータ準備ツール

分析の実行、レポートの作成、あるいは機械学習の導入を始めるには、使用するデータがクリーンで適切な形式であることを確保する必要があります。このデータの準備ステップでは、データアナリストとデータサイエンティストに対し、カスタムコードの記述や、多くの手動操作が要求されます。そこではまず、データを見て、利用できそうな値を把握し、列同士の間に相関があるかどうかを確認するための簡単な可視化機能を構築する必要があります。その後、想定を外れた通常以外の値をチェックします。たとえば、200℉(93℃)を超えるような気温や、200mph(322 km/h)を超えるトラックの速度、そして欠落しているデータなどを洗い出します。多くのアルゴリズムでは、特定の範囲(たとえば 0 と 1 の間)への値の再スケールや、平均値を中心にした値の正規化が求められます。テキストフィールドは標準的な形式に設定するとともに、ステミングなどの高度な変換が必要な場合もあります。 これは大仕事です。今回、この仕事に対処するための AWS Glue DataBrew が利用可能になったことをお知らせできるのを、喜ばしく思っています。このサービスは、データのクリーンアップと正規化を 80% 高速化できる視覚的なデータ準備ツールであり、ビジネスから得られる価値に、お客様がより集中できるようにするものです。 DataBrew で提供されるビジュアルインターフェースでは、Amazon Simple Storage Service (S3)、Amazon Redshift、Amazon Relational Database Service (RDS) などに保存されたデータや、JDBC でアクセス可能なあらゆるデータストア、または AWS Glue データカタログによってインデックス化されたデータなどに、素早く接続できるようになります。その後、データを探索しパターンを見つけ出した上で、変換を適用できます。たとえば、結合やピボットの適用、異なるデータセットの統合、関数を使用したデータの操作を行います。 準備が終了したデータは、その場で、さらなるインサイトを得るために、AWS とサードパーティが提供するサービスを通じての利用が可能となります。それらのサービスには、機械学習用の Amazon SageMaker、分析用の Amazon Redshift と Amazon Athena、ビジネスインテリジェンス用の Amazon QuickSight と Tableau などがあります。 AWS Glue DataBrew の仕組み DataBrew を使用したデータの準備作業は、次の手順に従います。 S3 または Glue データカタログ(S3、Redshift、RDS)で、1 つ以上のデータセットに接続します。あるいは、DataBrew コンソールを使用すれば、S3 […]

Read More

新規 – エンドツーエンドの HTTP/2 および gRPC についての Application Load Balancer のサポート

その効率性と多数のプログラミング言語をサポートしていることから、gRPC はマイクロサービス統合およびクライアント/サーバー通信に人気のある選択肢となっています。gRPC は、HTTP/2 をトランスポートに使用し、インターフェイスを記述するためにプロトコルバッファを使用する、高性能なリモートプロシージャコール (RPC) のフレームワークです。 アプリケーションで gRPC を使用しやすくするために、Application Load Balancer (ALB) は HTTP/2 エンドツーエンドのサポートを開始しました。これにより、単一のロードバランサーを介して gRPC サービスを非 gRPC サービスとともに公開できるようになりました。Amazon Elastic Compute Cloud (EC2) インスタンスまたは IP アドレス (AWS Fargate など) を gRPC ターゲットとして使用し、ターゲットグループの gRPC ヘルスチェックをサポートできます。この方法により、ALB を使用して、マイクロサービス間、または gRPC 対応クライアントとサービス間の gRPC トラフィックの終了、ルーティング、およびロードバランシングを行うことができます。 ALB は、gRPC 呼び出しを検査し、適切なサービスにそれらをルーティングするためのリッチコンテンツベースのルーティング機能を提供します。具体的には、ALB は、gRPC ステータスコード、gRPC リクエスト数のメトリクス、gRPC リクエストを区別するアクセスログ、および gRPC 固有の応答ヘッダーを調べることができるヘルスチェックを提供します。さらに、持続性、さまざまなロードバランシングアルゴリズム、TLS 終了などのネイティブ機能を利用できます。 Application Load Balancer で gRPC を使用する方法 […]

Read More

Amazon SNS FIFO のご紹介 – 先入れ先出しでの Pub/Sub メッセージング

 分散ソフトウェアアーキテクチャを設計する場合、サービスの情報交換方法を定義することが重要になります。たとえば、非同期通信では、コンポーネントを疎結合化してスケーリングを簡素化することで、変更の影響が軽減され、新機能のリリースが簡単になります。 サービス間の非同期通信で最も一般的な形式は、メッセージキューと pub/sub メッセージングの 2 つです。 メッセージキューでは、コンシューマーによる処理および削除まで、メッセージはキューに格納されます。AWS では、Amazon Simple Queue Service (SQS) が、管理コストなしで完全マネージド型メッセージキューイングのサービスを提供しています。 pub/sub メッセージングでは、トピックに発行されたメッセージは、トピックのすべてのサブスクライバーに配信されます。AWS の Amazon Simple Notification Service (SNS) は完全マネージド型の pub/sub メッセージングサービスで、多くのサブスクライバーへメッセージを配信できます。各サブスクライバーは、気になるメッセージだけを受信するようにフィルターポリシーを設定することも可能です。 複数のアプリケーションにメッセージをファンアウトする場合はトピックを使用し、1 つのアプリケーションにメッセージを送信する場合はキューを使用します。トピックとキューを一緒に使用することで、マイクロサービス、分散システム、サーバーレスアプリケーションを疎結合化できます。 SQS では FIFO(先入れ先出し)キューを用いてメッセージの送受信順序を保持し、メッセージが何度も処理されないようにできます。 SNS FIFO トピックスのご紹介 本日より SNS FIFO トピックを導入することで、pub/sub メッセージングにも同様の機能を追加し、複数のサブスクライバーに厳密なメッセージの順序付けと重複を排除したメッセージ配信を提供できるようになりました。 FIFO トピックは、FIFO キューと同様に順序付けと重複排除を管理します。 順序付け – メッセージグループを設定するには、メッセージを FIFO トピックに発行する際にメッセージグループ ID を指定します。各メッセージグループ ID に、すべてのメッセージを到着順に送信および配信します。たとえば、同じ顧客に関連するメッセージを順番に配信するには、顧客のアカウント番号をメッセージグループ ID として使用することで、これらのメッセージをトピックに発行できます。FIFO トピックとキューを持つメッセージグループの数に、制限はありません。メッセージグループ ID を事前に宣言する必要はありません。どの値でも機能します。メッセージを論理的に区別しない場合は、すべてに同じメッセージグループ ID […]

Read More

Amazon Timestream であらゆる規模の時系列データを保存してアクセス – 一般提供が開始されました

時系列は、物事が時間の経過とともにどのように変化するかを説明する非常に一般的なデータ形式です。最も一般的なデータソースには、産業機器と IoT デバイス、IT インフラストラクチャスタック (ハードウェア、ソフトウェア、ネットワークコンポーネントなど)、およびそれらの結果を経時的に共有するアプリケーションがあります。時系列データの効率的な管理は、このデータモデルが汎用データベースに合わないことから容易ではありません。 本日からの Amazon Timestream の一般提供をお知らせできることが嬉しいのは、これが理由です。Timestream は、1 日に数兆件もの時系列イベントを収集、保存、および処理することを簡単にする高速でスケーラブルなサーバーレスの時系列データベースサービスで、リレーショナルデータベースよりも 1000 倍速く、コストもわずか 10 分の 1 です。 これは、Timestream がデータを管理する方法によって可能になります。Timestream では、最近のデータがメモリに保持され、履歴データはユーザーが定義する保持ポリシーに基づいて、コスト最適化されたストレージに移動されます。データは常に、同じ AWS リージョン内にある複数の アベイラビリティーゾーン (AZ) にまたがって、すべてが自動的にレプリケートされます。新しいデータはメモリストアに書き込まれます。メモリストアでは、データが 3 つの AZ にレプリケートされてから、オペレーションの成功が返されます。データレプリケーションはクォーラムベースであるため、ノードまたは AZ 全体が損失されても、耐久性や可用性が損なわれることがありません。さらに、メモリストア内のデータは、万が一のために Amazon Simple Storage Service (S3) に継続的にバックアップされます。 クエリは、ストレージの場所を指定しなくても、階層全体における最近のデータと履歴データに自動的にアクセスして、それらを統合します。また、データの傾向とパターンをほぼリアルタイムで特定できるように、時系列固有の機能もサポートします。 初期費用はなく、お支払いいただくのは、書き込み、保存、またはクエリを実行するデータに対する料金のみです。Timestream は、負荷に基づいて自動的にスケールアップまたはスケールダウンしてキャパシティーを調整し、基盤となるインフラストラクチャを管理する必要はありません。 Timestream は、データ収集、視覚化、および機械学習のための一般的なサービスと統合されているため、既存、および新しいアプリケーションでの使用が簡単です。例えば、AWS IoT Core、Apache Flink 向けの Amazon Kinesis Data Analytics 、AWS IoT Greengrass、および Amazon MSK […]

Read More

新しい EC2 T4g インスタンス – AWS Graviton2 によるバースト可能なパフォーマンス – 無料で利用可能

2 年前、Amazon Elastic Compute Cloud (EC2) T3 インスタンスが初めて利用可能となり、とても高い費用対効果のある、汎用ワークロードを実行するための方法が提供されました。現在の T3 インスタンスは、多くのユースケースで十分なコンピューティングパフォーマンスを提供していますが、多くのお客様から、ピークパフォーマンスの向上と低コストの恩恵を受ける追加のワークロードがあるとお伺いしました。 本日、AWS は、64 ビット Arm Neoverse コアを使用して AWS がカスタム構築したプロセッサである AWS Graviton2 を搭載した、低コストのバースト可能な新世代のインスタンスタイプである T4g インスタンスをリリースします。T4g インスタンスを使用すると、T3 インスタンスと比較して 20% 低いコストで最大 40% のパフォーマンス上のメリットが得られます。これにより、幅広いワークロードに対して最高のコストパフォーマンスを実現できます。 T4g インスタンスは、多くの時間において CPU をフルパワーで使用しないアプリケーション向けに設計されており、デフォルトで無制限モードが有効になっている T3 インスタンスと同じクレジットモデルを使用します。 大量のデータ処理時にのみ高い CPU パフォーマンスを必要とする運用ワークロードの例としては、ウェブサーバー/アプリケーションサーバー、小規模/中規模のデータストア、および多くのマイクロサービスがあります。以前の世代と比較して、T4g インスタンスのパフォーマンスは、キャッシュサーバー、検索エンジンのインデックス作成、電子商取引のプラットフォームなどの追加のワークロードを移行することを可能にします。 T4g インスタンスは、最大 5 Gbps のネットワークと最大 2.7 Gbps の Amazon Elastic Block Store (EBS) のパフォーマンスを提供する 7 つのサイズで利用可能です。 名前 vCPU ベースラインパフォーマンス/vCPU […]

Read More

AWS は、ガートナーのインフラストラクチャとプラットフォームサービス部門におけるマジッククアドラントで 10 年連続でクラウドリーダーに認定される

AWS では、俊敏な開発、迅速なデプロイ、および無制限の拡張を可能にするテクノロジープラットフォームを提供できるよう努めています。これにより、お客様はリソースの管理から解放され、顧客のための イノベーション に専念できるようになります。 当社の取り組みが、お客様だけでなく、一流のアナリストからも認められることに大きなやりがいを感じます。 今年、ガードナーは新たにクラウドインフラストラクチャとプラットフォームサービス (CIPS) を発表 しました。これは、AWS が 9 年連続でリーダーに選ばれている、クラウドインフラストラクチャサービス部門におけるマジッククアドラントが進化したものです。 お客様は、基本的なコンピューティング、ネットワーキング、ストレージサービス以外に、幅広い方法でクラウドを利用ています。そのため、ガートナーは PaaS 機能を追加するために範囲を広げています。更にマネージドデータベースサービス、サーバーレスコンピューティング、 デベロッパーツールなどの分野の範囲も広げています。。 本日、AWS がクラウドインフラストラクチャとプラットフォームサービス部門におけるマジッククアドラントで リーダー に認定され、 実行 能力および ビジョンの完全性において、最も高い地位を獲得したことを嬉しく思います。 お客様がクラウドプロバイダーを選択する際に検討する機能や要因の詳細については、 詳細レポートをご覧ください。 — Danilo ガードナー、クラウドインフラストラクチャとプラットフォームサービス部門におけるマジッククアドラント、Raj Bala、Bob Gill、Dennis Smith、David Wright、Kevin Ji、2020年9月1日 — ガードナーは調査出版物に記載されているいかなるベンダー、製品、サービスを推奨しません。また、最高の評価やその他の指名されているこれらのベンダーのみを選択するように、テクノロジーユーザーにアドバイスすることもありません。ガートナーの調査出版物は、ガートナーの調査組織による見解で書かれたものであり、事実を表明するものではありません。ガートナーは、商品性または特定目的適合性に関するいかなる保証も含め、この調査に関する明示黙示の如何を問わず、あらゆる保証の適用を排除します。

Read More

新機能 – Amazon GuardDuty を使った S3 バケットの保護

この記事でお知らせしたとおり、Amazon Macie で以前からご利用いただいていた Amazon Simple Storage Service (S3) アクティビティのための異常および脅威検知が Amazon GuardDuty の一部として強化され、コストも 80% 以上削減されました。これにより、GuardDuty の脅威検出の範囲がワークロードと AWS アカウントの枠を越えて拡大され、S3 に保存されるデータの保護にも役立つようになります。 この新しい機能は、通常とは異なる地理的場所から来るリクエスト、S3 ブロックパブリックアクセスなどの予防的な制御の無効化、または誤設定されたバケットアクセス許可を発見する試みと一致する API コールパターンなどの疑わしいアクティビティを検知するために、GuardDuty が S3 のデータアクセスイベント (通常データプレーンオペレーションと呼ばれます) と S3 設定 (コントロールプレーン API) のモニタリングとプロファイリングを継続的に行うことを可能にします。悪意があると思われる動作を検知するため、GuardDuty は異常検知、機械学習、および絶えず更新される脅威インテリジェンスの組み合わせを使用します。ご参考までに、GuardDuty S3 脅威検知の完全なリストをご覧ください。 脅威が検知されると、GuardDuty がコンソールと Amazon EventBridge に詳細なセキュリティ結果を生成します。これは、アラートをすぐに利用できるようにするとともに、アラートの既存イベント管理およびワークフローシステムへの統合、またはアラートによる AWS Lambda を使用した自動化された是正アクションのトリガーを容易にします。オプションとして、複数のリージョンからの結果を集約する、およびサードパーティーのセキュリティ分析ツールと統合するために、結果を S3 バケットに送信することもできます。 まだ GuardDuty をお使いではない場合は、サービスを有効にするときに S3 保護がデフォルトでオンになります。GuardDuty をお使いの場合は、GuardDuty コンソールで 1 回クリックする、または API […]

Read More

最も高価なコード行を見つける – Amazon CodeGuru が一般提供開始

新しいアプリケーションを本番環境に導入し、それらの成長と発展に合わせてコードベースを維持し、同時に運用上の問題に対応するのはとても困難です。このため、チームの構築方法、適用方法、ソフトウェア配信パイプラインの安全な自動化方法について、多くのアイデアを見つけることができます。 昨年の re:Invent では、プレビューで Amazon CodeGuru を導入しました。これは機械学習を利用したデベロッパーツールで、アプリケーションの改善と、ランタイムデータに基づく自動コードレビューやパフォーマンスの推奨による問題のトラブルシューティングに役立ちます。 過去数か月の間に、より費用対効果の高い料金モデル、Bitbucket リポジトリのサポート、コマンドラインスイッチを使用してプロファイリングエージェントを起動する機能など、多くの改善が行われ、コードを変更する必要がなくなりました。アプリケーションを実行するか、依存関係を追加して、エージェントを実行します。 CodeGuru は次の 2 つの方法で使用できます。 CodeGuru Reviewer は、プログラム分析と機械学習を使用して、デベロッパーが見つけ難い潜在的な欠陥を検出し、Java コードの修正を行うことを推奨します。コードは、GitHub (現 GitHub Enterprise)、AWS CodeCommit、または Bitbucket リポジトリに保存できます。CodeGuru Reviewer に関連付けられているリポジトリでプルリクエストを送信すると、コードの改善方法に関する推奨事項が提供されます。各プルリクエストはコードレビューに対応し、各コードレビューにはプルリクエストのコメントとして表示される複数の推奨事項を含めることができます。 CodeGuru Profiler は、インタラクティブな視覚化と推奨事項を提供し、アプリケーションのパフォーマンスを微調整し、ライブアプリケーションのランタイムデータを使用して運用上の問題をトラブルシューティングするのに役立ちます。現在、Java、Scala、Kotlin、Groovy、Jython、JRuby、Clojure などの Java 仮想マシン (JVM) 言語で記述されたアプリケーションをサポートしています。CodeGuru Profiler は、CPU 使用率や導入されたレイテンシーの観点から最も高価なコード行を見つけ、効率を改善してボトルネックを解消する方法を提案します。本番環境で CodeGuru Profiler を使用できます。また、本番環境前など、有意義なワークロードでアプリケーションをテストする場合にも使用できます。 本日、Amazon CodeGuru が一般提供され、多くの新機能が追加されました。 CodeGuru Reviewer には、次のものが含まれています。 Github Enterprise のサポート – プルリクエストをスキャンし、Github Enterprise オンプレミスリポジトリのソースコードに対する推奨事項を、問題の原因と修正方法に関する説明とともに入手できます。 欠陥を解決してコードを改善するための新しいタイプの推奨事項 – たとえば、入力検証をチェックして、セキュリティとパフォーマンスを損なう可能性のある問題を回避し、同じことを行うコードのコピーを複数個見つけます。 CodeGuru […]

Read More

AWS Solutions Constructs – AWS CDK のアーキテクチャパターンのライブラリ

クラウドアプリケーションは、仮想サーバー、コンテナ、サーバーレス機能、ストレージバケット、データベースなどの複数のコンポーネントを使用して構築されます。これらのリソースを安全かつ反復可能な方法でプロビジョニングおよび設定できることは、プロセスを自動化し、実装の固有の部分に集中できるようにするために非常に重要です。 AWS Cloud Development Kit を使用すると、お気に入りのプログラミング言語の表現力を活用してアプリケーションをモデル化できます。コンストラクトと呼ばれる高レベルのコンポーネントを使用して、カスタマイズ可能な「実用的なデフォルト」で事前設定し、新しいアプリケーションをすばやく構築できます。CDKは、Infrastructure as Code を管理することにおけるあらゆるメリットを得るために、AWS CloudFormation を使用してリソースをプロビジョニングします。私が CDK を気に入っている理由の 1 つは、独自のカスタムコンポーネントを上位レベルのコンストラクトとして作成および共有できることです。 複数のお客様にとって役立ち得るパターンが繰り返し発生することは想像に難くありません。そこで、本日、AWS Solutions Constructs をリリースします。これは、独自のソリューションの構築に役立つ Well-Architected なパターンを提供する CDK のオープンソース拡張ライブラリです。CDK コンストラクトは主に単一のサービスをカバーしています。 AWS Solutions Constructs は、2 つ以上の CDK のリソースを組み合わせ、ロギングや暗号化などのベストプラクティスを実装する複数サービスのパターンを提供します。 AWS Solutions Constructs を使用する パターンベースのアプローチの威力を確認するために、新しいアプリケーションを構築する際にどのように役立つかを見てみましょう。例として、Amazon DynamoDB テーブルにデータを格納する HTTP API を構築します。テーブルのコンテンツを小さく保つために、DynamoDB Time to Live (TTL) を使用して、数日後にアイテムを期限切れにすることができます。TTL の期限が切れると、テーブルからデータが削除され、DynamoDB Streams を介して AWS Lambda 関数に送信され、期限切れのデータを Amazon Simple Storage Service […]

Read More