Amazon Web Services ブログ

新機能 ‐ Amazon EMR と Apache Hudi を使用して S3 でデータを挿入、更新、削除する

Amazon S3 のデータの保存により、スケール、信頼性、コスト効率の観点で多くの恩恵が得られます。 その上、Amazon EMR を利用して、Apache Spark、Hive、および Presto のようなオープンソースツールを使用してデータを処理し、分析することができます。 これらのツールと同じように強力ですが、増分データ処理、レコードレベルの挿入、更新、および削除を行うために必要なユースケースを処理するには引き続き課題があることが考えられます。 お客様と話して、個々のレコードに対する増分変更を処理することが必要なユースケースがあることがわかりました。たとえば、次のような場合です。 データプライバシー規制に準拠する。この場合、ユーザーは忘れられる権利を行使するか、データを使用する方法に関する同意を変更するかを選択することができます。 ストリーミングデータを操作する。この場合、特定のデータの挿入とイベントの更新を取り扱う必要があります。 エンタープライズデータウェアハウスまたは運用データストアからデータベースの変更ログを追跡し取り込むために、変更データ取り込み (CDC) アーキテクチャを使用する。 後で到着するデータを復元するか、特定の時点でのデータを分析する。 本日より、EMRリリース5.28.0にはApache Hudi (incubating)が搭載され、レコードレベルの挿入、更新、削除の操作を行うためのカスタムソリューションを構築する必要がなくなりました。Hudiの開発は、インジェストとETLパイプライン全体の非効率性に対処するため、2016年にUberで始まりました。ここ数カ月、EMRチームはApache Hudiコミュニティと緊密に連携し、HudiをSpark 2.4.4にアップデート(HUDI-12)、Spark Avroをサポート(HUDI-91)、AWS Glue Data Catalogのサポートを追加(HUDI-306)、さらに複数のバグフィックスを含むパッチを提供してきました。 Hudi を使用して、S3 でレコードレベルの挿入、更新、削除を実行して、データプライバシー法を順守し、リアルタイムストリームを消費してデータキャプチャを変更し、遅れて到着するデータを復元し、ベンダーに依存しないオープンな形式で履歴とロールバックを追跡できます。データセットとテーブルを作成し、Hudi は基礎のデータ形式を管理します。 Hudi は Apache Parquet および Apache Avro をデータストレージに使用し、Spark、Hive、および Presto との組み込み統合が含まれており、現在使用しているものと同じツールを使用して Hudi データセットをクエリし、最新のデータにほぼリアルタイムでアクセスできます。 EMR クラスターを開始するときに、Hive、Spark、または Presto のいずれか少なくとも 1 つのコンポーネントが選択されるときにはいつでも、Hudi のライブラリとツールがインストールされ、自動的に設定されます。 Spark を使用して、新しい Hudi データセットを作成し、データを挿入、更新、および削除できます。それぞれの Hudi データセットはクラスターの設定された メタストア (AWS Glue Data […]

Read More

Redshift コンソールを使用して、Amazon Redshift クラスターの管理を簡素化する

Amazon Redshift は、最も人気があり、最速のクラウドデータウェアハウスです。管理者が Amazon Redshift クラスターを作成、設定、管理するためのコンソールが含まれています。新しい Amazon Redshift コンソールは、ユーザーインターフェイスを刷新し、クラスターとクラスターで実行されるワークロードの管理を改善するためのいくつかの機能を追加します。 新しい Amazon Redshift コンソールには、次の利点があります。 統合されたダッシュボードからのクラスターの正常性とパフォーマンスの可視性。 複数の画面とフローを合理化し、いくつかの日常業務のクリック数を減らすことにより、クラスターの管理を簡素化。 ユーザークエリを監視し、クラスタパフォーマンスメトリクスと相関させる機能を追加することにより、クエリのパフォーマンスの平均診断時間に関する問題を改善。 この記事では、新しいコンソールを使用して最初のクラスターを作成し、AWS アカウントでクラスターを管理および監視する方法について説明します。 前提条件 新しい Amazon Redshift コンソールを使用して最高のエクスペリエンスを得るには、次の前提条件を満たしていることを確認してください。 AmazonRedshiftFullAccess を使用している場合、アクセス許可を変更する必要はありません。AmazonRedshiftFullAccess は、AWS アカウントのすべての Amazon Redshift リソースへのフルアクセスを許可します。 カスタムポリシーを使用している場合、AmazonRedshiftFullAccess をアタッチするか、次のコードを IAM ユーザーのポリシーに追加します。 { “Version”:”2012-10-17″, “Statement”:[ { “Action”:[ “cloudwatch:ListMetrics”, “cloudwatch:GetMetricWidgetImage”, “cloudwatch:GetMetricData”, “tag:GetResources”, “tag:UntagResources”, “tag:GetTagValues”, “tag:GetTagKeys”, “tag:TagResources”, “iam:ListRoles” ], “Effect”:”Allow”, “Resource”:”*” } ] } また、クラスターを最新のメンテナンスパッチにアップグレードする必要があります。 […]

Read More

AWS Marketplace から使用可能状態のモデルを入手し、アプリケーションに AI を追加する

機械学習 (ML) は、エンタープライズが保持するデータや自動決定などの真の可能性を解放させ、ビジネスプロセスを変革することで顧客に提供する価値を急激に高めます。ML を活用していただくために、Amazon SageMaker では、ML モデルを素早く構築、トレーニング、デプロイするための手段をご提供しています。 最近までは、Amazon SageMaker をご使用いただく場合に、Amazon SageMaker により最適化されたアルゴリズムか、独自のアルゴリズムとモデルを導入していただくかの、2 通りから選択していただけるようになっていました。この ML のアルゴリズムとモデルに関する選択の幅が、AWS Marketplace for Machine Learning により広がります。お客様は、数百もある無料もしくは有料のアルゴリズムやモデルパッケージから選択でき、それらは次のように広範囲なカテゴリーをカバーしています。 オーディオ コンピュータビジョン 画像 自然言語処理 音声認識 構造化データ テキスト ビデオ 今回の記事では、AWS Marketplace for Machine Learning から入手する Face Anonymizer モデルパッケージをデプロイし、推論を実行させる方法をご紹介します。 概要 AWS Marketplace にあるモデルパッケージはトレーニング済みの機械学習モデルであり、バッチジョブとしてもリアルタイム推論としても使用していただけます。これらモデルパッケージはトレーニング済みであるために、お客様は次にあげるようなタスクに悩まされる必要はありません。 トレーニング用データの収集 モデルをトレーニングするためのアルゴリズムの記述 ハイパーパラメータ最適化の作業 モデルのトレーニングとリリースのための準備作業 これらの手順が必要なくなれば、アルゴリズムの記述、データセット抽出、技術的な作業、そしてモデルのトレーニングとチューニングにお客様が投じていた多くの時間と予算を節減できるわけです。 AWS Marketplace から入手できるアルゴリズムとモデルパッケージは、Amazon SageMaker とシームレスに統合されています。これらとのやり取りは、AWS マネジメントコンソール、低レベルの Amazon SageMaker API、Amazon […]

Read More

AWS re:Invent 2019 で開催予定の IoT セッションのご案内

re:Inventまで2週間を切りました。今年のre:Inventでは40を超える数多くのIoTセッション・ワークショップ・チョークトークが予定されています。この記事ではこれらの多くのセッションの中からいくつか紹介するとともに、セッション以外の楽しみ方についても紹介したいと思います。 SpotLight Session Transform tomorrow’s industries with AWS IoT(IOT305-L) AWS IoTを使用すると、組織は比類のないスケーラビリティ、エンドツーエンドのセキュリティ、および他のAWSサービスとの密な統合により、デバイスデータを安全に接続、管理、分析できます。 このセッションでは、AWS IoTのVPが、AWS IoTの新機能と、顧客が今日の洞察を解き放ち、明日の産業を変革する方法を共有します。 Transforming automotive manufacturing with Volkswagen(IOT339) デジタルプロダクションプラットフォーム(DPP)は、機械学習、分析、コンピューティングサービスなど、AWS IoTの広範かつ詳細なサービスカタログを使用して構築されたクラウドプラットフォームです。 このセッションでは、VolkswagenとAWSがDPPを使用して、プラント/デバイスの接続、データ管理とガバナンス、既存の産業およびエンタープライズシステムとの統合を含む共有サービスの共通セットを提供することにより、接続を加速し、生産プラントを最適化する方法を学びます。 また、パブリッククラウドとオンプレミスのAWS IoT展開にまたがる包括的なプラットフォームを通じてこれを達成する方法も学びます。 Digital transformation and IoT monetization(IOT207-R) AWS IoTは世界中の業界に大規模に展開されていますが、ビジネス上の結果はどうでしょうか? このセッションでは、一部のお客様がAWS上に構築されたIoTソリューションを収益化する方法について詳しく説明します。 また、予知保全、資産管理、自己最適化製品、自動的な在庫管理など、さまざまなユースケースにわたる製造業のデジタル変革の例を見ていきます。 Building smarter devices for a better life(IOT209-R) コネクテッドホームは、消費者の生活を改善する統合された自律的なエクスペリエンスのためにデバイスとサービスを結び付けます。 このセッションでは、家庭内の日常的なデバイスをインテリジェントなものに変える方法を学びます。 AWS IoTサービスの豊富なセットを使用して、これらのデバイスを大規模にリモートで監視、制御、およびセキュリティで保護する方法を学びます。 また、AWS IoTを使用して、これらのスマートデバイスからロック解除されたデータを分析し、適切なビジネス上の意思決定を行い、より良い製品を構築し、消費者体験を向上させる方法についても説明します。 Post-launch planning for IoT deployments(IOT210-R) IoTの真の力はデバイスを統合することです。 収集されたデータからの洞察をうけ、運用効率を実現し、カスタマーエクスペリエンスを向上させ、ビジネスの成果を向上させます。 このセッションでは、エッジからクラウドまでのさまざまなAWS IoTサービスを使用して、単一のデバイスから大規模な展開に移行しながら、IoT展開を管理および継続させる方法を知ることができます。 […]

Read More

Amazon ECS向けAmazon CloudWatch Container Insightsについて

本記事は AWS のシニアソリューションアーキテクトの Sirirat Kongdeeによる寄稿記事です。 Amazon CloudWatch を利用することで、Amazon Elastic Container Service(Amazon ECS)のリソースを監視することができます。Amazon CloudWatchは、CPU やメモリの割り当てについてや、クラスター、サービスレベルでのリソース使用率のメトリクスを提供するサービスです。以前は、サービスとタスクについてカスタムモニタリングを有効にする必要がありましたが、CloudWatch Container Insightsを使用することで、すべての Amazon ECS リソースの監視、トラブルシューティング、アラームの設定を行うことができるようになりました。これはフルマネージド型のサービスであり、Amazon ECSのメトリクスとログを収集、集約、要約することが可能となります。

Read More
Weekly AWS

週刊AWS – 2019/11/11週

こんにちは、AWSソリューションアーキテクトの小林です。再来週はAWS re:Invent 2019が開催されます。毎日様々なアップデートが発表されますので、クイックに振り返っていただくためのウェブセミナーを開催いたします。こちらのリンクからお申し込みいただけますので、ぜひご参加ください。例年同様、会期中に発表されたものを(可能な限り)すべてピックアップします。さらに直前に発表されたものの中で重要なトピックもご紹介していきますので、お楽しみに。

Read More

re:Invent 2019 の AWS アイデンティティセッション、ワークショップ、チョークトークのご案内

AWS re:Invent 2019 が間近にせまってきました! 参加するセッションの優先順位をつけないといけませんね。そこで AWS re:Invent 2019 での AWS Identity セッション、ワークショップ、チョークトークのリストをご用意しました。re:Invent にまだ登録していない場合は、社内承認のためのテンプレートがありますのでこちらもご利用ください。 AWS アイデンティ リーダシップ キーノート SEC207-L — Leadership session: AWS identity (Breakout session) リーダーシップセッション: AWS アイデンティティ (ブレイクアウトセッション) デジタルアイデンティティは、クラウドで最も急速に成長し、最も急速に変化している領域の1つです。ゼロトラストネットワーク、GDPRの懸念、および新しい IoT の機会がニュースでよく報道されています。このセッションではこの重要な業界の変化について触れ、お客様とその顧客の両方のアイデンティティにアプローチする AWS の方法について学びます。 新機能の発表や、オープンスタンダードと業界グループへの取り組みについて議論し、アイデンティティ、アクセス制御、リソース管理をより簡単にする方法を説明します。 自社環境向けの AWS アイデンティティ マネジメント FSI310 — The journey to least privilege: IAM for Financial Services (Chalk talk) 最小権限への旅:金融サービスのための IAM (チョークトーク) AWS […]

Read More

11月25日(月)に AWSome Day Online Conference を開催いたします

こんにちは! AWS Webinarチームです。 もう 11 月ですね。 山も色づき始めて、榛名山の紅葉は今まさに見ごろを迎えているそうです。 そして秋といえば、柿・みかん・栗・松茸・・・美味しい季節がやってきましたね! 秋満載な 11 月に AWS がお届けするウェビナーのご案内です。 約2.5時間の AWSome Day Online Conference を 11 月 25 日(月)に 15 時から開始いたします。 AWS クラウドを始めようと思っている方に、そのクラウドジャーニーの第一歩となるウェビナーですので、ぜひご登録・ご視聴ください。 日程:11 月 25 日(月) 時間:15:00 – 17:40 終了予定 費用:無料 ご視聴はこちらからお申込みください。 AWSome Day とは? 「AWSome Day」は、AWS クラウドジャーニーのはじめの一歩として、AWS に関する基礎知識を 1 日で体系的に学ぶ無償のトレーニングイベントです。AWS テクニカルインストラクターが主導するセッションを通じて、コンピューティング、ストレージ、データベース、ネットワークといった AWS の主要なサービスを段階的に学ぶことができます。また、AWSに関わる方への基礎知識として、請求、アカウントマネジメント、料金モデル等、実際の導入に向けた内容となっております。技術的な面だけではなく、これから AWS クラウドを学ぶために必要となる知識を身に付けたい方、エンジニアのみならず、営業職、プリセールス職、学生まで幅広い方々におすすめします。 「AWSome Day Online」は、AWS クラウドジャーニーのはじめの一歩として、AWS […]

Read More

re:Invent でのバックアップおよびアーカイブのガイド

最近のブログ記事の 1 つで、カンファレンスでの時間を最大限に活用できるように、re:Invent でのオールインストレージについてのガイドを共有しました。ブレークアウトセッション、チョークトーク、ビルダーセッション、ワークショップなど、スケジュールを埋める価値があるストレージに関するセッションは 150 以上あります。席の予約は、10 月 15 日に始まりました。すぐにお気に入りのセッションのスポットを予約して、re:Invent でバックアップとアーカイブのセッションを必ずチェックしましょう。 データのシームレスなバックアップとアーカイブを支援する、ストレージサービスやベストプラクティスに関する最新情報を共有できることを楽しみにしています。AWS ストレージサービスを初めて使用する場合でも心配する必要はありません。チョークトーク、ビルダーセッション、ワークショップなどで AWS のサービスを開始し、質問をすることができます。 バックアップおよびアーカイブの詳しいセッションを選択する前に、ストレージリーダーシップセッションの席を予約してください。 STG201-L – リーダーシップセッション: ストレージの一般教書演説: このリーダーシップセッションでは、すべての AWS ストレージサービスにわたる最新のイノベーションに注目します。AWS のオブジェクト、ファイル、ブロックストレージ、ならびにハイブリッド、エッジ、データ転送サービスの新機能をご覧ください。また、主要な AWS ストレージのお客様が、AWS ストレージを使用してビジネスに競争上の優位性をもたらす方法について講演します。 ブレークアウトセッション STG341 – AWS Backup の詳細: 完全マネージド型でポリシーベースのバックアップソリューションである AWS Backup の詳細を掘り下げます。AWS Backup を使用すると、AWS Storage Gateway によって、クラウド内の AWS のサービス全体とオンプレミスのアプリケーションデータを簡単かつ自動的にバックアップできます。AWS Backup を使用すると、Amazon EBS ボリューム、Amazon EC2 インスタンス、Amazon RDS データベースおよび Aurora クラスター、Amazon DynamoDB テーブル、Amazon EFS ファイルシステム、Storage Gateway […]

Read More

新しい C5d インスタンスのサイズとベアメタル インスタンスをいますぐ使用可能

Amazon EC2 C5 インスタンスは、バッチ処理、分散型アナリティクス、ハイパフォーマンスのコンピューティング、機械 / 深層学習推論、ad サーブ、高度にスケーラブルなマルチプレイヤーゲーミング、ビデオエンコーディングなどのような計算負荷の高いワークロードに対して非常に一般的です。 2018 年には、非常に高速なローカル NVMe ストレージを追加し、これらの新しいインスタンスを C5d と名付けました。ビデオエンコード、イメージ操作、その他の形式のメディア処理など、高速で低レイテンシーのローカルストレージへのアクセスを必要とするアプリケーションに最適です。また、バッチ処理やログ処理など、データの一時的な保存を必要とするアプリケーションや、キャッシュやスクラッチファイルを必要とするアプリケーションにも役立ちます。 ほんの数週間前に、新しいインスタンスサイズと C5 インスタンスのベアメタルオプションをリリースしました。今は C5d ファミリーに 12xlarge、24xlarge、およびベアメタルオプションなど、同じ機能を追加できます。 新しい C5d インスタンスサイズは、持続的な全コアターボ周波数 3.6 GHz、最大シングルコアターボ周波数 3.9 GHzの Intel の第二世代 Xeron スケーラブルプロセッサ (コード名 Cascade Lake) で実行されます。 新しいプロセッサはまた、 AVX-512 インストラクションセットに基づいた Intel Deep Learning Boost と呼ばれる新機能も備えています。新しいベクトルニューラルネットワークのインストラクション (AVX-512 VNNI) のおかげで、深層学習フレームワークは、畳み込みなどの代表的な機械学習操作をスピードアップし、自動的に広域ワークロードでの推論性能を改善します。 これらのインスタンスは、AWS Nitro System を基礎としており、EBS 処理 (暗号化操作を含む) の専用ハードウェアアクセラレーター、各 Virtual Private Cloud […]

Read More