Amazon Web Services ブログ

[AWS Black Belt Online Seminar] Amazon Connect Update 資料及び QA 公開

先日 (2019/12/17) 開催しました AWS Black Belt Online Seminar「Amazon Connect Update」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20191217 AWS Black Belt Online Seminar Amazon Connect Update AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. エージェント間でチャットはできますか? A. CCP を使ったエージェント間のチャットはできません。エージェント間のチャットについては、Amazon Chime などの利用をご検討ください。 Q. チャットの顧客名が入力必須とのことですが、顧客は Guest 状態でのチャットができないということでしょうか。 A. 項目としては必須ですが、カスタマー Web サイト側でチャットを開始する際に顧客名を Guest や Anonymous などにすることは可能です。ただし、その場合はお客様ごとのルーティングや、お客様名での検索等を行うことはできませんのでご留意ください。 — 今後の AWS Webinar | イベントスケジュール 直近で以下を予定しています。各詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております。 — AWS re:Invent サービス・ソリューション別 RE:CAP AWS […]

Read More

2019 年: Amazon DynamoDB の 1 年を振り返って

 Amazon DynamoDB にとって、2019 年も多忙な年でした。AWS では、信頼性、暗号化、速度、スケーリング、および柔軟性の観点から、当サービスでの皆さんのエクスペリエンスをこれまで以上に向上させることに焦点を当てた新しい更新機能をリリースしてきました。 以下は、2019 年のリリースをカテゴリ単位でアルファベット順に分類してから、リリースされた日付け順 (最新リリースが各カテゴリの最上部) に並べたものです。1 年間に及ぶサービスの変更を把握しておくのは困難だと思います。この便利な 1 ページの記事で、2019 年に DynamoDB で起こった事柄を確認、または思い出してください。ご質問等がございましたら、@DynamoDB までお問い合わせください。(注意: この記事は年末前に掲載されるので、2019 年の終わりまでに行われるローンチが他にもあれば、それらで記事を更新していく予定です。) アダプティブキャパシティー 11 月 15 日: 頻繁にアクセスされる項目を自動的に隔離することにより、Amazon DynamoDB アダプティブキャパシティーが不均衡なワークロードをより良く処理できるようになりました DynamoDB アダプティブキャパシティーは、頻繁にアクセスされる項目を自動的に隔離することによって不均衡なワークロードをより良く処理します。お使いのアプリケーションが、1 つ、または複数の項目に対して過度に高いトラフィックを実行する場合、DynamoDB はパーティション間のバランスを取り直し、頻繁にアクセスされる項目が同じパーティションに格納されないようにします。この最新の拡張機能は、ワークロードに対して中断のないパフォーマンスを維持するために役立ちます。 5 月 23 日: Amazon DynamoDB アダプティブキャパシティーが即時利用可能に DynamoDB は、変化し続けるアプリケーションのトラフィックパターンに対応して、アダプティブキャパシティーをリアルタイムで適用します。これにより、不均衡なワークロードにさえも中断のないパフォーマンスを無期限に維持できます。即時に利用できるアダプティブキャパシティーは、すべての DynamoDB テーブルおよびにグローバルセカンダリインデックスに対してデフォルトで有効になっており、追加の料金はかかりません。 バックアップと復元 11 月 13 日: Amazon DynamoDB のバックアップからのテーブルの復元時におけるテーブル設定の実行が可能に DynamoDB のバックアップからテーブルを復元するときに、テーブルの設定を行うことができます。具体的には、復元されたテーブルと共に作成されないように、ローカルおよびグローバルセカンダリインデックスの一部またはすべてを除外できます。請求モード、およびプロビジョニングされたキャパシティーの設定を変更することも可能です。 4 月 4 […]

Read More

Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 1

 このマルチポストシリーズのパート 1 では、プライマリおよび短期の Amazon Redshift クラスターの両方を使用して、スケーラブルな ETL (抽出、変換、ロード) と ELT (抽出、ロード、変換) データ処理パイプラインを構築するための設計のベストプラクティスについて説明します。また、Amazon Redshift Spectrum、Concurrency Scalingといった Amazon Redshift の主要な機能に関するユースケースや、最近開始したデータレイクエクスポートのサポートについても見ていきます。 このシリーズのパート 2、Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 2 では、ETL と ELT のユースケースで Amazon Redshift を使い始めるための手順を順を追って説明します。 ETL と ELT ソースシステムからデータウェアハウスにデータを移行する場合、一般的な設計パターンが 2 つあります。2 つのパターンの主な違いは、データ処理パイプライン内の変換が発生する点です。これにより、データの取り込みと変換に使用するツールのセット、データの分析に使用する基礎となるデータ構造、クエリ、最適化エンジンも決定されます。最初のパターンは ETL で、データをデータウェアハウスにロードする前に変換します。2 番目のパターンは ELT です。これは、データをデータウェアハウスにロードし、使い慣れた SQL セマンティクスと超並列処理 (MPP) アーキテクチャの能力を使用します。これにより、データウェアハウス内で変換を実行します。 次の最初の図は ETL です。この図では、Amazon […]

Read More

Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 2

 このマルチポストシリーズのパート 1、Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 1 では、Amazon Redshift Spectrum、同時実行スケーリング、および最近サポートされるようになったデータレイクエクスポートを使用して、データレイクアーキテクチャ用の ELT および ETL データ処理パイプラインを構築するための一般的なお客様のユースケースと設計のベストプラクティスについて説明しました。 この記事では、AWS サンプルデータセットを使用して、Amazon Redshift のいくつかの ETL および ELT デザインパターンのステップバイステップのチュートリアルで、使用を開始する方法を説明します。 前提条件 開始する前に、次の前提条件を満たしていることを確認してください。 この記事では、US-West-2 (オレゴン) リージョンから公開されている 2 つの AWS サンプルデータセットを使用します。テスト実行には US-West-2 (オレゴン) リージョンを使用して、クロスリージョンのネットワークレイテンシーとデータ移転によるコストを削減します。 同じリージョンに AWS アカウントがあること。 AWS アカウントに AdministratorAccess ポリシーが付与されていること (本番環境の場合、これをさらに制限する必要があります)。 データレイクに、Amazon Redshift からアンロードしたデータを保存するための eltblogpost という名前の既存の Amazon S3 バケットがあること。バケット名は AWS […]

Read More

IAM 認証を使用した Amazon RDS および Aurora PostgreSQL データベースアクセスの保護

AWS は 2 つのマネージド型 PostgreSQL オプションを提供しています。Amazon RDS for PostgreSQL と Amazon Aurora PostgreSQL です。どちらも、データベースへのアクセスを管理するための IAM 認証をサポートしています。データベースユーザーを IAM ユーザーとロールに関連付けて、1 つの場所からすべてのデータベースへのユーザーアクセスを管理できます。これにより、異なる RDS/Aurora インスタンスで権限が同期されないことによる問題を回避できます。 この記事では、IAM 認証を使用できる 2 つの一般的なシナリオについてご説明します。同じ AWS アカウントの Amazon EC2 でホストされているアプリケーションから RDS/Aurora データベースにアクセスする方法と、別のアカウントからアクセスする方法があります。また、これらのシナリオに関連するベストプラクティスについてもご説明します。 この記事では Aurora PostgreSQL 環境を使用していますが、このソリューションは RDS PostgreSQL でも機能します。クラスタープロビジョニングの一部として IAM 認証を有効にしたり、クラスター作成後に CLI またはコンソールを使用してクラスターを変更したりできます。IAM データベース認証は、PostgreSQL バージョン 9.6.9 および 10.4 以降で使用できます。 前提条件 開始する前に、以下の前提条件を満たしてください。 2 つの AWS アカウント […]

Read More

新機能 – Amazon Comprehend Medical がオントロジーリンクを追加

Amazon Comprehend は、機械学習を使用して構造化されていないテキストからインサイトを見つける自然言語処理 (NLP) サービスです。非常に使いやすく、機械学習の経験は必要ありません。 Comprehend は特定のユースケースに合わせてカスタマイズできます。たとえば、ドキュメントを独自のカテゴリに整理するカスタムドキュメント分類子を作成したり、特定の用語のテキストを分析するカスタムエンティティタイプを作成したりできます。 ただし、医療用語は非常に複雑で、医療分野固有のものである場合があります。 Amazon Comprehend Medical は HIPAA に対応した自然言語処理サービスで、機械学習を使用して構造化されていないテキストから関連する医療情報の抽出を簡単に行うことができます。Comprehend Medical を使用すると、医師のメモ、臨床試験報告書、患者の健康記録などのさまざまなソースから、健康状態、薬、投与量、強度、頻度などの情報を短時間で正確に収集できます。 今日、Comprehend Medical が抽出した情報を医療オントロジーにリンクする機能を追加しています。 オントロジーは、そのドメインに存在する概念、その属性、それらの関係を定義して表すドメインの宣言モデルを提供します。通常、ナレッジベースとして表され、ナレッジを使用または共有する必要があるアプリケーションで利用可能になります。オントロジーは、健康情報学の中で、健康関連ドメインの正式な記述にあたります。 Comprehend Medical がサポートするオントロジーは次のとおりです。 ICD-10-CM では、健康状態をエンティティとして識別し、診断、重症度、解剖学的区別などの関連情報をそのエンティティの属性としてリンクします。 これは、集団健康分析を行うときや、提供された医療サービスに基づいて保険会社から保険金を受けとるとき、非常に役立つ診断コードセットです。 RxNorm では、薬をエンティティとして識別し、投与量、頻度、強度、投与経路などの属性をそのエンティティにリンクします。 医療従事者はこれらの概念を使用して、薬の処方確認のようなユースケースを可能にします。これは、患者が服用しているすべての薬のリストを可能な限り正確に作成するプロセスです。 Comprehend Medical はオントロジーごとに、潜在的な一致においてランク付けされたリストを返します。信頼スコアを使用して、どの一致が正しい意味なのか、またはどの一致をさらに検討しなければならないのかを決定できます。どのように機能するかは、例を通して見てみましょう。 オントロジーリンクの使用 Comprehend Medical コンソールでは、構造化されていない医師のメモを入力することから始めます。 最初は、Comprehend Medical で既に利用可能ないくつかの機能を使用して、医療および保護医療情報 (PHI) のエンティティを検出します。 認識されたエンティティ (詳細についてはこの記事を参照) の中には、いくつかの症状と薬があります。薬は包括的に、またはブランドとして認識されます。これらのエンティティの一部をより具体的な概念につなげる方法を学びます。 新しい機能を使用して、これらのエンティティを医薬品の RxNorm 概念にリンクします。 テキスト内で、薬に言及している部分のみが検出されます。詳細な答えには、さらに多くの情報があります。 たとえば、検出された薬の 1 つを見てみましょう。 用語「クロニジン」は、始めて登場 (上記入力テキストの 2 行目) したときに、RxNorm オントロジーの一般的な概念 (下の画像の左側) にリンクされます。 「クロニジン」という用語が […]

Read More

Amazon SageMaker を使用した分散型 TensorFlow トレーニングの実行

TensorFlow は、複数のホストで複数の GPU を使用した分散型トレーニングを必要とするヘビーウェイトなディープニューラルネットワーク (DNN) の開発に広く使用されるオープンソースの機械学習 (ML) ライブラリです。Amazon SageMaker は、アクティブラーニングを使用したデータのラベル付けから、モデルの分散型トレーニング、トレーニングの進捗状況のモニタリング、訓練されたモデルの自動スケーリング可能な RESTful サービスとしてのデプロイメント、並列的な ML 実験の一元管理までの ML ワークフローをシンプル化するマネージドサービスです。 この記事では、Amazon SageMaker を使用した分散型 TensorFlow トレーニングに注目していきます。 コンセプトの概要 この記事における分散型トレーニングコンセプトの多くは、さまざまなタイプの TensorFlow モデル全体に広く該当するものですが、この記事ではCommon Object in Context (COCO) 2017 データセット での Mask R-CNN モデルの分散型 TensorFlow トレーニングに焦点を当てます。 モデル Mask R-CNN モデルはオブジェクトインスタンスセグメンテーションのために使用されるものであることから、このモデルは画像内の各オブジェクトインスタンスを区分するために、ピクセルレベルのマスク (シグモイドバイナリ分類) と、オブジェクトカテゴリでアノテーションが付けられた (SoftMax 分類) 境界ボックス (Smooth L1 回帰) を生成します。Mask R-CNN の一般的なユースケースには、自動運転車における認知、表面欠陥検出、および地理空間画像の分析などがあります。 この記事に Mask R-CNN […]

Read More

ボンネットの下で: Kinesis データストリームのスケーリング

データとそれに伴う所見がリアルタイムに提供されるなら、ビジネスは軸足を素早く定めて、様々な要素、中でも必要性の変化、ユーザーの関与、そしてインフラストラクチャのイベントに対応できるしょう。Amazon Kinesis はマネージド型サービスを提供しているため、ユーザーはインフラストラクチャの管理に煩わされることなく、アプリケーションの構築に専念することができます。スケーラビリティは特別な労力なしで実現でき、毎秒ギガバイト単位のストリーミングを取り込んで処理できます。データは 3 か所のアベイラビリティーゾーンに複製され、高い可用性と耐久性を提供します。料金は従量制で、初期費用が必要ないので、Kinesis はコスト効率のよいソリューションとなっています。 Amazon Kinesis Data Streams は、プロビジョニング済みキャパシティーモデルを採用しています。それぞれのデータストリームは 1 つ以上のシャードから構成されており、これがキャパシティーのユニットとしての役割を果たします。シャードが定義済みの読み書き書きキャパシティーを提供するため、ストリーミングパイプラインの設計とスケーリングは容易になります。ワークロードが増えて、アプリケーションの読み書き率がシャードのキャパシティーを越えるとホットシャードの原因となり、キャパシティーをすぐに追加することが必要になります。また、シャードの使用により、大規模なデータセットの処理を並列化することもできるので、計算結果を高速に出力できます。 この記事では、データストリームをスケーリングし、ホットシャードを避ける方法について説明します。まず、ストリームパイプラインを設計する時点でデータストリームが必要とするシャード数を評価する方法を示します。それから、ホットシャードが発生する原因と、Kinesis Data Streams のスケーリングを使用してそれを避ける方法について考慮し、監視するべき重要なメトリクスを確認します。 ストリームのキャパシティーを見積もる 次の図は、1 本のストリーミングデータパイプラインがマルチプレイヤービデオゲームに接続されている様子を示しています。Kinesis Data Streams はプレイヤーのスコアや他の統計情報を取り込みます。ingest player scores and other stats.データはフィルタリングすること、および情報を追加することができ、それから DynamoDB に書き込まれて、ゲームの様々な順位表の元データとなります。 ストリーミングパイプラインの設計を始めるときには、データレコードのプロデューサーが作成するデータを取り込むことによってプロデューサーをハンドルし、同じレコードを消費するユーザーもハンドルするのに十分なキャパシティーを持つデータストリームをセットアップすることが重要です。シャードごとに、毎秒 1 MB のデータを取り込むこと、または同じくシャードごとに毎秒 1,000 のデータレコードを書き込むことができます。読み取りキャパシティーは最大でシャードごとに毎秒 2 MB、または毎秒 5 つの読み取りトランザクションに達します。あるストリームから読み取るすべてのアプリケーションは、読み取りのキャパシティーを共有します。強化されたファンアウト機能により、消費側アプリケーションの数をスケーリングすることができ、そのそれぞれが毎秒 2 MB の専用接続を持てるようにできます。 この記事では、前述のアプリケーションを例として用いることにします。プロデューサー側では毎秒 20,000 KB の割合でデータレコードを作成すると見積もられたとすると、ストリームの反対側ではそれと同じ量のデータを消費者ノードが処理する必要があります。この割合を処理できるようにすることに加え、ストリームの増大のためのヘッドルームとして追加のキャパシティーを追加しておくのは良いアイディアです。 このヘッドルームは、データの取り込みや処理で遅延や中断が発生したというシナリオにおいても、アプリケーションがすぐに回復できるようにする点でも役立ちます。そのようなシナリオとしては、次のものがあり得ます。 消費者側アプリケーションの新しいバージョンがデプロイされる 一過的なネットワークの問題 これらのノードが回復後に追いつくときには、レコードを標準の速度よりも速い速度で生成または消費することになるので、より大きなキャパシティーが必要になります。この例では、ヘッドルームとして 25% または 5 シャードを加えることにします。シャードはコスト効率のよいものですが、それはいくつ追加するかにもかかっています。 […]

Read More

AWS re:Invent 2019 の Amazon DynamoDB 関連のビデオとスライドデッキ

このブログ記事には、AWS re:Invent 2019 の基調講演と Amazon DynamoDB 関連セッションのビデオとスライドデッキへのリンクが含まれています。ビデオ録画は、ワークショップ、チョークトーク、ビルダーセッションのものではありません。この記事の発行時点では、すべてのスライドデッキをダウンロードできるわけではありませんが、利用可能なデッキが増えたらこの記事を更新します。 基調講演 AWS re:Invent 2019、Andy Jassy の基調講演 (12 月 3 日、火曜日) AWS CEO の Andy Jassy が、AWS のお客様、製品、サービスに関する洞察と最新ニュースを、変革に重点を置いてお話します。 AWS re:Invent 2019、Werner Vogels の基調講演 (12 月 5 日、木曜日) AWS VP および CTO の Werner Vogels が、ベールを取り払い、AWS Nitro、Firecracker、AWS Fargate、Amazon EBS の背後にある革新について説明します。 セッション レベル 200 – 入門 ARC213-R – マルチリージョン、アクティブ-アクティブアーキテクチャのアーキテクチャパターン (スライドデッキをダウンロード) グローバルビジネスでは、マルチリージョン、アクティブ/アクティブアーキテクチャを実装できるようにする必要性が高止まりしています。これには高度な考え方と注意が必要ですが、これはアプリとデータベースの設計に限ったことではなく、DNS、モニタリング、トラフィックシェーピングにもいえることです。アーキテクチャの複雑さは急速に増大する可能性があるため、複数の設計上のトレードオフを行う必要があります。このセッションでは、課題や、DynamoDB […]

Read More

Amazon RDS を PostgreSQLのメジャーバージョンとマイナーバージョンにアップグレードするためのベストプラクティス

 オープンソースの PostgreSQL は、頻繁に発生するバグ、セキュリティの問題、データ破損の問題の修正を含む新しいマイナーバージョンとメジャーバージョンをリリースすることがあります。一般的に、Amazon RDS は、新しいエンジンバージョンが利用できるようになってから 5 か月以内にサポートすることを目指しています。また、特定のバージョンがサポートされなくなった場合、RDS PostgreSQL インスタンスをアップグレードする必要があります。この場合、RDS は、データベースインスタンスのアップグレードを提案するメールを送信します。RDS コンソールまたは AWS CLI コマンド modify-db-instance を使用して、インスタンスをアップグレードできます。Auto Minor Version Upgrades を有効にすることで、インスタンスを適切なマイナーバージョンにアップグレードすることもできます。 RDS はアップグレードを管理しますが、一般的な問題、関連する手順、それにビジネスへの影響を最小限に抑えてアップグレードするためのベストプラクティスを把握しておく必要があります。この記事では、次のトピックを含む RDS PostgreSQL データベースエンジンのアップグレードについて説明します。 メジャーバージョンとマイナーバージョンのアップグレード中に起こること アップグレード中の一般的な問題 Auto Minor Version Upgrades 機能の理解 アップグレードの準備 メジャーバージョンとマイナーバージョンのアップグレード PostgreSQL 10 以降、たとえば 10 から 11 など、バージョン番号の最初の数字が増加することで、新しいメジャーバージョンにアップグレードしたことを示しています。2 番目の数字が、たとえば 10.4 から 10.9 に変わった場合、マイナーバージョンのアップグレードがあったことを示します。PostgreSQL 10 以前では、9.5 から 9.6 など 2 桁目の数字がメジャーバージョンを示し、9.6.5 から […]

Read More