Amazon Web Services ブログ

Category: Database

Amazon Redshift でデータの取り込みとレポートのパフォーマンスを最大化する

これは ZS のゲスト投稿です。ZS の言葉を借りると、「ZS は企業と緊密に連携して、製品とソリューションの開発および提供を支援し、顧客価値と企業成果を押し上げるプロフェッショナルサービス企業です。ZS は、テクノロジー、コンサルティング、分析、運用も併せて行い、クライアントの商業体験を改善することを目指しています」 ZS は、MicroStrategy ベースの BI アプリケーションのセットアップと運用に関わりました。これは、Amazon がホストするバックエンドアーキテクチャのデータウェアハウスとして Amazon Redshift から 700 GB のデータを供給するものです。ZS は、Amazon S3 バケットや FTP システムなどのさまざまなシステムのさまざまな製薬データベンダーから医療データをデータレイクに供給しました。一時的な Amazon EMR クラスターを使用してこのデータを処理し、消費をレポートするために Amazon S3 に保存しました。レポート固有のデータは、COPY コマンドを使用して Amazon Redshift に移動させ、MicroStrategy はそれを使用してフロントエンドダッシュボードを更新します。 ZS には、利用可能な Amazon Redshift インフラストラクチャに対応するための厳格なクライアント設定 SLA があります。利用可能な小さな Amazon Redshift クラスターを使用して、大量のデータを処理するアプローチを見出すための実験を行いました。 この記事では、S3 から Amazon Redshift に大量のデータを読み込み、効率的な分散技術を適用して、比較的小さな Amazon Redshift クラスターでクエリのレポートのパフォーマンスを向上させるためのアプローチを示します。 データ処理方法 ZS インフラストラクチャは […]

Read More

2019: Amazon DocumentDB (MongoDB 互換) の 1 年を振り返って

2019 年 1 月 9 日 の Amazon DocumentDB (MongoDB 互換) のリリースと共に、当社の 2019 年が幕を開けました。リリース当初から、当社では皆様からいただいたフィードバックを謙虚に受け止めています。2019 年は、サービスの可用性、規模、およびパフォーマンスの向上を継続すると共に、サービスに追加してほしい機能を元に、要望から逆向きに開発する時間を取りました。 以下は、2019 年のリリースをカテゴリ単位でアルファベット順に分類してから、リリースされた日付け順 (最新リリースが各カテゴリの最上部) に並べたものです。2019 年に起こった Amazon DocumentDB に関する出来事などを把握したり思い出したりする際に、こちらの記事をお役立てください。Amazon DocumentDB でローンチされた機能の中に、皆様がご存知ない機能が見つかるかもしれません。質問がございましたら @josephidziorek までお知らせください。 コンプライアンス Amazon DocumentDB は、最高のセキュリティ基準を満たし、当社のセキュリティ検証を簡単にして、独自の規制およびコンプライアンス義務を満たせるように設計されています。Amazon DocumentDB は、HIPAA 対応に加えて、PCI DSS、ISO 9001、27001、27017、27018、および SOC 1、2、3 に準拠しているという評価をいただいています。 5 月 22 日: Amazon DocumentDB (MongoDB 互換) が SOC 1、2、3 に準拠 この発表により、Amazon DocumentDB は SOC 1、2、3 に準拠したことになります。 12 […]

Read More

Amazon Redshift Spectrum を使用してネストされたデータ型を扱う

Redshift Spectrum は Amazon Redshift の機能で、Amazon S3 に保存されたデータを直接クエリでき、ネストされたデータ型をサポートします。この記事では、ネストされたデータ型からメリットが得られるユースケース、ネストされたデータ型で Amazon Redshift Spectrum を使用して優れたパフォーマンスとストレージ効率を達成する方法、およびネストされたデータ型のいくつかの制約について説明します。 この記事では、ダミーデータで生成されたデータセットを使用します。テーブルスキーマを表示できます。データセットを試したい場合、Redshift クラスターをデプロイし、そこで DDL を実行して、この記事のクエリ例を使用するか、独自のクエリを作成します。 データモデリング 多くのシナリオでは、データは階層で生成されます。たとえば、顧客がいくつかのアイテムを購入したとします。分析のために、ストレージを節約したりデータ処理を高速化したりするためのさまざまなデータモデリングアプローチがあります。ストレージ効率を達成するための一般的なアプローチの 1 つは、次元モデルです。 次のテーブルに、ダミーの顧客データを示します。 username name sex address mail birthdate 1 erin15 Sarah Newman F 795 Nancy Shoal Apt.684 Phillipschester, MI 01979 josephlyons@yahoo.com 2010/4/24 2 shepherdlisa Mark Lee M 754 Michelle Gateway Port Johnstad, ME 35695 guerrerotodd@hotmail.com 1932/11/10 […]

Read More

2019 年: Amazon DynamoDB の 1 年を振り返って

 Amazon DynamoDB にとって、2019 年も多忙な年でした。AWS では、信頼性、暗号化、速度、スケーリング、および柔軟性の観点から、当サービスでの皆さんのエクスペリエンスをこれまで以上に向上させることに焦点を当てた新しい更新機能をリリースしてきました。 以下は、2019 年のリリースをカテゴリ単位でアルファベット順に分類してから、リリースされた日付け順 (最新リリースが各カテゴリの最上部) に並べたものです。1 年間に及ぶサービスの変更を把握しておくのは困難だと思います。この便利な 1 ページの記事で、2019 年に DynamoDB で起こった事柄を確認、または思い出してください。ご質問等がございましたら、@DynamoDB までお問い合わせください。(注意: この記事は年末前に掲載されるので、2019 年の終わりまでに行われるローンチが他にもあれば、それらで記事を更新していく予定です。) アダプティブキャパシティー 11 月 15 日: 頻繁にアクセスされる項目を自動的に隔離することにより、Amazon DynamoDB アダプティブキャパシティーが不均衡なワークロードをより良く処理できるようになりました DynamoDB アダプティブキャパシティーは、頻繁にアクセスされる項目を自動的に隔離することによって不均衡なワークロードをより良く処理します。お使いのアプリケーションが、1 つ、または複数の項目に対して過度に高いトラフィックを実行する場合、DynamoDB はパーティション間のバランスを取り直し、頻繁にアクセスされる項目が同じパーティションに格納されないようにします。この最新の拡張機能は、ワークロードに対して中断のないパフォーマンスを維持するために役立ちます。 5 月 23 日: Amazon DynamoDB アダプティブキャパシティーが即時利用可能に DynamoDB は、変化し続けるアプリケーションのトラフィックパターンに対応して、アダプティブキャパシティーをリアルタイムで適用します。これにより、不均衡なワークロードにさえも中断のないパフォーマンスを無期限に維持できます。即時に利用できるアダプティブキャパシティーは、すべての DynamoDB テーブルおよびにグローバルセカンダリインデックスに対してデフォルトで有効になっており、追加の料金はかかりません。 バックアップと復元 11 月 13 日: Amazon DynamoDB のバックアップからのテーブルの復元時におけるテーブル設定の実行が可能に DynamoDB のバックアップからテーブルを復元するときに、テーブルの設定を行うことができます。具体的には、復元されたテーブルと共に作成されないように、ローカルおよびグローバルセカンダリインデックスの一部またはすべてを除外できます。請求モード、およびプロビジョニングされたキャパシティーの設定を変更することも可能です。 4 月 4 […]

Read More

Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 1

 このマルチポストシリーズのパート 1 では、プライマリおよび短期の Amazon Redshift クラスターの両方を使用して、スケーラブルな ETL (抽出、変換、ロード) と ELT (抽出、ロード、変換) データ処理パイプラインを構築するための設計のベストプラクティスについて説明します。また、Amazon Redshift Spectrum、Concurrency Scalingといった Amazon Redshift の主要な機能に関するユースケースや、最近開始したデータレイクエクスポートのサポートについても見ていきます。 このシリーズのパート 2、Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 2 では、ETL と ELT のユースケースで Amazon Redshift を使い始めるための手順を順を追って説明します。 ETL と ELT ソースシステムからデータウェアハウスにデータを移行する場合、一般的な設計パターンが 2 つあります。2 つのパターンの主な違いは、データ処理パイプライン内の変換が発生する点です。これにより、データの取り込みと変換に使用するツールのセット、データの分析に使用する基礎となるデータ構造、クエリ、最適化エンジンも決定されます。最初のパターンは ETL で、データをデータウェアハウスにロードする前に変換します。2 番目のパターンは ELT です。これは、データをデータウェアハウスにロードし、使い慣れた SQL セマンティクスと超並列処理 (MPP) アーキテクチャの能力を使用します。これにより、データウェアハウス内で変換を実行します。 次の最初の図は ETL です。この図では、Amazon […]

Read More

Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 2

 このマルチポストシリーズのパート 1、Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 1 では、Amazon Redshift Spectrum、同時実行スケーリング、および最近サポートされるようになったデータレイクエクスポートを使用して、データレイクアーキテクチャ用の ELT および ETL データ処理パイプラインを構築するための一般的なお客様のユースケースと設計のベストプラクティスについて説明しました。 この記事では、AWS サンプルデータセットを使用して、Amazon Redshift のいくつかの ETL および ELT デザインパターンのステップバイステップのチュートリアルで、使用を開始する方法を説明します。 前提条件 開始する前に、次の前提条件を満たしていることを確認してください。 この記事では、US-West-2 (オレゴン) リージョンから公開されている 2 つの AWS サンプルデータセットを使用します。テスト実行には US-West-2 (オレゴン) リージョンを使用して、クロスリージョンのネットワークレイテンシーとデータ移転によるコストを削減します。 同じリージョンに AWS アカウントがあること。 AWS アカウントに AdministratorAccess ポリシーが付与されていること (本番環境の場合、これをさらに制限する必要があります)。 データレイクに、Amazon Redshift からアンロードしたデータを保存するための eltblogpost という名前の既存の Amazon S3 バケットがあること。バケット名は AWS […]

Read More

IAM 認証を使用した Amazon RDS および Aurora PostgreSQL データベースアクセスの保護

AWS は 2 つのマネージド型 PostgreSQL オプションを提供しています。Amazon RDS for PostgreSQL と Amazon Aurora PostgreSQL です。どちらも、データベースへのアクセスを管理するための IAM 認証をサポートしています。データベースユーザーを IAM ユーザーとロールに関連付けて、1 つの場所からすべてのデータベースへのユーザーアクセスを管理できます。これにより、異なる RDS/Aurora インスタンスで権限が同期されないことによる問題を回避できます。 この記事では、IAM 認証を使用できる 2 つの一般的なシナリオについてご説明します。同じ AWS アカウントの Amazon EC2 でホストされているアプリケーションから RDS/Aurora データベースにアクセスする方法と、別のアカウントからアクセスする方法があります。また、これらのシナリオに関連するベストプラクティスについてもご説明します。 この記事では Aurora PostgreSQL 環境を使用していますが、このソリューションは RDS PostgreSQL でも機能します。クラスタープロビジョニングの一部として IAM 認証を有効にしたり、クラスター作成後に CLI またはコンソールを使用してクラスターを変更したりできます。IAM データベース認証は、PostgreSQL バージョン 9.6.9 および 10.4 以降で使用できます。 前提条件 開始する前に、以下の前提条件を満たしてください。 2 つの AWS アカウント […]

Read More

Amazon RDS を PostgreSQLのメジャーバージョンとマイナーバージョンにアップグレードするためのベストプラクティス

 オープンソースの PostgreSQL は、頻繁に発生するバグ、セキュリティの問題、データ破損の問題の修正を含む新しいマイナーバージョンとメジャーバージョンをリリースすることがあります。一般的に、Amazon RDS は、新しいエンジンバージョンが利用できるようになってから 5 か月以内にサポートすることを目指しています。また、特定のバージョンがサポートされなくなった場合、RDS PostgreSQL インスタンスをアップグレードする必要があります。この場合、RDS は、データベースインスタンスのアップグレードを提案するメールを送信します。RDS コンソールまたは AWS CLI コマンド modify-db-instance を使用して、インスタンスをアップグレードできます。Auto Minor Version Upgrades を有効にすることで、インスタンスを適切なマイナーバージョンにアップグレードすることもできます。 RDS はアップグレードを管理しますが、一般的な問題、関連する手順、それにビジネスへの影響を最小限に抑えてアップグレードするためのベストプラクティスを把握しておく必要があります。この記事では、次のトピックを含む RDS PostgreSQL データベースエンジンのアップグレードについて説明します。 メジャーバージョンとマイナーバージョンのアップグレード中に起こること アップグレード中の一般的な問題 Auto Minor Version Upgrades 機能の理解 アップグレードの準備 メジャーバージョンとマイナーバージョンのアップグレード PostgreSQL 10 以降、たとえば 10 から 11 など、バージョン番号の最初の数字が増加することで、新しいメジャーバージョンにアップグレードしたことを示しています。2 番目の数字が、たとえば 10.4 から 10.9 に変わった場合、マイナーバージョンのアップグレードがあったことを示します。PostgreSQL 10 以前では、9.5 から 9.6 など 2 桁目の数字がメジャーバージョンを示し、9.6.5 から […]

Read More

2019 年に最も閲覧された Amazon DynamoDB ドキュメントページのトップ 20

以下の 20 のページは、2019 年に最も閲覧された Amazon DynamoDB のドキュメントページです。このリストには、各ページの内容を説明するために、簡単な記述とそれぞれのリンクが含まれています。このリストを使用して、AWS の他のお客様が何を読んでいるかをご覧ください。前から知りたいと思っていたトピックに対する興味が湧くかもしれません。 クエリの操作 DynamoDB のクエリオペレーションは、プライマリキー値に基づいて項目を検索します。複合プライマリキー (パーティションキーおよびソートキー) がある任意のテーブルまたはセカンダリインデックスを照会することができます。 Amazon DynamoDB とは この DynamoDB についての簡単な紹介は、DynamoDB 開発者ガイドのウェルカムページとしても役立ちます。 DynamoDB ローカル (ダウンロード可能バージョン) のセットアップ ダウンロード可能なバージョンの DynamoDB によって、DynamoDB ウェブサービスにアクセスすることなくアプリケーションを記述してテストすることができます。本番用にアプリケーションをデプロイする準備が整うと、コードを若干変更するだけで DynamoDB ウェブサービスを使用できるようになります。 DynamoDB のベストプラクティス DynamoDB を使用する際に、パフォーマンスを最大化し、スループットコストを最小化するための推奨事項をすばやく見つけることができます。 DynamoDB での制限 特に指定のない限り、これらの現在の DynamoDB の制限 (または、場合によっては欠如) は、リージョンごとに適用されます。 クエリ KeyConditionExpression パラメータを使用して、パーティションキーに特定の値を指定します。クエリオペレーションは、そのパーティションキーの値を持つテーブルまたはインデックスからすべての項目を返します。 読み取り/書き込みキャパシティーモード DynamoDB には、テーブルの読み取りと書き込みを処理するために、オンデマンドとプロビジョンドの 2 つの読み取り/書き込みキャパシティーモードがあります。 DynamoDB コアコンポーネント DynamoDB で用いる主要なコンポーネントは、テーブル、項目、属性です。テーブルは項目の集合であり、それぞれの項目は属性の集合です。 DynamoDB の使用開始 […]

Read More

Amazon RDS for Oracle の Oracle GoldenGate を使用したリージョン間災害復旧機能の実装

多くの AWS ユーザーは、日々のアクティビティの骨の折れる作業に AWS ポートフォリオで利用できるマネージドサービスを活用しています。Amazon RDS はこれらのサービスの 1 つであり、リレーショナルデータベースのデプロイに最適です。RDS を使って、リレーショナルデータベースの管理と保守の管理費用を大幅に削減できます。 この記事では、あるリージョンから別のリージョンに実行されているデータベースインスタンスの Amazon RDS for Oracle でリージョン間の災害復旧 (DR) をセットアップする方法を示します。ソリューションは、Amazon EC2 インスタンスハブにインストールされた、Oracle GoldenGate を使用することです。そのインスタンスハブは、DDL レプリケーションを実行するために統合キャプチャモードで設定されたものです。 概要 次の要因に応じて、DR を実装する方法は複数あります。 目標復旧時間 (RTO) および目標復旧ポイント (RPO) DR サイトのセットアップと保守のコストと管理タスク 地理的多様性のための DR サイトの場所 Amazon RDS for Oracle は、マルチ AZ 配置オプションを提供し、データベース (DB) インスタンスの可用性と耐久性を強化しています。これは、多くの場合、一部の顧客ユースケースに効果的な DR ソリューションです。DR サイトを 2 つの異なるリージョンに分散する必要がある場合、DR にマルチ AZ を使用することはできません。ただし、前述の要因に応じて、このようなソリューションを実装する方法はいくつかあります。 ソリューションのアーキテクチャ ソリューションは、次のコンポーネントで構成されています。 GoldenGate […]

Read More