Amazon Web Services ブログ

Category: Amazon Redshift

AWS Glue パーティションインデックスを使用したクエリパフォーマンスの向上

本記事はAmazon Web Services, Senior Big Data Architect である 関山 宜孝、Senior Software Development Engineerである Sachet Saurabh、Software Development Manager である Vikas Malik によって投稿されたものです。   クラウド上にデータレイクを作成する場合、データカタログは、メタデータを一元化し、ユーザーがデータを表示、検索、クエリ実行できるようにするために不可欠です。昨今の急激なデータ量増加に伴い、データレイクの価値を維持するためには、データレイアウトを最適化し、クラウドストレージ上のメタデータを維持することがより一層重要になっています。 パーティショニングは、さまざまな分析エンジンでデータを効率的にクエリ実行できるように、データ・レイアウトを最適化するための重要な手法として登場しました。データは、1 つ以上の列の個別の値に基づいて、階層ディレクトリ構造に編成されます。時間の経過とともに、数十万のパーティションがテーブルに追加され、その結果クエリが遅くなります。AWS Glue Data Catalog でカタログ化され、非常に多くのパーティションで構成されたテーブルのクエリ処理を高速化するために、 AWS Glue パーティションインデックスを利用できます。 パーティションインデックスは、 Amazon EMR、Amazon Redshift Spectrum、および AWS Glue の抽出、変換、ロード (ETL) ジョブ (Spark DataFrame) のクエリで使用できます。パーティションを多用した AWS Glue Data Catalog テーブルでパーティションインデックスが有効になっている場合、これらすべてのクエリエンジンが高速化されます。パーティションインデックスを新しいテーブルと既存のテーブルの両方に追加できます。この記事では、パーティションインデックスの使用方法について実演し、非常に多くのパーティションで構成されたデータを操作するときに、パーティションインデックスで得られる利点について説明します。

Read More

Amazon Redshift ML が一般公開されました — SQL を使用して機械学習モデルを作成し、データから予測を行う

Amazon Redshift では SQL を使用して、データウェアハウス、運用データベース、データレイク全体で、エクサバイトの構造化データと半構造化データをクエリし、組み合わせることができます。AQUA (Advanced Query Accelerator) の一般提供が開始されたので、追加コストやコードの変更なしで、クエリのパフォーマンスを最大で 10 倍向上させることができます。実際、Amazon Redshift は、他のクラウドデータウェアハウスよりも最大で 3 倍優れたコストパフォーマンスを提供します。 しかし、さらに一歩進んで、このデータを処理して機械学習 (ML) モデルをトレーニングし、ウェアハウス内のデータからのインサイト生成にこれらのモデルを使用したい場合は、どうしたらよいでしょうか。 たとえば、収益の予測、顧客のチャーン予測、異常の検出などのユースケースを実装するには? 以前なら、トレーニングデータを Amazon Redshift から Amazon Simple Storage Service (Amazon S3) バケットにエクスポートし、機械学習トレーニングプロセス (たとえば Amazon SageMaker を使用します) を設定してから、始めなければなりませんでした。このプロセスには、さまざまなスキルがいくつも必要で、完了するには何人も必要になります。もっと簡単にできないでしょうか。 現在、Amazon Redshift MLが一般公開されており、Amazon Redshift クラスターから直接、機械学習モデルを作成、トレーニング、デプロイすることができます。機械学習モデルを作成するには、シンプルな SQL クエリを使用して、モデルのトレーニングに使用するデータと、予測する出力値を指定します。たとえば、マーケティング活動の成功率を予測するモデルを作成するには、1 つ以上のテーブルで、顧客のプロフィールと、前回のマーケティングキャンペーンの結果を含む列を選択して入力を定義し、さらに予測を出力する列を定義します。この例では、顧客がキャンペーンに関心を示したかどうかを示す列が、出力列になります。 SQL コマンドを実行してモデルを作成すると、Redshift ML は指定されたデータを Amazon Redshift から S3 バケットに安全にエクスポートし、Amazon SageMaker Autopilot を呼び出してデータを準備します […]

Read More

OrthoFi社は、Amazon RedshiftとAWS Glueを使って、どのようにお客様に知見を提供したのか

本記事は、OrthoFi社のChrista Pierson氏とJon Fearer氏によって投稿されたものです。 OrthoFi社は、収益管理サイクル(RCM)における歯科矯正業界のリーダーであるとともに、全国で550件を越える歯科矯正診療所と連携し、歯科矯正医が多くの患者を受け入れられ、より効果的に事業が運営できるようなエンドツーエンドのプラットフォームを提供しています。これまで、OrthoFi社は、クライアントが50万人以上の患者に高品質かつ手頃な矯正歯科治療を支援しており、米国で最も急成長している民間企業としてInc.5000リストに3回選ばれました。 この記事では、OrthoFi社が、お客様により良い知見を提供するため、Amazon RedshiftとAWS Glueへどのようにマイグレーションしたのかを、お話していきたいと思います。

Read More

AQUA (Advanced Query Accelerator) – Amazon Redshift クエリをブースト

Amazon Redshift は、規模に関係なく、他のクラウドデータウェアハウスよりも最大 3 倍優れたコストパフォーマンスを提供します。これは、独自のハードウェアを設計し、機械学習 (ML) を使用することによって実現しています。 例えば、私たちは、2019 年の終わりに Amazon Redshift 向けの SSD ベースの RA3 をローンチしました (「Amazon Redshift Update – Next-Generation Compute Instances and Managed, Analytics-Optimized Storage」)。昨年 4 月 (「Amazon Redshift update – ra3.4xlarge Nodes」) と 12 月にノードサイズを追加しました (「Amazon Redshift Launches RA3.xlplus Nodes With Managed Storage」)。高帯域幅ネットワーキングに加えて、RA3 ノードには、洗練されたデータ管理モデルが組み込まれています。RA3 ノードのローンチでは、次のような記事を書きました。 各インスタンスには S3 でバックアップされた大容量の高性能 SSD ベースのストレージのキャッシュがあり、スケール、パフォーマンス、および耐久性を確保できます。ストレージシステムは、データブロックの温度、データのブロック、ワークロードパターンなどの複数のキューを使用して、キャッシュを管理して高性能を実現します。データは自動的に適切な階層に配置され、キャッシュやその他の最適化の恩恵を受けるために特別なことをする必要はありません。 多くのお客様が RA3 […]

Read More

【資料&動画公開】AWSで実践!ビジネスを変革するデータ活用ソリューション

2021年3月25日に「AWSで実践!ビジネスを変革するデータ活用ソリューション 」というイベントを実施しました。蓄積されたデータをこれから活用されようとお考えの方向けのセミナーで、特に「簡単に始めていただける」という点にフォーカスして、AWSのソリューションアーキテクトよりご説明しましたた。 今回このセミナーの資料や動画が公開になりましたので、以下で紹介します。

Read More
Media Seminar Q1 Analytics

2021Q1メディア企業向けAnalytics & AI/MLセミナー : 大阪リージョン/分析基盤

2021年3月18日にメディア業界のお客様向けにAnalytics & AI/MLをテーマとしたセミナーを開催いたしました。テレビ・動画配信・新聞・雑誌などのメディア企業では、デジタル変革の中でデータを活用する重要性が高まっています。本セミナーではメディア企業はいかにデータを活用し、新たなビジネスを展開していくかに焦点をあて、DMP (データマネジメントプラットフォーム) / CDP (カスタマーデータプラットフォーム)のメリットと活用事例についてご紹介させていただきました。

Read More

【開催報告】AWS re:Invent Recap Analytics 〜新サービスアップデート&クイックデモ〜

こんにちは。アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクトの平間です。 2021年1月29日に、2020年 AWS re:Invent Recapシリーズのひとつとして、分析サービスのRecapセミナーを開催いたしました。2020年 AWS re:Invent では、AWSの分析サービスに関して、新しいサービスおよび多くのアップデートが発表されました。本セッションでは、新しく発表されたサービスやアップデートを中心に共有させていただくとともに、お客さまの課題や問題をどのように解決できるのか、クイックデモを交えてご紹介させていただきました。

Read More

[AWS Black Belt Online Seminar] Amazon Redshift 運用管理 資料及び QA 公開

先日 (2021/01/27) 開催しました AWS Black Belt Online Seminar「Amazon Redshift 運用管理」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理 AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. redchift は S3 にある元データを変更しないことが保証されていますか? A. 明示的にオプションを指定しない限り保証されます。Amazon Redshift が S3 にデータを書き出す機能のうち、Amazon Redshift Spectrum を利用した書き出し機能であるCREATE EXTERNAL TABLE AS SELECT 文では、指定された S3 の場所が空ではないと操作が失敗します。Amazon Redshift Spectrum テーブルに対するINSERT文では、ファイル名が必ず一意となるように書き出されます。UNLOAD コマンドでは、明示的に ALLOWOVERWRITE オプションを付けない限り、ファイルを上書きする恐れがある場合には操作が失敗します。 Q. クエリエディタ経由での予期せぬデータ漏洩を防ぐため、本機能を無効化したいです。どのような設定を行えばよいでしょうか? A. クエリエディタそのものを無効にすることはできませんが、不要なユーザーには利用させない対応を取ることは可能です。IAM ポリシーの「AmazonRedshiftQueryEditor」および「AmazonRedshiftReadOnlyAccess」を利用するユーザーにアタッチすることでクエリエディタが利用可能になりますので、これらを付与しないことで、クエリエディタの利用ができなくなります。なお、拡張された […]

Read More

イノベーションを加速するSAP Beyond Infrastructureオファリング

5,000を超えるアクティブなお客様にAmazon Web Services (AWS)上でSAPシステムをご利用いただいており、AWSはSAPのワークロード向けのデファクト・クラウドプラットフォームとなっています。長年にわたり、お客様がミッションクリティカルなSAPアプリケーションにAWSを選択してきたのは、AWSのハイパフォーマンスでコスト効率の高いグローバルインフラストラクチャ、豊富な種類のSAP認定Amazon EC2インスタンス、業界や地域を問わずほぼすべてのSAP製品をサポートしてきた豊富な経験があるからです。これらのお客様の多くは、ビジネスプロセスをモダナイズし、新たな競争優位性を獲得するために、AWSをイノベーションのプラットフォームとして活用することに重点を置いてきました。Invista、Swire Coca-Cola、Royal FrieslandCampina、Bizzyなどのお客様は、AWSを活用してSAPソリューションの再構築をリードしています。より多くのお客様がイノベーションのゴールを成功に導くために、SAP Beyond Infrastructureと呼ばれる新しいカテゴリーのオファリングを作成しました。

Read More

【開催報告】Amazon Redshift事例祭り(ビジネス編)~Redshift Supports Our Business〜

こんにちは。アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクトの平間です。 2020年10月22日に、「Amazon Redshift事例祭り(ビジネス編)~Redshift Supports Our Business〜」を開催しました。Amazon Redshiftは、大量のデータを高速に分析できるクラウドDWHサービスです。Amazon Redshiftは、お客さまのビジネスをどのようにサポートしているのか、その裏側も含めて具体的で興味深い内容を、メディカル・データ・ビジョン株式会社の中村正樹様とシルバーエッグ・テクノロジー株式会社の柳内伸夫様からお話しいただきました。また、その他の海外事例や、ビジネスで活用する際に重要となってくるAmazon Redshiftのセキュリティについて、AWSよりご紹介させていただきました。

Read More