Amazon Web Services ブログ

【開催報告】Amazon Analytics 事例祭り – データウェアハウスマイグレーション

こんにちは。アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクトの平間です。

9月24日に、「Amazon Analytics 事例祭り – データウェアハウスマイグレーション」を開催いたしました。今回は既存のデータウェアハウス(DWH)環境から、AWSの高速かつ完全マネージド型のDWHであるAmazon Redshiftへ移行されたお客様に、移行の決め手や移行後の効果について「本音」でお話ししていただきました。セミナーは前半がAWSソリューションアーキテクトからAWSのデータレイク及びアナリティクスサービスの概要と、DWHの移行をどのように検討すればよいかの方法をお話させていただき、後半はお客様より移行時の体験談をお話しいただいております。

AWS クラウドで実現するモダンなデータウェアハウス [Slides]

大薗 純平
アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクト

大薗からは、AWSのデータレイクおよびアナリティクスサービスの概要と、その中におけるAmazon Redshiftの特長をご説明しました。
まず従来型のオンプレミスDWHが抱えている課題について概観し、クラウド上で多様なデータを一元的に保存するデータレイクの構築が、これからのデータ分析において重要であることをお話ししました。AWSクラウド上ではAmazon S3をデータレイクとすることで、用途に応じてAWSの様々なサービスを連携させてデータ分析を行うことができることをあわせて紹介しています。

そのAWS分析サービスの一つであるAmazon Redshiftは、多くのお客様に利用されているDWHであること、ハイパフォーマンスであり、かつ継続して速度改善や機能追加が行われ続けていること、データレイクとスムーズに連携するためのアーキテクチャ(Redshift Spectrum)を持っていること、そして高いコスト効果で安価にDWHを構築・運用できることを説明しました。

最後に、これからの分析プラットフォームはデータレイクを起点に考えるべきであること、そしてデータ分析には用途に応じた分析サービスを選んでデータレイクのデータを加工して行うことを確認して本セッションを締めくくりました。

データウェアハウスのAmazon Redshiftへの移行ガイド [Slides]

下佐粉 昭
アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクト

下佐粉からは、主にDWHをAmazon Redshiftへの移行計画を作成する際の検討ポイントについてご説明しました。

まず、これまでのDWHが増え続けるデータ量を処理するためにどのように進化してきたのかというDWHの歴史を紹介し、Amazon Redshiftがこれまでの進化を取り込んだDWHであることを紹介しました。次に、オンプレミス環境と連携してAWSクラウド上でDWHを構築し利用するまでは、プライベートネットワークを構築して既存環境と接続、Amazon S3へデータを保存して一括ロード、任意のBIツールで分析、という3ステップで可能となることをご説明しました。

セッション後半では、移行を検討する際のポイントについてご説明しました。ここで特に強調していたのはPoCの重要性です。クラウドの利点として、お試しの際のハードルが非常に低い点があります。机上の計算より実際に動かしてみるほうが正確であり、よって移行時のリスクを下げることができます。なお、PoC実施の際にはゴールを具体的に決めることが重要であることもあわせてご説明しました。

最後に、具体的な移行にあたって重要となるポイントや、移行を容易にする便利なツールの紹介を行って本セッションを締めくくりました。

DWH アプライアンスからAmazon Redshift へ ~PoCでわかったこと~ [Slides]

佐々木 哲哉 様
オルビス株式会社 ICT戦略部 ICTシステム開発グループ グループマネジャー

佐々木様からは、Amazon Redshiftの採用に至ったPoCについて、その実施観点から結果まで具体的なデータを交えてご講演いただきました。

スキンケア商品を主力商品としているオルビス様では、売上の半分以上をECサイトが占め、かつ約1/3がスマホ経由の売上構成となっていることから、スマホと親和性の高い事業体になっています。ECサイトの開設は1999年と非常に早く、業界で先駆的な取り組みをされております。

オルビス様の情報系システムは、かつてはセグメント抽出に特化した仕組みとなっており、非定型な分析を行う部門も一部に限られていました。しかし2012年より、1to1マーケティングの加速にともなって分析力を向上させるために、全社的にSASを導入し、あわせて分析スピードの向上を図ってDWHアプライアンスを導入されました。

直近では、データを中心としたマーケティングを強化してパーソナライズを進めていく必要があるとのことですが、そのためには機械学習などを活用し、これまでのような顧客の行動の「過去」を分析するのではなく、「未来」を予測する形へと変化していきたいと考えておられます。ただしそのためには増加するデータ量を圧倒的なスピードで処理することが要求されることと、社外のデータ/サービスとの連携を容易にする必要があったことから、クラウドである必要を感じ、Redshiftを検討しPoCを実施しました。

PoCの実施に際しては、評価軸として性能・移行性・業務継続性の3点を決め、検証内容を決めたうえで現行DWH/Redshift/他社クラウドDWHの3製品・サービスを比較検討されました。

性能検証では、単一クエリの速度を測る基本的な検証のほか、他のユーザーが高負荷な処理を実行している状況でクエリを実行した際の検証と、データロードの検証も実施されたそうです。その結果は、オンプレミス環境の現行DWHを大きく上回るパフォーマンスを得られることがわかったとのことでした。

次に、移行性の検証として既存のプログラムで修正が必要となる本数を検証されました。ここでは事前に机上で検証された結果との差異について取り上げられ、事前に想定していた修正箇所を削減できそうであることがわかった一方で、PoCを行うことで、当初の想定にはなかった修正箇所も発見できたとのことでした。また、使用することで移行を容易にすることができるかという観点から、AWS Schema Conversion Tool(SCT)AWS Snowballも検証され、その結果もご紹介いただきました。

最後に、PoCを実施して一番良かった点はPoCに取り組んだメンバーの習熟度が上がったこと、今後は機械学習を使った未来予測を行ってパーソナライズをより強化していきたい、という展望をお話しされてセッションを締めくくりました。

データ分析基盤のRedshiftへの移行と活用方法 [Slides]

佐藤 俊之 様
株式会社レコチョク 事業システム部 エンタープライズディストリビューショングループ

佐藤様からは、オンプレミス環境のGreenplumからRedshiftへ移行した経験と、移行後にWLM(ワークロード管理)やRedshift Spectrumなども用いて活用されている状況についてご講演いただきました。

レコチョク様は、デジタル音楽配信事業と音楽ソリューションサービスにおいて複数のサービスを展開されており、佐藤様いわく「音楽についてひたすら考えている会社」です。従来のオンプレミス環境のデータ分析基盤では、DWHとしてGreenplumを、またミッションクリティカルな別の集計システムでOracleを使用していたとのことでした。このため、2つのデータベース間で集計値が異なる、Oracleで使用しているマテリアライズド・ビューの管理負荷が大きい、などの問題を抱えていたそうです。

そのようななかで、レコチョク様のすべてのシステムをAWSへ全面移行することが決まり、DWH環境の移行先を検討することとなりました。この移行のタイミングで精査したバッチの本数は実に1,075本にのぼったそうです。検討の結果、Greenplumと同様にPostgreSQLに基づいていることからSQL移行の親和性が高いこと、またPoCによって性能が出ることを確認できたため、移行先のDWHにはRedshiftを選定したとのことでした。

移行時には、SQLの変換はルールに従って一括変換した一方で、ストアドプロシージャはユーザー定義関数に作り直し、データの取り込み処理やDDLは新規作成を行い、テストはオフショアを使っての実施など、移行時の状況をお話しいただきました。当時はまだAWS SCTなどの移行支援ツールがなく、Redshiftでストアドプロシージャがサポートされる前だったために、現在よりも移行の際に課題がありましたが、それを乗り越えられたというお話でした。そして移行が完了した結果として、パフォーマンスは移行前の4倍に改善、ストレージの使用量は4割削減されました。何よりオンプレミスデータベースの運用/保守業務から開放されたことが大きな変化だったそうです。

セッション後半では、Redshiftの活用方法についてご紹介いただきました。Redshiftでは1日に複数の処理が同時に実行されており、中には遅延すると障害扱いとなる重要なレポート作成処理などもあります。ここに月初に実行される月次集計処理が重なると、高負荷状態となりやすい状況がありました。これに対して、WLM機能を用いて分析/集計処理と取込処理とでリソースを分けることで処理遅延を防いだり、取込時に不正データがあっても処理が止まらない対策を取られたりなどの工夫についてご紹介いただきました。

また、日々増えていくデータ量がクラスタの上限に近づいてきたことと、先ほど挙げた月初の高負荷状態を解消するため、データをS3に退避した上でSpectrumを利用することを検討されました。利用するにあたっては、S3への定期的なデータ退避をすることによって運用負荷が増えないこと、既存のRedshiftテーブルと結合できること、直近データと過去データを結合してRedshift内部とS3との使い分けを意識することなく検索できること、そして同じS3上のデータを複数のクラスターで利用可能なこと、という4つの条件を決めた上で検証されたそうです。その結果、すべての点で問題がないことを確認できたため、Spectrum機能の活用が決まりました。導入後はこれまでから運用作業をほとんど増やすことなく、Redshift本体のデータを4.5TB削減することに成功したとのことでした。

最後に、Redshiftへの移行は難しくないこと、オンプレミスの運用から解放されたことを改めてお話され、本セッションを締めくくりました。

2000億件のゲームログと共に分析基盤を再構築 SEGAのマイグレーション事例 [Slides]

萬 和貴 様
株式会社セガゲームス エンタテインメントコンテンツ事業本部 第5事業部 戦略支援部

萬様からは厳しいスケジュールのなかで分析基盤のマイグレーションに成功されたお話と、運用後に構成の最適化を行うことによってコスト削減に成功した件についてご講演いただきました。

セガゲームス様では多くのモバイルゲームを運営されており、そのゲーム内でユーザーがアクションを起こすたびにログデータが記録され、蓄積されていきます。2012年から現在に至るまでのデータを、すべて削除せずに残す運用を行っており、そのデータ量は圧縮して保持しても数十TBにのぼる量となります。これらのデータは、従来は分析基盤であるオンプレミス環境のHadoopクラスタに保存され、それをImpalaでクエリして結果をBIツールで確認したり、一旦MySQLを経由してから社内システムにて利用されていました。

一方で、セガゲームス様のゲームタイトルではグローバル化が進み、レイテンシの問題でゲーム環境が国内サーバからパブリッククラウドへ、急速に移行していました。また社内インフラ環境の見直しで、Hadoopクラスタを配置していた拠点から撤収することが決まりました。そのため、このタイミングで分析基盤もオンプレミスの環境を捨てて、パブリッククラウドへマイグレーションすることを決意されたそうです。

しかし状況は厳しいものでした。拠点撤去までの猶予は10ヶ月しかなく、マイグレーションに割くことのできる工数も限られており、さらにパブリッククラウドの実務経験者が全くいない状態でした。そのようななかで開始したマイグレーションですが、まず10ヶ月の猶予のうちはじめの5ヶ月を、パブリッククラウドの選定期間に充てるというスケジュールを立てます。その理由は、パブリッククラウド未経験ということもあって、設計に登場したサービスをすべて実際に試すという方針を立てたためでした。特にデータレイクとクエリエンジンを重点的に検証したそうです。その結果、S3の使いやすさ、サービスが豊富、ドキュメントが充実している、そしてローコストだ、という点から移行先としてAWSを選定されたとお話しいただきました。

そこで社内稟議に上げますが、AWS経験豊富なIT部門からの指摘が入り一旦は却下されます。その後、指摘事項について追加検証をされ、RedshiftとAthenaを併用することでパフォーマンスの懸念点を解消できることを確認、めでたく稟議を通過されました。マイグレーションは大きなトラブルもなくリリースされ、その結果としてコストと運用人員を大きく削減することができたそうです。なにより、非インフラエンジニア&パブリッククラウド初心者でもマイグレーションできた、というのが大きな成果だったとのお話でした。

セッションの後半は、運用後にコスト削減に成功されたお話でした。運用開始後、AWSの運用コストの半分以上を占めていたのがRedshiftだったそうです。このRedshiftの料金のうち、削減できる可能性があるものとして注目されたのが、SpectrumがS3をスキャンする際にデータ量に応じてかかる料金と、S3へのGETリクエストの料金でした。Spectrumからスキャンしていたテーブルのうち、最もスキャン頻度の高いテーブルをRedshift内部へ移動することで、これらの費用を大幅に削減することができ、かつクエリレスポンスも改善されたということでした。

最後に、今回のような構成変更では、Redshiftの内部テーブルとSpectrumとでテーブル設計が異なることや、負荷がかかるワークロードが変わってくることなど、構成変更する際の注意点を挙げられて本セッションを締めくくりました。

DWHアプライアンス製品の移行プロジェクトの勘所
~現場で起きたこと、すべてお伝えします~ [Slides1] [Slides2]

加藤 雅之 様
株式会社ベイシア 流通技術研究所 クラウド推進部 CoEグループ マネジャー

荒井 祐一 様
NECソリューションイノベータ株式会社 関東・甲信越支社 第一ソリューション事業部

加藤様からは、DWHアプライアンス製品からRedshiftに移行した理由とそのプロジェクトの体験談を、そして現在活動されているCoE (Center of Excellence)活動についてご講演いただきました。また、移行プロジェクトにおいて技術的なポイントとなった事柄については、移行を担当された荒井様より詳細にお話ししていただきました。

ベイシア様では、グループ企業であるセーブオン様向けにオンプレミスのDWHアプライアンス製品を運用されておりました。しかし運用開始から6年が過ぎ、保守期限が迫っているにも関わらず保守延長が難しいことに加え、店舗がローソンに変更となることによって、数年後には不要となってしまうことが確定している状況でした。そのため早急に移行を検討することとなり、不要になった際にサーバを破棄できる効率性、DWHアプライアンス製品からの多数の移行実績、他のクラウドサービスと比較しても移行費用を含めて最も安価、という点を評価してRedshiftを選択されたそうです。

また、従来のシステムの課題として、分析処理が集中する月曜日の午前中や、分析処理とバッチ処理が同時に実行された場合に、処理が遅延するという問題がありました。この課題は、Redshiftへ移行した結果として性能が改善されることによって、解消することができたとのことでした。

移行プロジェクトについては、これまでオンプレミスでの経験しかないことから段取りが難しく、また社内の一部でクラウドに抵抗感のある方もいらっしゃったそうです。それに対しては、CoEが社内調整やネットワーク構築の主導、そしてリザーブドインスタンス購入についてのアドバイスを行い、多少のトラブルはあったものの、プロジェクトを完遂することができたとのことでした。

ここで一旦荒井様にバトンタッチされ、荒井様よりプロジェクトの技術的な詳細をお話しいただきました。荒井様からはRedshiftへの移行作業にあたってのポイントとして、Redshiftのサイジング、DWHアプライアンス製品からRedshiftへのDB移行の難易度、I/Fデータの連携とロード、BIツールの連携という4点を挙げられました。

まずサイジングでは、大きな決定要素であるストレージの容量については、事前に決められる指標などはないため、実際にFACTテーブルを使ってデータの圧縮率を確認した、とのことでした。次にDBの移行については、SQLの差異は少なく、細かいデータ型の差異に注意すればほぼ問題はないとのことでした。

3番目のデータロード部分についてが移行に際しての一番のポイントで、これまで使っていたコード変換が使えないことや、Redshiftの特性を生かしたロードを行うため、ジョブを全面改修する必要があったとのことでした。移行の際にはDB移行に焦点を置きがちですが、実際にはデータロードのシェルやジョブの見直しに時間を割くべきである、とのお話でした。

4番目のBIツールの連携については、今回はBIツールのバージョンが古く、RedshiftのJDBCドライバが使えないという事象があったそうです。既存環境が安定稼働している場合には、BIツールのバージョンが古いまま塩漬けされていることがあるため、移行時には注意すべきとのご指摘がありました。これらのポイントを確認するためにも、PoCは重要だと強調されておりました。

ここで加藤様に再度バトンタッチされ、後半はベイシア様のCoEについてご紹介いただきました。CoEの本格的な活動開始は2018年。それ以前にあったクラウド推進室では個別サポートが限界で、グループ全体を推進する組織の必要性を痛感していました。そこにトレーニングやre:Inventへ参加し、それを通じてCoEの必要性を理解した社長の後押しもあり、CoEを設立することができたそうです。CoEの組織には、社内調整がうまく行われるように部長にも入っていただいたとのことでした。

CoEの活動方針は、AWSを自分たちで使えるようになること、グループでのAWS活用環境を構築およびサポートすること、そして俊敏性を発揮してビジネス対応するということでした。ビジネスをいかにドライブさせるかがクラウド利用の本質だ、ということを忘れないようにする、というお話で本セッションを締めくくられました。

まとめ

今回は、既存のオンプレミスDWHからAmazon Redshiftへ移行したお客様より、貴重な生の体験談をお話しいただきました。Amazon Redshiftへの移行に興味を持っていただいたお客様、またRedshiftに限らず、AWSのサービスを利用することをご検討いただいているお客様がいらっしゃいましたら、無料で個別相談会を開催しておりますので、こちらのリンクからぜひお申し込みください。