大塚「では、エンジニアのキャリアの観点で、どのような勉強をしていけばいいでしょうか ?」
下佐粉「Analytics 領域では次々に新しい技術やサービスが登場しています。そういった最新技術を勉強して使えるようにすることと、基礎・原則論を学習することの両方が大事です。」
大塚「最新技術と基礎・原則論のどちらから勉強していけばいいでしょうか ?」
下佐粉「どちらを重要視するかというと、まずは基礎・原則論の方を押さえていただくのがキャリアの観点で重要です。なぜかと言うと、最新技術はすぐに古びるからです。」
大塚「またまた深いぃ。」
下佐粉「例えば 6 年前に戻ったとして、Python が機会学習で最もポピュラーな言語になる事を正確に予測していた人がどれ位いたでしょうか ? もしかしたら R だったかもしれないですし、また他の言語が業界スタンダードになっていたかもしれません。何を言いたいかというと、自分の使う最新技術は廃れてあまり使われない技術になる可能性もあるということです。」
大塚「私、学生時代に結構 R 使っていました・・・。」
下佐粉「まあ、それを恐れて勉強しなかったり、使わなかったらどうしようもないので、勉強して使うんですけど。それと一緒に、やはり古くならない、基礎・原則論を学習することが重要です。例えば、機械学習で Python のライブラリを理解し、使いこなすことも重要ですが、機械学習がどのようなもので、その土台にある統計の考え方を学習することが重要です。なぜなら、基礎的な仕組み・原理の理解があれば、今後色々変わっていっても応用が利くからです。」
大塚「確かに、IT 技術に関わらず、スポーツなどでも基礎が大事で、それを押さえておかないとその後うまくいかないことも多いですからね。」
下佐粉「でも、基礎をしっかりと押さえるだけでもダメで、最新技術と基礎を両立しなければいけないという難しい話です。例えば、初学者でこれからデータウェアハウスの Amazon Redshift を使わなくてはいけなくなったエンジニアの方がいらっしゃったとします。データウェアハウスの基礎ということで、データベース概論と MPP (Massively Parallel Processing) の勉強に専念したら、Amazon Redshift 使えるようになるまでどれだけ時間かかるんだ、という話になりますから。」
大塚「初学者にとっては、データベース概論と MPP だけでお腹いっぱいになりそう。」
下佐粉「そんなことより、早く Amazon Redshift のトレーニング受けて使えるようになれ、というのもビジネス的にはもっともで、やっぱりバランスが大事ですね。」
大塚「今、初学者の方という話がでましたが、最近トレーニングを実施していると、これからデータ分析・活用に関わっていくという方が多くいらっしゃいます。これまでまったくデータ分析・活用に関わってこなかった方が、これからデータエンジニア・データサイエンティスト・データアナリストに転身して活躍していくことは可能でしょうか ?」
下佐粉「はい、可能だと思います。「学習 → 試す」というループが大切なのですが、例えば機械学習でもこれまでは学習・開発環境を作るのが大変でしたが、今でしたら 無料で使える Amazon SageMaker Studio Lab でボタン押せばすぐに Notebook が使えるので Python さえ書ければ誰でも機械学習を始めることができます。データの規模が大きくなっても、簡単に性能をあげて学習や分析ができるので、敷居はかなり下がっています。」
大塚「最初にお話しいただいた、敷居の話ですね。確かに、誰でもデータ活用ができるように、という話でしたので、初学者の方がこれから、という点でも一致しますね。」
下佐粉「これも先ほどお話しした点ですが、いきなりジャンプアップしなくても、インフラを担当してきた方が少しずつデータレイクの設計を学習・担当していくとか、ずっとデータウェアハウスを運用してきた方がデータウェアハウスに格納されているデータを使って機械学習に手を出してみるとか。」
大塚「これまでの担当・仕事から少し横に手を出してみるところから始めるということですね。」
下佐粉「はい。その際「学習 → 試す」というループが重要です。学んだことを手を動かして試す、というのがとてつもなく重要ですが、AWS をご利用いただくと簡単にできますよね。トレーニングやフリーのハンズオントレーニングも Web にたくさんありますので。」
大塚「AWS のサービスによって、データ分析・活用の敷居が下がるというお話に関連しますが、データ活用に関わるロールで、データエンジニア、データサイエンティスト、データアナリストといった分類分けがよくされますよね。データエンジニアはデータ分析基盤・インフラ部分を担当するロールですが、そこは AWS がサービスとして提供するものが多いので、だんだんデータサイエンティスト、データアナリストという少し横のロールに手を出して、「学習 → 試す」というループを回しながら勉強していくということが必要になりますか ?」
下佐粉「データエンジニアが今後何をやっていくか、というのは実は大きな関心ごとです。アナリティクスまでやるとそれはデータアナリストなんですよ。データアナリスト・データサイエンティストもできるデータエンジニアというポジションもありですが、データ管理の領域を深く詰めていくというのもありです。」
大塚「なるほど、横に手を出すのではなく、縦に深めていくんですね。」
下佐粉「インフラの準備は AWS がやってくれるので、どうやってデータアナリスト・データサイエンティストの方々が使いやすいデータを準備できるかということを突き詰めるんです。例えば、ビジネスデータが結合できる状態で揃っているとか、セキュリティレベルがしっかりと分かれていて、データの活用方法がルールを含めて統制がとれている状態にする。こういった統制がとれていないと、データアナリスト・データサイエンティストの方々が安心してデータを利用できません。分析基盤の構築・運用ではなく、現場で使いやすいデータの統制を実現していくのが、今後データエンジニアにとっての重要な仕事になっていくと思います。」
大塚「たしかに、重要な仕事ですね。」
下佐粉「そうなってくると、IT 技術だけではなく、データに対する統制の考え方とドメイン知識、つまり、この業界としてどのようなデータがあって、何に使えるかを知っていることが重要です。」
大塚「AWS Lake Formation というサービスを使うと統制が取りやすくなるので、データエンジニアを支えるサービスになりそうですね。」
下佐粉「統制という意味で AWS Lake Formation は便利ですね。その上で、どのようにデータを分けるのか、タグ付けをするのか、匿名化、どのデータを組み合わせればいいのか、といったところをエンジニアが使いこなすか、というところが大事です。」
大塚「具体的にお客様のご支援をされている中で、データ統制で難しい点やポイントはありますか ?」
下佐粉「例えばよくあるのは、個人情報をどうするのか。あとは、お客様がコングロマリットで、同じ会社でも業種ごとに分かれているときに、他の部署にこのデータ見せてもいいのか、といった組織の壁がある場合もありますね。」
大塚「データエンジニアの方がこれからどのように勉強を進めていけばいいかという話はお伺いできましたが、データサイエンティストやデータアナリストはいかがでしょう ?」
下佐粉「こちらも先ほどの話と似ていますが、自分の専門領域から少しずつ近接領域に知見を広げていっていただくのがよさそうに思います。ザックリですが、「(データソース) → 蓄積 (データレイク設計) → 加工 (前処理) → データウェアハウス&BI → 機械学習」 の順でデータ活用は繋がっているので、自分の担当しているところの前後に手を伸ばすとか。一方で、-つの領域だけでも十分深みはあるので、深めていくのも良いと思います。」
大塚「下佐粉さんご本人はどのように専門領域から広げてこられたのでしょうか ?」
下佐粉「キャリアのところでお話ししたとおり、最初はネットワークのプログラマーでした。当時、若い人は何でもやっておけ、という雰囲気で、たまたまリレーショナルデータベースを触るようになり、データベース自体、そしてSQLも勉強しました。それからデータベースのエンジニアになりましたが、データベース製品の周辺サービスも扱うようになり、だんだんデータウェアハウスや BI にも膨らんできたので、そこでも勉強しました。AWS に移ってからも Amazon Redshift の技術支援や Amazon QuickSight の立ち上げなどを担当していたのですが、徐々にデータレイクがバズワードでなくなってきた頃に、ちょうど担当していたお客様でデータレイク構築の話がありました。データレイクも資料を漁って勉強して、体系立てて捉えられるようになると、データレイクはデータ活用における考え方の基礎になり、普及していくという確信が持てたので、それからはデータレイク、データレイクと言い続ける感じになっています。」