Amazon Web Services ブログ

研究データ管理基盤でのAmazon S3の活用

学術研究機関においては研究不正対策なども含め、研究データや関連資料の長期保存が必要となってきています。日本学術会議から公開された文章においても論文の実験データ等の資料は原則論文発表後10年保存することが必要であるとされています。 研究データや関連資料の保存のための基盤は多くの機関で必要となりますが、その際に考えるべきことは何でしょうか? 様々なことを考える必要はありますが、例えば、 メンバー管理・アクセスコントロール ファイル等のバージョン管理 研究証跡の記録 ファイル保管 高い耐久性でかつ大容量のストレージ 長期保管 のようなことを考える必要があるでしょう。 この1〜4の部分に関しては 米国NPOである Center for Open Science  (COS)のOpen Science Framework  (OSF) など研究データ管理用のオープンソースソフトウェア等の開発が進み、国内でも国立情報学研究所などがこれらをGakuNinRDMとしてカスタマイズして提供するなど、研究データ管理基盤の利用が開始されはじめています。 研究データ管理基盤としてこのようなソフトウェア等を利用していくためには、ストレージについて考えておく必要があります。研究データは年々増える一方ですので、各機関にてストレージを確保しておく必要があります。その際に前述の5〜6についても考える必要があります。 まず高い耐久性を持つためにには、オブジェクトのコピーを複数分散して配置するなどして耐久性を高める必要があります。ストレージの容量ですが、実際に研究を進めてみなければ必要な容量が分かってきません。急激に研究が進み、保存すべきデータが急増することもあるでしょう。あまりに大きく容量を見積もりすぎてしまうと、実際にはそこまで使用しなかった場合にその分のコストが無駄になってしまいます。また長期保存の場合、サービスの永続性が重要になってきます。論文を公開してから10年ということは、論文を発表し続ける研究者にとって、常にそこから10年ということになり、永続的にストレージを確保し続けて行く必要があることを意味します(図1)。 図1 研究が継続している場合のデータ保管期間 ストレージをオンプレミスで確保しようと考えた場合、データの耐久性を確保するために、複数拠点に冗長化されたストレージを用意する必要が出てきます。運用中はディスク等の故障時の交換やハードウェアの保守期限に合わせて後継となる機器の調達、またそれに伴うデータをコピーの手間も発生します。またオンプレミスで用意する多くの場合、最初にストレージ容量を決めておかなくてはならないため、過剰な容量を確保する傾向にもなってしまいコストが増大します。 現在、SINET5とAWSはInternet Exchange(IX)でピアリングもしているため※1、各機関からAWS上に構築されているシステムへアクセスするとSINET5の出口であるIXから直接AWS入る形となり、いわゆる一般に言うインターネットには出て行くことなく通信が可能となります。 また機関で用意されるストレージ はAmazon S3※2を利用頂くことで、標準で耐久性の高いストレージを利用でき、使用した分だけの支払いとなるため、スモールスタートが可能で、研究データや関連資料の量など将来を見積もり事が難しいものを長期間保管するのに適しており、前述の5〜6に対処することができると考えられます。 さまなざな機関や組織においてクラウドを利用する機会が増えています。利用形態もいくつか選択肢があり、AWSに直接サインアップしてご利用いただくケースやAPNパートナーの請求代行サービスを利用しアカウント管理と日本円での支払いを選択いただくことも可能です。各機関に合わせた幅広い選択肢があります。一方で入札による一括でしか調達できないような場合には、単価契約での調達や、図2のように例えば「Amazon S3で月あたりの積み上げで総計T[GB]のストレージをNヶ月以上利用出来、月あたり最大M[GB]以上利用できる環境を提供すること」などとして調達することが考えられます。このようにすることで、オンプレミスのように最初から最大の容量を調達することなく、徐々に増えていくストレージを調達することが可能であると考えられます。この際機関側と契約する企業間で総計容量の上限に達した場合にどのような扱いとするのかをあらかじめ決めておくことも重要です。 図2 時間軸とストレージの容量 他方、法令やデータの置き場所を気にされるお客様もいらっしゃいますが、お客様自身でAWS カスタマーアグリーメントの準拠法を日本法に変更し、更に、同契約に関するあらゆる紛争に関する第一審裁判所を東京地方裁判所に変更※3することができます。AWS ではコンテンツの所有権と管理権をお客様にお渡ししていますので、例えば東京リージョンを選択し、そこにデータを置いている場合はデータは日本国内に留まります。詳しくはAWSのデータプライバシー※4をお読みください。 まとめ 研究データ保管のための基盤としてが研究データ管理用のオープンソースソフトウェア等の開発がすすんでいます 研究データを置くための機関側ストレージとしてAmazon S3を利用頂くことができます Amazon S3は標準で耐久性が高く、使用した分だけの課金となるため、スモールスタートが可能で、研究データや関連資料の長期保存にも向いています   ※1  Amazon Web Services ブログ「学術研究機関でのSINET5を経由したAWSの利用」: https://aws.amazon.com/jp/blogs/news/sinet5-aws-explain/ ※2  Amazon Simple Storage Service (Amazon […]

Read More

[AWS Black Belt Online Seminar] AWS Serverless Application Model 資料及び QA 公開

先日 (2019/08/14) 開催しました AWS Black Belt Online Seminar「AWS Serverless Application Model」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。   20190814 AWS Black Belt Online Seminar AWS Serverless Application Model   AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. AWS SAM CLI 自体を Docker コンテナの中で実行することは可能でしょうか? A. Docker コンテナの中で実行することも可能です。ただし、Lambda 関数のローカル実行や、コンテナを利用したビルドを行う場合、コンテナの中でコンテナを起動する形になるため、たとえば docker コマンドの実行時に privileged フラグを付与するといった、いわゆる docker in docker の構成でコンテナを起動するための手続きは必要になりますので、ご留意いただければと思います。 Q. 自動で生成されるLambdaの単体テストはどのように実施できるのでしょうか? A. SAM CLI の sam init コマンドにより自動生成される […]

Read More

8 月29日(木)にAWSome Day Online Conferenceを開催いたします

こんにちは! AWS Webinarチームより、来週8月29日(木)の15時から開催いたします「AWSome Day Online Conference」をご案内させていただきます。 日程:8月29日(木) 時間:15:00-17:30終了予定 視聴方法はこちらからお申込みください。 AWSome Dayとは? 「AWSome Day」は、AWS クラウドジャーニーのはじめの一歩として、AWS に関する基礎知識を 1 日で体系的に学ぶ無償のトレーニングイベントです。AWS テクニカルインストラクターが主導するセッションを通じて、コンピューティング、ストレージ、データベース、ネットワークといった AWS の主要なサービスを段階的に学ぶことができます。また、AWSに関わる方への基礎知識として、請求、アカウントマネジメント、料金モデル等、実際の導入に向けた内容となっております。技術的な面だけではなく、これから AWS クラウドを学ぶために必要となる知識を身に付けたい方、エンジニアのみならず、営業職、プリセールス職、学生まで幅広い方々におすすめします。 「AWSome Day Online」は、AWS クラウドジャーニーのはじめの一歩として、AWS に関する基礎知識を実際に足を運んでいただく 1 日の AWSome Day の内容を 2.5 時間に凝縮し、ポイントを押さえて紹介いたします。短時間で、場所を選ばずに学習したい方はぜひ、ご活用ください! AWS Webinarチーム

Read More

Amazon DynamoDB へのリファクタリング

リレーショナルデータベースから NoSQL への移行を考えていますか? 以下の記事では、Amazon EC2 インスタンスから Amazon DynamoDB への SQL Server データの読み取り、変換、書き込みについて詳しく説明します。AWS Glue を使用して、DynamoDB で複数のテーブルのソースデータモデルを 2 つのターゲットテーブルに変換します。 AWS Glue の代わりに、AWS DMS や AWS Marketplace ツールなど、データモデル変換のためのその他のオプションがあります。この 1 回限りの移行では、複数のテーブルを 1 つに変換するために AWS Glue および Scala コードを選択しました。 概要 このデモでは、商用リレーショナルデータベースをリファクタリングする方法を示します。選択したデータベースは、スポーツイベントのチケットを生成および販売します。データベースを DynamoDB にリファクタリングするためのベストプラクティスと、DynamoDB テーブルを設定し、AWS Glue を使用してデータを転送する方法を説明します。また、VPC エンドポイントと AWS Glue のセキュアな IAM ロールを設定する方法、ソースデータベースをクロールし、Apache Spark ETL ジョブを実行する方法も示します。 すぐに開始するには、DynamoDB リポジトリへのリファクタリングのコードにアクセスしてください。 問題と提案される解決策 環境内で AWS […]

Read More

Amazon DocumentDB を使って AWS Lambda ベースのアプリケーションを実行する

スケーラブルなアプリケーションを構築するときは、マイクロサービスベースのアプリケーションアーキテクチャを使うのが標準となっています。AWS が提供する Amazon DocumentDB (MongoDB 互換) を利用すると、こうしたタイプのアプリケーションの作成がこれまでよりもさらに容易になります。MongoDB のワークロードをサポートしている、この高速でスケーラブル、かつ可用性に優れたフルマネージド型のドキュメントデータベースサービスでは、ご自分のコードを用いてアプリケーションをデプロイするだけです。 Amazon DocumentDB でのワークロードの実行、管理、スケーリングには、現在使用している MongoDB 向けのアプリケーションコード、ドライバー、ツールをそのまま使用できます。これにより、基盤となるインフラストラクチャの管理に煩わされることなく、向上したパフォーマンス、スケーラビリティ、アベイラビリティを活用できます。 この記事では、2019 年 4 月 26 日の映画「アベンジャーズ/エンドゲーム」公開時に主要なイベントや観客の反応を確認するアプリケーションをどう構築するか、その方法について解説します。AWS Lambda アプリケーションを設定および接続し、Amazon DocumentDB にクエリを実行する際のベストプラクティスを学べます。AWS Secrets Manager と Amazon API Gateway も使用します。 概要 買い物サイトやオンラインパブリケーションは、コンテンツやカタログの管理システムに依存しながら顧客にサービスを提供しています。こうしたシステムは、ユーザーレビュー、画像、評価、製品情報、コメントに迅速かつ確実にアクセスできる必要があります。Amazon DocumentDB が提供している柔軟なドキュメントモデル、データタイプ、インデックス作成、そして、強力かつ複雑なクエリを実行できる能力は、すばやく直感的な、コンテンツの保存や発見を可能にします。 この記事のユースケースでは、Global Database of Events, Language and Tone (GDELT) の公開されているデータセットをサンプルとして使用します。GDELT Project は、「世界中のあらゆる国のほぼ全地域における、100 を超える言語の放送、出版、ウェブニュースを監視し、人、場所、組織、テーマ、情報源、反応、回数、引用、画像、イベントを特定しています」 アプリケーションの構築には、次の AWS のサービスを使用します。 Lambda – サーバーをプロビジョンまたは管理しなくても、コードの実行を可能にするサービスです。料金は、コンピューティング使用時間に対してのみ発生します。コードが実行されていなければ無料です。 API Gateway – […]

Read More

MIMIC-III データと Amazon Athena を使用して、データベースなしでバイオメディカルインフォマティクスを実行

バイオメディカル研究者は、正確で詳細なデータにアクセスする必要があります。MIT MIMIC-III データセットは人気のあるリソースです。Amazon Athena を使用すると、最初にデータをデータベースにロードすることなく、MIMIC-III に対して標準 SQL クエリを実行できます。分析は常に MIMIC-III データセットの最新バージョンを参照します。 この投稿では、Athena で MIMIC-III データセットを使用可能にし、AWS の MIMIC-III 分析環境への自動アクセスを提供する方法について説明します。また、従来のデータベースを使用した MIMIC-III リファレンスバイオインフォマティクス研究と、Athena を使用した同じ研究を比較します。 概要 長期にわたって多くの患者のさまざまな測定値をキャプチャするデータセットは、研究の発見と改善された臨床的判断に分析と機械学習を用いて推進できます。これらの機能は、MIT 計算生物学研究所 (LCP) MIMIC-III データセットについて記述しています。LCP 研究者の発言: 「MIMIC-III は、2001 年から 2012 年にかけてベスイスラエルメディカルセンターの救命治療室に入院した患者約 6 万人の匿名化された健康関連データを含む、大規模な公開データベースです。MIMIC は、疫学、臨床的判断ルールの改善、電子ツールの開発に及ぶさまざまな分析研究をサポートしています。中でも 3 つの要因に注目したいと思います。まず、公開的かつ自由に利用可能で、ICU 患者の多様で大規模な集団を含みます。そして実験結果、電子文書、ベッドサイドモニターの傾向と波形を含む高時間解像度データを包含します」

Read More

IoTソリューションにおける10のゴールデンルール

Internet of Things(IoT)ソリューションは、さまざまな業界や用途で業務と顧客体験を変革するのに役立ちます。その無限の機会は興奮をもたらしますが、セキュリティ、リスク、プライバシーの懸念も持っています。顧客、デバイス、および企業を保護するには、すべてのIoTソリューションがセキュリティで始まり、セキュリティで終わる必要があります。最高のIoTセキュリティソリューションは、エッジからクラウドまでの多層保護を提供し、IoTデバイス、接続、およびデータを保護します。理想的には、独自の要件と制約に合わせたIoTソリューションのすべてのビルディングブロックについて、セキュリティプラクティスでパブリックに知られている再利用可能なリストに依存することができます。ただし、実際には、セキュリティルールをガイドとして使用して、セキュリティ戦略の少なくとも一部を自分で計画する必要があります。設計と実装から継続的な運用と管理まで、ビジネスとIoTエコシステムの保護に役立つ次のベストプラクティスをまとめました。高レベルの推奨事項のリストも各ルールに従います。これらの推奨事項は完全なリストではなく、各ルールの背景にある基本概念を明確にするものになります。

Read More

AWS が支えた Amazon プライムデー 2019

プライムデーに何を買いましたか? 私は、34 インチ Alienware Gaming Monitor を購入し、過去 6 年間よく役立ってくれた 25 インチのモニターのペアと交換しました。   過去何年もやってきたように、AWS がお客様のためにプライムデーを実現させた多くの方法のいくつかを共有したいと考えています。How AWS Powered Amazon’s Biggest Day Ever と Prime Day 2017 – Powered by AWS を読んで、それぞれのプライムデーの結果を評価する方法の詳細、その結果を利用して当社がシステムとプロセスの改善をどのように推進しているかを学んでください。 今年は、プライムデーで AWS が記録的な量のトラフィックと販売をサポートするのに役立った 3 つの方法 (Amazon Prime Video Infrastructure、AWS Database Infrastructure、Amazon Compute Infrastructure) に焦点を当てたいと考えています。それぞれを詳しく見ていきましょう… Amazon Prime Video Infrastructure Amazon プライムのメンバーは、2019 年 7 月 10 日に 2 […]

Read More

Amazon EC2 Windows と Amazon Linux 2 インスタンス間で Always On 可用性グループをデプロイする

Microsoft SQL Server 2017 は、Windows と Linux 間の Always On 可用性グループをサポートして、高可用性 (HA) なしで読み取りスケールのワークロードを作成します。残念ながら、そのクロスプラットフォーム設定を管理できるクラスター化されたソリューションがないため、Windows と Linux の間で HA を実現することはできません。 Always On 可用性グループで HA を使用するには、Windows Server Failover Cluster (WSFC) または Pacemaker on Linux の使用を検討してください。このソリューションは、SQL Server on Windows から Linux へ、そしてその逆への移行パス、または手動フェイルオーバーを使用した災害復旧に適しています。 前提条件 開始する前に、以下がインストールされていることを確認してください。 Windows Server 2012 R2 または 2016 と SQL Server 2017 Enterprise Edition SQL Server 2017 […]

Read More

AWS Lake Formation でメタデータを見つける: パート 2

データレイクは、構造化データおよび非構造化データの両方を集計、保存、分析する方法としてますます定評が高まっています。AWS Lake Formation を使用すると、データレイクの設定、セキュリティ保護、管理が簡単になります。 このシリーズのパート 1 では、Lake Formation を使用してデータレイクを作成および探索する方法を学びました。この投稿では、コンソールにある Lake Formation のメタデータ検索機能を使ってのデータ検出、さらに列のアクセス許可が制限するメタデータ検索結果について説明します。 前提条件 この記事では、以下が必要です。 AWS アカウント。 Amazon S3、AWS Glue、AWS Lake Formation にアクセスできる AWS Identity and Access Management (IAM) ユーザー。 コンソールでのメタデータ検索 この投稿では、Lake Formation コンソールが提供するカタログ検索機能のデモを行います。 分類による検索 キーワードによる検索 タグによる検索: 属性 複数の フィルター検索 分類による検索 メタデータカタログ検索機能を使用して、データレイク内のすべてのテーブルを検索します。2 つは名前 amazon_reviews を共有しますが、シミュレートされた「prod」と「test」データベースに別々に属します。3 つ目は trip-data です。 Lake Formation コンソールの [Data catalog] で、[Tables] をクリックします。 検索バーの […]

Read More