Amazon Web Services ブログ

AWS DataSync を使用してネットワークファイル共有を Amazon WorkDocs に移行する

 今日、多くの AWS のお客様は、Amazon WorkDocs を使用して、料金が高額なネットワークファイル共有を廃止し、コンテンツをクラウドに移動しています。WorkDocs の従量課金制の料金では、お客様は、WorkDocs サイトのアクティブなユーザーアカウントに対してのみ支払います。WorkDocs は安全なクラウドストレージを提供するだけでなく、ユーザーが他の内部および外部ユーザーとコンテンツを簡単に共有できるようにします。さらに、Amazon WorkDocs Drive を使用すると、ローカルのディスク容量を消費することなく、Windows ファイルエクスプローラー、Mac Finder、またはAmazon WorkSpaces からコンテンツを直接立ち上げることができます。これにより、ユーザーのフリクションが最小限に抑えられ、クラウドベースのファイル共有を採用するための学習曲線が短縮されます。 オンプレミスのネットワークファイルシステム (NFS) またはサーバーメッセージブロック (SMB) のファイル共有から WorkDocs に移行するお客様は、通常、AWS DataSync と Amazon S3 を使用してこの移行を実現します。DataSync は、NFS または SMB サーバーから AWS クラウドストレージサービスに大量のデータを迅速かつ効率的に移動するように設計されたオンラインデータ転送サービスです。たとえば、データが S3 に格納されると、Amazon WorkDocs Migration Service を使用して、Amazon S3 バケットから、ユーザー用に指定された WorkDocs サイトにコンテンツを移行します。 このブログ投稿では、オンプレミスの NFS または SMB ファイル共有から WorkDocs に移行するための推奨手順について説明します。プロセスは次のステップで構成されています。 ステップ 1: オンプレミスから Amazon […]

Read More

AWS CLI を使用した既存の Amazon S3 オブジェクトの暗号化

 業界のプロトコル、政府の規制、組織内部のセキュリティ標準が変化する中、保存データの暗号化がますます必要とされています。暗号化は、不正アクセスやその他のセキュリティリスクから保存データを保護するためのものです。 Amazon S3 のデフォルトの暗号化を使用しても、バケット内の新しいオブジェクトを自動で暗号化できます。しかし、デフォルトの暗号化では、同じバケット内の既存のオブジェクトの暗号は変更されません。暗号化が必要な既存のオブジェクトが Amazon S3 バケットにある場合や、使用しているサーバー側の暗号化 (SSE) 設定を変更したい場合があります。S3 バケット内の既存のオブジェクトを暗号化する最も簡単な方法について、お客様から質問されることがよくあります。 この投稿では、コピーオブジェクト API を使用する際に考慮すべき重要事項について説明します。次に、AWS コマンドラインインターフェイス (AWS CLI) を使用して、データを安全に保つためにバケット内の既存のオブジェクトを暗号化する例をご紹介します。さらに、プレフィックスまたはバケット内のすべての S3 オブジェクトを暗号化する例も示します。最後に、コピーと暗号化に関する一般的な質問について回答します。 前提条件 この投稿で説明しているコマンドを実行するには、次のものが必要です。 AWS アカウント 少なくとも 1 つの Amazon S3 バケット AWS CLI 知っておくべきこと 重要なことから先に言っておきます。慎重に作業を進めてください。 SSE を使って既存のオブジェクトを暗号化するため、オブジェクトを置き換えます。既存のオブジェクトを適切に暗号化するには、コピーオブジェクトまたはコピーパート API を使用できます。これで、同じ名前のオブジェクトをコピーし、サーバー側で暗号化することでオブジェクトデータを暗号化します。コピーオブジェクト API を使用する前に、次の点を考慮してください。 LastModified タイムスタンプは、コピーのタイムスタンプに変更されます。オブジェクトのタイムスタンプに依存するアプリケーションは、元のアップロードのタイムスタンプではなく、コピーのタイムスタンプを参照するようになりました。たとえば、S3 ライフサイクルは新しいオブジェクトの日付を使用します。 S3 イベント通知は PUT または COPY イベントで有効にでき、既存のオブジェクトをコピーして暗号化するとトリガーされます。たとえば、Lambda 関数がもう一度トリガーされることがあります。 S3 クロスリージョンレプリケーション (CRR) は、オブジェクトの新しいバージョンをレプリケーションします。 次のいずれかを使用している場合、メタデータのレプリケーションの利用を検討してください。 […]

Read More

Microsoft Azure AD シングルサインオンで Amazon Redshift アクセスをフェデレーションする

 最近、当社は、Azure AD を企業ディレクトリとして使用して、Amazon Redshift にデータウェアハウスを構築している大企業のお客様を支援しました。データウェアハウスのユーザーが企業の認証情報を使用して Redshift でデータをクエリできるようにすることが要件となっていました。これにより、ユーザーは企業の認証情報を利用でき、追加のパスワードを覚える必要がなくなるので、ユーザーエクスペリエンスが向上します。また、すべての企業ユーザーが 1 か所で管理されるため、メンテナンスが容易になります。ソリューションは、Redshift への Azure AD フェデレーションアクセスをセットアップすることでした。 フェデレーションを使用して、Amazon Redshift へのアクセスを集中管理できます。これにより、一元的なロケーションでユーザーアクセスを制御できるようになり、データベースユーザーの作成と保守のオーバーヘッドが削減されるため、管理が簡素化されます。Active Directory Federation Service (ADFS)、PingFederate、Okta に加えて、Amazon Redshift は Microsoft Azure Active Directory (Azure AD) フェデレーションもサポートしています。 Amazon Redshift で ADFS を使用する方法の詳細については、IAM とAmazon Redshift を使用してデータベースユーザー認証を簡単にフェデレーションするを参照してください。Azure AD の統合の詳細については、Microsoft Azure AD での JDBC または ODBC シングルサインオン認証のセットアップを参照してください。 この投稿では、Azure AD と IAM を使用してフェデレーションをセットアップする方法を説明します。Azure AD は、ユーザーを管理し、IAM […]

Read More

New – Amazon Keyspaces (Apache Cassandra 用) が正式リリース

 昨年の re:Invent で、Amazon Managed Apache Cassandra Service (MCS) のプレビュー版を紹介しました。過去数か月の間に、このサービスは多くの新機能を導入し、今日 Amazon Keyspaces (Apache Cassandra 用) という新しい名前で一般公開します。 Amazon Keyspaces は Apache Cassandra 上に構築されており、フルマネージドのサーバーレスデータベースとしてご利用いただけます。アプリケーションは、既存の Cassandra Query Language (CQL) コードを使用して、まったくまたはほとんど手を加えずに Amazon Keyspaces からデータを読み書きできます。各テーブルでは、以下のように、ユースケースに応じて最適な設定を選択できます。 オンデマンドでは、実際に行った読み取りと書き込みに基づいて料金が発生します。これは、ワークロードが予測できないときに最適なオプションです。 プロビジョニングされた容量では、容量設定を事前に行うことで、予測できるワークロードのコストを削減できます。 また、Auto Scaling を有効にすることで、コストをさらに最適化できます。これにより、その日のトラフィックの変化に応じてプロビジョニングされた容量設定が自動的に更新されます。 Amazon Keyspaces の使用 私が子供の頃に構築した最初の「本格的な」アプリケーションの 1 つは、本用のアーカイブでした。それを今すぐ、以下を使用してサーバーレス API として再構築したいと思います。 データを保存するための Amazon Keyspaces。 ビジネスロジック用の AWS Lambda。 Amazon API Gateway と新しい HTTP API。 Amazon […]

Read More

AWS Snowball Edge と Amazon EC2 を使用して Linux エッジコンピューティングソリューションを構築する

 データソースの近くでデータ推論を実行しなければならない状況は数多くあります。多くの場合、これらはリモートであり、接続がない場所で生じます。次の例を考えてみましょう。 リモートの石油掘削プラットフォームには、データを生成する多数のセンサーがあります。重要なコンポーネントについては、摩耗や破損、または故障がないか監視する必要があり、交換は先を見越して行う必要があります。 土壌の水分、湿度、PH 値を監視するさまざまなセンサーを備えた農場では、推論を使用して、健康と成長を最大化できる適切なタイミングで水と栄養素を供給する必要があります。 接続がない前線基地に軍隊が配備されるときには、供給と物流を自動化しなければなりません。 自動運転車両は毎日大量のデータを生成します。これらは、一元化された場所で毎日、オフロードされ、タグが付けられ、異常に対応するために前処理される必要があります。 現代の工場の組立ラインでは、部品を効率的に移動し、その配送を最適化する必要があります。 コンサート会場では、制作会社は複数のカメラからの映像を集約し、異なるフォーマットに変換する必要があります。 これらすべてのシナリオでは、データソースの近くでコンピューティング、ストレージ、ネットワークを実行することを要します。これらの問題は、実行のために構築されたデータセンタースペースを必要としない高耐久性デバイスである AWS Snowball Edge デバイスを使用して解決できます。Amazon S3、Amazon EC2、Amazon EBS、AWS IoT Greengrass などのクラウドネイティブなサービスや、データを取り込むために Network File System (NFS) インターフェイスを実行できます。 このブログ投稿では、AWS Snowball Edge デバイスを使用した Linux ベースのエッジコンピューティングソリューションを開始する方法について説明します。特に、Snowball Edge Compute Optimized デバイスに焦点を当てています。 注文プロセス Snowball Edge デバイスでコンピューティングインスタンスを使用するには、ジョブを作成し、AMI を指定します。AWS Snowball マネジメントコンソールから、AWS コマンドラインインターフェイス (AWS CLI) で、またはいずれかの AWS SDK を使用して、これを行うことができます。通常、ジョブを作成する前に実行する必要があるいくつかの前提条件があります。 AWS マネジメントコンソールにログインし、文書化された手順を使用して Amazon マシンイメージ (AMI) を作成し、それを […]

Read More

Udacity の AWS Machine Learning Engineer Nanodegree プログラムの奨学金でキャリアアップ

 機械学習 (ML) は、テクノロジーで最も急速に成長している分野のひとつで、今日の求人市場において極めて高い人気があります。World Economic Forum によると、人口知能の成長により、今後数年間で 5,800 万の新たな雇用が創出されることが期待されていますが [1]、Tencent Research Institute は、何百万人もの AI エンジニアが必要であるにもかかわらず、AI エンジニアは現在世界で 300,000 人しかいないと推定しています [2]。 実践的かつ魅力的な学習を通じて AI/ML スキルを向上できるようにすることを目的として、AWS は、Udacity と共同で構築した AWS Machine Learning Scholarship Program を発表します。 AWS Machine Learning Scholarship Program とは何ですか? AWS と Udacity は、あらゆるスキルレベルの開発者に ML の開始方法に関する教育を受ける機会を与えるために手を組んでいます。この奨学金は、AWS ML の専門知識を拡充することに関心のある方であれば誰でも応募できます。 この二段階の奨学金プログラムでは、無料の AWS Machine Learning Foundations コースを修了したすべての適格な学生は、Udacity からコース修了証明書を取得し、高水準の知識テストを受ける機会を獲得します。 このテストのスコアに基づいて、上位 325 名の開発者は、Machine Learning […]

Read More

Amazon QuickSight ML Insights を使用して、データから異常を見つけ、将来を予測する

 テクノロジーの進化に伴い、ビジネスは多種多様なソースから、より多くのデータを収集するようになってきています。集めるデータポイントが多くなりすぎると、ビジネスの成長に役立つ適切な知見を見出すことがしばしば難しくなります。ダッシュボードは、構築の仕方によっては、データを視覚的に表現することに優れていますが、データから異常や外れ値といった隠れた知見を見つけるとなると、必ずしも優れた手段とは言えません。人がデータを探す際には役立ちますが、データ自らが人にアピールしてくれるわけではありません。データ収集の規模が大きくなると、間接費の増大を避けるためにも前者から後者に移行する必要があります。企業が持つ時間やリソースの限界から、大まかなトレンドの把握に留まるか、または深い知見を得るにしても、その規模は小さなデータサブセットに限られるでしょう。 こうした限界から、情報に基づいて意思決定を下すことができなくなる恐れがあります。Amazon QuickSight には、機械学習 (ML) による異常検知機能が組み込まれており、 ML モデルの構築、トレーニング、ハイパーパラメータチューニング、推論、デプロイメントタスクにおいて、時間とリソースの節約に役立ちます。さらに、何百万ものメトリクスや何十億もの大規模データポイントから、深い知見を得ることができます。 この記事では、ML Insights を使用して役立つビジュアルや予測を作成する方法をご紹介します。このチュートリアルでは、以下の AWS のサービスを使用します。 Amazon QuickSight – ML Insights やビジュアルを構築します。 Amazon Athena – 手動でのデータ分析のため、Amazon QuickSight データセットをクエリします。 AWS Glue – データセットをクロールし、ロードすることなくメタデータを準備します。これにより、安価で拡張性と耐久性が非常に高い S3 バケットに格納された 未加工データファイルにビジュアルを保存し、実行できるので、高額なデータベース実行コストを低減できます。 Amazon S3 – データソースを保存します。 データセットの準備 始めるには、まず Amazon QuickSight 用データセットの収集、クリーンアップ、準備を行う必要があります。この記事では、データソースとして Amazon S3 を使用しますが、Quicksight 対応であれば、Redshift、Athena、RDS、Aurora、MySQL、Postgres、MariaDB など、あらゆるデータソースを使用して、クエリとビジュアルの構築ができます。この記事では、次の 3 つのデータセットを使用します。 Airlines Delay (エアラインの遅延) – Web サイト「data.world」から […]

Read More

AWS Glue の自動コード生成機能とワークフローを利用して、データパイプラインをシンプル化する

 これまでの一連の記事では、AWS Glue のジョブブックマークを使用して Amazon S3 やリレーショナルデータベースからデータを増分ロードする方法についてご紹介しました。また、AWS Glue に最適化された Apache Parquet ライターを使用してパフォーマンスを向上させ、スキーマ進化を管理する方法についても説明しました。 3 つ目の記事となる今回は、次の 3 つのトピックを取り上げます。まず、特定の列を選択する、深くネストされたレコードを展開する、ネストされたフィールドを効率的に解析 (パース) する、列データの展開処理といった一般的なユースケースにおいて、AWS Glue でデータの変換に役立つコードを自動生成方法について説明します。 次に、AWS Glue のワークフローとCrawlers、Apache Spark 、Python Shell ETL ジョブといったさまざまな Glue コンポーネントを使用してデータパイプラインを構築し、オーケストレーションする方法について説明します。 最後に、ETL ジョブで SparkSQL を活用し、Amazon S3 とリレーショナルデータベースに保存されたデータセットで SQL ベースの変換を実行する方法について説明します。 自動コード生成と変換: ApplyMapping、Relationalize、Unbox、ResolveChoice AWS Glue では、さまざまなデータ変換タスクの実行に使用するコードを自動的に生成できます。これらの変換では、複雑で深くネストされたデータセットの処理するための、使いやすいインターフェイスを提供します。たとえば、一部のリレーショナルデータベースやデータウェアハウスは、ネストされたデータ構造をネイティブにサポートしていません。AWS Glue を使用すると、データをターゲットデータベースにロードする前にネストされたデータ構造を展開するためのコードを自動生成できるので、時間が節約できるだけでなく、技術に詳しくないユーザーでもデータを扱うことができます。 AWS Glue が提供する、データ処理をシンプル化するための変換のうち、よく利用されるものを次に示します。 ApplyMapping は、列の投影やデータ型の変更に使用される変換処理です。この例では、action.id などいくつかのフィールドのネストを解除し、トップレベルの action.id フィールドにマッピングします。また、id 列を long […]

Read More

AWS COVID-19 パブリックデータレイクの探索

AWS COVID-19 のデータレイク — 新型コロナウイルス (SARS-CoV-2) とこれに関連する病気である COVID-19 の広がりおよび特性についての、またはそれに関する最新のデータセットが収集され、一元化されたリポジトリが現在利用可能になりました。詳細については、COVID-19 データの分析用のパブリックデータレイクをご参照ください。世界的には、このデータを収集するためにいくつかの取り組みが進行中であり、AWS はパートナーと協力して、この重要なデータを自由に利用できる状態にし、最新の状態に保てるように尽力しています。 このデータは、質問、独自のデータセットとの混合、独自のデータレイクへの新しい洞察の取り込みを行うためにすぐに利用できます。AWS は、パンデミック監視手法の開発研究を行うノースウェスタン大学をサポートしています。医療情報学博士号取得候補者の Ariel Chandler は、次のように述べています。「AWS COVID-19 データレイクを使用すれば、公開データに簡単にアクセスできるので、誰もがすぐに使えるはずの情報にアクセスするために手間をかける必要がなくなりました。AWS Data Exchange とこれらの処理ツールにアクセスすることにより、州全体にまたがる COVID-19 の拡散を追跡、報告、視覚化して、イリノイ州の公衆衛生への対応を支援しています。データレイクは、消費者や場所のデータを含む幅広いデータソースを使用して、どのコミュニティが最も危険にさらされているかを通知します。その情報は、この危機の最中に最も情報を必要とする人々に対して医療サービスや社会サービスを提供するために使用されます」 また、情報をクエリしてそれらの洞察をデータレイクに公開する新しい方法を作成することもできます。データは、公開ウェブサイト、AWS Data Exchange のデータプロバイダーを介して購入したデータ、または内部システムから取得される場合があります。 この記事では、Amazon SageMaker または Jupyter を介して AWS Glue データカタログから AWS COVID-19 データレイクにアクセスし、オープンソースの AWS Data Wrangler ライブラリを使用する方法について説明します。AWS Data Wrangler は、Pandas ライブラリの機能を AWS に拡張し、DataFrames と AWS データ関連サービス (Amazon Redshift、Amazon S3、AWS Glue、Amazon […]

Read More

新規オープン – AWS 欧州 (ミラノ) リージョン

 今日は、待ちに待った新しい AWS リージョンがイタリアで利用可能になったことをお知らせしたいと思います! 欧州 (ミラノ) リージョンは欧州 6 番目の AWS リージョンで、信頼性に優れた方法で複数のデータセンターにアプリケーションを分散させるため (たとえば、Amazon Elastic Compute Cloud (EC2) インスタンスに異なる AZ を使用するよう Amazon Virtual Private Cloud のサブネットを設定するなど) に使用できる 3 つのアベイラビリティーゾーン (AZ) で構成されています。 各 AZ は、AWS のインフラストラクチャの完全に隔離されたパーティションで、1 つ、または複数のデータセンターが含まれます。 AZ は分離された個別の地理的地域に設置されており、単一のイベントがリージョンの可用性に影響するリスクを大幅に減らすために十分な距離が置かれていますが、迅速なフェイルオーバーおよび同期レプリケーションを必要とするビジネス継続性には十分な近さです。これは、単一のデータセンターで実現できるものよりも、可用性、耐障害性、およびスケーラビリティに優れた本番アプリケーションを運用する能力を提供します。Amazon Simple Storage Service (S3)、AWS Lambda、および Amazon DynamoDB などの完全マネージド型サービスは、自動的にデータとアプリケーションを複数の AZ にレプリケートします。 ミラノの AWS リージョンは、イタリアのエンドユーザーへのサービス提供を目的とするお客様に低レイテンシーを提供すると共に、オーストリア、ギリシャ、およびブルガリアなどの他の国々からのお客様へのサービス提供時にも、その他の既存 AWS リージョンより優れたレイテンシーを提供します。その成果は、エンドユーザーのラストマイルネットワークにおける接続の品質、キャパシティー、および距離に応じて異なる場合があります。 政府、ヘルスケア、および金融サービスで業務を行うお客様など、データレジデンシーの要件および規制があるイタリアのお客様にとっては、国内インフラストラクチャも同じく重要です。 イタリアの AWS 現在 AWS […]

Read More