Amazon Web Services ブログ

Amazon Textract を使用して、スキャンしたドキュメントから検索可能な PDF を自動的に生成する

 Amazon Textract は、ほぼすべてのドキュメントからテキストとデータを簡単に抽出できる機械学習サービスです。Textract は、シンプルな光学文字認識 (OCR) という枠を超えて、フォーム内のフィールドのコンテンツや、表に保存された情報も識別します。これにより、Amazon Textract を使用して、手動での工数やカスタムコードを必要とすることなく、実質上どのようなタイプのドキュメントでも瞬時に「読み取り」、テキストとデータを正確に抽出することが可能になります。 ブログ記事「Amazon Textract を使用したドキュメントからのテキストと構造化データの自動抽出」は、Amazon Textract を使用して、機械学習 (ML) の経験なしでスキャンしたドキュメントからテキストとデータを自動的に抽出する方法を示しています。記事で取り上げられているユースケースの 1 つは、検索と検出です。Amazon Textract を使用してドキュメントからテキストと構造化データを抽出し、Amazon ES を使用してスマートインデックスを作成することにより、数百万のドキュメントを検索できます。 この記事では、Amazon Textract を使用してスキャンしたドキュメントからテキストを抽出し、検索可能な PDF ドキュメントを生成する方法を示します。このソリューションを使用すると、関連するドキュメントをダウンロードしたり、オフラインで保存されているドキュメント内を検索したり、テキストを選択してコピーしたりできます。 スキャンしたドキュメントから Amazon Textract を使用して生成された検索可能な PDF ドキュメントの例を見ることができます。スキャンしたドキュメント内の画像のテキストはロックされていますが、検索可能な PDF ドキュメント内のテキストを選択、コピー、検索することができます。 検索可能な PDF を生成するには、Amazon Textract を使用してドキュメントからテキストを抽出し、抽出したテキストを PDF ドキュメントの画像にレイヤーとして追加します。Amazon Textract は、テキスト入力ドキュメントを検出および分析し、ページ、単語、行、フォームデータ (キーと値のペア)、テーブル、選択要素などの検出されたアイテムに関する情報を返します。また、バウンディングボックス情報も提供します。これは、ドキュメントページで認識されたアイテムの位置を軸に沿って粗く表現したものです。検出されたテキストとそのバウンディングボックス情報を使用して、PDF ページにテキストを配置できます。 PDFDocument は、AWS サンプル GitHub リポジトリのサンプルライブラリであり、Amazon Textract を使用して検索可能な PDF ドキュメントを生成するために必要なロジックを提供します。 また、オープンソースの […]

Read More

Amazon Translate に新言語を追加: ギリシャ語、ハンガリー語、ルーマニア語、タイ語、ウクライナ語、ウルドゥー語、ベトナム語

私たちテクニカルエバンジェリストは世界中を頻繁に旅します。その中で Amazon Translate を紹介する際にお客様から一番よく受ける質問が「自分の母国語はサポートされていますか?」というものです。母国語がギリシャ語、ハンガリー語、ルーマニア語、タイ語、ウクライナ語、ウルドゥー語、そしてベトナム語のいずれかである方に、今日から「はい」と答えられることをとてもうれしく思います。実際、Amazon Translate を使えば、”ναί”、”igen”、”da”、”ใช่”、”так”、“جی ہاں” and “có”といった言葉でさえも話すことができます。それもおそらく正しいアクセントで。 上記の言語を含め、Amazon Translate は現在、次の 32 の言語をサポートしています。アラビア語、中国語 (簡体字)、中国語 (繁体字)、チェコ語、デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、ハンガリー語、インドネシア語、イタリア語、日本語、韓国語、マレー語、ノルウェー語、ペルシャ語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スペイン語、スウェーデン語、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ベトナム語です。 これらの言語間で 987 の翻訳の組み合わせに対応しています。サポートされている言語ペアの一覧は、こちらのドキュメントページでご確認いただけます。 Amazon Translate を使う Amazon Translate の使い方はとても簡単です。さっそく、AWS コンソールで私のお気に入りの詩の一篇を翻訳してみましょう。 開発者の方であれば、TranslateText API を呼び出すのではないでしょうか。以下は AWS CLI を使用した例です。 $ aws translate translate-text –source-language-code auto –target-language-code hu –text “Les sanglots longs des violons de l’automne blessent mon coeur d’une langueur monotone” { […]

Read More

Amazon DocumentDB と Amazon ElastiCache を使用したパフォーマンスのためのキャッシング

技術の世界で、キャッシュはどこにでもあるものです。CPU は L1、L2、および L3 キャッシュを使用し、携帯電話はアプリのデータをローカルにキャッシュします。ストリーミングサービスはエッジでコンテンツをキャッシュし、ブラウザーは画像をキャッシュするなどです。 同じことは、データベースにも言えます。 もし、ゲームのサイトで、毎回リーダーボードが表示され、そのたびに、クエリが合計を行い、ゲームのすべてのプレーヤーをソートする必要があったらどうでしょうか。または、eコマースのサイトに行くたびに、特定の製品の価格をそれぞれの顧客のディスクから読み取らなければならないとしたらどうでしょうか。パフォーマンスは受け入れがたいものであり、コンピューティングの量でコストはかなり高額になります。 データベースで、キャッシングの主な動機として、パフォーマンスとコスト節約の 2 つが挙げられます。ミリ秒のパフォーマンスでは十分ではないときにマイクロ秒のパフォーマンスを求める場いいでも、一般的に使用されるデータをキャッシングすることにより、データベースから費用のかかる運用を外したい場合などです。 ソリューションの概要 この記事では、Amazon DocumentDB (MongoDB 互換性を使用) および Amazon ElastiCache を統合して、マイクロ秒の応答時間を達成し、コスト全体を減らす方法を示します。次の図では、この記事のソリューションに対するアーキテクチャを示しています。 この例の運用データベースは、Amazon DocumentDB です。これは高速で信頼性があり、容易にクラウドでの Mongo DB互換のデータベースをセットアップ、運用、およびスケールすることができる完全管理型のデータベースです。Amazon DocumentDB で、MongoDB で使用しているものと同じアプリケーションコードを実行し、同じドライバ、およびツールを使うことができます。 Amazon DocumentDB の柔軟性のあるドキュメントモデル、データタイプ、インデックス作成機能を使用して、コンテンツを素早く、直感的に保管し、クエリすることができます。たとえば、ショッピングサイトやカタログのユーザーレビューやでもビデオ、POS 端末の在庫リスト、トレーディングプラットフォームの財務取引などです。 キャッシングレイヤーの場合、Amazon ElastiCache を使用します。これは、AWS の分散型メモリ内キャッシュ環境を容易にセットアップ、管理、スケールできるようにします。ElastiCache は高いパフォーマンス、サイズ変更可能で、コスト効率の良いメモリ内キャッシュを提供する一方で、分散型キャッシュ環境のデプロイと管理に関連付けられた複雑性を排除します。ElastiCache は、Redis と Memcached エンジンの両方と互換性があります。 気に入った歌を見つけることができるようにするアプリケーションを構築することにより、これらの 2 つのサービスを統合する方法を示します。REST API クライアントを使用して、アプリケーションのエンジンに歌のタイトルを送信します。 アプリケーションエンジンは、要求された歌の歌手の名前と可視を含むドキュメントを ElastiCache レイヤーから取得することにより、API 要求を処理します。その歌の要求がすでに前もってあった場合、ElastiCache による読み取りが行われます。そうではない場合、アプリケーションエンジンは Amazon DocumentDB にクエリし、要求されたドキュメントを JSON ドキュメントとしてアプリケーションに返します。 […]

Read More

[AWS Black Belt Online Seminar] AWS Batch 資料及び QA 公開

先日 (2019/9/11) 開催しました AWS Black Belt Online Seminar「AWS Batch」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。   20190911 AWS Black Belt Online Seminar AWS Batch from Amazon Web Services Japan   AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. AWS Batch と Amazon ECS、AWS Fargate の使い分けについて教えて下さい。 A. AWS Batch では内部的に Amazon ECSを使用しつつ、キューイングされた計算処理を順次実行していくようなバッチコンピューティング環境に特化しております。そのため、このようなバッチ処理であれば AWS Batch をご利用いただき、それ以外のインタラクティブな処理を含む汎用的なワークロードではECS及びECSの機能の一部であるFargateをご利用いただければと思います。 Q. AWS Batch で大量のジョブを実行する場合の設定ポイントについて教えて下さい。 A. AWS Batch で大量のインスタンスを使用する場合は以下の点にご留意ください: 各種リソース制限を確認する: 各アカウントごとに、EC2 […]

Read More
週刊AWS

週刊AWS – 2019/9/30週

こんにちは、AWSソリューションアーキテクトの小林です。突然ですが、春巻という料理はお好きでしょうか。私は揚げたやつも生春巻も大好きなのですが、なぜ名前が「春」巻なのか気になったことはありませんか?調理法からすると巻揚でも具巻でも良いと思うのです。気になって調べてみたのですが、諸説有りつつも当初は春の食材を使って作る料理だから春巻という名前になったという説が有力だそうです。そのまんまではありますが、なるほど感がありますね。ちなみに英語だとSpring Rollと言うそうですが、直訳なのがこれはこれでちょっと面白いですよね。

Read More

Apache Spark UIからGlueのジョブ結果を確認する

(アップデート)2019年11月26日、Dockerでのローカルアクセスに関する内容を追加しました。 2019年9月、Glueのジョブ結果を監視・トラブルシューティングできるApache Spark UI(以下、Spark UI)が利用できるようになりました。Spark UIは、Glue ETL ジョブ実行のさまざまなステージを表す Directed Acyclic Graph (DAG(有向非循環グラフ)) をウェブインターフェイスによって可視化することができます。また、Spark SQL クエリプランを分析し、実行中や終了した Spark executor のイベントタイムラインを確認します。Spark UIはGlue ETL ジョブおよび Glue 開発エンドポイントの両方で利用可能です。 Spark UIを利用することで、イベントタイムラインによるジョブのパフォーマンスボトルネックの特定やデバッグを行うことができます。 本ブログでは、Glueのデータカタログ登録・ジョブ実行からSparkの履歴サーバーを起動、Spark UIでの確認までをご紹介します。 チュートリアル 手順 0.データのダウンロード サンプルデータのダウンロードを行います。(サンプルデータのURL内にある2019年6月の“Green Taxi Trip Records(CSV)”を利用します。) 1.データカタログの登録 1-1.AWSマネジメントコンソールにログインして、サービス一覧から“S3”を選択します。 1-2.[バケットを作成する]ボタンをクリックし、“バケット名”に任意の名前(※世界で一意)を入力、リージョンが“アジアパシフィック(東京)”になっていることを確認し、[作成]ボタンをクリックします。 バケット名:任意の名前(※世界で一意) リージョン:“アジアパシフィック(東京)” 1-3.バケットが作成されたら、“フォルダ作成”のボタンをクリックします。 その後、“datasource”、“script”、“tmp”、“eventlog”、“output”という名前でそれぞれフォルダを作成します。 1-4.“datasource”フォルダに手順“0”でダウンロードしたCSVファイルをアップロードします。 1-5.サービス一覧から“Glue”を選択します。 1-6.左の一覧から“クローラー”を選択し、“クローラーの追加”を選択します。 1-7.“クローラに関する情報の追加”にて、クローラの名前に任意の値を入れて、“次へ”をクリックします。 1-8.“Specify crawler source type”にて、クローラーのソースタイプを“Data stores”に指定し、“次へ”をクリックします。 1-9.下記を設定し、“次へ”をクリックします。 データストアの選択:S3 クロールする場所:自分のアカウントで指定されたパス インクルードパス:s3://[YOUR BUCKET […]

Read More

【開催報告】SD-WANって何だろう。使い方を知ってみよう@Loft

2019/9/26にAWS Loft Tokyoで「SD-WANって何だろう。使い方を知ってみよう」セミナーを開催しました。 当日の様子をレポートします。 ↑左から、スピーカーの海野様、鈴木様、菊池。 ネットワークのLoftイベントは今回が初となります。 当日の来場者数は40人超え、メーカー、デベロッパー、SD-WANをほとんど聞いたことないという方にもご参加頂き、SD-WANへの関心の高さを感じました。 以下セッションの概要です。   SD-WAN(再)入門[Slides] ヴイエムウェア株式会社 鈴木 章様 SD-WANとは何か、なぜSD-WANが必要かについて解説していただきました。 現在、各企業でオンプレ環境からクラウド環境への移行や、SaaSサービスの利用が増えている中で、通常のネットワーク利用からより細かい利用方法を検討されているユーザが多くなってきています。そこで登場したのがSD-WANです。 旧来のWANの課題であったブランチ管理やアクセス管理、高額な専用線費用といった点を、SD-WANの集中管理、可視化、ローカルブレイクアウトといった機能で解決します。 クラウド移行によりネットワークにもアジリティが求められていること、SD-WANによる解決策について解説いただきました。   SD-WANユースケース[Slides] シトリックス・システムズ・ジャパン株式会社 海野 俊様 VDIに強みを持つCitrix様より、働き方改革の視点からSD-WANのユースケースをお話しいただきました。 「先日の台風の時どのように働きましたか?」という海野様の問いかけに対し、会場の反応は、朝から出社:1割、午後から出社:4割、在宅勤務:半分といった様子でした。モバイルワークが可能な環境はインターネットが発達したおかげであり、SD-WANとクラウドにより事業継続性と働きやすさを実現できると言います。 SD-WANのローカルブレイクアウトによりストレスフリーでクラウドを利用できるようになったという某食品製造業のユースケース、ゼロタッチプロビジョニングにより2ヶ月で160拠点に展開したというフードサービス業のユースケースをご紹介いただきました。また近年ではEdgeをAWS上に配置しDRサイトとして使用する例もあるとのことです。EdgeはAWS Market placeで購入することができます。   SD-WANユースケース (2)[Slides] ヴイエムウェア株式会社 鈴木 章様 VMware SD-WAN by Velocloudを利用しているユーザ事例についてご紹介いただきました。 Next-gen小売業のユースケースでは、顧客体験を変えるためお店の様々なものがインターネットに繋がる必要があり、WAN回線がボトルネックとなっていました。そこでSD-WANを導入し、マルチWANで4Gを活用するなどの取り組みをしているとのことです。またゼロタッチプロビジョニングにより店舗のITスタッフ不足を解消したと言います。 テレビショッピングのユースケースもご紹介いただきました。ネット配信用の動画アップロードにおいて抱えていた課題に対し、SD-WANの導入によりスループットを改善、専用線からインターネットにすることでコスト削減も実現しました。 VMware SD-WANでもDR用途でAWSを活用することが可能であり、詳しくはvFORUMでお話いただけるとのことです。   AWSとSD-WAN[Slides] アマゾンウェブサービスジャパン株式会社 シニアソリューションアーキテクト ネットワークスペシャリスト 菊池 之裕 AWSJ菊池より、AWSとSD-WANとの親和性についてお話ししました。 いままでのSD-WANは拠点間接続の最適化を目指していましたが、これからのSD-WANはマルチクラウド接続やローカルブレイクアウトなど、使い方が変わってきています。 AWSとSD-WANの用途として、1.AWSをブランチの一部として使う、2.SD-WANコントローラをAWSに置き、グローバルインフラを活用してシングルポイントをなくす、といったケースがあります。 AWS上にEdgeを置くのが難しい場合、最近 IKEv2 に対応した AWS Site-to-Site VPN を活用いただけます。SD-WANの対向装置としてAWS VPNを選択するのも一つの手であるとご案内しました。   […]

Read More

Upsolver、Amazon Athena、Amazon QuickSight を使用して Google Analytics データを分析する

この記事では、Amazon Athena を使用して Google Analytics データを分析するためのソリューションを紹介します。Google Analytics から Amazon S3 にヒットレベルのデータを移動し、結合と強化を実行し、Amazon Athena と Amazon QuickSight を使用してデータを視覚化することで構築されたリファレンスアーキテクチャが含まれています。Upsolver は、顧客が迅速にデータレイクの自動化やオーケストレーションを開始できるようにします。 Google Analytics は、ウェブプロパティとアプリケーションのパフォーマンスを理解したい組織に人気のあるソリューションです。Google Analytics のデータは、ユーザーが洞察をすばやく抽出できるように収集および集約されます。  これは、単純な分析に最適です。ただし、Google Analytics データを他のデータセットで充実させて、カスタマージャーニーの包括的なビューを作成する必要がある場合はそれほど理想的ではありません。 AWS で Google Analytics データを分析する理由 Google Analytics は、事実上の標準のウェブ分析ツールになっています。少ないデータ量では無料で使用可能であり、追跡、分析、レポートを提供します。  技術に詳しくないユーザーでも、以下のような質問に答えることでウェブサイトのパフォーマンスを理解できます。ユーザーはどこから来たのですか? どのページが、コンバージョン率が最も高いですか? ユーザーはどこで操作負担を経験し、ショッピングカートを放棄しますか? これらの質問は Google Analytics の UI 内で回答されますが、以下のようないくつかの制限があります。 データサンプリング: Google Analytics 標準版は、500,000セッションを超える期間でアドホッククエリを実行すると、サンプルデータを表示します。大規模なウェブサイトであれば、毎週または毎日、この数を簡単に超えることがあります。これにより、各クエリはデータの異なるサンプルによってフィードされる可能性があるため、さまざまなレポート間で信頼性の問題が発生する可能性があります。 既存の AWS スタックとの統合の難しさ: 多くのお客様は、AWS でデータおよび分析プラットフォームを構築しているか、構築中です。お客様は、Google Analytics データで AWS の分析や機械学習の機能を使用して、新しい革新的なユースケースを実現したいと考えています。 […]

Read More

さぁ!AWS Innovate に参加しよう! – Week.1 見どころ紹介

  今週 2019年10月1日 から開始している「AWS Innovate」をお楽しみ頂いていますでしょうか? AWS Innovate はグローバルでも人気のある「クラウド活用のための無償オンラインカンファレンス」です.今回は 2019年10月1日 から 2019年11月5日 までの「計36日間」毎日開催をしており,ライブ配信も含めると「計60個のセッション」を視聴可能です. 本記事では,AWS テクニカルトレーナーである吉田慶章が,私自身の観点から,AWS Innovate「Week.1(2019年10月1日より公開)」で視聴可能なセッションの中から見どころを紹介したいと思います.参加申込みは簡単です!以下の申込みサイトにアクセスをしましょう.いつ申し込むの?今でしょ! AWS Innovate サイト AWS Innovate 申込みサイト(無料)   セッションカテゴリ 今回の AWS Innovate では「計19種類」のセッションカテゴリをご用意しています.皆さんの「学びたいことは何か?」というモチベーションに合ったセッションから優先的に視聴して頂くのが良いでしょう. 2019年10月1日より公開 業種別 AWS 事例 AWSome Day AWS 認定 – 試験対策「ソリューションアーキテクト – アソシエイト」 AWS 認定 – 試験対策「ソリューションアーキテクト – プロフェッショナル」 AWS イントロダクション 2019年10月8日より公開(ライブ配信と Q&A) データベース移行 ネットワーク 分析 ストレージ 働き方改革 セキュリティ […]

Read More

[AWS Black Belt Online Seminar] AI Service 資料及び QA 公開

先日 (2019/9/24) 開催しました AWS Black Belt Online Seminar「AI Service」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。   20190924 AWS Black Belt Online Seminar AWS AI Service from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. Forecast で使用される祝日情報は日本の祝日を全て網羅していますか? A. 全ての祝日への対応は保証しておりません。Amazon Forecastでは祝日の判定に Jollyday を利用しています。 Q. AWS Textractの利用構成例において「Textract ⇒ Lambda」という流れになっていましたが、TextractからLambdaを呼び出すことができるのでしょうか? A. ご紹介した構成例は、スペースの都合上、一部のサービスとの連携を省略しています。詳細は、各サービスのドキュメントを御覧ください。 — 今後の AWS Webinar | イベントスケジュール 直近で以下を予定しています。各詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております。 【AWS Innovate Online Conference】 AWS Innovate は、AWS […]

Read More