組み込みの分類子を使用して固定幅データファイルを解析すると、AWS Glue クローラーはそのファイルを不明なものとして分類します

最終更新日: 2019 年 5 月 31 日

組み込み分類子を使用して固定幅の .dat ファイルを解析すると、AWS Glue クローラーはそのファイルを不明なものとして分類します。

簡単な説明

組み込みの分類子は固定幅データファイルを解析できません。代わりに grok カスタム分類子を使用してください。

解決方法

grok カスタム分類子の作成

1.    AWS Glue コンソールを開きます。

2.    ナビゲーションペインで、[分類子] を選択します。

3.    [分類子の追加] を選択してから、次のように入力します。
分類子名には、固有の名前を入力します。
分類子の種類には、Grok を選択します。
分類子には、分類されるデータの形式または種類に関する説明 ("special-logs" など) を入力します。
Grok パターンの場合は、AWS Glue がデータの一致を見つけるために使用する組み込みパターンを入力します。.dat ファイルを解析するために、フィールド間に区切り文字を入力する必要はありません。各フィールドの長さは既知であるため、正規表現パターンを使用して一致するものを見つけることができます。例:

(?<col0>.{7})(?<col1>.{8})(?<col2>.{14})(?<col3>.{52})

(任意) カスタムパターンに、使用するカスタムパターンを入力します。これらのパターンは、データを分類する grok パターンによって参照されます。各カスタムパターンは別々の行に存在しなければなりません。詳細については、AWS Glue のカスタム分類子の値を参照してください。

4.    [作成] を選択します。

クローラーの作成と実行

1.    ナビゲーションペインで、[クローラー] を選択します。

2.    [クローラーの追加] を選択します。

3.    クローラー名には、固有の名前を入力します。

4.    タグ、説明、セキュリティ設定、分類子 (任意) セクションの横にある矢印を選択して、カスタム分類子セクションを探します。

5.    前に作成したカスタマー分類子の横にある [追加] を選択してから、[次へ] を選択します。

6.    クローラーのソースタイプ指定ページで、[データストア]、[次へ] を順に選択します。

7.    データストアの追加ページで、次のように入力します。
データストアの選択で、お好みのデータストアを選択します。
パスを含めるに、.dat ファイルへのパスを入力します。

8.    [次へ] を選択してから、別のデータストアを追加するかどうかを確定します。

9.    IAM ロールの選択ページで、既存の AWS Identity and Access Management (IAM) ロールを選択するか、新しいロールを作成します。[次へ] を選択します。

10.    頻度で、[オンデマンドで実行]、[次へ] を順に選択します。

11.    クローラー出力設定ページのデータベースで、テーブルを作成するデータベースを選択します。[次へ] を選択します。

12.    [終了] を選択してクローラーを作成します。

13.    クローラーのステータスが [準備] に変わったら、クローラー名の横にあるチェックボックスをオンにして、[クローラーの実行] を選択します。

14.    クローラーが終了するのを待ってから、ナビゲーションペインで [テーブル] を選択します。分類は、grok カスタム分類子に入力した分類 ("special-logs" など) と一致する必要があります。