投稿日: Jan 11, 2022

Amazon Redshift Spectrum を使用して、Amazon S3 データレイクをクエリする際に、外部テーブルのカスタムデータ検証ルールを特定することができるようになりました。この機能強化により、Redshift Spectrum が、サポートされていないUTF-8 文字や数値のオーバーフローなど、予期せぬ値を含むデータを外部テーブルで処理する方法を制御できるようになります。

Amazon Redshift Spectrum には、データ中の予期せぬ値を処理するビルトインルールが既に用意されています。例えば、Redshift Spectrum は、列がサポートされていない特殊文字を含む場合は列の値を null に設定し、列の値が定義された列幅よりも広い場合は切り捨てます。これで、ビルトインルールを上書きすることができます。例えば、Redshift Spectrum がそのようなデータに遭遇した場合に、予期せぬ文字を置換するか、クエリを失敗させるか、行を無視するかを指定することができます。 

詳細は、Amazon Redshift データベースデベロッパーガイドの「Redshift Spectrumでデータ処理オプションを設定する」を参照してください。