Redshift

Redshift Spectrumのパフォーマンスチューニングが必要なら統計情報を確認する

一番下の参考情報にも載せている通り、Redshift Spectrumのチューニングには、パーティショニングやファイルフォーマット等色々なポイントがありますが、ここでは特に見落としやすい、かつ効果の高い統計情報について書いていきます。 利用するデータ 環境準…

Redshift Spectrumでは1400年1月1日より古いDATE型は読み込めない

同じエラーに出くわす人いると思ったので書いておきます。 S3にParquet形式で保存したデータをRedshift Spectrumで読み込むと以下のエラーが発生することがあります。 > select * from some_spectrum_table; Assert DETAIL: -------------------------------…

Redshift Spectrum 用の外部スキーマ上のテーブル定義を確認する

Redshfit SpectrumでDESCや \d 、SHOW CREATE TABLEなどで確認するクエリのメモ。 SELECT * FROM SVV_EXTERNAL_COLUMNS WHERE schemaname = '外部スキーマ名' AND tablename = 'テーブル名'; +-------------------------------+-------------+--------------…

RedshiftとSpectrumとS3とVPCで組み合わせた場合のネットワーク経路が複雑だったので整理してみた

VPC絡みでRedshiftのネットワークが複雑でハマって整理したので、そのまとめです。 あくまで2019/02/09現在の仕様なので、仕様変わっていることもあると思います。 全体図 2019/02/20追記 Redshift SpectrumからS3への接続はVPC外を通る ParquetのCOPYはJSON…