Glue DynamicFrameでParquet変換におけるDecimalの扱い注意点

AWS AWS Glue

金額計算などで利用する固定小数点数 decimal をGlueで扱う場合の注意点を書きます。 GlueのGUIでそのまま設定すると、decimalにはなるのですが、 decimal(10,2) という型に固定されてしまうといった落とし穴もありますので、そのあたりも。例として以下のC…

2019-04-19

Redshift Spectrum 用の外部スキーマ上のテーブル定義を確認する

Redshift AWS

Redshfit SpectrumでDESCや \d 、SHOW CREATE TABLEなどで確認するクエリのメモ。 SELECT * FROM SVV_EXTERNAL_COLUMNS WHERE schemaname = '外部スキーマ名' AND tablename = 'テーブル名'; +-------------------------------+-------------+--------------…

2019-04-16

Pythonスクリプト内からCuratorを使ってElasticsearchのIndexを操作する

Elasticsearch Python

Curatorは通常、YAML形式の定義ファイルを使ってコマンドラインから操作することが多いと思いますが、PythonからAPIを経由で操作することも可能です。基本的な操作のざっくりコードですが例を書きます。準備 Elasticsearchクライアントの生成 CuratorのImp…

2019-04-12

PandasのDataFrameを使ってElasticsearchにデータを投入

Elasticsearch

PandasのDataFrameをそのままElasticsearchに入れた方法書きます。元データ準備データの前処理 Elasticsearchへの接続確認 Elasticsearchへインデックスのスキーマテンプレートの定義 Elasticsearchにデータ投入確認参考URL 元データ準備 CSVのデータな…

2019-04-09

AWS Glueで変更のあったパーティション配下だけS3を部分更新したい

AWS AWS Glue Spark

やりたいこと準備テストデータ生成 S3にアップロード ETLジョブ部分更新のケースを試してみる課題① ジョブブックマーク有効化時の再実行課題① の対策課題 ② DynamicFrameはAppendしかできない課題②への対策課題②への対策1 直接パーティションだけを…

2019-03-27

PySparkでOpen Distro for Elasticsearchにデータを投入

Spark Elasticsearch AWS

タイトルの件、作業メモ。 AWSが出してきたOpen Distro for ElasticsearchにPySpark使ってデータを投入する部分を下調べしたので残しておきます。利用するデータ Open Distro for Elasticsearchの起動 PySpark準備 ElasticSearchに投入参考URL Open Distro…

2019-03-19

Windowsのinode的情報BY_HANDLE_FILE_INFORMATIONを取得するPowerShellスクリプト

PowerShell

Windowsでもinode的なところを調べたかったのですが調べてみると、 stackoverflow.com Open both files with CreateFile, call GetFileInformationByHandle for both, and compare dwVolumeSerialNumber, nFileIndexLow, nFileIndexHigh. If all three are e…

2019-03-17

EC2のWindows上にpyspark+JupyterでS3上のデータ扱うための開発環境を作る

Spark AWS

EC2(Windows)にpyspark構築してS3の情報取得するところまでやる機会があったので情報残しておきます。環境変数設定各種ランタイムインストール Javaのインストール Python3.7.2インストール Spark インストール Sparkダウンロード 7zipでgzipを解凍 hadoop…

2019-03-08

WindowsにFluentdをインストールしてS3にデータ転送して、管理用の設定も追加

fluentd

WindowsにFluentdを入れる機会があったのでまとめておきます。 td-agent(Fluentd)インストール td-agentダウンロード td-agentインストールプラグインのインストールディレクトリ設定例設定ファイルの退避設定ファイル Append用 Update用 Monitor用 AWS…

2019-03-02

LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する

AWS

小さなファイルのETLにGlueを使うのがもったいなかったので、Pandasやpyarrowで実装しました。 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成パッケージをアップロード Lambdaのコードエラー対応参考 Lambda Layerにpandasとpyar…

2019-02-24

EC2からAthenaへのJDBC接続テストするためのDockerイメージ作った

AWS Athena

色々な環境でIAM権限等のテストしている作業の中で、タイトルのイメージ作成したので書いておきます。パラメータ環境変数必須環境変数環境変数名説明 REGION AWS Region SQL Athenaで実行されるSQL OUTPUT_LOCATION Athenaの実行結果が格納されるS3バケ…

2019-02-22

Athenaを使ってS3上のJSONを変換・パーティショニングしてParquet出力してみる

AWS Athena

S3上のJSONデータをAthenaを利用してParquetに変換してみます。使うのはこの話です。 aws.amazon.com テストデータ生成日付列をパーティションに利用 Parquet＋パーティション分割して出力カタログへパーティション追加所感参考URL テストデータ生成こ…

2019-02-19

Windowsで複数のChromeシークレットウィンドウを開き複数の認証情報ブラウザを同時に使う

Tips

複数の認証情報で開いたブラウザを並べながらテストをしているときなどは、複数のシークレットウィンドウが欲しくなります。 AWSのクロスアカウントの検証とか。シークレットモードのウィンドウが使うワークスペースを準備します。シークレットウィンドウ分…

2019-02-18

達人に学ぶSQL徹底指南書第2版初級者で終わりたくないあなたへ　を読みました

SQL 読書勉強

この本を読みました。達人に学ぶSQL徹底指南書第2版初級者で終わりたくないあなたへ (CodeZine BOOKS)作者:ミック翔泳社Amazon 目次 1部魔法のSQL 2部リレーショナルデータベースの世界自分のレベルと書籍のレベル自分のレベル書籍のレベルサンプル…

2019-02-15

Apache DrillでAWSのDBRレポートCSVファイルをParquet変換して分析してみる

Drill AWS

DBR(Detailed Billing Report with Resources and Tags)のCSVを分析しようとググってみたら以下のリポジトリ見つけました。 github.com 中身ざっと読んでみると以下のような感じに見えます。ローカルにDBRダウンロード DBRのCSVをParquetに変換（Python+Apa…