プライベートなPyPIをpypiserverとDockerで簡単に作成する

python

イントラネット環境からのみアクセス可能なPyPI( The Python Package Index)を作りたい場合。 Dockerとpypiserverを利用すれば、簡単にプライベートなPyPIが作れます。 github.com プライベートのPyPIを構築プライベートPyPIにパッケージを登録してみるプ…

2019-04-27

静かな、静寂な、集中できる作業環境を求めて飽くなき追求 2019年版

雑記 Gadget

私は仕事場でも家でも作業の大部分は、耳栓、イヤホン、ヘッドホンを装着しています。ただし、音楽には全く興味がありません。イヤホンやヘッドホンで何を聴いているのかと言えば、基本は何も聴いていない「無音(ノイズキャンセリング)」、または波や風や雨…

2019-04-23

Glue DynamicFrameでParquet変換におけるDecimalの扱い注意点

AWS AWS Glue

金額計算などで利用する固定小数点数 decimal をGlueで扱う場合の注意点を書きます。 GlueのGUIでそのまま設定すると、decimalにはなるのですが、 decimal(10,2) という型に固定されてしまうといった落とし穴もありますので、そのあたりも。例として以下のC…

2019-04-19

Redshift Spectrum 用の外部スキーマ上のテーブル定義を確認する

Redshift AWS

Redshfit SpectrumでDESCや \d 、SHOW CREATE TABLEなどで確認するクエリのメモ。 SELECT * FROM SVV_EXTERNAL_COLUMNS WHERE schemaname = '外部スキーマ名' AND tablename = 'テーブル名'; +-------------------------------+-------------+--------------…

2019-04-16

Pythonスクリプト内からCuratorを使ってElasticsearchのIndexを操作する

Elasticsearch Python

Curatorは通常、YAML形式の定義ファイルを使ってコマンドラインから操作することが多いと思いますが、PythonからAPIを経由で操作することも可能です。基本的な操作のざっくりコードですが例を書きます。準備 Elasticsearchクライアントの生成 CuratorのImp…

2019-04-12

PandasのDataFrameを使ってElasticsearchにデータを投入

Elasticsearch

PandasのDataFrameをそのままElasticsearchに入れた方法書きます。元データ準備データの前処理 Elasticsearchへの接続確認 Elasticsearchへインデックスのスキーマテンプレートの定義 Elasticsearchにデータ投入確認参考URL 元データ準備 CSVのデータな…

2019-04-09

AWS Glueで変更のあったパーティション配下だけS3を部分更新したい

AWS AWS Glue Spark

やりたいこと準備テストデータ生成 S3にアップロード ETLジョブ部分更新のケースを試してみる課題① ジョブブックマーク有効化時の再実行課題① の対策課題 ② DynamicFrameはAppendしかできない課題②への対策課題②への対策1 直接パーティションだけを…

2019-03-27

PySparkでOpen Distro for Elasticsearchにデータを投入

Spark Elasticsearch AWS

タイトルの件、作業メモ。 AWSが出してきたOpen Distro for ElasticsearchにPySpark使ってデータを投入する部分を下調べしたので残しておきます。利用するデータ Open Distro for Elasticsearchの起動 PySpark準備 ElasticSearchに投入参考URL Open Distro…

2019-03-19

Windowsのinode的情報BY_HANDLE_FILE_INFORMATIONを取得するPowerShellスクリプト

PowerShell

Windowsでもinode的なところを調べたかったのですが調べてみると、 stackoverflow.com Open both files with CreateFile, call GetFileInformationByHandle for both, and compare dwVolumeSerialNumber, nFileIndexLow, nFileIndexHigh. If all three are e…

2019-03-17

EC2のWindows上にpyspark+JupyterでS3上のデータ扱うための開発環境を作る

Spark AWS

EC2(Windows)にpyspark構築してS3の情報取得するところまでやる機会があったので情報残しておきます。環境変数設定各種ランタイムインストール Javaのインストール Python3.7.2インストール Spark インストール Sparkダウンロード 7zipでgzipを解凍 hadoop…

2019-03-08

WindowsにFluentdをインストールしてS3にデータ転送して、管理用の設定も追加

fluentd

WindowsにFluentdを入れる機会があったのでまとめておきます。 td-agent(Fluentd)インストール td-agentダウンロード td-agentインストールプラグインのインストールディレクトリ設定例設定ファイルの退避設定ファイル Append用 Update用 Monitor用 AWS…

2019-03-02

LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する

AWS

小さなファイルのETLにGlueを使うのがもったいなかったので、Pandasやpyarrowで実装しました。 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成パッケージをアップロード Lambdaのコードエラー対応参考 Lambda Layerにpandasとpyar…