AWSのre:Invent 2018に参加するためラスベガスに来ています。
題名の通りGlueのCrawlerとETLジョブでDynamoDBがサポートされましたので早速動かしてみます。
セッション
発表されたセッションとスライドはこちらです。他にもあったのですが、今すぐ動くDynamoDBのサポートから試してみました。
セッション名
Building Serverless Analytics Pipelines with AWS Glue (ANT308)
スライド
テスト用のテーブル
この様なテスト用のテーブルをDynamoDBに作成してみます。
Crawler
GlueのCrawlerの対象は、従来ではS3とJDBCしか対象に選べませんでしたが、DynamoDBが追加されています。
テーブル名を指定して実行します。
Crawlerの実行結果です、スキーマ情報が取れていることがわかります。
ETLジョブ
ELTジョブでも connection_type = "dynamodb"
でDynamoDBを読み込めます。
dynamo_df = glueContext.create_dynamic_frame.from_options( connection_type = "dynamodb", connection_options = {"dynamodb.input.tableName": "gluetest"} )
確かに、スライドにも書かれている通りDynamoDBに対して(Spark)SQLも叩ける。