Apache nifi - перегоняем таблички из SQL Server в BigQuery
Автор: Alexandr Marchenko
Загружено: 2020-04-12
Просмотров: 4577
Запись пары демок, что бы не забылось, ключевые моменты на которые нужно обращать внимание:
Настройки schedule execution - primary node - иначе будет N срабатываний
При вычитке огромных табличек есть смысл выставлять max rows per flow file, что бы разбить на куски, но тогда важно не забыть, что если в bigquery будет стоять write_truncate - то каждый кусок будет просто перетирать предыдущие
Так же не менее полезная настройка maximum-value-columns, благодаря которой можно обновлять данные скажем не раз в день, а раз в минуту
Еще из того что забыл в видео упомянуть, там где тестировал два флов с вычиткой за вчера (то что не запускали) использовал GenerateTableFetch за вместо QueryDatabaseTable, оба делают одно и тоже, но первый выдает SQL запрос который затем нужно передавать в ExecuteSQL, в нашем случае удобно так как мы его по сути перехватываем и смотрим что оно собирается выполнить - в случае с expressions - удобно посмотреть что будет выполнено по концовке
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: