Research Insights Made Simple #6 - Interview with Nikolay Golov about data platforms
Автор: TellMeAboutTech
Загружено: 2024-12-11
Просмотров: 1661
В этом выпуске подкаста про инсайты ко мне в гости пришел Николай Голов для того, чтобы обсудить то, как строить дата платформы в 2025 году:) Коля исполняет роль head of data engineering at ManyChat, а до этого он был head of data platform в Авито. Коля знает все о том как построить OLAP и OLTP системы, интенсивно работающие с данными.
За время подкаста мы обсудили темы
Как развивалась карьера Коли в разных компаниях и как он стал преподавать базы данных параллельно с основной работой
Как можно строить платформы данных (централизованно, гибридно и децентрализованно)
Как выглядят принципы федерализации данных (аля data mesh) в теории
Во что этот подход превращается на практике
Как строить дата платформы в стартапах, средних, а также крупных компаниях в 2025 году
Что не так с классическими базами данных (Postgres и иже с ним)
Что не так с MPP базами данных (Vertica, Greenplum, ClickHouse, ...)
Как data mesh превращается в data mash и как цепочки дата продуктов работают на практике
Как выделять базовый домен данных, чтобы уменьшить длину цепочек дата продуктов
Почему облачные аналитические базы так быстры: колоночное хранение + разделение storage и compute
Что такое medalion architecture
Куда дальше будут развиваться технологии обработки данных и почему нельзя полагаться на старые подходы и ограничения
Дополнительные материалы
Статья из периода работы в Avito "Vertica+Anchor Modeling = запусти рост своей грибницы" - https://habr.com/ru/companies/avito/a...
Статьи из периода работы в Manychat / do-we-really-need-data-modeling-in-the-wor... и / data-modeling-in-the-world-of-the-modern-d...
Запись "Data Modeling Meetup Munich: From Data Vault to Anchor Modeling with Nikolai Golov" - • Data Modeling Meetup Munich: From Data Vau...
Запись "DataVault / Anchor Modeling / Николай Голов" - • DataVault / Anchor Modeling / Николай Голов
Научная статья "Golov N., Ronnback L., Big Data Normalization for Massively Parallel Processing Databases" //Computer Standards & Interfaces, 09-May-2017, https://doi.org/10.1016/j.csi.2017.01...
Научная статья "Golov N., Filatov A., Bruskin S.,Efficient Exact Algorithm for Count Distinct Problem", Computer Algebra in Scientific Computing, July 2019
Timeline:
00:00 - Знакомство с гостем
01:52 - Карьера Коли и опыт преподавания курса по базам данных
03:28 - Централизованный подход к построению дата платформ
09:34 - Гибридный подход к построению дата платформ
12:20 - Децентрализованный подход к построению дата платформ (data mesh)
14:13 - Принципы федерализации управления данными
15:07 - Переход от виртуальных концепций к реальности
16:57 - Проблемы с автономностью в стартапах
20:07 - Аналитическая репликация
22:22 - Переход к MPP базам
26:21 - Ограничения MPP баз
28:53 - Проблемы с параллельным использованием баз данных
30:41 - Примеры из практики
32:30 - Организация данных в компаниях
37:50 - Проблемы критического пути (построение зависимых дата продуктов)
41:36 - Решение проблем с помощью введения базовых доменов для уменьшения критического пути
43:01 - Гибкая модель управления данными и проблемы, что она вызывает
48:02 - Проблемы с передачей данных между системами
50:48 - Преимущества разделения compute и storage в аналитических базах
54:24 - Современные форматы хранения данных (Apache Parquet)
56:16 - Разделение compute и storage в облаке
58:09 - Medallion Architecture
59:05 - Использование Snowflake
01:00:01 - Проблемы с запросами
01:02:48 - Будущее технологий
01:08:41 - Заключение
Нельзя полагаться на старые ограничения и подходы - важно выбирать оптимальные инструменты для текущих задач. Необходимо переосмысливать старые концепции и адаптироваться к новым условиям.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: