Булат Яминов — Vaex: Python библиотека для работы с большими данными на обычном ноутбуке
Автор: PiterPy
Загружено: 2022-07-25
Просмотров: 283
Подробнее о конференции PiterPy: https://jrg.su/QZ6wK1
— Ближайшая конференция:
PiterPy 2023 — 6–7 ноября (Online), 13–14 ноября (Санкт-Петербург, Offline)
Подробности: https://cutt.ly/7wrLeRCf
— —
Инженерам и аналитикам все чаще приходится работать с таблицами, состоящими из миллионов или миллиардов строчек. Если данные слишком большие, чтобы поместиться в оперативной памяти одного компьютера, обычно для анализа приходится использовать распределенные системы. Библиотека Vaex позволяет эффективно работать с таблицами данных на жестком диске с малым использованием оперативной памяти. Таким образом она расширяет возможности быстрого локального анализа и во многих ситуациях может избавить от необходимости платить за вычислительные кластеры.
Vaex написан на Python и C++, использует отображение файлов в память (memory-mapping в форматах Apache Arrow, HDF5), отложенные вычисления, вычислительные графы и эффективные алгоритмы. Это позволяет обрабатывать больше данных, используя меньше ресурсов.
В презентации я расскажу о решениях, используемых в библиотеке Vaex, покажу пример ее использования для анализа данных "New York City YellowCab taxi service", и сравню Vaex с другими библиотеками, позволяющими обрабатывать большие данные на языке Python: PySpark и Dask DataFrame.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: