Подготовка набора данных для тонкой настройки Donut (часть 1, Document AI)
Автор: Andrej Baranovskij
Загружено: 2023-01-30
Просмотров: 7993
Я расскажу о наборе данных, который буду использовать для тонкой настройки модели Donut. Покажу, как PDF-файлы преобразуются в файлы изображений для дальнейшей обработки и извлечения данных OCR. На следующем этапе данные JSON преобразуются в формат, понятный инструменту обработки/просмотра аннотаций Sparrow.
Sparrow — извлечение данных из документов с помощью машинного обучения:
https://github.com/katanaml/sparrow
0:00 Введение
0:37 Репозиторий GitHub
1:23 Набор данных
4:15 OCR
7:30 Преобразование
9:05 Краткое содержание
ПОДКЛЮЧИТЬСЯ:
Подписаться на этот канал на YouTube
Twitter: / andrejusb
LinkedIn: / andrej-baranovskij
Medium: / andrejusb
#machinelearning #python #data
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: