Mindee docTR — вероятно, лучший OCR с открытым исходным кодом
Автор: Andrej Baranovskij
Загружено: 2022-04-18
Просмотров: 14888
Хотите создать конвейер машинного обучения для автоматизации извлечения данных из деловых документов (квитанций, счетов-фактур, форм)? Тогда первым шагом должна стать интеграция OCR для извлечения текста. Качество извлечения OCR должно быть высоким, весь конвейер будет зависеть от качества извлечения исходных текстовых данных. Если извлечённые данные будут точными, это означает, что модели машинного обучения смогут корректно классифицировать текст. Я потратил время на изучение доступных решений для OCR и считаю, что Mindee docTR на данный момент является одним из лучших решений OCR с открытым исходным кодом. Посмотрите видео, где я провожу и демонстрирую несколько тестов.
Mindee docTR на GitHub:
https://github.com/mindee/doctr
Набор данных SRD Receipts:
https://expressexpense.com/blog/free-...
Sparrow на GitHub:
https://github.com/katanaml/sparrow/t...
0:00 Введение
2:41 Mindee docTR
5:27 Тест 1
7:43 Тест 2
9:12 Тест 3
11:58 Тест 4
13:19 Тест 5
14:21 Краткое содержание
ПОДКЛЮЧИТЬСЯ:
Подписаться на этот канал на YouTube
Twitter: / andrejusb
LinkedIn: / andrej-baranovskij
Medium: / andrejusb
#OCR #МашинноеОбучение #Python
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: