IBM docilng, SpaCy: extraccion Tablas en documento PDF, TXT por páginas con generacion de oraciones
Автор: saXsa Big Data
Загружено: 2025-01-04
Просмотров: 44
IBM docilng, SpaCy para Extracción: TXT, Tablas, Imágenes y Oraciones en documentos PDF y Office
Curso práctico 22 enero 2025 Via ZOOM
A todas y todos
Para arrancar el año con toda la energia que acumulamos en las fiestas y buenos deseos navideños, ofrecemos un curso via ZOOM
En estos días he estado preparando el material para el curso.
En la búsqueda de ejemplos, encontre un excelente ejemplo que la DGTIC UNAM ofrece.
Se refiere a una Revista donde se publican documentos relativos a TIC, Tecnologías de la Información y Comunicación, en donde se solicitan contribuciones para publicar.
Que mejor que publicar articulos del uso de la Inteligencia Artificial.
Para muestra analizamos el último número con mecanismos de RAG y asi construir un sistema de BÚSQUEDA SEMÁNTICA en forma local con herramientas de código abierto.
Fecha: Miercoles 22 enero 2025
Horario: 7pm - 9:30pm
Cuota recuperación: 1,000 pesos + i.v.a.
Si requiere factura, enviar constancia de situacion fiscal
Tema: Generación de servicios de Inteligencia Artificial en particular Busqueda Semantica y Preguntas&Respuestas (Q&A) utilizando herramientas de código abierto TODO EN FORMA LOCAL con equipos PC SIN NECESIDAD DE LLAVES:
Usamos
IBM docling. Para recibir documentos de formatos PDF generados, PDF escaneados, word, excel, powerpoint, html, formatos gráficos PARA EXTRACCION DEL TEXTO, TABLAS E IMAGENES
SpaCy. Para la extraccion de las oraciones y analisis de Procesamiento de Lenguaje Natural
Embeddings. Para la generación de vectores de las oraciones con modelos como BGE-m3, InstructOR u otros vectorizadores de código abierto
ChromaDB o Milvus. Para almacenamiento de vectores en una BDVectorial
LangChain. Para mecanismos RAG para servicio de Busqueda Semantica
LLM IBM Granite con Ollama. Para servicio de Preguntas/Respuestas (Q&A) utilizando el LLM Granite en un ambiente Ollama
Curso práctico 22 enero 2025 Via ZOOM
Fecha: Miercoles 22 enero 2025
Horario: 7pm - 9:30pm
Cuota recuperación: 1,000 pesos + i.v.a.
Si requiere factura, enviar constancia de situacion fiscal
NOTA SOLIDARIA
A todos aquellos que tengan muchas ganas pero pocos recursos, se les ofrece beca al 50%, ... pero se deben manifestar antes del 15 de enero 2025
Se les compartira antes del curso el material de todos los códigos y documentos para que no sufran tecleando, ... no es un curso de mecanografia, sino de transmisión de conocimiento con códigos ya generados que funcionan
En la Inteligencia Artificial Empresarial de Grandes Volúmenes se deben utilizar herramientas YA PROBADAS que FUNCIONEN aun sin ser lo ultimo existente como los modelos de la Inteligencia Artificial de Innovación
TODO CON HERRAMIENTAS QUE FUNCIONAN EN AMBIENTES LOCALES CON EQUIPOS PC para la construcción de los Modelos de Operacion basicos, ... que despues se ESCALAN A GRANDES VOLUMENES en arquitecturas en GPU y en ambientes de red
Atte
Dr. Gabriel Guerrero
[email protected]
Ver Adelantos (trailers) ya grabados en el canal YouTube de saXsa
Tenemos mas de 350 videos de los temas de interés
ID Canal YouTube: @saxsabigdata1400
Algunos ejemplos:
IBM docling, herramienta indispensable en el Mundo Financiero para Extracción de Tablas e Imágenes
ID_YouTube:: 2tRuUxnKEcg
IBM docling Instalación Ambiente Conda Python3.11 y Jupyter para extracción texto, tablas e imágenes
ID_YouTube:: gvU1MZj90So
SpaCy NLP Natural Lenguage Processing Instalacion con ambiente Jupyter para extracción de oraciones
ID_YouTube:: ZFuuv5sN3mw

Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: