Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

...

Empezamos a trabajar con OpenCV, camelot y tabula (bibliotecas de python software libre GPL V3) los resultados obtenidos utilizándo diferentes parámetros y contenido nos dió como mejor opción la biblioteca Camelot. Camelot es capaz de trabajar con tablas rotadas de diferentes formatos y modificando ciertos parámetros internos de la propia librería es capaz de darnos resultados muy satisfactorios. Para la realización de este componente del módulo de tecnologías cognitivas se ha hecho uso de diferentes parametrizaciones de camelot para posteriormente aplicando algoritmos propios, obtener la mejor aproximación a la tabla que contiene el documento de entrada. Esta librería tendrá como resultado si se le pide la salida de la tabla en formato excel. Internamente esta librería puede devolver la tabla resultante como un dataframe de Pandas. De esta forma otros procesos pueden extraer información que sea necesaria para la realización del Módulo de Automatización y Gestión. Desde nuestro módulo de extracción de tablas podremos llamar a las funciones de estas liberías añadiendo los parámetros necesarios para que nos devuelva el resultado 



Tabla Inicial 


Tabla volteada 


Dataframe resultante de la tabla 


tabla resultante en excel 


Tratamiento de tablas en imágenes