Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

El módulo cognitivo poseerá una librería capaz de extraer tablas de archivos PDFs, siendo capaz de detectar cambios de formatos en dicha tabla en los que respecta a la orientación (texto en vertical), es decir, la librería es capaz de extraer cualquier tabla en cualquier orientación. Está librería servirá de apoyo para la extracción de tablas del proceso 3 del módulo b, en las concesiones, ya que su extracción significará la búsqueda de información y automatización de procesos.  Está librería es compatible con la librería OCR.

Image Removed




Empezamos a trabajar con OpenCV, camelot y tabula (bibliotecas de python software libre GPL V3) los resultados obtenidos utilizándo diferentes parámetros y contenido nos dió como mejor opción la biblioteca Camelot. Camelot es capaz de trabajar con tablas rotadas de diferentes formatos y modificando ciertos parámetros internos de la propia librería es capaz de darnos resultados muy satisfactorios. Para la realización de este componente del módulo de tecnologías cognitivas se ha hecho uso de diferentes parametrizaciones de camelot para posteriormente aplicando algoritmos propios, obtener la mejor aproximación a la tabla que contiene el documento de entrada. Esta librería tendrá como resultado si se le pide la salida de la tabla en formato excel. Internamente esta librería puede devolver la tabla resultante como un dataframe de Pandas. De esta forma otros procesos pueden extraer información que sea necesaria para la realización del Módulo de Automatización y Gestión