Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

El módulo cognitivo poseerá una librería capaz de extraer tablas de archivos PDFs, siendo capaz de detectar cambios de formatos en dicha tabla en los que respecta a la orientación (texto en vertical), es decir, la librería es capaz de extraer cualquier tabla en cualquier orientación, esto incluye detección de cambios de formato en los documentos de concesiones, ya que si las tablas cambiaran de orientación está funcionalidad seguiría detectándolas.

Esta . Está librería servirá de apoyo para la extracción de tablas Proceso 3 : Automatización de procesos de gestiones documentales parametrizables, en la extracción de concesiones, ya que su extracción significará la búsqueda de información y automatización de procesos.  Está librería también   También se apoya en el módulo de Reconocimiento de caracteres (OCR), para aquellas tablas que se extraigan de imágenes y se necesite reconocer el texto de las celdas.

Para implementar este módulo trabajamos con Camelot (biblioteca de python Python software libre GPL V3). Camelot es capaz de trabajar con tablas rotadas de diferentes formatos y, modificando ciertos parámetros internos de la propia librería es capaz de darnos resultados muy satisfactorios. Para la realización de este componente del módulo de tecnologías cognitivas se ha hecho uso de diferentes parametrizaciones de Camelot para posteriormente aplicando algoritmos propios, obtener la mejor aproximación a la tabla que contiene el documento de entrada. Esta librería tendrá como resultado, si se le pide, la salida de la tabla en formato excel. Internamente esta librería puede Excel o CSV. También se ha implementado devolver la tabla resultante como un dataframe de Pandas. De , de esta forma otros procesos pueden extraer información que sea necesaria para la realización del Módulo de Automatización y Gestión. Desde nuestro módulo de extracción de tablas podremos llamar a las funciones de estas liberías librerías añadiendo los parámetros necesarios para que nos devuelva el resultado resultado .

A continuación mostramos un ejemplo de uso de esta funcionalidad de la librería, donde partimos de una tabla que se encuentra en un documento PDF que recoge concesiones de convocatorias.

Tabla Inicial 

La tabla está rotada inicialmente .

Tabla volteada 

Dataframe resultante de la tabla 

...

Una vez tenemos la tabla como un dataframe, podemos exportarla con ayuda de la librería Pandas y xlsxwriter.

Tabla resultante en formato Excel, CSV o similares

View file
nameRESOLUCIÓN DE CONCESIÓN-PROYECTOS UMU.xlsx
height250
Tratamiento de tablas en imágenes