Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

...

Esta herramienta podrá obtener texto de cualquier tipo de imagen, aparte de utilizar ficheros PDF's PDFs como entrada, será capaz de reconocer los caracteres que se encuentren en una imagen cualquiera, así como de documentos escaneados, impresos o escritos a mano. 

Tecnologías Cognitivas utilizadas:  

  • OCR.

Repositorio: https://github.com/hercules-rpa/module_cognitive_lib/blob/main/module_cognitive_treelogic/PDF2Table.py

...

Librería capaz de extraer tablas de archivos PDFs, siendo capaz de detectar cambios de formatos en dicha tabla en los lo que respecta a la orientación (texto en vertical), es decir, la librería es capaz de extraer cualquier tabla en cualquier orientación, esto incluye detección de cambios de formato en los documentos de concesiones, ya que si las tablas cambiaran de orientación está funcionalidad seguiría detectándolas.   

Esta librería servirá de apoyo para la extracción de tablas Proceso 3 : Automatización de procesos de gestiones documentales parametrizables, en la extracción de concesiones, ya que su extracción significará la búsqueda de información y automatización de procesos.  También se apoya en el módulo de Reconocimiento de caracteres (OCR), para aquellas tablas que se extraigan de imágenes y se necesite reconocer el texto de las celdas. 

Tecnologías Cognitivas utilizadas:  

  • OCR .
  • Detección de cambios formato .
  • Analítica de Textos .

Repositorio: https://github.com/hercules-rpa/module_cognitive_lib/blob/main/module_cognitive_treelogic/PDF2Table.py 

...

Este módulo tiene como objetivo hacer minería de datos explotando los datos de los distintos subsistemas Hércules, en concreto sobre los datos de grupos de investigación y su producción con objeto de realizar clasificación y  categorización que permitan identificar agrupaciones y similaridadessimilitudes, para ello se hace uso de tecnologías de tecnologías de procesamiento de lenguaje natural (NLP) y de aprendizaje (Machine Learning). 

...

  • Extracción de datos de los subsistemas HÉRCULES.
  • Tratamiento de datos.
  • Vectorización y creación de vocabulario (NLP) utilizando las etiquetas relacionadas con los trabajos de los investigadores. 
  • Reducción de la dimensión usando UMAP (Machine Learning).
  • Agrupación utilizando técnicas de clustering (Machine Learning).

Módulo de Tecnologías Cognitivas:  

  • Procesamiento del lenguaje natural (NLP).
  • Categorización y clasificación .
  • Machine Learning.

Repositorio: https://github.com/hercules-rpa/module_cognitive_lib/blob/main/module_cognitive_treelogic/DataMining.py 

...

  • Categorización y clasificación .
  • Analítica de Textos.

 Repositorio:

https://github.com/hercules-rpa/module_cognitive_lib/blob/main/module_cognitive_treelogic/ExtractXML.py

...