Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

...

A continuación, se define los siguientes procesos desarrollados y donde encajarían dentro de los puntos mencionados por el pliego en el módulo de tecnologías cognitivas. 

 

Módulo 1 : Reconocimiento de caracteres (OCR) 

Esta herramienta podrá obtener texto de cualquier tipo de imagen, aparte de utilizar ficheros PDF's como entrada, será capaz de reconocer los caracteres que se encuentren en una imagen cualquiera, así como de documentos escaneados, impresos o escritos a mano. 

Tecnologías Cognitivas utilizadas:  

  • OCR 

https://confluence.um.es/confluence/pages/viewpage.action?pageId=397534866 

Repositorio: https://github.com/hercules-rpa/module_cognitive_lib/blob/main/module_cognitive_treelogic/PDF2Table.py

Módulo 2 : Extracción de tablas en archivos PDF 

Librería capaz de extraer tablas de archivos PDFs, siendo capaz de detectar cambios de formatos en dicha tabla en los que respecta a la orientación (texto en vertical), es decir, la librería es capaz de extraer cualquier tabla en cualquier orientación, esto incluye detección de cambios de formato en los documentos de concesiones, ya que si las tablas cambiaran de orientación está funcionalidad seguiría detectándolas.  

...

  • OCR 
  • Detección de cambios formato 
  • Analítica de Textos 

https://confluence.um.es/confluence/pages/viewpage.action?pageId=397534862 

Repositorio: https://github.com/hercules-rpa/module_cognitive_lib/blob/main/module_cognitive_treelogic/PDF2Table.py 

Módulo 3 : Minería de datos 

Este módulo tiene como objetivo hacer minería de datos explotando los datos de los distintos subsistemas Hércules, en concreto sobre los datos de grupos de investigación y su producción con objeto de realizar clasificación y  categorización que permitan identificar agrupaciones y similaridades, para ello se hace uso de tecnologías de procesamiento de lenguaje natural (NLP) y de aprendizaje (Machine Learning). 

...

  • Procesamiento del lenguaje natural (NLP)
  • Categorización y clasificación 
  • Machine Learning

...

https://confluence.um.es/confluence/pages/viewpage.action?pageId=397534864 

Repositorio: https://github.com/hercules-rpa/module_cognitive_lib/blob/main/module_cognitive_treelogic/DataMining.py 

Módulo 4 : Extracción de información utilizando recorrido de documentos XML 

El proceso de recorrido de documentos XML nos permite obtener una abstracción de la estructura XML obteniendo solo los nodos necesarios para los procesos RPA. 

...

  • Categorización y clasificación 
  • Analítica de Textos 

...


 Repositorio:

https://github.com/hercules-rpa/module_cognitive_lib/blob/main/module_cognitive_treelogic/ExtractXML.py

Módulo 5 : Web-scraping 

El módulo cognitivo estará dotado de una librería que será capaz de recoger, agrupar y categorizar las distintas convocatorias distribuidas en las páginas que se usarán como bases de datos. Estas páginas no tienen API y por lo tanto, la única forma de atacarlas es usando web-scraping y recuperar los resultados como si de un humano se tratase.  

...

  • Diseño de un sistema de web-scraping para identificar anuncios de convocatorias de interés para los perfiles de investigadores desde diferentes fuentes suministradas al sistema.

Repositorio: https://github.com/hercules-rpa/module_cognitive_lib/blob/main/module_cognitive_treelogic/WebScrapping.py

...