...
A continuación, se define los siguientes procesos desarrollados y donde encajarían dentro de los puntos mencionados por el pliego en el módulo de tecnologías cognitivas.
Módulo 1 : Reconocimiento de caracteres (OCR)
Esta herramienta podrá obtener texto de cualquier tipo de imagen, aparte de utilizar ficheros PDF's como entrada, será capaz de reconocer los caracteres que se encuentren en una imagen cualquiera, así como de documentos escaneados, impresos o escritos a mano.
Tecnologías Cognitivas utilizadas:
- OCR
https://confluence.um.es/confluence/pages/viewpage.action?pageId=397534866
Repositorio: https://github.com/hercules-rpa/module_cognitive_lib/blob/main/module_cognitive_treelogic/PDF2Table.py
Módulo 2 : Extracción de tablas en archivos PDF
Librería capaz de extraer tablas de archivos PDFs, siendo capaz de detectar cambios de formatos en dicha tabla en los que respecta a la orientación (texto en vertical), es decir, la librería es capaz de extraer cualquier tabla en cualquier orientación, esto incluye detección de cambios de formato en los documentos de concesiones, ya que si las tablas cambiaran de orientación está funcionalidad seguiría detectándolas.
...
- OCR
- Detección de cambios formato
- Analítica de Textos
https://confluence.um.es/confluence/pages/viewpage.action?pageId=397534862
Repositorio: https://github.com/hercules-rpa/module_cognitive_lib/blob/main/module_cognitive_treelogic/PDF2Table.py
Módulo 3 : Minería de datos
Este módulo tiene como objetivo hacer minería de datos explotando los datos de los distintos subsistemas Hércules, en concreto sobre los datos de grupos de investigación y su producción con objeto de realizar clasificación y categorización que permitan identificar agrupaciones y similaridades, para ello se hace uso de tecnologías de procesamiento de lenguaje natural (NLP) y de aprendizaje (Machine Learning).
...
- Procesamiento del lenguaje natural (NLP)
- Categorización y clasificación
- Machine Learning
...
https://confluence.um.es/confluence/pages/viewpage.action?pageId=397534864
Repositorio: https://github.com/hercules-rpa/module_cognitive_lib/blob/main/module_cognitive_treelogic/DataMining.py
Módulo 4 : Extracción de información utilizando recorrido de documentos XML
El proceso de recorrido de documentos XML nos permite obtener una abstracción de la estructura XML obteniendo solo los nodos necesarios para los procesos RPA.
...
- Categorización y clasificación
- Analítica de Textos
...
Repositorio:
Módulo 5 : Web-scraping
El módulo cognitivo estará dotado de una librería que será capaz de recoger, agrupar y categorizar las distintas convocatorias distribuidas en las páginas que se usarán como bases de datos. Estas páginas no tienen API y por lo tanto, la única forma de atacarlas es usando web-scraping y recuperar los resultados como si de un humano se tratase.
...
- Diseño de un sistema de web-scraping para identificar anuncios de convocatorias de interés para los perfiles de investigadores desde diferentes fuentes suministradas al sistema.
Repositorio: https://github.com/hercules-rpa/module_cognitive_lib/blob/main/module_cognitive_treelogic/WebScrapping.py
...