Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

Desarrollo 

En definitiva, El objetivo de este módulo será el desarrollo del Módulo de Tecnologías Cognitivas es un componente transversal que pueda ser usado para incrementar la capacidad de automatización de los procesos que se llevarán a cabo en el proyecto RPA-Hércules. Se necesita por tanto dotar al proyecto HÉRCULES de herramientas que flexibilicen el trabajo sobre datos como documentos sin formato o procesado de texto en imágenes. Entre otras técnicas cognitivas a utilizar se incluirán: 

  • Reconocimiento Óptico de Caracteres (OCR). 
  • Analítica de textos .
  • Categorización.
  • Clasificación.
  • Detección de cambios de formato. 

Este módulo contará con modelos  de  aprendizaje automático con carácter general, así como de procesado de lenguaje natural. El resultado final será un prototipo que permita la incorporación de estas tecnologías y herramientas para facilitar  la  detección  y  posterior  automatización  de actividades  en  la  Universidad  de  Murcia, incluyendo mecanismos para dar soporte a la toma de decisiones. Usando este módulo, se desarrollarán una serie de componentes demostradores sobre los sistemas de HÉRCULES como: 

debe utilizar diferentes tecnologías y que en gran parte es usado en el módulo de automatización tanto para la toma de decisiones como para la resolución de distintas partes de la automatización. Este módulo también podría ser invocado a través de API REST para que cualquiera puede utilizarlo (solamente haría falta su despliegue y ejecución como API REST). 

A continuación, se define los siguientes procesos desarrollados y donde encajarían dentro de los puntos mencionados por el pliego en el módulo de tecnologías cognitivas. 

 

Módulo 1 : Reconocimiento de caracteres (OCR) 

Esta herramienta podrá obtener texto de cualquier tipo de imagen, aparte de utilizar ficheros PDF's como entrada, será capaz de reconocer los caracteres que se encuentren en una imagen cualquiera, así como de documentos escaneados, impresos o escritos a mano. 

Tecnologías Cognitivas utilizadas:  

  • OCR 

https://confluence.um.es/confluence/pages/viewpage.action?pageId=397534866 

Módulo 2 : Extracción de tablas en archivos PDF 

Librería capaz de extraer tablas de archivos PDFs, siendo capaz de detectar cambios de formatos en dicha tabla en los que respecta a la orientación (texto en vertical), es decir, la librería es capaz de extraer cualquier tabla en cualquier orientación, esto incluye detección de cambios de formato en los documentos de concesiones, ya que si las tablas cambiaran de orientación está funcionalidad seguiría detectándolas.  

Esta librería servirá de apoyo para la extracción de tablas Proceso 3 : Automatización de procesos de gestiones documentales parametrizables, en la extracción de concesiones, ya que su extracción significará la búsqueda de información y automatización de procesos.  También se apoya en el módulo de Reconocimiento de caracteres (OCR), para aquellas tablas que se extraigan de imágenes y se necesite reconocer el texto de las celdas. 

Tecnologías Cognitivas utilizadas:  

  • OCR 
  • Detección de cambios formato 
  • Analítica de Textos 

https://confluence.um.es/confluence/pages/viewpage.action?pageId=397534862 

 

Módulo 3 : Minería de datos 

Este módulo tiene como objetivo hacer minería de datos explotando los datos de los distintos subsistemas Hércules, en concreto sobre los datos de grupos de investigación y su producción con objeto de realizar clasificación y  categorización que permitan identificar agrupaciones y similaridades. 

El funcionamiento de esta librería se divide en: 

  • Extracción de datos de los subsistemas HÉRCULES. 
  • Tratamiento de datos. 
  • Agrupación. 
  • Datos de salida. 

Módulo de Tecnologías Cognitivas:  

  • Sistema de soporte a la toma de decisiones permitiendo realizar inferencias a partir de los datos recopilados 
  • Categorización y clasificación 
  • Diseño  de  un  sistema  de  web-scrapping  para  identificar  anuncios  de  convocatorias  de interés  para  los  perfiles  de  investigadores  desde  diferentes  fuentes  suministradas  al sistema.
  • Rastrear los cambios que se produzcan en los diferentes componentes del proyecto Hércules (EDMA, ASIO y SGI), para generar informes e indicadores de tendencias, usos, incidencias, y en general identificar patrones generales de funcionamiento.

  • Hacer minería de datos sobre los datos de grupos de investigación y su producción con objeto  de  realizar  clasificaciones  y  categorizaciones . Estas técnicas permitirán  identificar agrupaciones  y  similitudes  con  objeto  de  crear  mecanismos  automáticos  de comunicación  entre distintos grupos de investigación,  relativos  a  posibles  informaciones  relevantes  sobre de realizar clasificaciones y categorizaciones que permitan identificar agrupaciones y similaridades con objeto de crear mecanismos automáticos de comunicación a los  mismos, relativos a posibles informaciones relevantes sobre convocatorias, anuncios, u otras actividades científicas o de transferencia. 
  • Detección de cambios de formato 

Más detalles en: 

https://confluence.um.es/confluence/pages/viewpage.action?pageId=397534864 

 

Módulo 4 : Extracción de información utilizando recorrido de documentos XML 

El proceso de recorrido de documentos XML nos permite obtener una abstracción de la estructura XML obteniendo solo los nodos necesarios para los procesos RPA. 

Un ejemplo de la aplicación que puede tener este módulo es el recorrido del documento XML del BOE, utilizado en Proceso 3 : Automatización de procesos de gestiones documentales parametrizables para la obtención de las bases reguladoras de  convocatorias.  

Para el ejemplo mencionado anteriormente, el proceso recorrerá la estructura XML, dada una lista de nodos padre y de nodos hijos, en este caso, el nodo padre será el nodo con la etiqueta "item" y los nodos hijos de dicho nodo padre serán los nodos "titulo" y "urlPdf", y creará una lista donde se relaciona cada nodo "item" con sus nodos hijos. Gracias a esto el proceso de extracción de bases reguladoras solo tratará los nodos que necesita y obtendrá la información de ellos. 

Tecnologías Cognitivas utilizadas: 

  • Categorización y clasificación 
  • Analítica de Textos 

https://confluence.um.es/confluence/pages/viewpage.action?pageId=416940103 
 

Módulo 5 : Web-scraping 

El módulo cognitivo estará dotado de una librería que será capaz de recoger, agrupar y categorizar las distintas convocatorias distribuidas en las páginas que se usarán como bases de datos. Estas páginas no tienen API y por lo tanto, la única forma de atacarlas es usando web-scraping y recuperar los resultados como si de un humano se tratase.  

Con esta librería se podrá visualizar, de una manera general, todas las convocatorias de las distintas fuentes de una manera rápida y sencilla otorgando una mayor accesibilidad a ellas y pudiendo aplicar un filtro dentro de las mismas. 

Esta funcionalidad se divide en: 

 

Tecnologías Cognitivas utilizadas: 

  • Diseño de un sistema de web-scraping para identificar anuncios de convocatorias de interés para los perfiles de investigadores desde diferentes fuentes suministradas al sistema.