Historial de página

Desarrollo

En definitiva, El objetivo de este módulo será el desarrollo del Módulo de Tecnologías Cognitivas es un componente transversal que pueda ser usado para incrementar la capacidad de automatización de los procesos que se llevarán a cabo en el proyecto RPA-Hércules. Se necesita por tanto dotar al proyecto HÉRCULES de herramientas que flexibilicen el trabajo sobre datos como documentos sin formato o procesado de texto en imágenes. Entre otras técnicas cognitivas a utilizar se incluirán:

Reconocimiento Óptico de Caracteres (OCR).
Analítica de textos .
Categorización.
Clasificación.
Detección de cambios de formato.

Este módulo contará con modelos de aprendizaje automático con carácter general, así como de procesado de lenguaje natural. El resultado final será un prototipo que permita la incorporación de estas tecnologías y herramientas para facilitar la detección y posterior automatización de actividades en la Universidad de Murcia, incluyendo mecanismos para dar soporte a la toma de decisiones. Usando este módulo, se desarrollarán una serie de componentes demostradores sobre los sistemas de HÉRCULES como:

debe utilizar diferentes tecnologías y que en gran parte es usado en el módulo de automatización tanto para la toma de decisiones como para la resolución de distintas partes de la automatización. Este módulo también podría ser invocado a través de API REST para que cualquiera puede utilizarlo (solamente haría falta su despliegue y ejecución como API REST).

A continuación, se define los siguientes procesos desarrollados y donde encajarían dentro de los puntos mencionados por el pliego en el módulo de tecnologías cognitivas.

Módulo 1 : Reconocimiento de caracteres (OCR)

Esta herramienta podrá obtener texto de cualquier tipo de imagen, aparte de utilizar ficheros PDF's como entrada, será capaz de reconocer los caracteres que se encuentren en una imagen cualquiera, así como de documentos escaneados, impresos o escritos a mano.

Tecnologías Cognitivas utilizadas:

OCR

https://confluence.um.es/confluence/pages/viewpage.action?pageId=397534866

Módulo 2 : Extracción de tablas en archivos PDF

Librería capaz de extraer tablas de archivos PDFs, siendo capaz de detectar cambios de formatos en dicha tabla en los que respecta a la orientación (texto en vertical), es decir, la librería es capaz de extraer cualquier tabla en cualquier orientación, esto incluye detección de cambios de formato en los documentos de concesiones, ya que si las tablas cambiaran de orientación está funcionalidad seguiría detectándolas.

Esta librería servirá de apoyo para la extracción de tablas Proceso 3 : Automatización de procesos de gestiones documentales parametrizables, en la extracción de concesiones, ya que su extracción significará la búsqueda de información y automatización de procesos.  También se apoya en el módulo de Reconocimiento de caracteres (OCR), para aquellas tablas que se extraigan de imágenes y se necesite reconocer el texto de las celdas.

Tecnologías Cognitivas utilizadas:

OCR
Detección de cambios formato

Analítica de Textos

https://confluence.um.es/confluence/pages/viewpage.action?pageId=397534862

Módulo 3 : Minería de datos

Este módulo tiene como objetivo hacer minería de datos explotando los datos de los distintos subsistemas Hércules, en concreto sobre los datos de grupos de investigación y su producción con objeto de realizar clasificación y  categorización que permitan identificar agrupaciones y similaridades.

El funcionamiento de esta librería se divide en:

Extracción de datos de los subsistemas HÉRCULES.
Tratamiento de datos.
Agrupación.
Datos de salida.

Módulo de Tecnologías Cognitivas:

Sistema de soporte a la toma de decisiones permitiendo realizar inferencias a partir de los datos recopilados
Categorización y clasificación
Diseño de un sistema de web-scrapping para identificar anuncios de convocatorias de interés para los perfiles de investigadores desde diferentes fuentes suministradas al sistema.
Rastrear los cambios que se produzcan en los diferentes componentes del proyecto Hércules (EDMA, ASIO y SGI), para generar informes e indicadores de tendencias, usos, incidencias, y en general identificar patrones generales de funcionamiento.
Hacer minería de datos sobre los datos de grupos de investigación y su producción con objeto de realizar clasificaciones y categorizaciones . Estas técnicas permitirán identificar agrupaciones y similitudes con objeto de crear mecanismos automáticos de comunicación entre distintos grupos de investigación, relativos a posibles informaciones relevantes sobre de realizar clasificaciones y categorizaciones que permitan identificar agrupaciones y similaridades con objeto de crear mecanismos automáticos de comunicación a los mismos, relativos a posibles informaciones relevantes sobre convocatorias, anuncios, u otras actividades científicas o de transferencia.
Detección de cambios de formato

Más detalles en:

https://confluence.um.es/confluence/pages/viewpage.action?pageId=397534864

Módulo 4 : Extracción de información utilizando recorrido de documentos XML

El proceso de recorrido de documentos XML nos permite obtener una abstracción de la estructura XML obteniendo solo los nodos necesarios para los procesos RPA.

Un ejemplo de la aplicación que puede tener este módulo es el recorrido del documento XML del BOE, utilizado en Proceso 3 : Automatización de procesos de gestiones documentales parametrizables para la obtención de las bases reguladoras de  convocatorias.

Para el ejemplo mencionado anteriormente, el proceso recorrerá la estructura XML, dada una lista de nodos padre y de nodos hijos, en este caso, el nodo padre será el nodo con la etiqueta "item" y los nodos hijos de dicho nodo padre serán los nodos "titulo" y "urlPdf", y creará una lista donde se relaciona cada nodo "item" con sus nodos hijos. Gracias a esto el proceso de extracción de bases reguladoras solo tratará los nodos que necesita y obtendrá la información de ellos.

Tecnologías Cognitivas utilizadas:

Categorización y clasificación
Analítica de Textos

https://confluence.um.es/confluence/pages/viewpage.action?pageId=416940103

Módulo 5 : Web-scraping

El módulo cognitivo estará dotado de una librería que será capaz de recoger, agrupar y categorizar las distintas convocatorias distribuidas en las páginas que se usarán como bases de datos. Estas páginas no tienen API y por lo tanto, la única forma de atacarlas es usando web-scraping y recuperar los resultados como si de un humano se tratase.

Con esta librería se podrá visualizar, de una manera general, todas las convocatorias de las distintas fuentes de una manera rápida y sencilla otorgando una mayor accesibilidad a ellas y pudiendo aplicar un filtro dentro de las mismas.

Esta funcionalidad se divide en:

Tecnologías Cognitivas utilizadas:

Diseño de un sistema de web-scraping para identificar anuncios de convocatorias de interés para los perfiles de investigadores desde diferentes fuentes suministradas al sistema.

Árbol de páginas

Versiones comparadas

Versión anterior 2

Nueva versión 3

Clave