Este módulo módulo tiene como objetivo hacer minería de datos explotando los datos de los distintos subsistemas Hércules, en concreto sobre los datos de grupos de investigación y su producción con objeto de realizar clasificación y categorización categorización que permitan identificar identificar agrupaciones y similaridadesy similitudes. Para ello, se apoya en técnicas de procesamiento de lenguaje natural (NLP) y técnicas de aprendizaje automático (Machine Learning).

Extracción de datos de los subsistemas HÉRCULES.
Tratamiento de datos.
Agrupación.
Generador de vocabulario (NLP).
Reducción de la Dimensionalidad (Machine Learning).
Clustering (Machine Learning).

Extracción de datos de los subsistemas HÉRCULES.

...

Bloque de código

theme	RDark
title	Query SPARQL

select ?person ?tag  ?nombreCategoria ?nombrePersona ?email from <http://gnoss.com/document.owl> from <http://gnoss.com/person.owl> from <http://gnoss.com/taxonomy.owl> where {
?doc a <http://purl.org/ontology/bibo/Document>.
?doc <http://purl.org/ontology/bibo/authorList> ?autor.
?autor <http://www.w3.org/1999/02/22-rdf-syntax-ns#member> ?person.
?person <http://xmlns.com/foaf/0.1/name> ?nombrePersona.
?person <https://www.w3.org/2006/vcard/ns#email> ?email.
?doc <http://vivoweb.org/ontology/core#freeTextKeyword> ?tag.
?doc <http://w3id.org/roh/hasKnowledgeArea> ?area.
?area <http://w3id.org/roh/categoryNode> ?nodo.
?nodo <http://www.w3.org/2008/05/skos#prefLabel> ?nombreCategoria.
}

Esta consulta consulta devolverá la siguiente información:

...

Los datos principalmente se encuentran ya tratados, pues vienen de los subsistemas HÉRCULES donde ya se hace lleva a cabo un preprocesamiento. Por lo tanto, lo único que el sistema hará, será limpiar el texto de los tag y las categorías, es decir, eliminar caracteres extraños, transformar las palabras en minúsculas y eliminación de "stopwords" (in, a, the, etc...), este último paso es necesario para la generación de vocabulario utilizando la librería Gensim. Además, se borrarán aquellas columnas que el sistema no necesita. El siguiente paso será la agrupación de las columnas categoría y tag, de esta forma el vocabulario que se generará a través de técnicas de lenguaje natural (NLP) será más rico. Posteriormente, el sistema buscará las N similitudes (por defecto) más grandes entre los distintos tags que las técnicas de NLP determinen con el objetivo de tener una columna más llamada "similitud" que facilitará al sistema a agrupar los N investigadores. El objetivo principal principal es poder vectorizar las palabras que relacionan los trabajos de los investigadores con el fin de obtener relaciones (clústeres) entre los distintos investigadores utilizando técnicas de Machine Learning y NLP.

...

Árbol de páginas

Versiones comparadas

Versión anterior 17

Nueva versión 18

Clave

Extracción de datos de los subsistemas HÉRCULES.

Árbol de páginas

Historial de página

Versiones comparadas

Versión anterior 17

Nueva versión 18

Clave

Extracción de datos de los subsistemas HÉRCULES.