Historial de página

Se usará la librería de Python Selenium (de software libre). Esta herramienta se utiliza para automatizar los navegadores web para realizar una serie de tareas. Uno de ellos es el web-scraping para extraer datos e información útiles. En nuestro caso, utilizaremos navegador Google Chrome y especificamos el modo de interacción “headless”. Este modo permite que el navegador se ejecute en segundo plano sin cargar estilos ni renderizado, y también puede hacer que las pruebas automatizadas sean más estables.

Para extraer la información necesaria localizamos los elementos que la contienen. Los localizamos por , esta localización se lleva a cabo a través de los atributos que contiene cada elemento.

Los enlaces a cada convocatoria tienen el atributo “href”. Los títulos se extraen por el nombre de tag “span”. Luego, accedemos a cada convocatoria y extraemos su estado (abierta/cerrada), fechas, descargamos el documento pdf PDF con bases de convocatoria. Los pdf PDF's se localizan por el atributo “contenedor documentos” que tiene enlaces a la descarga de cada documento.

...

Árbol de páginas

Versiones comparadas

Versión anterior 1

Nueva versión 2

Clave