Se usará la librería de Python Selenium (de software libre). Esta herramienta se utiliza para automatizar los navegadores web para realizar una serie de tareas. Uno de ellos es el web-scraping para extraer datos e información útiles. En nuestro caso, utilizaremos navegador Google Chrome y especificamos el modo de interacción “headless”. Este modo permite que el navegador se ejecute en segundo plano sin cargar estilos ni renderizado, y también puede hacer que las pruebas automatizadas sean más estables.
Para extraer la información necesaria localizamos los elementos que la contienen. Los localizamos por , esta localización se lleva a cabo a través de los atributos que contiene cada elemento.
Los enlaces a cada convocatoria tienen el atributo “href”. Los títulos se extraen por el nombre de tag “span”. Luego, accedemos a cada convocatoria y extraemos su estado (abierta/cerrada), fechas, descargamos el documento pdf PDF con bases de convocatoria. Los pdf PDF's se localizan por el atributo “contenedor documentos” que tiene enlaces a la descarga de cada documento.
...