Reconocimiento de caracteres (OCR)

Se ha estudiado el desarrollo de una utilidad que permita llevar a cabo el reconocimiento óptico de caracteres. Su objetivo es pre-procesar los ficheros PDF compuestos por imágenes para obtener documentos procesables. Supone una herramienta auxiliar que permita vías futuras que hagan de la Solución RPA un entorno más flexible y adaptativo para facilitar la experiencia de usuario.

Para poder conseguir este objetivo, se ha seleccionado la librería PyPDFOCR ya que se trata de una herramienta Open Source de gran potencia y precisión a la hora de llevar a cabo OCRs. Hace uso del motor de reconocimiento óptico Tesseract que se trata de una de las mejores opciones del mercado en cuando a velocidad de procesamiento y precisión en el reconocimiento.

Árbol de páginas

Reconocimiento de caracteres (OCR)