Historial de página

Se ha estudiado el desarrollo de una utilidad que permita llevar a cabo el reconocimiento óptico de caracteres. Su objetivo es pre-procesar los ficheros PDF compuestos por imágenes para obtener documentos procesables. Supone una herramienta auxiliar que permita vías futuras que hagan de la Solución RPA un entorno más flexible y adaptativo para facilitar la experiencia de usuario.

Esta herramienta podrá obtener texto de cualquier tipo de imagen, a parte de utilizar ficheros PDF's como entrada, será capaz de reconocer los caracteres que se encuentren en una imagen cualquiera o por ejemplo documentos escaneados, impresos o escritos a mano.

Para poder conseguir este objetivo, se ha seleccionado la librería PyPDFOCR ya que se trata de una herramienta Open Source de gran potencia y precisión a la hora de llevar a cabo OCRs. Hace uso del motor de reconocimiento óptico Tesseract que se que se trata de una de las mejores opciones del mercado en cuando a velocidad de procesamiento y precisión en el reconocimiento. Image RemovedEste módulo será un wrapper de estas librerías que adaptará su funcionalidad de forma transparente al usuario para poder procesar documentos desde una interfaz más amigable y sin ser experto en programación o en el uso de estas librerías.

Árbol de páginas

Versiones comparadas

Versión anterior 1

Nueva versión 2

Clave