Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

Se ha estudiado ha estudiado el desarrollo de una utilidad que permita llevar a cabo el reconocimiento óptico de caracteres. Su objetivo es pre-procesar los ficheros PDF compuestos Su objetivo principal es pre-procesar los ficheros PDF compuestos por imágenes para obtener documentos procesables.  Supone Supone una herramienta auxiliar que permita vías futuras que hagan de la Solución RPA un entorno más flexible y adaptativo para facilitar la experiencia de usuario. 

Esta herramienta podrá obtener texto de cualquier tipo de imagen, a parte de utilizar ficheros PDF's como entrada, será capaz de reconocer los caracteres que se encuentren en una imagen cualquiera o por ejemplo documentos escaneados, impresos o escritos a mano.

Image Added

Para poder conseguir este objetivo, se ha seleccionado la librería PyPDFOCR ya que se trata de una herramienta Open Source de gran potencia y precisión a la hora de llevar a cabo OCRs. Hace uso del motor de reconocimiento óptico Tesseract que se trata de una de las mejores opciones del mercado en cuando a velocidad de procesamiento y precisión en el reconocimiento. Este módulo será un wrapper de estas librerías que adaptará su funcionalidad de forma transparente al usuario para poder procesar documentos desde una interfaz más amigable y sin ser experto en programación o en el uso de estas librerías.

...