Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

...

Esta herramienta podrá obtener texto de cualquier tipo de imagen, a parte de utilizar ficheros PDF's PDFs como entrada, será capaz de reconocer los caracteres que se encuentren en una imagen cualquiera o por ejemplo así como de documentos escaneados, impresos o escritos a mano.

...

Para poder conseguir este objetivo, se ha seleccionado la librería PyPDFOCR, ya que se trata de una herramienta Open Source de gran potencia y precisión a la hora de llevar a cabo OCRs. Hace uso del motor de reconocimiento óptico Tesseract que se trata de una de las mejores opciones del mercado en cuando a velocidad de procesamiento y precisión en el reconocimiento. Este módulo será un wrapper de estas librerías que adaptará su funcionalidad de forma transparente al usuario para poder procesar documentos desde una interfaz más amigable y sin ser experto en programación o en el uso de estas librerías. A su vez podrá ayudar a cualquier proceso de digitalización que se tenga que llevar a cabo en el proyecto HÉRCULES.