ev_tesseract_v7 - guadalinex-archive/guadalinex-v7 GitHub Wiki

Tesseract : Reconocedor óptico de caracteres

* Aplicación desarrollada por HP (1985-1995) y en 2005 se encargó Google de liberarla (con licencia Apache) y mantener su desarrollo.

* Se utiliza desde consola

* Tiene la posibilidad de instalar un diccionario de idiomas para entrenar el OCR.

¿Cómo se emplea?

* Es necesario tener la imagen escaneada en formato tiff (sin compresión), si no se tiene en formato tiff se convierte con el comando:

$ convert %archivo_origen% %archivo_destino.tif%

* Lanzar el OCR Tesseract con el comando (tesseract añade por defecto la extensión txt a los archivos de salida):

$ tesseract %archivo.tif% %archivo_modotexto%
Paquetes necesarios a instalar (disponibles en los repositorios de Ubuntu Lucid)

* tesseract-ocr (3 MB)

* tesseract-ocr-spa (2.3 MB)