ev_tesseract_v7_|_Tesseract_(ocr) [Guadalinex V7] - guadalinex-archive/guadalinex-v7 GitHub Wiki
Aplicación desarrollada por HP (1985-1995) y en 2005 se encargó Google de liberarla (con licencia Apache) y mantener su desarrollo.
Se utiliza desde consola
Tiene la posibilidad de instalar un diccionario de idiomas para entrenar el OCR.
Es necesario tener la imagen escaneada en formato tiff (sin compresión), si no se tiene en formato tiff se convierte con el comando:
$ convert %archivo_origen% %archivo_destino.tif%
Lanzar el OCR Tesseract con el comando (tesseract añade por defecto la extensión txt a los archivos de salida):
$ tesseract %archivo.tif% %archivo_modotexto%
tesseract-ocr (3 MB)
tesseract-ocr-spa (2.3 MB)