ev_tesseract_v7_|_Tesseract_(ocr) [Guadalinex V7] - guadalinex-archive/guadalinex-v7 GitHub Wiki

Tesseract : Reconocedor óptico de caracteres

Aplicación desarrollada por HP (1985-1995) y en 2005 se encargó Google de liberarla (con licencia Apache) y mantener su desarrollo.

Se utiliza desde consola

Tiene la posibilidad de instalar un diccionario de idiomas para entrenar el OCR.

¿Cómo se emplea?

Es necesario tener la imagen escaneada en formato tiff (sin compresión), si no se tiene en formato tiff se convierte con el comando:

$ convert %archivo_origen% %archivo_destino.tif%

Lanzar el OCR Tesseract con el comando (tesseract añade por defecto la extensión txt a los archivos de salida):

$ tesseract %archivo.tif% %archivo_modotexto%

Paquetes necesarios a instalar (disponibles en los repositorios de Ubuntu Lucid)

tesseract-ocr (3 MB)

tesseract-ocr-spa (2.3 MB)

⚠️ GitHub.com Fallback ⚠️