Primer contacto con el OCR de Google

  • 26 Feb 2010
  • Linux

Comprobar la existencia de estás librerías:

libpng12-dev

libjpeg62-dev

libtiff4-dev

zlibg-dev

Instalar Leptonica

Ir a la página de downloads para descargar la última versión de Leptonica.

Instalar Tesseract

wget http://tesseract-ocr.googlecode.com/files/tesseract-2.04.tar.gz
tar zxvf tesseract-2.04.tar.gz
cd tesseract-2.04
wget http://tesseract-ocr.googlecode.com/files/tesseract-2.00.spa.tar.gz
tar zxvf tesseract-2.00.spa.tar.gz
./configure
make
make install

Uso

Para convertir un archivo .tif a text y guardar el resultado en archivo.txt:

tesseract archivo.tif archivo -l spa