Como extraer con tesseract el texto de un PDF escaneado

Hay una herramienta OCR muy potente disponible para GNU/Linux que se llama tesseract. Permite extraer textos a partir de imágenes escaneadas y funciona francamente bien. Para instalar en Debian los paquetes necesarios, basta con ejecutar con privilegios de administrador aptitude install tesseract-ocr tesseract-ocr-spa (este último paquete, por si queremos escanear textos en español). Generalmente, lo que … Leer más…