Como extraer con tesseract el texto de un PDF escaneado

Hay una herramienta OCR muy potente disponible para GNU/Linux que se llama tesseract. Permite extraer textos a partir de imágenes escaneadas y funciona francamente bien. Para instalar en Debian los paquetes necesarios, basta con ejecutar con privilegios de administrador aptitude install tesseract-ocr tesseract-ocr-spa (este último paquete, por si queremos escanear textos en español). Generalmente, lo que … Leer más…

PDF Editor: por fin, un editor de PDF para Linux que me gusta

Después de las decepciones varias que he tenido al intentar buscar la forma de editar PDF en GNU/Linux (como kword o flpsed), por fin, gracias a kriptópolis he encontrado la aplicación que necesitaba. Se llama PDF Editor (aunque el binario ejecutable sea invocado mediante pdfedit, de ahí la confusión que hay en algunas páginas en … Leer más…