grep en PDF

En este post vamos a ver cómo utilizar el potencial de grep en archivos PDF.

Comprobar que tenemos instalado el programa pdftotext que convierte PDFs a archivos de texto plano:

which pdftotext

Si no lo tenemos instalado, tendremos que instalar el paquete poppler-tools con el gestor de paquetes de nuestra distro (apt, zypper, etc.). Con el paquete instalado, ya podemos contar ocurrencias en un PDF.

Contar ocurrencias en archivo PDF

Supongamos, por ejemplo, que tenemos una lista muy larga (llamada “lista-larga.pdf”) con nombres y queremos saber de forma eficiente cuántas veces aparece el apellido “Abellán”:

pdftotext lista-larga.pdf - |grep 'Abellán' |wc -l

Como puede verse, convertimos “lista-larga.pdf” a PDF, pero, en lugar de escribir el resultado a un archivo, se lo enviamos a grep mediante tubería y finalmente a wc para hacer el recuento.

Espero que este post haya sido de tu agrado y te haya servido.

Halof!!!

_config.yml

Recursos de interés


Manual de grep: https://www.gnu.org/savannah-checkouts/gnu/grep/manual/grep.html

Written on April 14, 2018