Converter pdfs para texto em sistemas linux

Por ruibatista

Existem várias formas de se ler um pdf em sistemas linux, entre as quais o próprio adobe reader ao qual a maioria dos utilizadores de windows deve estar habituado. No entanto, devido a este sistema ser software proprietário e à sua acessibilidade não ser a melhor, é para alguns (em particular para mim) comum converter os pdfs para texto simples para posterior leitura.

O pstotext entre outras ferramentas, faz esta conversão: pdf para texto e também ps para texto. A sua instalação é simples, o programa pode ser obtido aqui ou, para sistemas debian e derivados (ubuntu) pode ser instalado com um simples apt-get.

sudo apt-get install pstotext

Para fedora e outras distros que usem rpm, o programa também deve estar disponível nos respectivos repositórios através do yum.

A utilização do software é igualmente bastante intuitiva: num terminal digite:
pstotext -output destino.txt fonte.pdf
Em que destino.txt é o nome do ficheiro de texto de destino e fonte.pdf o ficheiro a converter.
Numa utilização sem argumentos (pstotext sem parâmetros) o programa lê o input do standard input, e coloca o output no standard output (normalmente o terminal se não for redireccionado). Deste modo, é possível fazer-se algumas acções interessantes:

Ler um pdf em texto sem guardar no disco

pstotext fonte.pdf | less
Desta forma o texto aparecerá no terminal utilizando o paginador less, o que permite ler o texto e navegar para tráz e para a frente na leitura.

Converter um pdf directamente da internet

wget http://www.exemplo.com/fonte.pdf -O- | pstotext -output destino.txt

procurar por expressões num pdf

pstotext fonte.pdf | grep expressão
expressão é a expressão que se quer encontrar, poderá ser uma palavra normal ou uma expressão regular (ver man grep).

Estes exemplos ilustram apenas algumas funcionalidades possíveis, a necessidade e imaginação encontrarão muitas mais.
No caso de conversões mais exigentes, o pdftotext é uma boa opção, no entanto, visto que possui mais funcionalidades, a utilização não é tão óbvia. Esta ferramenta pode ser encontrada nos pacotes poppler-utils e xpdf-utils em ubuntu.

Para conversões de outros formatos para texto existem por exemplo o html2text, e para gerar output legivel de fontes de docbook o db2html, db2pdf, db2rtf... que, no sistema ubuntu que utilizo podem ser encontrados no pacote docbook-utils.

Deixe Uma Resposta


Bad Behavior has blocked 173 access attempts in the last 7 days.