Converter pdfs para texto em sistemas linux
Existem várias formas de se ler um pdf em sistemas linux, entre as quais o próprio adobe reader ao qual a maioria dos utilizadores de windows deve estar habituado. No entanto, devido a este sistema ser software proprietário e à sua acessibilidade não ser a melhor, é para alguns (em particular para mim) comum converter os pdfs para texto simples para posterior leitura.
O pstotext entre outras ferramentas, faz esta conversão: pdf para texto e também ps para texto. A sua instalação é simples, o programa pode ser obtido aqui ou, para sistemas debian e derivados (ubuntu) pode ser instalado com um simples apt-get.
sudo apt-get install pstotext
Para fedora e outras distros que usem rpm, o programa também deve estar disponível nos respectivos repositórios através do yum.
A utilização do software é igualmente bastante intuitiva: num terminal digite:
pstotext -output destino.txt fonte.pdf
Em que destino.txt é o nome do ficheiro de texto de destino e fonte.pdf o ficheiro a converter.
Numa utilização sem argumentos (pstotext sem parâmetros) o programa lê o input do standard input, e coloca o output no standard output (normalmente o terminal se não for redireccionado). Deste modo, é possível fazer-se algumas acções interessantes:
Ler um pdf em texto sem guardar no disco
pstotext fonte.pdf | less
Desta forma o texto aparecerá no terminal utilizando o paginador less, o que permite ler o texto e navegar para tráz e para a frente na leitura.
Converter um pdf directamente da internet
wget http://www.exemplo.com/fonte.pdf -O- | pstotext -output destino.txt
procurar por expressões num pdf
pstotext fonte.pdf | grep expressão
expressão é a expressão que se quer encontrar, poderá ser uma palavra normal ou uma expressão regular (ver man grep).
Estes exemplos ilustram apenas algumas funcionalidades possíveis, a necessidade e imaginação encontrarão muitas mais.
No caso de conversões mais exigentes, o pdftotext é uma boa opção, no entanto, visto que possui mais funcionalidades, a utilização não é tão óbvia. Esta ferramenta pode ser encontrada nos pacotes poppler-utils e xpdf-utils em ubuntu.
Para conversões de outros formatos para texto existem por exemplo o html2text, e para gerar output legivel de fontes de docbook o db2html, db2pdf, db2rtf... que, no sistema ubuntu que utilizo podem ser encontrados no pacote docbook-utils.
Adicione esta página aos favoritos!