Por que o texto PDF parece diferente quando copiado?

Você copia o texto de um PDF e cola em outro lugar – e o resultado parece errado. Os caracteres estão fora de ordem, ligaduras como "fi" tornar-se "ﬁ" ou desaparecem, as palavras ficam juntas sem espaços ou os caracteres especiais se transformam em pontos de interrogação. Este é um problema de codificação de texto PDF e tem causas específicas que explicam por que isso acontece e o que pode ser feito a respeito.

Why Does PDF Text Look Different When Copied?

Como PDF armazena texto — e por que dá errado

PDF foi projetado principalmente como um formato visual – ele descreve exatamente a aparência de uma página, não o que o texto significa. A codificação interna do texto em um PDF pode ser bem diferente do Unicode padrão. Alguns PDFs usam mapeamentos de glifos personalizados onde os códigos de caracteres armazenados internamente não correspondem aos códigos de letras padrão - portanto, quando você copia, a área de transferência recebe os códigos internos em vez dos caracteres que você vê.

Um PDF bem construído inclui uma tabela de mapeamento ToUnicode que informa ao visualizador como traduzir códigos internos em caracteres Unicode padrão. Quando esta tabela está faltando, incompleta ou incorreta, copiar e colar produz resultados distorcidos, mesmo que o texto seja exibido perfeitamente na tela. A exibição e o texto copiável vêm de sistemas diferentes – a exibição usa o glifo visual, copiar e colar usa os dados do texto.

Experimente o OCR PDF

Nenhuma instalação necessária. Funciona diretamente no seu navegador.

Começar agora →

Ligaturas e caracteres especiais

Ligaduras são combinações tipográficas - "fi", "fl", "ff", "ffi" — onde dois ou três caracteres são unidos em um único glifo por razões estéticas. Em um PDF mal codificado, o glifo da ligadura não possui mapeamento ToUnicode para os caracteres individuais que representa. Quando copiada, a ligadura torna-se um único caractere especial (ﬁ em vez de fi), torna-se nada ou torna-se um símbolo de espaço reservado.

É por isso que copiar de alguns PDFs tipográficos profissionalmente produz texto com letras faltando – palavras como “escritório” ou “escritório”. tornar-se "escritório" porque o "ffi" ligadura não tinha mapeamento Unicode utilizável. A palavra parecia correta na tela; os dados de texto subjacentes foram quebrados.

Faltam espaços entre as palavras

Alguns PDFs representam espaços não como caracteres de espaço reais no fluxo de texto, mas como deslocamentos posicionais — o visualizador renderiza um intervalo entre as palavras movendo a posição do cursor, não inserindo um caractere de espaço. Ao copiar, o deslocamento posicional não é traduzido para um caractere de espaço, então as palavras ficam juntas: "theword" em vez de "a palavra".

Isso é comum em PDFs exportados de aplicativos de design como InDesign ou Illustrator, quando o espaçamento do texto é controlado no nível do design, e não por meio da codificação de texto padrão.

Problemas de coluna e ordem de leitura

Em um PDF de várias colunas, a ordem de leitura visual (para baixo na coluna um e depois para baixo na coluna dois) pode não corresponder à ordem interna do texto (da esquerda para a direita em toda a largura da página). Copiar texto de um layout de duas colunas geralmente produz texto que alterna entre colunas linha por linha, fazendo com que pareça embaralhado, mesmo que cada palavra individual esteja correta.

Este não é um problema de codificação – é um problema de ordem de leitura. O texto está codificado corretamente; apenas é armazenado em uma ordem que não corresponde à forma como um humano o leria. A solução é copiar o texto de uma coluna por vez, em vez de selecionar ambas as colunas.

O que fazer quando o texto copiado está distorcido

Tente um visualizador PDF diferente: visualizadores diferentes lidam com o mapeamento ToUnicode de maneira diferente. Se a cópia do Chrome produzir texto ilegível, tente copiar do Adobe Reader — geralmente produz resultados mais limpos para o mesmo PDF.
Converta para Word primeiro: a O conversor PDF para Word reprocessa a codificação do texto durante a conversão. O documento Word resultante geralmente produz copiar e colar limpo, mesmo quando o PDF original não o fazia.
Execute OCR em uma cópia: As ferramentas OCR relêem o texto visível das imagens da página e criam texto novo e codificado corretamente. O resultado OCR PDF pode produzir copiar e colar melhor do que a codificação original, especialmente para composição tipográfica profissional mal codificada.
Use Localizar e Substitua por erros comuns: se a mesma ligadura ou caractere for colado incorretamente de forma consistente, cole o resultado colado no Word e use Localizar e usar. Substitua para corrigir o erro recorrente.

Prevenindo o problema na origem

Se você estiver criando PDFs e quiser garantir um comportamento limpo de copiar e colar para os destinatários, use aplicativos que gerem mapeamentos ToUnicode corretos. As exportações do Microsoft Word com mapeamento Unicode adequado por padrão. O Adobe InDesign pode exportar com ou sem codificação de texto adequada, dependendo das configurações — na caixa de diálogo Exportar PDF, certifique-se de que "Usar estrutura do documento para ordem de tabulação" e as opções de acessibilidade de texto estão habilitadas. Teste copiar e colar do PDF exportado antes de distribuir para detectar problemas de codificação antes que cheguem aos destinatários.

Experimente o OCR PDF

Nenhuma instalação necessária. Funciona diretamente no seu navegador.

Começar agora →