¿Por qué el texto PDF se ve diferente cuando se copia?

Copias texto de un PDF y lo pegas en otro lugar, y el resultado parece incorrecto. Los caracteres están desordenados, ligaduras como "fi" convertirse en "fi" o desaparecen, las palabras se juntan sin espacios o los caracteres especiales se convierten en signos de interrogación. Este es un problema de codificación de texto PDF y tiene causas específicas que explican por qué sucede y qué se puede hacer al respecto.

Why Does PDF Text Look Different When Copied?

Cómo PDF almacena texto y por qué sale mal

PDF fue diseñado principalmente como un formato visual: describe exactamente cómo se ve una página, no lo que significa el texto. La codificación de texto interna en un PDF puede ser bastante diferente de la del Unicode estándar. Algunos PDF usan asignaciones de glifos personalizadas donde los códigos de caracteres almacenados internamente no corresponden a códigos de letras estándar, por lo que cuando copia, el portapapeles recibe los códigos internos en lugar de los caracteres que ve.

Un PDF bien construido incluye una tabla de mapeo ToUnicode que le indica al espectador cómo traducir códigos internos a caracteres Unicode estándar. Cuando esta tabla falta, está incompleta o es incorrecta, copiar y pegar produce resultados confusos aunque el texto se muestre perfectamente en la pantalla. La visualización y el texto copiable provienen de diferentes sistemas: la visualización utiliza el glifo visual, el copiar y pegar utiliza los datos del texto.

Pruebe PDF OCR

No se necesita instalación. Funciona directamente en su navegador.

Empezar ahora →

Ligaduras y Caracteres Especiales

Las ligaduras son combinaciones tipográficas: "fi", "fl", "ff", "ffi" — donde dos o tres caracteres se unen en un solo glifo por razones estéticas. En un PDF mal codificado, el glifo de ligadura no tiene asignación ToUnicode para los caracteres individuales que representa. Cuando se copia, la ligadura se convierte en un único carácter especial (fi en lugar de fi), se convierte en nada o se convierte en un símbolo de marcador de posición.

Esta es la razón por la que copiar desde algunos PDFs tipográficos profesionales produce texto al que le faltan letras: palabras como "oficina" convertirse en "director general" porque el "ffi" la ligadura no tenía ningún mapeo Unicode utilizable. La palabra parecía correcta en la pantalla; los datos de texto subyacentes estaban rotos.

Faltan espacios entre palabras

Algunos PDF representan espacios no como caracteres de espacio reales en el flujo de texto, sino como desplazamientos posicionales: el espectador representa un espacio entre palabras moviendo la posición del cursor, no insertando un carácter de espacio. Al copiar, el desplazamiento posicional no se traduce a un carácter de espacio, por lo que las palabras aparecen juntas: "la palabra" en lugar de "la palabra".

Esto es común en archivos PDF exportados desde aplicaciones de diseño como InDesign o Illustrator cuando el espaciado del texto se controla en el nivel de diseño en lugar de mediante la codificación de texto estándar.

Problemas de orden de lectura y columnas

En un PDF de varias columnas, el orden de lectura visual (columna inferior uno, luego columna inferior dos) puede no coincidir con el orden del texto interno (de izquierda a derecha en todo el ancho de la página). Copiar texto de un diseño de dos columnas a menudo produce texto que alterna entre columnas línea por línea, lo que hace que parezca codificado aunque cada palabra individual sea correcta.

Este no es un problema de codificación, es un problema de orden de lectura. El texto está codificado correctamente; simplemente se almacena en un orden que no coincide con cómo lo leería un humano. La solución es copiar texto de una columna a la vez en lugar de seleccionar ambas columnas.

Qué hacer cuando el texto copiado es confuso

Pruebe con un visor de PDF diferente: diferentes visores manejan el mapeo ToUnicode de manera diferente. Si la copia de Chrome produce texto confuso, intente copiar desde Adobe Reader; a menudo produce resultados más limpios para el mismo PDF.
Convertir a Word primero: a __El convertidor de PDF__ a Word reprocesa la codificación del texto durante la conversión. El documento de Word resultante a menudo produce un proceso de copiar y pegar limpio incluso cuando el PDF original no lo hizo.
Ejecutar OCR en una copia: Las herramientas OCR vuelven a leer el texto visible de las imágenes de la página y crean texto nuevo y correctamente codificado. El resultado OCR PDF puede producir una mejor copia y pegado que la codificación original, particularmente para la composición tipográfica profesional mal codificada.
Usar Buscar y buscar Reemplazar para errores comunes: si la misma ligadura o carácter se pega incorrectamente constantemente, pegue el resultado pegado en Word y use Buscar y recuperar. Reemplace para corregir el error recurrente en todo momento.

Prevención del problema desde el origen

Si está creando PDF y desea garantizar un comportamiento limpio de copiar y pegar para los destinatarios, utilice aplicaciones que generen asignaciones ToUnicode correctas. Microsoft Word exporta con la asignación Unicode adecuada de forma predeterminada. Adobe InDesign puede exportar con o sin la codificación de texto adecuada según la configuración; en el cuadro de diálogo Exportar PDF, asegúrese de "Usar estructura del documento para el orden de tabulación" y las opciones de accesibilidad de texto están habilitadas. Pruebe copiar y pegar desde el PDF exportado antes de distribuirlo para detectar problemas de codificación antes de que lleguen a los destinatarios.

Pruebe PDF OCR

No se necesita instalación. Funciona directamente en su navegador.

Empezar ahora →