¿Puedes realizar OCR en un PDF en Google Drive?

Google Drive incluye OCR integrado que se ejecuta automáticamente cuando abre un PDF escaneado con Google Docs. Es gratis, no requiere software adicional y funciona bastante bien con la mayoría de los documentos comunes. Existen limitaciones que vale la pena conocer, pero para texto escaneado sencillo realiza el trabajo de manera confiable.

Cómo hacerlo

Cargue el PDF escaneado en Google Drive. Una vez cargado, haga clic derecho en el archivo y elija Abrir con → Google Docs. Drive ejecuta OCR automáticamente durante la conversión y abre el resultado como un documento editable de Google Docs. El PDF original permanece en Drive sin cambios: Google crea un nuevo archivo Docs junto a él.

El documento convertido contiene el texto reconocido en la parte superior, seguido de una imagen de cada página original a continuación. Este enfoque de doble capa le permite ver lo que Google reconoció frente a lo que realmente dice la página original, lo que resulta útil para detectar errores de OCR al comparar los dos uno al lado del otro.

Pruebe PDF OCR

No se necesita instalación. Funciona directamente en su navegador.

Empezar ahora →

Qué hace bien

Para escaneos limpios y de alto contraste de texto impreso estándar en idiomas comunes, el OCR de Google Drive es preciso. Un documento impreso profesionalmente escaneado a 200 ppp o más normalmente se convierte con muy pocos errores. Maneja varios idiomas y, a menudo, puede reconocer documentos en varios idiomas sin ninguna configuración especial.

El resultado se puede editar inmediatamente en Google Docs, lo cual resulta útil si necesita realizar cambios en el texto. Desde Docs también puede exportar nuevamente a PDF (Archivo → Descargar → Documento PDF) o al formato Word si es necesario.

Dónde se queda corto

El OCR de Google Drive no conserva el diseño del documento original. Las tablas aparecen como texto sin formato, el formato de varias columnas se linealiza y cualquier formato complejo se pierde. El texto reconocido son párrafos simples; visualmente, no se parecen en nada al documento fuente.

Para documentos en los que necesita conservar el diseño (un formulario que redistribuirá, un informe que debe conservar su diseño original), Google Drive OCR le proporciona el contenido del texto, pero deberá volver a aplicar el formato manualmente. Para documentos en los que solo necesita el contenido del texto para buscar, editar o extraer datos, la falta de formato no importa.

Los escaneos de baja calidad, el texto descolorido, la escritura a mano y las fuentes inusuales producen muchos más errores. Los caracteres CJK (chinos, japoneses, coreanos) en general han mejorado en el motor OCR de Google, pero aún están por detrás de la precisión de la escritura latina para textos complejos.

Cuando una herramienta de OCR dedicada es mejor

Si necesita una salida OCR que permanezca en formato PDF (un PDF con capacidad de búsqueda en lugar de un documento de Google), Google Drive no es la herramienta adecuada. Se convierte a un archivo Docs, no a un PDF con una capa de texto. Para eso, la herramienta OCR PDF de WukongPDF procesa el escaneo y devuelve un PDF donde el texto se puede seleccionar y buscar mientras se conserva la apariencia visual del documento original. Esto es generalmente lo que la gente quiere decir cuando dice que quiere "OCR un PDF" – quieren recuperar el mismo documento, solo que con texto reconocible en lugar de una imagen.

Para OCR masivo de muchos documentos, o para documentos donde la precisión en contenido difícil es importante, el software de OCR dedicado como ABBYY FineReader produce mejores resultados que Google Drive, a costa de ser un producto pago. Para el OCR gratuito diario de documentos escaneados limpios, Google Drive lo maneja lo suficientemente bien como para que la mayoría de las personas no necesiten nada más.

Pruebe PDF OCR

No se necesita instalación. Funciona directamente en su navegador.

Empezar ahora →