O Google Drive inclui OCR integrado que é executado automaticamente quando você abre um PDF digitalizado com o Google Docs. É gratuito, não requer software extra e funciona bem o suficiente para a maioria dos documentos comuns. Existem limitações que vale a pena conhecer, mas para texto digitalizado simples, ele realiza o trabalho de maneira confiável.

Como fazer
Carregue o PDF digitalizado para o Google Drive. Após o upload, clique com o botão direito no arquivo e escolha Abrir com → Google Docs. O Drive executa o OCR automaticamente durante a conversão e abre o resultado como um documento editável do Google Docs. O PDF original permanece inalterado no Drive – o Google cria um novo arquivo do Documentos junto com ele.
O documento convertido contém o texto reconhecido na parte superior, seguido por uma imagem de cada página original abaixo. Essa abordagem de camada dupla permite ver o que o Google reconheceu versus o que a página original realmente diz – útil para detectar erros de OCR comparando os dois lado a lado.
Experimente o OCR PDF
Nenhuma instalação necessária. Funciona diretamente no seu navegador.
O que faz bem
Para digitalizações nítidas e de alto contraste de texto impresso padrão em idiomas comuns, o OCR do Google Drive é preciso. Um documento impresso profissionalmente digitalizado a 200 DPI ou superior normalmente é convertido com poucos erros. Ele lida com vários idiomas e muitas vezes pode reconhecer documentos em idiomas mistos sem qualquer configuração especial.
A saída pode ser editada imediatamente no Google Docs, o que é conveniente se você precisar fazer alterações no texto. No Documentos, você também pode exportar de volta para PDF (Arquivo → Baixar → Documento PDF) ou para o formato Word, se necessário posteriormente.
Onde fica aquém
O OCR do Google Drive não preserva o layout original do documento. As tabelas aparecem como texto simples, a formatação de várias colunas é linearizada e qualquer formatação complexa é perdida. O texto reconhecido são parágrafos simples – visualmente, nada parecido com o documento de origem.
Para documentos onde você precisa que o layout seja preservado – um formulário que você redistribuirá, um relatório que deve manter seu design original – o OCR do Google Drive fornece o conteúdo do texto, mas você precisa reaplicar manualmente a formatação. Para documentos onde você só precisa do conteúdo do texto para pesquisar, editar ou extrair dados, a falta de formatação não importa.
Digitalizações de baixa qualidade, texto desbotado, caligrafia e fontes incomuns produzem visivelmente mais erros. Os caracteres CJK (chinês, japonês, coreano) geralmente melhoraram no mecanismo de OCR do Google, mas ainda ficam atrás da precisão da escrita latina para textos complexos.
Quando uma ferramenta de OCR dedicada é melhor
Se você precisar de uma saída OCR que permaneça no formato PDF – um PDF pesquisável em vez de um Google Doc – o Google Drive não é a ferramenta certa. Ele é convertido em um arquivo Docs, e não em um PDF com uma camada de texto. Para isso, a ferramenta OCR PDF do WukongPDF processa a digitalização e retorna um PDF onde o texto é selecionável e pesquisável enquanto a aparência visual do documento original é preservada. Geralmente é isso que as pessoas querem dizer quando dizem que desejam "OCR um PDF" – eles querem o mesmo documento de volta, apenas com texto reconhecível em vez de uma imagem.
Para OCR em massa de muitos documentos, ou para documentos onde a precisão em conteúdos difíceis é importante, softwares de OCR dedicados como o ABBYY FineReader produzem melhores resultados do que o Google Drive, ao custo de ser um produto pago. Para OCR gratuito diário de documentos digitalizados limpos, o Google Drive lida com isso bem o suficiente para que a maioria das pessoas não precise de mais nada.
Experimente o OCR PDF
Nenhuma instalação necessária. Funciona diretamente no seu navegador.
