Others

Por que os PDFs digitalizados são muito maiores que os digitais

Uma carta de dez páginas digitada em Word e exportada para PDF pode ter 200 KB. As mesmas dez páginas digitalizadas e salvas como PDF podem ter 30 MB – 150 vezes maiores. O conteúdo é idêntico. A diferença no tamanho do arquivo é enorme. Isso surge constantemente quando as pessoas digitalizam documentos e depois se perguntam por que não podem enviar o resultado por e-mail. A explicação é direta quando você entende como cada tipo de PDF armazena seu conteúdo.

Why Scanned PDFs Are So Much Larger Than Digital Ones

Dados de texto versus dados de imagem: uma diferença fundamental de tamanho

Um PDF digital armazena texto como dados de caracteres. A letra "A" em um PDF é armazenado como uma referência ao caractere "A" em uma fonte específica – alguns bytes de informação que informam ao espectador o que desenhar e onde. Uma página inteira de texto pode ocupar de 5 a 10 KB porque cada caractere é apenas uma pequena referência, não uma imagem.

Um Scanned PDF armazena cada página como uma fotografia. Essa mesma página de texto, fotografada em cores com 300 DPI, é uma grade de aproximadamente 2.500 × 3.500 pixels – quase 9 milhões de pontos coloridos individuais, cada um exigindo dados para descrever sua cor exata. Mesmo após a compactação, uma única página de texto digitalizado normalmente tem de 1 a 5 MB. Dez páginas significam de 10 a 50 MB.

WukongPDF

Experimente compactar PDF

Nenhuma instalação necessária. Funciona diretamente no seu navegador.

Começar agora →

A matemática por trás da diferença de tamanho

Uma página A4 digitalizada a 300 DPI produz uma imagem de 2.480 × 3.508 pixels. São aproximadamente 8,7 milhões de pixels. Em cores (RGB), cada pixel requer 3 bytes de dados – um para valores de vermelho, verde e azul. Descompactado, são aproximadamente 26 MB por página.

A compactação JPEG reduz isso drasticamente — uma página digitalizada típica é compactada de 1 a 3 MB. Mas mesmo compactado, é uma ordem de magnitude maior do que os poucos KB necessários para armazenar o mesmo conteúdo que os caracteres de texto reais. O conteúdo é o mesmo; o método de armazenamento é completamente diferente.

Cor versus escala de cinza versus preto e branco

Nem todos os PDFs digitalizados são do mesmo tamanho. O modo de cor escolhido no momento da digitalização tem um grande impacto:

  • Cor (RGB): 3 bytes por pixel. Os maiores arquivos. Necessário para documentos com conteúdo colorido; um desperdício de texto preto em papel branco.
  • Escala de cinza: 1 byte por pixel. Os arquivos têm aproximadamente 1/3 do tamanho das digitalizações coloridas. Ideal para documentos digitados, formulários e qualquer coisa sem cores significativas.
  • Preto e branco (1 bit): cada pixel é preto ou branco – 1 bit de dados. Os arquivos são extremamente pequenos. Melhor para documentos de texto impressos onde não é necessário sombreamento cinza, mas é difícil para qualquer coisa com gradientes ou fotografias.

Para a maioria das digitalizações de documentos – cartas, contratos, formulários, faturas – a escala de cinza de 150 a 200 DPI produz arquivos legíveis, compactos e apropriados para envio digital e por e-mail.

O que fazer com PDFs digitalizados grandes

Se a verificação já tiver sido concluída e o arquivo for muito grande, a compactação é a solução mais rápida. PDF A compactação reduz significativamente os PDFs digitalizados — geralmente em 60-80% — porque os dados de imagem em cada página têm uma redundância substancial que a compactação pode eliminar. WukongPDF em www.wukongpdf.com cuida disso: carregue o PDF digitalizado, aplique compactação média ou alta, baixe um arquivo pequeno o suficiente para enviar por e-mail.

Se você puder digitalizar novamente, ajuste as configurações primeiro: mude de colorido para escala de cinza, reduza o DPI de 300 para 150 ou 200 e ative qualquer compactação PDF integrada no software do scanner. Essas alterações na origem produzem um arquivo muito menor, sem as desvantagens de qualidade da compactação agressiva pós-varredura.

A abordagem OCR: menor e mais útil

Executar um PDF digitalizado por meio de OCR não apenas o torna pesquisável – também pode reduzir o tamanho do arquivo. Algumas ferramentas de OCR substituem imagens de página de alta resolução por versões de resolução mais baixa após a extração do texto, uma vez que a camada de texto cuida da legibilidade e a imagem só precisa fornecer contexto visual. O resultado é um arquivo menor que também pode ser pesquisado e copiado – um resultado melhor do que apenas compactar a digitalização apenas de imagem.

WukongPDF

Experimente compactar PDF

Nenhuma instalação necessária. Funciona diretamente no seu navegador.

Começar agora →