Как преобразовать отсканированные квитанции в записи с возможностью поиска

Приближается налоговый сезон, и вам нужно найти чек на оборудование, которое вы купили одиннадцать месяцев назад. У вас есть папка со сканированными файлами PDF — шестьдесят или семьдесят, все с названиями типа «scan_20240318». и "квитанция_марша" — и нет возможности искать внутри них. Вы открываете файлы один за другим, пока через двадцать минут не найдете нужный. Это решаемая проблема, и ее решение занимает меньше времени, чем один сеанс поиска неудачного налогового сезона.

How to Convert Scanned Receipts Into Searchable Records

Почему отсканированные квитанции трудно найти

Сканированная квитанция представляет собой изображение. Текст, видимый при сканировании — имя поставщика, дата, сумма, товары — существует только в виде пикселей. Поиск вашей операционной системы не может его прочитать, программа просмотра PDF не может его найти, и никакое нажатие Ctrl+F не выдаст квитанцию об оборудовании, когда вы вводите имя поставщика.

Исправление — OCR — оптическое распознавание символов. Запуск отсканированного PDF с помощью инструмента оптического распознавания символов считывает изображение, распознает символы и встраивает в файл реальный текст с возможностью поиска. После OCR квитанция содержит как исходное изображение (поэтому оно по-прежнему выглядит точно так же), так и скрытый текстовый слой, который могут найти инструменты поиска. Вы ищете «Скобы»; или «Ноябрь»; и нужные файлы сразу же появятся.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Создание работающего рабочего процесса получения квитанций

Самый надежный подход — встроить OCR в процесс в момент захвата, чтобы каждая квитанция была доступна для поиска с момента ее сохранения, а не обрабатывалась задним числом позже.

Приложения для сканирования телефона со встроенным оптическим распознаванием текста обрабатывают это автоматически. Adobe Scan, Microsoft Lens и подобные приложения фотографируют квитанцию, применяют OCR и сохраняют PDF с возможностью поиска за один шаг. Файл, который попадает в ваше облачное хранилище или папку загрузок, уже доступен для поиска. Никакой дополнительной обработки не требуется.

Если квитанции получены с помощью планшетного сканера или базового приложения для сканирования без оптического распознавания символов, после сканирования пропустите каждый файл с помощью инструмента OCR PDF от WukongPDF на сайте www.wukongpdf.com. Загрузите отсканированную квитанцию, обработайте ее, загрузите версию с возможностью поиска. Замените исходный файл файлом, обработанным с помощью OCR, и квитанцию можно будет сразу найти по содержимому.

Название и систематизация, чтобы вы могли найти нужные вещи два года спустя

OCR делает квитанции доступными для поиска по содержимому, но единое соглашение об именах делает их поиск еще быстрее — и делает саму папку читабельной с первого взгляда. Имя типа «2024-03-18_Staples_office-supplies_42.50.pdf»; расскажет вам все о квитанции, прежде чем вы ее откроете: дату, поставщика, категорию, сумму.

Практичная структура папок для архивов чеков:

Верхний уровень: год (2024, 2025)
Второй уровень: категория (Путешествия, Офис, Оборудование, Питание, Программное обеспечение)
Файлы: отдельные чеки с указанием даты, суммы поставщика.

Эта структура означает, что вы можете найти «все квитанции о поездках за 2024 год». открыв одну папку, и "чек Marriott за март"; путем поиска в этой папке. Именование по дате автоматически сортирует все в хронологическом порядке.

Обработка накопившихся квитанций, недоступных для поиска

Если у вас уже есть папка с отсканированными квитанциями только с изображениями, которую необходимо сделать доступной для поиска, пакетный подход является наиболее эффективным. Вместо того, чтобы обрабатывать по одному, соберите их все и пропустите через распознавание текста партиями.

Если у вас накопилось несколько десятков файлов, выделите час на то, чтобы:

Запустите все файлы с помощью инструмента OCR, чтобы сделать их доступными для поиска.
Переименовывайте каждый файл в формате «дата-поставщик-сумма» по ходу дела.
Сортировка файлов по структуре папок года/категории.
Запустите тестовый поиск, чтобы убедиться, что OCR работает — найдите имя поставщика, которое, как вы знаете, есть в одной из квитанций.

Один час обработки невыполненной работы устраняет годы разочарований в будущих поисках. И как только система будет установлена и новые поступления будут правильно обрабатываться при захвате, архив сохранится.

Разница между архивом квитанций и стопкой квитанций

Папка с отсканированными только изображениями PDF-файлами с бесполезными названиями представляет собой стопку квитанций — технически цифровых, но практически так же трудных для поиска, как коробка из-под обуви с бумагой. Папка с квитанциями, обработанными с помощью оптического распознавания символов, с одинаковыми именами, организованными по годам и категориям, представляет собой архив, доступный для поиска и полезный, когда вам действительно что-то нужно. Разница заключается в том, что рабочий процесс применяется последовательно, начиная с сегодняшнего дня.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →