Приближается налоговый сезон, и вам нужно найти чек на оборудование, которое вы купили одиннадцать месяцев назад. У вас есть папка со сканированными файлами PDF — шестьдесят или семьдесят, все с названиями типа «scan_20240318». и "квитанция_марша" — и нет возможности искать внутри них. Вы открываете файлы один за другим, пока через двадцать минут не найдете нужный. Это решаемая проблема, и ее решение занимает меньше времени, чем один сеанс поиска неудачного налогового сезона.

Почему отсканированные квитанции трудно найти
Сканированная квитанция представляет собой изображение. Текст, видимый при сканировании — имя поставщика, дата, сумма, товары — существует только в виде пикселей. Поиск вашей операционной системы не может его прочитать, программа просмотра PDF не может его найти, и никакое нажатие Ctrl+F не выдаст квитанцию об оборудовании, когда вы вводите имя поставщика.
Исправление — OCR — оптическое распознавание символов. Запуск отсканированного PDF с помощью инструмента оптического распознавания символов считывает изображение, распознает символы и встраивает в файл реальный текст с возможностью поиска. После OCR квитанция содержит как исходное изображение (поэтому оно по-прежнему выглядит точно так же), так и скрытый текстовый слой, который могут найти инструменты поиска. Вы ищете «Скобы»; или «Ноябрь»; и нужные файлы сразу же появятся.
Попробуйте PDF OCR
Никакой установки не требуется. Работает прямо в вашем браузере.
Создание работающего рабочего процесса получения квитанций
Самый надежный подход — встроить OCR в процесс в момент захвата, чтобы каждая квитанция была доступна для поиска с момента ее сохранения, а не обрабатывалась задним числом позже.
Приложения для сканирования телефона со встроенным оптическим распознаванием текста обрабатывают это автоматически. Adobe Scan, Microsoft Lens и подобные приложения фотографируют квитанцию, применяют OCR и сохраняют PDF с возможностью поиска за один шаг. Файл, который попадает в ваше облачное хранилище или папку загрузок, уже доступен для поиска. Никакой дополнительной обработки не требуется.
Если квитанции получены с помощью планшетного сканера или базового приложения для сканирования без оптического распознавания символов, после сканирования пропустите каждый файл с помощью инструмента OCR PDF от WukongPDF на сайте www.wukongpdf.com. Загрузите отсканированную квитанцию, обработайте ее, загрузите версию с возможностью поиска. Замените исходный файл файлом, обработанным с помощью OCR, и квитанцию можно будет сразу найти по содержимому.
Название и систематизация, чтобы вы могли найти нужные вещи два года спустя
OCR делает квитанции доступными для поиска по содержимому, но единое соглашение об именах делает их поиск еще быстрее — и делает саму папку читабельной с первого взгляда. Имя типа «2024-03-18_Staples_office-supplies_42.50.pdf»; расскажет вам все о квитанции, прежде чем вы ее откроете: дату, поставщика, категорию, сумму.
Практичная структура папок для архивов чеков:
- Верхний уровень: год (2024, 2025)
- Второй уровень: категория (Путешествия, Офис, Оборудование, Питание, Программное обеспечение)
- Файлы: отдельные чеки с указанием даты, суммы поставщика.
Эта структура означает, что вы можете найти «все квитанции о поездках за 2024 год». открыв одну папку, и "чек Marriott за март"; путем поиска в этой папке. Именование по дате автоматически сортирует все в хронологическом порядке.
Обработка накопившихся квитанций, недоступных для поиска
Если у вас уже есть папка с отсканированными квитанциями только с изображениями, которую необходимо сделать доступной для поиска, пакетный подход является наиболее эффективным. Вместо того, чтобы обрабатывать по одному, соберите их все и пропустите через распознавание текста партиями.
Если у вас накопилось несколько десятков файлов, выделите час на то, чтобы:
- Запустите все файлы с помощью инструмента OCR, чтобы сделать их доступными для поиска.
- Переименовывайте каждый файл в формате «дата-поставщик-сумма» по ходу дела.
- Сортировка файлов по структуре папок года/категории.
- Запустите тестовый поиск, чтобы убедиться, что OCR работает — найдите имя поставщика, которое, как вы знаете, есть в одной из квитанций.
Один час обработки невыполненной работы устраняет годы разочарований в будущих поисках. И как только система будет установлена и новые поступления будут правильно обрабатываться при захвате, архив сохранится.
Разница между архивом квитанций и стопкой квитанций
Папка с отсканированными только изображениями PDF-файлами с бесполезными названиями представляет собой стопку квитанций — технически цифровых, но практически так же трудных для поиска, как коробка из-под обуви с бумагой. Папка с квитанциями, обработанными с помощью оптического распознавания символов, с одинаковыми именами, организованными по годам и категориям, представляет собой архив, доступный для поиска и полезный, когда вам действительно что-то нужно. Разница заключается в том, что рабочий процесс применяется последовательно, начиная с сегодняшнего дня.
Попробуйте PDF OCR
Никакой установки не требуется. Работает прямо в вашем браузере.
