はい。ただし、デジタルで作成された PDF を変換する場合と比較して、追加の手順が必要です。スキャンされた PDF は画像であり、構造化データを含むドキュメントではないため、変換プロセスでは、画像内のテキストと数値をスプレッドシートのセルに配置する前に、まず認識する必要があります。これがうまく機能すると、大幅な時間の節約になります。そうでない場合は、クリーンアップが必要です。

スキャンされた PDF が異なる理由
デジタルで作成された PDF は、データを実際の文字、つまり直接読み取ってセルに配置できる数値として保存します。スキャンされた PDF には、ページが写真として保存されます。 「数字」は、スキャンされたテーブルには、偶然数字のように見えるピクセルがあります。これらを Excel に抽出するには、ソフトウェアはそれらのピクセルを調べ、それらがどの文字を表しているかを判断し、次に表の構造 (どのピクセルが行を形成し、どの列を形成し、セルの境界がどこにあるのか) を把握する必要があります。
このプロセス (光学式文字認識とテーブル構造検出の組み合わせ) は、単純な PDF から Excel への変換よりも複雑で、エラーが発生する可能性が高くなります。
PDF を Excel に試してみる
インストールは必要ありません。ブラウザで直接動作します。
変換品質に影響するもの
スキャンの品質が最大の要素です。 200 以上の DPI で鮮明に印刷された表をクリーンで高コントラストでスキャンすると、変換がうまくいきます。OCR は文字を正確に読み取り、表の構造を認識できます。低解像度のスキャン、色あせた文書、傾いたページ、またはセル内の手書きの数字は、著しく悪い結果をもたらします。
テーブル構造の複雑さも重要です。明確な境界線と一貫した行の高さを持つ単純なグリッドは、結合されたセル、複数のヘッダー、ネストされたサブテーブル、またはさまざまな高さの行を含む複雑なテーブルよりも確実に変換されます。構造が単純になると、変換ソフトウェアが行う必要のある決定が少なくなり、それらの決定が間違う可能性が少なくなります。
やり方
WukongPDF の PDF to Excel ツールは、スキャンされた PDF を直接処理します。OCR ステップは変換の一部として自動的に実行されます。スキャンした PDF をアップロードし、出力形式として Excel を選択してダウンロードします。適切に構造化されたテーブルのクリーン スキャンの場合、出力は多くの場合、最小限のクリーンアップで使用できます。 Excel ファイルを開いてデータを確認し、OCR エラー (文字の読み間違い、セルの結合または分割) を修正すると、スプレッドシートを使用できるようになります。
Adobe Acrobat Pro は、スキャンされた PDF から Excel への変換が特に強力で、ほとんどの無料ツールよりも優れたテーブル検出を備えています。これにアクセスでき、ドキュメントが複雑な場合は、他の場所でクリーンアップを行ったとしても、最初の変換にこれを使用する価値があります。
変換後の確認事項
特に数値データの場合、スキャンした PDF 変換をレビューせずに決して信頼しないでください。 OCR では一般に、0 と O、1 と l、5 と S、8 と B などの特定の文字のペアが混同されます。一部のゼロが文字 O として読み取られた財務表では、式が壊れ、合計が正しくなくなります。重要な目的でデータを使用する前に、オリジナルのスキャンに対して主要な数値をスポットチェックします。
列の配置を確認します。元のテーブルの間隔が不規則であったり、セルが結合されていた場合、変換によりデータが間違った列に配置されることがあります。個々の値をスポットチェックするだけでなく、Excel 出力の構造を元のスキャンとページごとに比較します。
手動入力の方が速い場合
非常に短いテーブル (20 行未満) や、変換が不十分な複雑な構造を持つテーブルの場合、手動でデータを入力した方が、変換とクリーンアップよりも高速な場合があります。 10 行、5 列の表の入力には約 3 分かかります。変換によって大幅な修正が必要な結果が得られた場合は、直接入力した場合よりも多くの時間を費やしたことになります。
変換アプローチは、手動入力に何時間もかかるような長いテーブル、つまり数十行または数百行の場合に最も効果的です。これらの場合、クリーンアップを使用した不完全な変換であっても、ほとんどの場合、最初から変換するよりも高速です。
PDF を Excel に試してみる
インストールは必要ありません。ブラウザで直接動作します。
