帶有資料表的 PDF 看起來很容易複製到 Excel 中 - 直到您嘗試它並發現資料在單列中雜亂無章,或者在錯誤的位置換行,或者合併的單元格與原始表格結構不對應。將表格資料從 PDF 乾淨地取得到 Excel 需要了解哪種方法適用於您的特定 PDF 類型。

為什麼複製貼上通常會產生混亂的結果
PDF 將表格內容儲存為定位文字 - 放置在頁面上特定座標處的單一文字元素,而不是作為具有行和列的結構化表格資料。當您從 PDF 複製和貼上時,您將按照文件內部結構中出現的順序複製文本,這可能與視覺閱讀順序不符。具有十行的三個列表可以貼上為三十行文本,沒有列分隔。
一些 PDF 檢視器在貼上期間比其他檢視器更好地處理表格檢測。 Adobe Acrobat Reader 的副本往往比基於瀏覽器的檢視器產生更好的結果。但對於複雜的表,如果沒有大量的手動清理,複製貼上很少能乾淨到足以使用。
嘗試 PDF 轉 Excel
無需安裝。直接在您的瀏覽器中工作。
使用 PDF 到 Excel 轉換器
專用的 PDF 到 Excel 轉換器分析 PDF 的佈局,識別表格結構,並將內容對應到電子表格單元格中。結果是一個 Excel 文件,其中表格行和列對應於原始 PDF 佈局 - 比複製貼上乾淨得多。
www.wukongpdf.com 上的 WukongPDF 的 PDF 到 Excel 工具可以處理此問題:上傳 PDF,下載 Excel 檔案。對於具有清晰表格結構的數字 PDF,轉換通常足夠乾淨,只需最少的校正即可使用。對於具有合併儲存格、巢狀標題或不規則結構的複雜表格,仍然需要一些手動清理,但比複製貼上要少得多。
掃描的PDFs:先進行OCR,然後轉換
如果包含表格的 PDF 是掃描件(頁面圖像而不是數位文件),則複製貼上根本不起作用(沒有要複製的文字),直接轉換會產生較差的結果。掃描的表格首先需要進行OCR處理以提取真實文本,然後需要將文本解釋為表格結構。
某些 PDF 到 Excel 轉換器在偵測到掃描文件時會自動套用 OCR。其他要求您先執行 OCR,然後再進行轉換。在嘗試轉換之前檢查掃描品質 - 具有清晰行和列邊界的表格比具有模糊線條或不規則間距的表格轉換得更好。
Adobe Acrobat Pro:匯出至 Excel
Adobe Acrobat Pro 具有內建的匯出至 Excel 功能(檔案 > 匯出至 > 電子表格 > Microsoft Excel 工作簿)。這是可用的最準確的表格提取工具之一 - Acrobat 的表格檢測演算法非常成熟,可以處理多種表格類型。
匯出將建立一個 Excel 文件,其中每個頁面上的每個表格都放置在單獨的工作表或部分中。複雜的多頁表格、具有重複標題的表格以及具有合併儲存格的表格都可以得到很好的處理。如果您有 Acrobat Pro,這是用於表格提取的最高品質選項。
當複製貼上是唯一的選擇 - 如何清理
如果轉換工具不可用且您需要使用複製貼上,則以下步驟可以最大限度地減少清理工作:
- 在 Adobe Reader 中,選擇表格文字並使用「編輯」>「如果可用的話,使用格式化進行複製 - 這比普通複製保留了更多的表格結構
- 首先貼上到文字編輯器(記事本、TextEdit)中,而不是直接貼上到 Excel 中 - 這可以讓您看到原始結構,而無需 Excel 的單元格格式使事情變得複雜
- 從文字編輯器複製文字並使用「選擇性貼上」> 將文字貼上到 Excel 中。文字
- 使用 Excel 的文字分列功能(資料 > 文字分列)根據分隔符號或固定寬度將貼上的資料拆分為單獨的列
當沒有工具產生乾淨的結果時
有些表格對於自動化工具來說確實很困難——表格中的嵌套表格、具有複雜合併單元格模式的表格、具有重複標題的跨多個頁面的表格,或者資料在 PDF 中沒有正式表格標記的可視化結構的表格。對於這些,最實用的方法可能是使用 PDF 作為參考手動資料輸入。對於小型表,這比嘗試強制自動化工具產生乾淨的結果然後手動修復所有錯誤所花費的時間更少。
嘗試 PDF 轉 Excel
無需安裝。直接在您的瀏覽器中工作。
