從 PDF 中提取文字(作為純文字檔案或可編輯文件)是最常用的 PDF 操作之一。最有效的方法取決於 PDF 是否具有真實文字圖層或掃描影像,以及您計劃如何處理擷取的文字。

最簡單的方法:複製貼上
對於具有可選文字的 PDF,複製並貼上到文字編輯器或文字處理器通常是最快的方法。開啟 PDF,按 Ctrl+A 全選,按 Ctrl+C 複製,然後按 Ctrl+V 貼上到記事本、文字編輯、Word 或任何需要文字的位置。這對於簡短的文檔或當您只需要快速獲取內容而不關心保留結構時非常有效。
限制:複製貼上不會保留格式,並且對於多列 PDF 或具有複雜佈局的文檔,文本通常會以錯誤的順序出現 - 列交錯,腳註出現在段落中間,頁眉和頁腳混合到正文中。對於簡單的線性文件來說這不是問題。對於複雜的佈局,它可能會使提取的文字難以使用。
嘗試 PDF 到 Word
無需安裝。直接在您的瀏覽器中工作。
轉換為字以獲得更好的結構
當文字擷取需要保留段落、標題和基本結構時(以便您可以在文字處理器中編輯內容,而不僅僅是將其作為純文字讀取),轉換為 Word 是比複製貼上更好的路徑。 PDF Converter 分析文件結構並嘗試將段落、標題、清單和表格重建為正確的 Word 元素,而不是僅按閱讀順序轉儲所有文字。
Google 文件免費執行此操作:將 PDF 上傳到雲端硬碟,使用 Google 文件打開,文字會以合理保留的結構顯示。為了更準確地轉換複雜文檔,專用的 PDF 到 Word 工具比 Google 的內建導入器更好地處理佈局分析。
擷取為純文字 (.txt)
對於資料處理、向其他工具提供內容或僅存檔不帶任何格式的文字內容,純 .txt 提取比 Word 轉換更乾淨。 Adobe Acrobat(付費版本)可以透過檔案 → 匯出至 → 文字(純文字)將 PDF 儲存為純文字。免費的 Acrobat Reader 無法儲存為文本,但您可以複製所有內容並貼上到記事本中,這實際上是相同的結果。
對於批次提取或程式設計使用,帶有 pdfplumber 或 PyPDF2 庫的 Python 會自動從多個 PDF 中提取文本,這在您需要處理許多文件時非常有用。像 pdftotext 這樣的命令列工具(Poppler 實用程式套件的一部分,可透過 Homebrew 在 Mac 上使用,透過套件管理器在 Linux 上使用)可以有效地執行相同的操作,而無需編寫任何程式碼。
掃描的PDFs:先進行OCR
對於沒有文字圖層的掃描 PDF,上述方法都不起作用 - 沒有文字可供提取。該頁面儲存為圖像。 OCR 必須先運行以識別字元並建立文字圖層,然後才能進行任何提取。 WukongPDF的OCR PDF工具將文字圖層加入到PDF;之後,上述複製貼上或轉換方法在 OCR 版本上可以正常運作。
Google Drive 的 Open with Google Docs 也會在掃描的 PDF 上自動執行 OCR - 這是更方便的免費選項之一,因為 OCR 和文字提取在一個步驟中完成,直接從掃描產生可編輯的文件。一如既往,準確性取決於掃描品質。
文字擷取中遺失的內容
任何文字擷取都會丟棄圖像、圖表、圖表和視覺格式。表格可能以製表符分隔的文字形式出現,也可能會被打亂,這取決於提取方法。數學符號、化學公式和專用符號通常無法正確提取 - 它們可能會被省略、替換為佔位符字元或呈現為亂碼序列。對於這些元素很重要的文檔,轉換為 Word 而不是純文字可以保留更多的原始結構。
嘗試 PDF 到 Word
無需安裝。直接在您的瀏覽器中工作。
