您從 PDF 複製一個段落並將其貼到其他地方,每行都以硬回車結束 - 文字不會重排,它只是在頁面上該行恰好結束的地方中斷。這是最常見的 PDF 煩惱之一,它有一個特定的技術原因,可以解釋它發生的原因以及您可以採取的措施。

為什麼會發生這種情況:PDF 如何儲存文字
PDF 不像 Word 或 Google 文件那樣將文字儲存為段落。相反,它儲存單個字符或一小群字符,每個字符在頁面上都有一個特定的位置 - X 和 Y 坐標將每段文本準確地放置在它應該出現的位置。 PDF 渲染器繪製這些定位的片段以產生您看到的視覺結果。
當您複製文字時,PDF 檢視器必須從這些定位的片段重建文字流。它按順序讀取字符,並且必須根據垂直位置的變化猜測一行的結束位置和另一行的開始位置。當它偵測到換行符(Y 位置的跳躍)時,它會插入換行符。結果是 PDF 中的每條視覺線都變成貼上文字中的單獨行。
这是 PDF 文本提取工作原理的基本特征,而不是任何特定查看器中的错误。一些 PDF 包含結構訊息,可幫助檢視者區分軟換行(段落內)和硬段落分隔符號 - 但許多 PDF 不包含,尤其是較舊的 PDF 或從某些軟體匯出的檔案。
嘗試編輯PDF
無需安裝。直接在您的瀏覽器中工作。
當情況更糟時:多列佈局
多列布局使这个问题变得更糟。当文本在两列或三列中流动时,PDF 查看器以从左到右、从上到下的顺序提取文本,通常会交错来自不同列的文本 - 左列中的一行,然后是右列中的一行,然后是左列中的下一行。所得糊狀物是混亂的並且需要大量的手動清理。
兩欄格式的學術論文因此而臭名昭著。從研究論文 PDF 複製段落通常會產生兩列交替的片段,而不是乾淨的單列文字區塊。
少量文字的快速修復
對於一些段落,最快的修復方法是貼上後在文字編輯器或文字處理器中進行查找和替換操作。您想要替換單換行符號(段落中不需要的換行符號),同時保留雙換行符(分隔真正的段落)。
在 Microsoft Word 中,使用查找和查找以通配符取代:取代後面沒有另一個段落標記的單段落標記 (^p),將其替換為空格。在純文字編輯器中,大多數尋找和取代工具都允許您使用正規表示式來執行相同的操作。這可以在幾秒鐘內將 30 行斷線的貼上減少為正確回流的段落。
處理大量文字的更好方法
對於從 PDF 中提取大量文本,複製貼上是錯誤的工具。使用 PDF Converter 將 PDF 轉換為 Word 會產生更好的結果,因為轉換過程嘗試重建文件結構(識別段落、標題和佈局),而不僅僅是提取原始字元位置。
轉換後的 Word 文件仍然需要檢查,特別是對於複雜的佈局,但段落結構通常是完整的,並且您不需要處理整個文件中的逐行中斷。
特定於檢視器的改進
一些 PDF 檢視器比其他檢視器更好地處理文字擷取。 Adobe Acrobat Reader 具有「帶格式複製」功能與基本副本相比,該選項可以更好地重建段落。如果您定期提取文本,則在同一個 PDF 上測試不同的檢視器有時會發現可以產生更清晰輸出的檢視器。
最終,文字擷取的品質取決於 PDF 的創建方式。從現代文字處理程序導出的結構良好的 PDF 具有適當的段落標記,可以乾淨地提取。列印到文件、從圖像轉換或從未嵌入結構資訊的軟體匯出的 PDF 將始終在副本上產生損壞的文字。對於這些文件,轉換為 Word 是可靠的途徑。
嘗試編輯PDF
無需安裝。直接在您的瀏覽器中工作。
