在保持格式完整的同时翻译 PDF 确实很困难 - 比大多数人预期的要困难。挑战不在于翻译本身,而在于翻译本身。这是因为 PDF 是一种固定布局格式,其设计目的并不是要替换其文本。诚实的答案是您可以接近,但格式保存的程度在很大程度上取决于原始文档的复杂性。

为什么PDF翻译比看起来更难
PDF 将文本存储为页面上的定位字符,而不是可重排的段落。当您翻译文本时,字数和字符数几乎总是会发生变化。英语文本的西班牙语翻译通常要长 20-30%。德语还可以更长。中文或日文翻译通常较短。交换不同长度的翻译文本会破坏围绕原始文本长度设计的布局。
除此之外,PDF 本身不支持从右到左阅读的阿拉伯语或希伯来语等复杂脚本,原始字体可能不包含目标语言所需的字符,并且 PDF 编辑器中的翻译文本通常不会像文字处理器那样重排 - 并且复杂性变得显而易见。
尝试翻译 PDF
无需安装。直接在您的浏览器中工作。
最可靠的方法:转换、翻译、导出
对于准确翻译和清晰格式都很重要的文档,最佳工作流程是:将 PDF 转换为 Word,翻译 Word 文档,然后导出回 PDF。这为您的翻译步骤提供了合适的文字处理器 - 文本正确重排,样式应用一致,并且您可以完全控制布局。
转换步骤最适合具有简单布局的文本文档(报告、合同、文章)。具有多列、文本框、表格和嵌入图形的复杂布局在转换后需要手动格式化工作,因为 Word 无法完美地重建每个 PDF 布局。
WukongPDF 的 PDF Converter 工具处理 PDF 到 Word 的步骤,之后您可以使用 DeepL、Google Translate 的文档上传功能或手动在 Word 中进行翻译,然后将翻译后的文档导出回 PDF。
使用专用PDF翻译工具
现在有几种工具提供直接 PDF 翻译 - 您上传 PDF 并收到翻译后的 PDF。 DeepL 和 Google Translate 都支持 PDF 文件上传。这些工具尝试在替换文本的同时保留布局。对于简单的、文本较多且格式最少的文档,结果通常相当不错。对于复杂的布局、表格或列间距较小的文档,格式经常会被破坏。
这些工具的翻译质量已显着提高,并且对于大多数常见语言对来说通常是准确的。主要变量是格式保真度,而不是翻译准确性。
“保持格式”在实践中的实际含义
对于大多数翻译用例,“保持格式”是最重要的。意思是:标题看起来像标题,段落可读,表格保持表格不变,文档可导航。它并不一定意味着原始布局的像素完美再现,特别是当目标语言明显长于或短于源语言时。
如果您需要翻译后的文档在视觉上与原始文档相同(相同的分页符、相同的列宽、相同的文本位置),那么您正在寻找专业的桌面出版工作,而不是简单的文件转换。这是对已出版材料的合理要求;对于内部文档或参考翻译来说这有点过分了。
翻译扫描的PDFs
扫描的 PDF 需要额外的步骤:首先进行 OCR 提取文本,然后进行翻译。如果没有 OCR,翻译工具会看到没有文本的图像。通过 OCR 工具运行扫描的 PDF,得到文本层 PDF 或 Word 文档,然后正常进行翻译。
对于扫描文档来说,翻译后的格式保存基本上无法保证——扫描本身就是图像,围绕翻译文本重建布局需要手动重建。对于只关心含义(而不是外观)的扫描文档,通过 OCR 提取文本并将其翻译为纯文本速度更快,并且设定更现实的期望。
将方法与文档相匹配
简单的文本文档,格式很重要:使用直接 PDF 翻译工具并检查输出。简单的文本文档,格式并不重要:提取文本、翻译、作为单独的纯语言版本分发。复杂的布局、格式设置问题:转换为 Word、翻译、重新格式化、导出为 PDF。扫描文档:首先进行 OCR,然后使用适合复杂程度的方法进行翻译。
没有任何一种工具能够同样出色地处理所有这些问题。在开始之前了解您所处的情况可以节省尝试不适用于您的特定文档的方法所花费的时间。
尝试翻译 PDF
无需安装。直接在您的浏览器中工作。
