Others

您可以将 PDF 转换为音频文件吗?

是的 - 将 PDF 转换为音频是一个两步过程:提取文本,然后通过文本转语音运行它。该技术已得到显着改进,并且结果可用于大多数用途,尽管根据 PDF 的创建方式以及您使用的文本转语音引擎的不同,体验会有很大差异。

Can You Convert a PDF to an Audio File?

为什么没有直接PDF到音频的转换

PDF 不包含音频数据 - 它们包含文本、图像和布局信息。将 PDF 转换为音频意味着从 PDF 中提取文本,然后从该文本合成语音。这是两个独立的操作,这就是为什么没有工具可以一步将 PDF 直接转换为 MP3:它总是涉及文本提取,然后是文本到语音合成。

输出的质量在很大程度上取决于文本提取的质量。具有干净、结构正确的文本的 PDF 会产生自然流动的音频。扫描图像、文本编码损坏或使用异常格式的 PDF 会产生带有错误的音频 — 误读单词、乱读片段或乱码段落。

WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →

使用内置操作系统文本转语音

Mac 上最简单的方法:打开 PDF,选择所有文本 (Cmd+A),转到编辑 → 语音 → 开始说话。 Mac 的内置文本转语音功能会大声朗读所选内容。这不是您可以保存的音频文件 - 它是实时播放 - 但如果您可以在做其他事情的同时收听 PDF ,则无需任何其他工具即可使用。

在 Windows 上,当文件在 PDF 查看器中打开时,讲述人(内置屏幕阅读器)可以大声朗读 PDF 内容。开始阅读的快捷键是 Ctrl+Windows+Enter。再次强调,这是实时播放,而不是可以保存的文件。

从 PDF 文本创建音频文件

要生成可以离线收听或共享的实际音频文件(MP3、M4A、WAV),工作流程是:从 PDF 中提取文本,将其粘贴到文本转语音服务中,然后下载音频输出。有几个服务直接处理这个问题。

Natural Reader、Speechify 和 Balabolka(Windows,免费)接受文本输入并导出音频文件。 Google 的文本转语音 API 和 Amazon Polly 以编程方式生成高质量、自然的音频。对于完整的 PDF,请逐章或逐节复制文本,转换每个部分,并根据需要加入音频文件。

PDF 必须有可选文本

仅当 PDF 具有真实文本层时,文本提取才有效。对于仅包含图像的扫描 PDF,请先运行 OCR PDF 以添加可搜索文本层,然后继续进行文本提取和音频转换。如果没有 OCR,文本转语音系统就无法读取任何内容——文件中没有文本,只有像素。

快速测试:尝试在 PDF 中选择一个句子。如果单个单词突出显示,则表明文本层存在。如果选择页面的矩形区域,则它只是图像,并且需要 OCR 才能进行音频转换。

预期的限制

即使具有干净的文本提取和良好的文本到语音转换功能,PDF 到音频的转换也存在已知的局限性。表格和图形不会有意义地转换为音频 - 读取表格的文本转语音引擎会按文档顺序逐个单元格地读取,这通常听起来像是随机的数字列表。如果脚注和侧边栏以这种方式放置在 PDF 的文本层中,则可以在句子中间阅读。数学符号、化学公式和代码块读取为单个字符,而不是有意义的内容。

对于叙述性文本(文章、报告、书籍、提案),音频转换效果很好,并且输出确实可以聆听。对于结构化或技术性很强的文档,与直接阅读文档相比,音频可能需要更多的关注。

WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →