qttao.net

Notes
学习笔记
Posts
长推文与随笔
Life
生活记录
My Research
我的研究

最近更新

Retain PDF
May 11, 2026
- github
- pdf
- ocr
- app
Kosmos's Blog
May 11, 2026
各种各样和地图有关的工具
Jan 29, 2026
- map
- 生活
2025 回顾
Jan 16, 2026
鱼 bot 开发日志
Jan 16, 2026
- shao

❯

Retain PDF

May 11, 20262 min read

github
pdf
ocr
app

官方网站上对 Retain PDF 的定义是一款 PDF 保留排版翻译工具。在我的体验下来，它的表现在同类工具中非常优秀：

项目整体完整，只需要配置 OCR 和 LLM 的 Provider 和 Key，再经过简单设置即可完整使用。
对于开发者，项目各个部分是解耦的，非常方便接入自己的工作流。
在保留排版翻译领域，效果非常好，可以硬刚市面上常见模型。

Pasted image 20260507043700.png

项目的整体流程

进入项目，最开始需要配置 OCR 和翻译的 Provider，其中 OCR 可以配置百度的 PaddleOCR 和开源的 MinerU，翻译服务可以配置 DeepSeek。（当前版本 v4.12）

整体流程：

用户上传 PDF 之后，项目利用 OCR 服务将整个 PDF 转换为 markdown
分批次传送给大模型翻译。
将翻译结果嵌入到原 PDF。

项目存在的问题

由于翻译前后，文本的长短不一致，中文往往更短。在选中 PDF 内容时，视觉上文字的区域，与嵌入的可复制层不太一致，导致复制的体验不好。

据作者描述，是为了数学公式显示的兼容性，暂时保留了原来的文字层。

书签在翻译之后消失

Graph View

项目的整体流程
项目存在的问题

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community