PDF Reader
文档 搜索与效率工具安装命令
npx clawhub@latest install pdf-reader
安装说明
1
确认环境
确保已安装 Node.js 22+ 和 OpenClaw。在终端运行 openclaw --version 确认 OpenClaw 正常工作。
2
执行安装
在终端中运行上方安装命令,ClawHub 会自动下载并安装 PDF Reader 到 ~/.openclaw/skills/ 目录。
3
验证安装
运行 openclaw skills list 查看已安装技能列表,确认 PDF Reader 已出现在列表中。
4
配置参数(可选)
根据下方介绍中的配置说明,在 ~/.config/openclaw/openclaw.json5 中添加技能的配置项。
手动安装方式:将 Skill 文件夹复制到
~/.openclaw/skills/ 或项目目录下的 skills/ 文件夹,确保文件夹中包含 SKILL.md 文件。
文本提取
表格识别
多页摘要
详细介绍
PDF Reader 让 OpenClaw 具备直接阅读 PDF 文档的能力,无论是技术手册、学术论文还是财务报表,AI 都能提取关键信息并回答问题。
核心功能
- 全文本提取:支持文字型 PDF 的精确文本提取,保留段落和标题结构
- 表格识别:自动检测并提取 PDF 中的表格数据,转换为结构化格式
- OCR 支持:对扫描件和图片型 PDF 进行 OCR 识别(需安装 Tesseract)
- 多页摘要:对长文档自动分页提取,生成章节级摘要
- 页面定位:AI 回答时引用具体页码,方便交叉核对
安装
clawhub install pdf-reader
配置参数
{
skills: {
"pdf-reader": {
maxPages: 100, // 最大处理页数
ocrEnabled: false, // 是否启用 OCR
ocrLanguage: "chi_sim+eng", // OCR 语言
tableExtraction: true // 是否提取表格
}
}
}
使用方法
直接向 OpenClaw 发送 PDF 文件,或提供 PDF 的 URL:
- 「帮我总结这个 PDF 的核心内容」
- 「这份报告第三季度的收入是多少?」
- 「提取第 5 页的表格数据」
注意事项
- 加密或有密码保护的 PDF 需要先提供密码
- OCR 功能需要系统安装 Tesseract,中文识别需下载 chi_sim 语言包
- 超大 PDF(>100 页)建议指定页码范围以节省处理时间和 token 消耗