首页 资讯 下载 教程 Skills 社群

PDF Reader

文档 搜索与效率工具

安装命令

npx clawhub@latest install pdf-reader

安装说明

1
确认环境

确保已安装 Node.js 22+ 和 OpenClaw。在终端运行 openclaw --version 确认 OpenClaw 正常工作。

2
执行安装

在终端中运行上方安装命令,ClawHub 会自动下载并安装 PDF Reader 到 ~/.openclaw/skills/ 目录。

3
验证安装

运行 openclaw skills list 查看已安装技能列表,确认 PDF Reader 已出现在列表中。

4
配置参数(可选)

根据下方介绍中的配置说明,在 ~/.config/openclaw/openclaw.json5 中添加技能的配置项。

手动安装方式:将 Skill 文件夹复制到 ~/.openclaw/skills/ 或项目目录下的 skills/ 文件夹,确保文件夹中包含 SKILL.md 文件。
文本提取 表格识别 多页摘要

详细介绍

PDF Reader 让 OpenClaw 具备直接阅读 PDF 文档的能力,无论是技术手册、学术论文还是财务报表,AI 都能提取关键信息并回答问题。

核心功能

  • 全文本提取:支持文字型 PDF 的精确文本提取,保留段落和标题结构
  • 表格识别:自动检测并提取 PDF 中的表格数据,转换为结构化格式
  • OCR 支持:对扫描件和图片型 PDF 进行 OCR 识别(需安装 Tesseract)
  • 多页摘要:对长文档自动分页提取,生成章节级摘要
  • 页面定位:AI 回答时引用具体页码,方便交叉核对

安装

clawhub install pdf-reader

配置参数

{
  skills: {
    "pdf-reader": {
      maxPages: 100,        // 最大处理页数
      ocrEnabled: false,    // 是否启用 OCR
      ocrLanguage: "chi_sim+eng",  // OCR 语言
      tableExtraction: true // 是否提取表格
    }
  }
}

使用方法

直接向 OpenClaw 发送 PDF 文件,或提供 PDF 的 URL:

  • 「帮我总结这个 PDF 的核心内容」
  • 「这份报告第三季度的收入是多少?」
  • 「提取第 5 页的表格数据」

注意事项

  • 加密或有密码保护的 PDF 需要先提供密码
  • OCR 功能需要系统安装 Tesseract,中文识别需下载 chi_sim 语言包
  • 超大 PDF(>100 页)建议指定页码范围以节省处理时间和 token 消耗