WorkBuddy调研报告
约 3176 字大约 11 分钟
2026-03-23
WorkBuddy 调研报告
1. 产品概述
1.1 产品定义
WorkBuddy 是腾讯云旗下 CodeBuddy 团队推出的全场景职场 AI 智能体桌面工作台,于 2026 年 2 月启动内测,2026 年 3 月正式上线公测。产品基于开源项目 OpenClaw("小龙虾") 构建,是其商业化产品版本,面向普通职场用户和企业用户提供开箱即用的 AI Agent 能力。
1.2 产品定位
"不是一个聊天框,而是能真正落地执行的 AI 工作台。"
WorkBuddy 的核心差异在于:它不仅能"说",更能"做"。通过将大语言模型(LLM)与本地系统操作深度结合,实现:
- 自然语言 → 系统操作(文件、程序、浏览器等)
- 多步骤任务自动规划与执行
- 本地数据私有化处理
- 多端联动与远程控制
1.3 与 CodeBuddy 的关系
| 产品 | 定位 | 目标用户 |
|---|---|---|
| CodeBuddy | AI 编程助手,聚焦 IDE 内的代码补全、Debug、重构 | 开发者 / 工程师 |
| WorkBuddy | 全场景 AI 智能体工作台,覆盖办公自动化全场景 | 全体职场人士 |
两者同属腾讯云 CodeBuddy 生态,形成"开发侧 + 办公侧"的完整闭环。
2. 技术架构与实现原理
2.1 整体架构
WorkBuddy 基于 OpenClaw 开源框架商业化落地,整体架构分为五层:
-------------------------------------------------------------
用户交互层
桌面客户端 (Win/macOS) · 微信/QQ 远程控制
-------------------------------------------------------------
Agent 调度层
任务理解 · 多步规划 · 多 Agent 并行 · 技能调度
-------------------------------------------------------------
Skills 扩展层
30+ 内置 Skill · 社区 SkillHub · MCP 协议接入
-------------------------------------------------------------
模型适配层
DeepSeek · Hunyuan · GLM · Kimi · OpenAI · Claude
-------------------------------------------------------------
安全 & 基础设施层
沙箱审计 · 本地向量存储 · 腾讯云安全链路
-------------------------------------------------------------三种模式:
三种模式的核心区别在于动手程度:
✦ Craft(说了就做)
直接执行任务。可以读写文件、运行命令、生成内容、调用工具——拿到需求就开干,不等确认。
适合:目标明确、你信任我直接操作的场景。比如"帮我截图"、"写一个脚本"。
✦ Plan(先想后做)
先分析需求、设计方案、拆解步骤,把计划列出来给你看。你确认之后才执行。
适合:任务比较复杂、涉及范围广、或者你想先把把关再放行的场景。比如"重构这个项目的目录结构"。
✦ Ask(只说不动)
只回答问题、读文件、分析信息。不修改任何文件,不执行任何命令。纯粹的顾问模式。
适合:你只是想探讨方案、理解问题,还没准备好动手的时候。准备好了可以说"切换到 Craft 模式"。
2.2 Agent 核心实现原理
WorkBuddy 的 Agent 机制是其技术核心,遵循 Plan → Act → Observe → Reflect 循环:
| 模块 | 功能说明 |
|---|---|
| 任务理解(NLU) | 解析自然语言指令,动态拆解为可执行子任务链(如"生成周报" → 收集数据 → 格式化 → 输出文件) |
| 多 Agent 并行 | 多个子 Agent 同时处理不同任务(如一个 Agent 生成文案,另一个同步设计海报) |
| 技能调度引擎 | 根据任务类型自动匹配调用对应 Skill(Python 脚本、API 工具、浏览器自动化等) |
| 长期记忆系统 | 通过本地向量数据库(Ollama)存储跨会话上下文,支持历史任务回溯与关联 |
| 具身智能扩展 | 支持 Android 节点能力,可远程操控手机设备(摄像头、微信消息等) |
2.3 MCP 协议支持
WorkBuddy 兼容 MCP(Model Context Protocol) 协议标准,允许:
- 接入第三方工具和服务作为 Agent 的上下文来源
- 自定义技能以标准协议对接企业内部系统
- 一键导入官方 MCP 能力扩展包
2.4 Skills 技术体系
Skills 是 WorkBuddy 的功能扩展核心单元,本质是一套领域知识 + 标准化流程 + 可执行脚本的封装:
Skill 结构
├── SKILL.md # 技能描述与使用说明
├── scripts/ # 可执行脚本(Python/Shell/JS 等)
├── references/ # 参考资料与知识文档
└── assets/ # 静态资源文件Skills 来源分三类:
- 内置 Skills:开箱即用 30+ 个,覆盖文档处理、数据分析、内容创作等
- 社区 SkillHub(clawhub.ai):2 万+ 社区贡献技能,一键安装
- 自定义 Skills:用户或企业基于
skill-creator工具自行开发
2.5 模型适配策略
WorkBuddy 深度适配国产大模型生态,优先在中文场景下提供低延迟响应:
| 模型 | 支持类型 |
|---|---|
| 腾讯 Hunyuan | 深度优化,官方首选 |
| DeepSeek | 支持,推理能力强 |
| 智谱 GLM | 支持 |
| Kimi / MiniMax | 支持 |
| OpenAI GPT 系列 | 兼容支持 |
| Anthropic Claude | 兼容支持 |
3. 核心功能特性全面分析
3.1 功能矩阵总览
| 功能域 | 具体能力 | 成熟度 |
|---|---|---|
| 自然语言执行 | 系统操作、文件处理、程序控制 | ★★★★★ |
| 文档生成 | 报告、周报、PPT、合同、会议纪要 | ★★★★★ |
| 数据分析 | 表格处理、可视化图表、数据洞察 | ★★★★☆ |
| 私有知识库 | 本地文档导入、语义检索、RAG 问答 | ★★★★☆ |
| 远程控制 | 微信/QQ 远程控制电脑,无需公网 IP | ★★★★☆ |
| Skills 扩展 | 30+ 内置 + 2 万+ 社区技能,MCP 接入 | ★★★★☆ |
| 多 Agent 并行 | 多任务并行调度,复杂工作流自动化 | ★★★★☆ |
| 批量文件操作 | 批量整理、重命名、格式转换、内容提取 | ★★★★★ |
| 浏览器自动化 | 网页爬取、表单填写、信息提取 | ★★★☆☆ |
3.2 典型使用场景
场景一:职场文档自动化
用户指令:"帮我把上周的销售数据生成一份分析周报"
执行链:读取本地 Excel → 数据清洗 → 生成图表 → 撰写分析文字 → 输出 Word 文档场景二:私有知识库问答
用户指令:"根据我们公司的产品手册,回答客户关于退货政策的问题"
执行链:向量检索本地文档 → 定位相关段落 → 结合 LLM 生成精准回答场景三:微信远程控制
场景:人不在电脑旁
用户指令(手机微信):"把桌面上那份合同发到我邮箱"
执行链:微信消息 → WorkBuddy Agent → 找到本地文件 → 调用邮件客户端 → 发送场景四:批量文件处理
用户指令:"把 Downloads 文件夹里的所有图片按年月分类归档"
执行链:扫描文件夹 → 读取文件元数据 → 创建目录结构 → 批量移动文件3.3 安全机制
WorkBuddy 提供多层安全保护:
- 沙箱审计:Skills 执行前进行权限审查,防止恶意脚本滥用系统权限
- 本地化存储:知识库数据全程存储在本地,不上传云端
- Skills 安全评级:内置 skill-vetter 工具对社区 Skills 进行 LOW/MEDIUM/HIGH/EXTREME 四级风险评估
- 腾讯云账号体系:企业版接入腾讯云计费审计,满足合规要求
4. 竞品对比分析
4.1 竞品范围界定
本次对比选取以下三类竞品:
- Cursor:AI-First 代码编辑器,面向开发者
- GitHub Copilot:微软/OpenAI 出品的 IDE 插件型编程助手
- Claude Desktop:Anthropic 出品的桌面 AI 助手(MCP 生态领先)
4.2 全维度对比表
| 对比维度 | WorkBuddy | Cursor | GitHub Copilot | Claude Desktop |
|---|---|---|---|---|
| 产品定位 | 全场景办公 Agent | AI 代码编辑器 | IDE 编程插件 | 通用桌面 AI 助手 |
| 目标用户 | 全体职场人 | 开发者 | 开发者 | 技术/研究人群 |
| 核心能力 | 任务执行 + 办公自动化 | 代码生成/重构 | 代码补全/解释 | 对话推理/文档处理 |
| 本地文件操作 | ✅ 深度支持 | ❌ 仅代码文件 | ❌ 不支持 | ✅ 通过 MCP 支持 |
| 系统级操作 | ✅ 支持 | ❌ 不支持 | ❌ 不支持 | ⚠️ 有限支持 |
| 远程控制 | ✅ 微信/QQ 原生 | ❌ 不支持 | ❌ 不支持 | ❌ 不支持 |
| 私有知识库 | ✅ 本地 RAG | ❌ 不支持 | ❌ 不支持 | ✅ 通过 MCP |
| Skills/插件生态 | ✅ 2万+ 社区技能 | ✅ 扩展插件 | ✅ GitHub Actions | ✅ MCP 生态 |
| 多 Agent 并行 | ✅ 支持 | ❌ 不支持 | ❌ 不支持 | ❌ 不支持 |
| 国产模型适配 | ✅ 深度优化 | ⚠️ 有限支持 | ❌ 主要 GPT | ❌ 仅 Claude |
| 数据隐私 | ✅ 本地优先 | ⚠️ 云端处理 | ⚠️ 云端处理 | ⚠️ 云端处理 |
| 部署门槛 | 低(开箱即用) | 中(需配 IDE) | 低(IDE 插件) | 低(桌面安装) |
| 免费层 | 有免费额度 | 有免费额度 | 有免费额度 | 有免费额度 |
| 面向场景 | 通用办公 | 软件开发 | 软件开发 | 通用助理 |
4.3 核心差异解读
① WorkBuddy vs Cursor/Copilot
Cursor 和 Copilot 本质上是编程场景的 AI 副驾驶,能力边界锁定在 IDE 内的代码生成与补全。WorkBuddy 则定位为跨场景任务执行平台,两者不存在直接竞争,更多是互补关系:
- 开发者用 Cursor/Copilot 写代码;
- 开发者用 WorkBuddy 管理文件、生成文档、自动化测试报告输出。
② WorkBuddy vs Claude Desktop
Claude Desktop 通过 MCP 生态也在快速扩展本地能力,是 WorkBuddy 最直接的竞争对手。核心差异在于:
| WorkBuddy | Claude Desktop | |
|---|---|---|
| 国内可用性 | ✅ 无障碍使用 | ❌ 需要科学上网 |
| 国产模型 | ✅ 多模型支持 | ❌ 仅 Claude 模型 |
| 远程控制 | ✅ 微信原生控制 | ❌ 不支持 |
| MCP 生态 | ✅ 兼容 MCP | ✅ MCP 发起方 |
| 中文优化 | ✅ 深度优化 | ⚠️ 通用支持 |
WorkBuddy 在中国市场的核心壁垒:国产大模型深度适配 + 微信生态原生集成 + 无需科学上网,这三点构成了显著的本土化优势。
5. 优势劣势 分析
| 优势 (Strengths) | 劣势 (Weaknesses) |
|---|---|
| ✅ 腾讯生态背书,微信集成天然优势 | ❌ 2026 年 3 月才正式上线,生态尚不成熟 |
| ✅ 开箱即用,无技术门槛 | ❌ 重度依赖本地环境(Node.js、Git 等) |
| ✅ 本地数据,隐私安全有保障 | ❌ 目前主要支持 Windows/macOS,移动端能力有限 |
| ✅ 深度适配国产大模型 | ❌ 社区 Skills 质量参差不齐 |
| ✅ 2 万+ 技能生态,快速扩展 | ❌ 复杂任务规划有时仍需用户辅助引导 |
6. 总结与建议
6.1 总体评价
WorkBuddy 是一款定位清晰、落地执行力强的 AI 智能体工作台。其核心价值在于打通了"AI 意图理解"与"系统实际执行"之间的最后一公里,真正让普通职场用户能够通过自然语言完成复杂的多步骤任务。
6.2 适合使用 WorkBuddy 的场景
- 需要频繁处理文件、报告、数据的职场人(运营、市场、行政等)
- 需要保护数据隐私的企业或个人(本地化存储)
- 非技术背景但希望实现工作流自动化的用户
- 需要远程操控电脑的移动办公场景
6.3 不适合的场景
- 纯代码开发场景 → 推荐 Cursor / CodeBuddy
- 需要深度推理/研究型对话 → Claude / DeepSeek 更合适
- 对 Agent 稳定性有极高要求的生产环境 → 等待产品进一步成熟
7. 案例Case
绑定微信
直接在设置界面即可绑定

微信绑定成功就可以在微信段直接跟WorkBuddy进行对话。但是在对话的时候基本上由微信向WorkBuddy发送执行,如果希望WorkBuddy发送对应的文件到微信,目前还无法实现。
在测试的时候,还经常遇到微信给WorkBuddy发送指令的时候出现异常:too many requests;

安装Skill
在使用的时候可以现在SkillHub上搜索一些比较好用的Skills,或者直接通过WorkBuddy的技能市场选择SkillHub直接搜索。

获取屏幕截图
获取屏幕截图的时候它会截图当前屏幕放置在当前工作目录中,并且上传到腾讯OSS平台,但是无法通过微信发送截图到手机;

但是在使用的过程发现,截图不完整,只能截取一部分的内容,怀疑是跟屏幕的分辨率有关系。
重新设置提示词:在截图之前先获取到屏幕的分辨率,然后根据分辨率的大小,截取完整的图片。仍然无法截取完整的屏幕,并且获取屏幕的分辨率也是错误的,当前屏幕的分辨率为3840 x 2180。

尝试来控制浏览器
我想让QClaw来控制浏览器,但是它可以打开浏览器但是,想让他访问Github的网站,它打开的是空白页

整理最新的新闻
