课程 ID: 19300
描述:
话题概述:
随着 AI Agent(Claude Code、Cursor 等)在日常工作中越来越多,我们发现一个明显的断层:Agent 想做的事,往往卡在“工具不够确定”上。
具体痛点有三个:
1. 网站没有官方 API,或 API 受限——B站、小红书、知乎、X 等大量站点,Agent 要么拿不到数据,要么需要每次重新登录、过验证码。
2. MCP / 通用浏览器工具成本高、不稳定——靠 LLM 截图理解 + 点击的方式,一次调用动辄几千 token,跑 100
次就上百块,结果还会因为页面微调而崩。
3. 本地 CLI 散落各处——gh、docker、桌面应用(Cursor、ChatGPT、Notion)各有各的入口,Agent 没有统一的发现和调用方式。
我们要解决的核心问题是:怎么让 AI Agent 用一套确定性接口,安全复用人类已有的浏览器登录态,去操作任意网站和本地工具,并且零 LLM
运行时成本。
演讲题纲:
话题亮点:
整体思路是 “先自动化真实操作,再沉淀成可复用 CLI”,关键技术点:
1. Browser Bridge 架构——通过轻量 Chrome 扩展 + 本地 daemon,把用户已登录的真实 Chrome 会话暴露成一组确定性原语(navigate / snapshot /
click / type / extract / wait)。凭证全程不离开浏览器。
2. 结构化 DOM 快照替代截图——Agent 读取的是结构化 snapshot,而不是截图 + 视觉模型。同样的页面,同样的输出,可管道、可脚本、CI 友好。
3. Skill 驱动的适配器编写流程——opencli-adapter-author skill 把“站点侦察 → API 发现 → 字段解码 → opencli browser verify”做成 Agent
可执行的标准流程,新增一个站点平均不到 1 小时。
4. 零 LLM 运行时成本——一旦适配器写好,运行时是纯 CLI,不再调用模型。跑 1 万次也不烧 token。
5. CLI 枢纽——把 gh、docker、桌面应用通过 CDP 统一注册到 opencli 入口,Agent 只需要学一种发现方式。
踩过的坑:
- 早期想直接用通用浏览器 MCP,发现 token 成本和稳定性都扛不住,才转向“先 browser 原语、再沉淀适配器”的两段式。
- DOM 选择器极易失效,于是引入 opencli-autofix skill,让 Agent 能在命令失败时自我修复适配器。
- Electron 应用的 CDP 接入,每个应用的版本差异很大,最后通过 owned workspaces / tab leases 模型来统一会话所有权。