OpenCLI的演进和Agent的发展

课程 ID: 19300

描述:
话题概述: 随着 AI Agent(Claude Code、Cursor 等)在日常工作中越来越多,我们发现一个明显的断层:Agent 想做的事,往往卡在“工具不够确定”上。 具体痛点有三个: 1. 网站没有官方 API,或 API 受限——B站、小红书、知乎、X 等大量站点,Agent 要么拿不到数据,要么需要每次重新登录、过验证码。 2. MCP / 通用浏览器工具成本高、不稳定——靠 LLM 截图理解 + 点击的方式,一次调用动辄几千 token,跑 100 次就上百块,结果还会因为页面微调而崩。 3. 本地 CLI 散落各处——gh、docker、桌面应用(Cursor、ChatGPT、Notion)各有各的入口,Agent 没有统一的发现和调用方式。 我们要解决的核心问题是:怎么让 AI Agent 用一套确定性接口,安全复用人类已有的浏览器登录态,去操作任意网站和本地工具,并且零 LLM 运行时成本。 演讲题纲: 话题亮点: 整体思路是 “先自动化真实操作,再沉淀成可复用 CLI”,关键技术点: 1. Browser Bridge 架构——通过轻量 Chrome 扩展 + 本地 daemon,把用户已登录的真实 Chrome 会话暴露成一组确定性原语(navigate / snapshot / click / type / extract / wait)。凭证全程不离开浏览器。 2. 结构化 DOM 快照替代截图——Agent 读取的是结构化 snapshot,而不是截图 + 视觉模型。同样的页面,同样的输出,可管道、可脚本、CI 友好。 3. Skill 驱动的适配器编写流程——opencli-adapter-author skill 把“站点侦察 → API 发现 → 字段解码 → opencli browser verify”做成 Agent 可执行的标准流程,新增一个站点平均不到 1 小时。 4. 零 LLM 运行时成本——一旦适配器写好,运行时是纯 CLI,不再调用模型。跑 1 万次也不烧 token。 5. CLI 枢纽——把 gh、docker、桌面应用通过 CDP 统一注册到 opencli 入口,Agent 只需要学一种发现方式。 踩过的坑: - 早期想直接用通用浏览器 MCP,发现 token 成本和稳定性都扛不住,才转向“先 browser 原语、再沉淀适配器”的两段式。 - DOM 选择器极易失效,于是引入 opencli-autofix skill,让 Agent 能在命令失败时自我修复适配器。 - Electron 应用的 CDP 接入,每个应用的版本差异很大,最后通过 owned workspaces / tab leases 模型来统一会话所有权。