OpenCLI的演进和Agent的发展

课程 ID: 19300

描述:
话题概述: 随着 AI Agent（Claude Code、Cursor 等）在日常工作中越来越多，我们发现一个明显的断层：Agent 想做的事，往往卡在“工具不够确定”上。具体痛点有三个： 1. 网站没有官方 API，或 API 受限——B站、小红书、知乎、X 等大量站点，Agent 要么拿不到数据，要么需要每次重新登录、过验证码。 2. MCP / 通用浏览器工具成本高、不稳定——靠 LLM 截图理解 + 点击的方式，一次调用动辄几千 token，跑 100 次就上百块，结果还会因为页面微调而崩。 3. 本地 CLI 散落各处——gh、docker、桌面应用（Cursor、ChatGPT、Notion）各有各的入口，Agent 没有统一的发现和调用方式。我们要解决的核心问题是：怎么让 AI Agent 用一套确定性接口，安全复用人类已有的浏览器登录态，去操作任意网站和本地工具，并且零 LLM 运行时成本。演讲题纲: 话题亮点：整体思路是 “先自动化真实操作，再沉淀成可复用 CLI”，关键技术点： 1. Browser Bridge 架构——通过轻量 Chrome 扩展 + 本地 daemon，把用户已登录的真实 Chrome 会话暴露成一组确定性原语（navigate / snapshot / click / type / extract / wait）。凭证全程不离开浏览器。 2. 结构化 DOM 快照替代截图——Agent 读取的是结构化 snapshot，而不是截图 + 视觉模型。同样的页面，同样的输出，可管道、可脚本、CI 友好。 3. Skill 驱动的适配器编写流程——opencli-adapter-author skill 把“站点侦察 → API 发现 → 字段解码 → opencli browser verify”做成 Agent 可执行的标准流程，新增一个站点平均不到 1 小时。 4. 零 LLM 运行时成本——一旦适配器写好，运行时是纯 CLI，不再调用模型。跑 1 万次也不烧 token。 5. CLI 枢纽——把 gh、docker、桌面应用通过 CDP 统一注册到 opencli 入口，Agent 只需要学一种发现方式。踩过的坑： - 早期想直接用通用浏览器 MCP，发现 token 成本和稳定性都扛不住，才转向“先 browser 原语、再沉淀适配器”的两段式。 - DOM 选择器极易失效，于是引入 opencli-autofix skill，让 Agent 能在命令失败时自我修复适配器。 - Electron 应用的 CDP 接入，每个应用的版本差异很大，最后通过 owned workspaces / tab leases 模型来统一会话所有权。