从"会回答"到"会成长":一个领域 Agent 的 Proactive、Memory、Self-Evolve 架构实践

课程 ID: 19327

描述:
话题概述: 落地场景是供应链需求预测:长链路、多变量、强不确定,反馈延迟在天到周级别,异常信号容易被淹没。传统做法是模型加 BI 看板加人工巡检,本质是被动消费:出问题要等人去看,经验依赖个体头脑,无法沉淀。我们的目标不是再做一个更准的模型,而是用 Agent 架构改造工作流,让系统具备主动发现、长期记忆和自我演进三种能力。 演讲题纲: 话题亮点: 3.1 Proactive 定位:Agent 是看板和数据源的第一读者,不等用户提问。 实现要点。第一,Scanner 按节拍轮询多源指标,做全量而非抽样扫描。第二,异常定义分三层:L1 是指标越线(阈值类);L2 是结构异常(趋势反向、环比断崖);L3 是上下文异常(同群体内的离群)。第三,发现异常后 Agent 自动跑 root-cause(特征贡献、事件对齐),产出带证据的问题卡片而不是裸告警。 噪音控制:硬规则限制 Agent 任何主动汇报必须自带可执行建议或明确假设,把“刷存在感”成本前置给 Agent 自己。 3.2 Memory 记忆以 Lesson 为最小单位,结构化存储,字段包含:触发情境、归因、行动建议、证据、置信度。 三层划分。Episodic 存事件快照;Semantic 存从多次 Episodic 蒸馏出的规则;Procedural 存排查流程模板。 使用方式是检索注入,不是全量塞入上下文:按相似情境取 Top-K 注入当前决策,记忆作为外部资产管理。这条路线明确区别于“超长上下文”方案:可审计、可编辑、可下线,适配强合规场景。 3.3 Self-Evolve 周度离线闭环,四步: 一、对账。把上周 Agent 报出的问题卡片与实际结果匹配,标注真阳性、假阳性、漏报。 二、蒸馏。对漏报和假阳性跑 reflection,输出应该新增或修改的 Lesson 候选、应调整的阈值。 三、写回。Lesson 候选经轻量人工 review 后入库,下周生效。 四、策略演化。Scanner 的扫描节奏、阈值、关注对象,由高置信度 Lesson 自动调整。 关键边界:Self-Evolve 不等于自动 fine-tune,只动记忆和策略,不动模型权重。所有行为变化都能追溯到具体 Lesson,保证可观察、可回退、可解释。