课程 ID: 19327
描述:
话题概述:
落地场景是供应链需求预测:长链路、多变量、强不确定,反馈延迟在天到周级别,异常信号容易被淹没。传统做法是模型加 BI 看板加人工巡检,本质是被动消费:出问题要等人去看,经验依赖个体头脑,无法沉淀。我们的目标不是再做一个更准的模型,而是用 Agent 架构改造工作流,让系统具备主动发现、长期记忆和自我演进三种能力。
演讲题纲:
话题亮点:
3.1 Proactive
定位:Agent 是看板和数据源的第一读者,不等用户提问。
实现要点。第一,Scanner 按节拍轮询多源指标,做全量而非抽样扫描。第二,异常定义分三层:L1 是指标越线(阈值类);L2 是结构异常(趋势反向、环比断崖);L3 是上下文异常(同群体内的离群)。第三,发现异常后 Agent 自动跑 root-cause(特征贡献、事件对齐),产出带证据的问题卡片而不是裸告警。
噪音控制:硬规则限制 Agent 任何主动汇报必须自带可执行建议或明确假设,把“刷存在感”成本前置给 Agent 自己。
3.2 Memory
记忆以 Lesson 为最小单位,结构化存储,字段包含:触发情境、归因、行动建议、证据、置信度。
三层划分。Episodic 存事件快照;Semantic 存从多次 Episodic 蒸馏出的规则;Procedural 存排查流程模板。
使用方式是检索注入,不是全量塞入上下文:按相似情境取 Top-K 注入当前决策,记忆作为外部资产管理。这条路线明确区别于“超长上下文”方案:可审计、可编辑、可下线,适配强合规场景。
3.3 Self-Evolve
周度离线闭环,四步:
一、对账。把上周 Agent 报出的问题卡片与实际结果匹配,标注真阳性、假阳性、漏报。
二、蒸馏。对漏报和假阳性跑 reflection,输出应该新增或修改的 Lesson 候选、应调整的阈值。
三、写回。Lesson 候选经轻量人工 review 后入库,下周生效。
四、策略演化。Scanner 的扫描节奏、阈值、关注对象,由高置信度 Lesson 自动调整。
关键边界:Self-Evolve 不等于自动 fine-tune,只动记忆和策略,不动模型权重。所有行为变化都能追溯到具体 Lesson,保证可观察、可回退、可解释。