John

课程 ID: 11636

描述:
John,算法工程师,专注大语言模型与强化学习方向,长期研究多步 Coding Agent 的训练范式与奖励工程。当前主要工作聚焦于 Agentic RL 在真实工程场景中的落地,包括用真实编译器与校验器反馈作为零标注过程奖励、用语义事件触发探索机制对抗 reward hacking。在 Shopify Horizon 主题编辑等多步任务上实现了 4B 模型的稳定收敛,提出 Compiler-OPD 与 Error-Branch 两项核心机制。熟悉 verl-agent / TRL GRPOTrainer / Unsloth / vLLM 等 RL 训练栈。