John

课程 ID: 11636

描述:
John，算法工程师，专注大语言模型与强化学习方向，长期研究多步 Coding Agent 的训练范式与奖励工程。当前主要工作聚焦于 Agentic RL 在真实工程场景中的落地，包括用真实编译器与校验器反馈作为零标注过程奖励、用语义事件触发探索机制对抗 reward hacking。在 Shopify Horizon 主题编辑等多步任务上实现了 4B 模型的稳定收敛，提出 Compiler-OPD 与 Error-Branch 两项核心机制。熟悉 verl-agent / TRL GRPOTrainer / Unsloth / vLLM 等 RL 训练栈。