岗位职责:1、负责大语言模型LLM后训练阶段的核心算法研发与模型迭代,包括但不限于SFT、Reward Model训练以及强化学习DPO,GRPO,GSPO,Agentic RL等,持续提升模型作为Agent大脑的逻辑推理能力、指令遵循能力。2、负责基于大模型的智能体架构设计与开发,探索多智能体协同机制、复杂任务拆解规划以及工具调用(Tool-use)能力。3、构建并优化Agent系统的自我进化与自我演化机制,持续提升Agent在实际业务中的自主决策、工作流执行与闭环优化能力。5、针对业务场景痛点进行模型与智能体调优,探索并解决模型幻觉问题,攻坚长上下文,复杂场景下的多轮对话策略与记忆机制优化。6、负责后训练与Agent数据流水线的设计,探索高质量合成数据的生成、清洗与策略迭代,从数据层面驱动模型与Agent能力上限。7、跟踪业界最前沿的大模型后训练、强化学习及Agentic系统技术发展,推动新技术在实际业务场景中的落地与验证。
岗位要求:1、计算机科学、人工智能、数学或相关专业毕业,本科及以上学历(硕士或博士优先)。2、具备扎实的机器学习、自然语言处理或强化学习理论基础,对Transformer架构及主流开源大语言模型有深入的理解。3、熟练掌握主流的后训练技术原理与实践,有丰富的SFT调优经验,并在偏好对齐(DPO/RLHF等)方向有实际落地经验。4、深入理解AI Agent的技术原理与设计模式,熟悉Agent的核心组件(如规划机制、Memory记忆机制、环境交互等),熟悉主流Agent开发框架与开源生态(如OpenClaw、LangChain等)。5、具备大规模分布式训练实践经验,熟悉FSDP、DeepSpeed或Megatron-LM等分布式加速技术。6、具有较好的团队协作能力、优秀的逻辑分析能力,能够独立拆解并解决复杂的算法与Agent工程问题。7、有LLM后训练、强化学习、智能体(Agent)或计算机视觉等人工智能方向相关顶级会议(如ACL、NeurIPS、ICLR、CVPR等)论文发表者优先。
年薪:36-72万
|
1-5年
|
本科及以上
工作地:深圳市
|
招5人
年薪:36-72万
|
3-8年
|
本科及以上
工作地:深圳市
|
招3人
年薪:36-84万
|
3年以上
|
本科及以上
工作地:深圳市
|
招3人
年薪:36-72万
|
2年以上
|
本科及以上
工作地:深圳市
|
招20人
我是猎头
我是hr