职位关键词
实习3个月深度学习 · 大模型算法算法工程化经验 · 发表算法相关优秀论文 · 参加算法相关竞赛/获奖 · 团队管理经验 · 优秀开源项目经历
投递时间:2025年12月31日-2026年01月30日
职位描述:
职位描述
1.负责Agent场景的效果优化,深入研究LLM后训练相关技术,包括CPT/SFT/RLHF/RLVR等,提高算法准确率和效率。
2.构建大规模高质量的数据(数据建设、数据抓取与解析、数据合成等),探究线上真实场景数据到RL过程的数据飞轮。
3.跟踪LLM领域的最新研究成果,用以持续提升算法应用效果,研究方向包括但不限于强化学习中的奖励模型的优化和创新,AgentRL,可验证奖励的构建和扩充。
4.深度参与产品研发和业务落地,将优化算法应用于具体业务场景,推动智能体技术的产业化落地。
职位要求
1.硕士及以上学历,计算机、人工智能、机器学习等相关专业,优秀的代码能力,掌握常用编程语言和算法(985,211大学硕士以上优先)
2.深入理解大语言模型的原理与架构,熟悉智能体技术的基本概念与应用场景,掌握深度学习、强化学习的基本理论与方法。
3.在大模型领域,主导过有影响力的项目或论文者优先;熟悉大模型训练、RL算法者优先。
4.具备良好的团队协作能力与沟通能力,能够与跨学科团队紧密合作,共同推动项目进展。
5.有较强的业务问题到算法模型的建模能力,有强烈的技术好奇心、自驱力和进取心,能及时关注和学习业界最佳实践。
我们不是普通写代码的,我们是清华NLP团队在工业界的延伸。在这里你能接触到学术界最新的Idea~去大厂你是第50000号员工,来这里你是Agent架构的奠基人。你的代码将定义这个行业未来的工作流。