职位详情

强化学习与控制算法专家

上海

2026届

硕士

先生

职位关键词

在校/应届

投递时间：2026年05月29日-2026年08月27日

职位描述：

岗位职责： PID 、世界模型动力学训练：在冻结的感知隐空间内，训练基于时序差分（ TD-Learning ）或预测控制的动态网络（ Dynamics Model ），实现未来状态的高速推演。 Reward Engineering ( 奖励工程：将工业现场的安全底线、防摇摆、轨迹精准度等“硬规则”数学化，设计合理的多维代价奖励函数。、并行推演规划：基于 MPPI CEM 等算法，在潜空间内实现大规模并行轨迹采样与寻优，输出基准前馈控制指令。与传统控制融合：负责将基于模型的控制（）前馈指令与下位机底层的反馈控制器进行频率解耦与动态融合，并处理 Sim2Real （仿真到现实）的域迁移问题。岗位要求： 1、机器人学、自动化、控制工程或 AI 等相关专业硕士/博士学历。2、真正的跨界能力：既懂主流深度强化学习（PPO, SAC, TD3, Model-based RL），又精通经典控制理论（PID, LQR, MPC，运动学/动力学建模）。3、数学与逻辑：极强的数学功底，能够独立推导时序差分与最优控制相关的核心公式并落地为代码（Python/C++）。