Date Posted

Job Title

Skills

Location

Job Type

Employer/Recruiter

Experience

All Filters

Ppo Jobs In China - 42 Job Positions Available

Top Cities:

Shanghai

Beijing

ppo jobs in China

1 – 20 of 42 jobs

Audio Capture Experience Engineer

Delart ( Shenzhen )

About the job Delart is home to a team of world-class engineers and project leaders dedicated to developing the next generation of advanced networking technologies, consumer devices, and innovative technology solutions. Trusted by some of the

Delart 26 days ago

具身智能算法实习生（后训练 Infra 方向）

智元创新（上海）科技有限公司 ( Shanghai ) +1 other locations

具身智能算法实习生（后训练 Infra 方向）上海实习职位描述 1. 参与具身智能后训练框架的设计与迭代，构建支撑真机强化学习的规模化训练能力。2. 理解强化学习、模仿学习等后训练算法（PPO/SAC/DAgger 等），参与基于算法特性的训练架构设计与实现。3. 参与云端多机多卡训练 + 边缘多机多本体 rollout 的分布式异步训练系统开发。4. 参与多种后训练算法的框架侧适配与验证。5. 参与云边通信模块开发（权重同步、数据回传、时延隐藏）。6. 跟进后训练领域前沿进展，参与新算法的复现与工程化验证。职位要求 - 计算机、AI、机器人等相关专业硕士在读或优秀本科生。- 熟悉 Python，熟练使用 PyTorch，有深度学习项目经验。- 对强化学习（PPO/SAC/DAgger 等）有基础理解或强烈兴趣。- 具备良好的工程意识与代码规范，愿意深入理解底层原理。- 实习 3 个月以上优先，能长期实习更佳。加分项- 有分布式系统或通信框架（RPC / gRPC / ZMQ 等）使用经验。- 有真机强化学习或仿真器（RoboSuite /

Premium Full-time Rollout

智元创新（上海）科技有限公司 25 days ago

Upload Your Resume — Let employers contact you directly

算法研究主管

无问芯穹 Infinigence AI ( Shanghai )

算法研究主管上海社招全职互联网 / 电子 / 网游 - 研发职位 ID：A170403 职位描述 1. 提出并验证突破性的算法模型架构，探索长文本处理优化、Memory机制、混合专家模型（MoE）的极致演进，以算法层面的创新大幅降低推理时的Token消耗与计算成本。2. 设计更智能的Agent协同机制与推理框架，探索Agentic Workflow、自我反思与进化（Self-evolving）、复杂任务拆解与多步规划等前沿方向。3. 主导团队在 NeurIPS、ICLR、ICML、CVPR、ACL 等人工智能顶会发表高质量（一作或通讯）学术论文，申请核心发明专利，提升无问芯穹在AI算法领域的全球学术影响力。4. 敏锐捕捉学术界最新SOTA成果，完成前沿算法的PoC（概念验证）或原型系统搭建。5. 与公司上层应用及算法工程团队紧密联动，将经过验证的“省Token算法”或“新型Agent框架”平滑移交，指导其在真实业务场景中的落地验证。6.从零搭建并带领一支约5人规模的精锐学术团队，负责研究选题规划与日常学术指导。职位要求 1. 计算机、人工智能、数学等相关专业博士学历；在国内顶尖AI实验室（如上海AI Lab、智谱等）或大厂AI Lab有相关研究经验者优先。2. 硬性指标：以第一作者在 NeurIPS、ICLR、ICML、CVPR、ACL 等顶会/顶刊发表过多篇高影响力论文，具备独立科研与定义前沿问题的能力。3. 极强的数学直觉与算法功底，能将学术直觉快速转化为可验证的实验（如DeepSeek模式）。4. 深刻理解并有实战经验于：RLHF/PPO/DPO等对齐算法、大模型训练微调（SFT等）、Agent多步推理、KV Cache优化等。5. 有指导博士生或带领小型科研团队产出顶会论文的成功经验。职位信息部门：

Premium Remote Friendly Full-time

无问芯穹 Infinigence AI 25 days ago

机器人全栈算法实习生（Robotics Full-Stack Algorithm Engineer）

智元创新（上海）科技有限公司 ( Shanghai )

机器人全栈算法实习生（Robotics Full-Stack Algorithm Engineer）北京、上海实习职位描述职位名称：我们正在招聘一位具备系统视野、扎实算法功底与工程能力的机器人全栈算法工程师，加入我们面向真实世界任务的遥操作与智能控制系统研发。该职位将聚焦于探索遥操作在感知、建图、控制、人机协作等方面的潜力，集成多模态输入输出设备，并提升远程操作的效率、自然性与鲁棒性。同时，你将参与构建机器人端的高质量数据采集系统与学习型控制模型，推动视觉语言动作（VLA）等新一代方法在实际任务中的落地表现。1.设计并实现机器人系统中的关键算法模块，包括但不限于感知（perception）、运动规划（planning）、控制（control）、状态估计（state estimation）、强化学习（reinforcement learning）与操作策略学习（manipulation policy learning）等。2.独立负责具体任务目标的技术方案制定与交付，快速理解需求、拆解问题，并推动高质量实现。3.主动识别系统性能瓶颈，提出并验证改进方案，持续优化系统稳定性与效率。4.与系统工程、硬件集成、仿真测试等团队紧密协作，推动算法模块在真实场景中的有效部署与迭代。职位要求 1.对机器人技术充满热情，关注前沿进展，具备持续学习与深入钻研的主动性。2.具备优秀的理解能力与自主驱动，能够在不确定条件下厘清需求、独立推进任务。3.精通 C++ 与 Python，具备良好的代码结构设计、工程实现与性能调试能力。4.对机器人基础算法体系有全面认知，并在以下至少一个方向具有深入经验：•感知（图像处理、点云理解、多模态融合、SLAM）•运动规划（采样规划、轨迹优化等）•控制（位置/速度/力控制，MPC 等）•状态估计（Kalman / particle filter，传感器融合）•强化学习与模仿学习（包括行为克隆、DAgger、PPO、Diffusion Policy 等）•操作策略学习（manipulation policy learning），具备从感知到动作生成的端到端建模能力•拥有对机器人系统架构的整体理解，能够快速上手和集成不熟悉的算法模块。•欢迎具有强大学习能力和成长潜力的候选人，即使在某些方向经验尚浅，也能迅速适应、持续成长。加分项：•有机器人实机部署经验，特别是在高复杂度任务中的经验•有机器人系统或远程操控经验•在机器人或机器学习顶级会议（ICRA, CoRL, RSS, NeurIPS 等）发表论文者优先•熟悉 ROS/ROS2、Mujoco、PyBullet、Isaac Sim 等仿真和开发工具链者优先投递...

Premium Remote Friendly Full-time Particle C++ Algorithms

智元创新（上海）科技有限公司 25 days ago

大模型算法实习生

智元创新（上海）科技有限公司 ( Shanghai )

大模型算法实习生上海实习职位描述 1、大模型高效微调方法，包括数据采样与增强、微调技术探索等，持续提升模型的知识覆盖、推理、工具调用，长文本，RAG等相关能力；2、大模型对齐方法，包括对齐策略迭代、奖励模型优化、数据构造与优化等，提升模型在安全、可信，风格等方面的表现；3、探索前沿的大模型相关技术，包括但不限于MoE、原生多模态、长文本技术、智能体构建等，并将前沿技术应用在业务中；4、视觉-语言模型(VLM)优化方法，包括视觉-语言的特征对齐、VLM的优化和评估等。职位要求 1.2026届硕士及以上学位在读，计算机、软件工程相关专业优先；2.具备优秀的算法能力，有TensorFlow/PyTorch等深度学习训练框架相关经验，熟悉DPO、PPO、RLHF相关算法技术；3.扎实的编程基础，熟悉PyTorch深度学习框架及任一深度学习框架； 4.熟悉语言模型和预训练模型的基础原理，有相关方向的经验，有相关顶会论文优先；投递...

Premium Full-time

智元创新（上海）科技有限公司 25 days ago

具身智能算法工程师-模型

Xiaomi ( Beijing )

具身智能算法工程师-模型北京社招全职职位 ID：A105241 职位描述 1. 负责面向机器人操作任务的端到端模型研发，探索 Vision-Language-Action（VLA）模型在灵巧操作、长序列任务规划中的应用，推动通用操作策略的落地；2. 开展 World Model 相关研究，构建面向机器人操作的环境预测与动态建模能力，提升策略的泛化性和样本效率；3. 研究基于强化学习的高自由度灵巧手控制方法，包括 PPO、SAC、IQL等主流 RL 方法，探索仿真到真实的 Sim-to-Real 迁移技术；4. 负责大规模模型的训练基础设施搭建与优化，包括分布式训练、混合精度、推理加速及部署上线；5. 持续跟踪具身智能、操作学习、基础模型等领域的前沿进展，推动技术复现、改进与工程化落地。职位要求 1. 计算机、人工智能、自动化、机器人等相关专业，硕士及以上学历（博士优先）；2. 具备扎实的深度学习理论基础，熟练掌握 PyTorch 等主流框架，有大模型训练与调优经验者优先；3. 熟悉Gr00t和PI等系列经典VLA操作模型相关工作，对 VLM 与机器人控制的结合有深入理解；4. 了解强化学习基本原理，熟悉 MuJoCo、Isaac Lab/Gym 等仿真平台，有 Sim-to-Real 实验经验者优先；5.

Premium Remote Friendly Full-time PyTorch

Xiaomi 21 days ago

Get Hired 2x Faster
Connect with Top Employers Directly

具身智能-强化学习(灵巧操作方向) 实习生

Anker Innovations ( Wenchang )

具身智能-强化学习(灵巧操作方向) 实习生深圳校招实习智能制造 / 工业互联网 / 工业自动化职位描述安克实习生项目是面向正式校招岗位的人才培养与选拔通道。实习期间将按照校招标准进行系统的培养与综合评估，表现优秀者可直接获得校招转正机会，提前锁定正式校招席位。我们以严肃、长期的视角对待每一位实习生，也期待与你共同成长。【你将参与】1.参与具身操作模型（VA/VLA/WAM）的监督微调（SFT）和强化学习（RL），包括数据格式设计、训练配置、效果评估与 benchmark 分析 2.负责在真实机器人平台上设计并实施 RL 训练方案，通过真机数据迭代提升具身操作模型在复杂、非结构化环境下的泛化能力与鲁棒性3.参与设计与训练通用奖励模型，通过奖励模型引导，实现长程任务（Long-horizon tasks）下的高效真机强化学习4.跟踪前沿具身智能方向论文，探索基础模型与 RL 结合的最新技术，推动其在真机任务中的表现超越传统模仿学习方法职位要求 1.硕士及以上学历在读，计算机、人工智能、机器人、自动化等相关专业，2026 年及以后毕业优先2.深刻理解强化学习核心算法（PPO, SAC 等），同时熟悉具身操作大模型（VA/VLA/WAM）的训练逻辑3.具备扎实的机器人运动学、动力学基础，能够处理真机实验中的延迟、噪声及硬件非线性特性4.精通 Python 与 PyTorch，熟悉主流 RL 框架，具备良好的分布式训练与真机部署工程经验5.了解以下至少一个方向的核心技术： Offline-to-online 真机RL算法去噪模型（Flow matching/Diffusion）RL算法VLA / 多模态大模型机器人学习或具身智能基础方法

Premium Full-time Sacs Python

Anker Innovations 18 days ago

EE Verification Engineer

Delart ( Shanghai )

Premium Full-time Design of Experiments Python Debugging Scripting Language Sequencing

Delart 15 days ago

算法与Agent研究员

无问芯穹 Infinigence AI ( Shanghai )

算法与Agent研究员上海社招全职互联网 / 电子 / 网游职位 ID：A12806 职位描述 1. 下一代高效架构算法研究: 聚焦极致Token效率与新型计算范式，开展超越传统Transformer的突破性算法架构的探索与设计;攻克长文本极限、动态Memory机制、极端低比特量化算法，构建低计算成本、高推理效率的下一代模型原型与评测体系。2. 多智能体协同与群体智能研究: 突破单一Agent的局限，开展多智能体群体协同理论、可微通信协议与群体反思演化机制的研究;攻克复杂任务自适应拆解、多步分布式规划及自适应涌现算法，构建大规模智能体生态的高性能底层算法框架。3. 端云协同与边缘Agent技术研究:针对下一代边缘计算及具身智能场景，开展端云协同分布C.式Agent架构设计;攻克端侧轻量级智能体与云端超大模型之间的高效表征对齐、动态任务卸载与长短期记忆跨端同步技术，形成可工程化的端侧智能体方案。4. 隐私安全推理与成果建设: 针对端云协同推理中的安全瓶颈，开展大模型在数据不离端、模型防逆向下的隐私安全推理算法研究;探索轻量级同态加密、安全多方计算(SMPC)与差分隐私在推理期的无损/低损算法优化。职位要求 1. 基本条件: 计算机、人工智能、数学、统计学、自动化等相关专业，硕士及以上学历;3-5年及以上前沿算法研究、大模型微调、Agent系统研发或AI应用落地相关工作经验，优秀博士可放宽。2. 核心能力: 具备独立研究与课题主导能力，能自主定义前沿算法问题、设计实验方案、完成D.算法验证与成果交付;有顶会论文(NeUrIPS/ICLR/ICML/CVPR/ACL等)、知名开源项目贡献者优先。3. 专业技能:a. 具备极强的数学直觉与算法功底，深入理解机器学习、深度学习与强化学习底层原理;b. 精通 Python，熟悉 PyTorch 框架，具备快速将学术论文直觉转化为高效、可验证实验代码的能力;c. 深入理解大模型全生命周期技术:RLHF/PPO/DPO等对齐算法、大模型主流微调(SFT/LORA等)、大规模多步推理规划、KV Cache优化机制等。4. 优先条件:a. 有长文本优化、混合专家模型、新型网络架构实际研发或优化经验;b. 有复杂

Premium Remote Friendly Full-time PyTorch

无问芯穹 Infinigence AI 16 days ago

自动驾驶资深算法/专家（强化学习方向）

XPENG ( Shanghai )

自动驾驶资深算法/专家（强化学习方向）北京、上海、广州、深圳全职通用智能板块职位描述岗位职责：- 研究和开发基于强化学习的自动驾驶决策规划模型，提升自动驾驶系统的安全性、舒适性和效率；- 与感知、规划、VLM/VLA 等模块紧密合作，设计和实现自动驾驶大规模强化学习训练框架；- 跟踪强化学习领域最新进展，并将先进技术应用于实际产品中，实现AI技术的商业化交付。岗位要求：- 计算机科学、人工智能、自动化等相关专业硕士及以上学历；- 熟悉强化学习基本算法（如DQN、PPO、SAC等），并具备相关项目经验；- 熟练掌握Python、C++、shell 等编程语言- 熟悉常用深度学习框架PyTorch、熟悉PL、transfomer训练框架- 熟悉hugging face等开源大模型社区- 具备良好的数学基础，熟悉概率论、统计学、优化理论等；- 具备良好的沟通能力和团队合作精神，热爱技术，乐于挑战。加分项：- 有自动驾驶相关项目经验，熟悉自动驾驶决策规划算法；- 熟悉LLM/VLM RLHF、多智能体强化学习、模仿学习等前沿技术；- 在高水平期刊或会议发表过相关论文；- 具备良好的英语沟通能力。职位要求 - 投递...

Premium Full-time

XPENG 15 days ago

强化学习专家/高级专家

XPENG ( Shanghai )

强化学习专家/高级专家北京、上海、深圳、广州全职通用智能板块职位描述职位概述本岗位主要负责在自动驾驶领域，尤其是大模型场景下运用强化学习技术提升模型的泛化能力。候选人需要具备深厚的强化学习理论基础及丰富的实践经验，能够独立或带领团队攻克前沿技术难题，并推动技术成果在自动驾驶系统中的落地与应用。主要职责强化学习算法研发设计、研究和优化针对自动驾驶场景的大规模强化学习算法，提升系统的鲁棒性与泛化能力。模型落地与优化探索强化学习模型在自动驾驶中的应用场景，负责从理论到工程实践的全流程落地，实现模型高效训练与在线部署。跨团队协作与技术指导与感知、规划、控制等团队紧密合作，提供技术支持与指导，推动技术方案的融合与落地；在团队内部进行技术分享和培训。前沿技术跟踪与战略规划持续关注国际前沿研究动态，推动相关研究成果在公司产品中的应用，参与制定技术路线与战略规划。技术文档与专利申请撰写高质量技术文档，整理研发过程中的创新成果，并有机会参与专利申请和高水平论文发表。任职要求学历背景计算机、自动化、电子工程、数学或相关专业硕士及以上学历，博士优先。技术能力深入理解强化学习的理论与方法，熟悉常用算法（如 DQN、PPO、A3C、SAC 等）及其在大规模系统中的应用。熟悉大模型训练与优化技术，具备将复杂理论模型工程化落地的经验。熟悉自动驾驶系统架构，了解传感器融合、环境感知、决策规划等关键技术。领导力与沟通能力具备跨团队合作和项目管理经验，能有效协调资源，带领团队解决技术难题。优秀的逻辑思维与问题解决能力，能够在高压和快速变化的工作环境中做出准确判断与决策。创新能力对新技术充满热情，具备敏锐的技术洞察力和创新精神，有在国际顶级期刊或会议发表论文、申请专利的经历者尤佳。加分项在自动驾驶、大模型优化或迁移学习方向有深入的项目实践或研究成果；曾参与制定公司级技术标准或技术战略；拥有丰富的国际合作或交流经验。职位要求 - 投递...

Premium Full-time

XPENG 15 days ago

自动驾驶强化学习专家/高级专家

XPENG ( Shanghai )

自动驾驶强化学习专家/高级专家深圳、北京、上海全职通用智能板块职位描述本岗位主要负责在自动驾驶领域，尤其是大模型场景下运用强化学习技术提升模型的泛化能力。候选人需要具备深厚的强化学习理论基础及丰富的实践经验，能够独立或带领团队攻克前沿技术难题，并推动技术成果在自动驾驶系统中的落地与应用。【主要职责】1、强化学习算法研发：设计、研究和优化针对自动驾驶场景的大规模强化学习算法，提升系统的鲁棒性与泛化能力。2、模型落地与优化：探索强化学习模型在自动驾驶中的应用场景，负责从理论到工程实践的全流程落地，实现模型高效训练与在线部署。3、跨团队协作与技术指导：与感知、规划、控制等团队紧密合作，提供技术支持与指导，推动技术方案的融合与落地；在团队内部进行技术分享和培训。4、前沿技术跟踪与战略规划：持续关注国际前沿研究动态，推动相关研究成果在公司产品中的应用，参与制定技术路线与战略规划。5、技术文档与专利申请：撰写高质量技术文档，整理研发过程中的创新成果，并有机会参与专利申请和高水平论文发表。职位要求【任职要求】1、学历背景：计算机、自动化、电子工程、数学或相关专业硕士及以上学历，博士优先。2、技术能力：（1）深入理解强化学习的理论与方法，熟悉常用算法（如 DQN、PPO、A3C、SAC 等）及其在大规模系统中的应用。（2）熟悉大模型训练与优化技术，具备将复杂理论模型工程化落地的经验。（3）熟悉自动驾驶系统架构，了解传感器融合、环境感知、决策规划等关键技术。3、领导力与沟通能力（1）具备跨团队合作和项目管理经验，能有效协调资源，带领团队解决技术难题。（2）优秀的逻辑思维与问题解决能力，能够在高压和快速变化的工作环境中做出准确判断与决策。4、创新能力：对新技术充满热情，具备敏锐的技术洞察力和创新精神，有在国际顶级期刊或会议发表论文、申请专利的经历者尤佳。5、加分项（1）在自动驾驶、大模型优化或迁移学习方向有深入的项目实践或研究成果；（2）曾参与制定公司级技术标准或技术战略；（3）拥有丰富的国际合作或交流经验。投递...

Premium Full-time

XPENG 15 days ago

具身智能算法研究员

XPENG ( Shanghai )

具身智能算法研究员深圳、北京、上海全职智能机器人板块职位描述负责人形机器人的具身智能核心算法研发，覆盖操作、运动控制和导航三大方向。1、操作（Manipulation）：基于 VLA（Vision-Language-Action）模型研发机器人抓取、放置、工具使用等操作能力，支撑 R02 机器人在商服/工厂等场景的任务交付；2、运动控制（Locomotion）：基于强化学习研发人形机器人全身运动控制策略（WBC），在 Isaac Gym/MuJoCo 中训练并完成 Sim2Real 部署；3、导航（Navigation）：研发基于 VLA 的端到端导航算法（Nav-VLA），实现室内自主建图、避障和语义导航；4、构建从数据采集→仿真训练→真机部署→评测的完整闭环。职位要求 1、硕士及以上学历，计算机、自动化、机器人、人工智能等相关专业；2、在以下至少一个方向有深入经验：- 机器人操作/抓取（ACT、Diffusion Policy、VLA 等）；- 强化学习运动控制（PPO/SAC + Isaac Gym/MuJoCo）；- 视觉导航（VLN、SLAM、端到端导航）3、熟悉 PyTorch，具备 Sim2Real 迁移的实战经验；4、有人形机器人或足式机器人的实机开发调试经验优先。【加分项】- 在 RSS/CoRL/ICRA/IROS/IJRR/TRO 或 NeurIPS/ICLR/CVPR 发表过相关论文；- 有大规模分布式 RL

Premium Full-time

XPENG 15 days ago

VLA自动驾驶算法高级/资深工程师

XPENG ( Beijing )

VLA自动驾驶算法高级/资深工程师北京全职通用智能板块职位描述岗位简介：聚焦端到端自动驾驶 VLM/VLA 大模型研发，重点解决模型海外跨地域泛化难题，攻克海内外路况、交规、驾驶习惯、气候地貌差异导致的域偏移、鲁棒性差、长尾场景失效等核心问题，负责算法研发、迭代优化与海外量产落地。主要职责1、VLA大模型海外泛化研发：负责自动驾驶VLA/VLM端到端算法设计与迭代，针对海外多地域场景差异，优化模型环境认知、障碍物识别、行为预测与轨迹生成能力，解决跨域适配、认知偏差等核心问题。2、强化学习跨域优化落地：基于PPO、DPO、GRPO、SAC等主流强化学习算法，搭建海外场景专属训练方案，完成跨域奖励设计、分布式训练、模型调优，提升模型海外复杂场景、恶劣天气、小众交通场景的泛化能力与稳定性。3、全流程量产落地：主导算法从海外数据闭环、仿真适配、模型验证到实车测试、部署迭代的全流程工作，攻克海外样本稀疏、域迁移难、推理不稳定等工程问题，支撑业务规模化出海。职位要求 1、学历基础：计算机、人工智能、自动化、数学等相关专业硕士及以上学历，博士优先，具备扎实的深度学习与强化学习数理功底；2、大模型能力：精通VLM/VLA端到端自动驾驶模型原理与全栈开发，熟悉大模型跨域泛化、域自适应、微调蒸馏技术，有智驾大模型落地经验优先；3、强化学习能力：熟练掌握PPO、DPO、GRPO等算法，具备用强化学习解决问题的实战经验，有智驾/机器人项目量产落地经历；4、自动驾驶认知：熟悉自动驾驶感知、预测、规划、控制全链路逻辑，兼具传统模块化与端到端模型研发认知；5、工程与综合能力：熟练使用PyTorch，掌握分布式训练、模型优化、车载部署等工程能力；具备良好的逻辑攻坚、跨团队协作与项目推进能力，有技术带队经验优先。加分项1、有智驾VLA模型海外泛化、全球化适配、出海量产核心项目经验；2、深耕跨域泛化、迁移学习、稀疏场景补齐方向，有相关落地成果；3、参与过自动驾驶全球化技术路线、算法体系标准搭建；4、拥有顶会论文、核心技术专利成果。投递...

Premium Full-time

XPENG 15 days ago

机器人具身智能仿真工程师（Sim2Real 方向）（实习）

Sharpa ( Shanghai )

机器人具身智能仿真工程师（Sim2Real 方向）（实习）上海实习智能制造 / 工业互联网 / 工业自动化职位描述 1. 仿真平台开发与维护：负责基于 NVIDIA Isaac Lab (Omniverse) 及 Newton 机器人仿真平台进行二次开发，构建高精度的机器人数字孪生环境。2. 物理建模与调优：对机器人（如多肢体、灵巧手或足式机器人）进行运动学与动力学建模，解决接触力、摩擦力及执行器（Actuator）动力学的仿真精度问题。3. Sim2Real 跨域验证：针对强化学习（RL）或模仿学习（IL）策略，设计并实施 Domain Randomization（领域随机化）和 System Identification（系统辨识）方案，缩小仿真与现实的差距。4. 感知与视觉集成：在仿真中集成深度相机、触觉传感器等视觉/力觉反馈，并配合 Foundation Models (如 VLA 模型) 进行闭环仿真验证。5. 工具链优化：优化大规模并行仿真效率，打通从仿真训练到真机部署的自动化 Pipeline。职位要求

Premium Full-time CUDA Newton PyTorch

Sharpa 14 days ago

机器人具身智能仿真工程师（Sim2Real 方向）

Sharpa ( Shanghai )

机器人具身智能仿真工程师（Sim2Real 方向）上海正式智能制造 / 工业互联网 / 工业自动化职位描述 1. 仿真平台开发与维护：负责基于 NVIDIA Isaac Lab (Omniverse) 及 Newton 机器人仿真平台进行二次开发，构建高精度的机器人数字孪生环境。2. 物理建模与调优：对机器人（如多肢体、灵巧手或足式机器人）进行运动学与动力学建模，解决接触力、摩擦力及执行器（Actuator）动力学的仿真精度问题。3. Sim2Real 跨域验证：针对强化学习（RL）或模仿学习（IL）策略，设计并实施 Domain Randomization（领域随机化）和 System Identification（系统辨识）方案，缩小仿真与现实的差距。4. 感知与视觉集成：在仿真中集成深度相机、触觉传感器等视觉/力觉反馈，并配合 Foundation Models (如 VLA 模型) 进行闭环仿真验证。5. 工具链优化：优化大规模并行仿真效率，打通从仿真训练到真机部署的自动化 Pipeline。职位要求

Premium Full-time CUDA Newton PyTorch

Sharpa 14 days ago

机器人仿真软件开发工程师（实习生）

Sharpa ( Shanghai )

机器人仿真软件开发工程师（实习生）上海实习智能制造 / 工业互联网 / 工业自动化职位描述 1. 负责搭建和优化机器人仿真与强化学习平台2. 紧密配合强化学习团队，针对机械臂精细操作、灵巧手控制等复杂任务，定制化开发仿真环境，解决物理引擎报错、受力不均、动作空间各向异性等底层仿真痛点3. 负责机器人运动学/动力学建模、复杂场景构建、传感器（视觉、触觉、力觉）的仿真模拟以及高保真物理参数调优4. 针对大规模并行仿真进行性能瓶颈分析与加速职位要求 1. 专业背景：计算机、机器人学、自动化、机械电子、应用数学或相关专业硕士及以上学历2. 软件工程能力：具备扎实的计算机科学基础，精通 Python 和 C++ ，拥有优秀的架构设计能力和良好的代码风格3. 仿真与机器人学背景：熟练掌握 Isaac Sim / Isaac Lab 或 MuJoCo 至少一种主流物理引擎，对其底层架构、API 以及常见物理报错（如 PhysX 约束超限、数值爆炸）有实际解决经验；熟悉强化学习的基本原理（如

Premium Full-time C++ Sacs Python

Sharpa 14 days ago

机器人仿真软件开发工程师

Sharpa ( Shanghai )

机器人仿真软件开发工程师上海正式智能制造 / 工业互联网 / 工业自动化职位描述 1. 负责搭建和优化机器人仿真与强化学习平台2. 紧密配合强化学习团队，针对机械臂精细操作、灵巧手控制等复杂任务，定制化开发仿真环境，解决物理引擎报错、受力不均、动作空间各向异性等底层仿真痛点3. 负责机器人运动学/动力学建模、复杂场景构建、传感器（视觉、触觉、力觉）的仿真模拟以及高保真物理参数调优4. 针对大规模并行仿真进行性能瓶颈分析与加速职位要求 1. 专业背景：计算机、机器人学、自动化、机械电子、应用数学或相关专业硕士及以上学历2. 软件工程能力：具备扎实的计算机科学基础，精通 Python 和 C++ ，拥有优秀的架构设计能力和良好的代码风格3. 仿真与机器人学背景：熟练掌握 Isaac Sim / Isaac Lab 或 MuJoCo 至少一种主流物理引擎，对其底层架构、API 以及常见物理报错（如 PhysX 约束超限、数值爆炸）有实际解决经验；熟悉强化学习的基本原理（如

Premium Full-time C++ Sacs Python

Sharpa 14 days ago

VLA 自动驾驶算法资深工程师/专家

XPENG ( Guangzhou )

VLA 自动驾驶算法资深工程师/专家广州全职通用智能板块职位描述 1、负责自动驾驶VLA/VLM端到端大模型的算法研究、模型训练、迭代优化与量产落地；2、负责大模型SFT/RL阶段数据驱动迭代与模型评测能力的平台化建设，搭建自动化训练、评测、迭代闭环体系。职位要求 1、精通VLA/VLM自动驾驶多模态大模型技术栈，熟悉模型预训练、微调、蒸馏全流程，有自动驾驶/机器人落地项目经验优先；2、熟练掌握PPO、DPO、GRPO等强化学习、对齐算法，具备真实量产项目算法开发与迭代经验；3、具备端到端自动驾驶全栈能力，熟悉感知、预测、规划、决策核心算法逻辑与模型设计；4、工作认真负责、主动性强，对算法质量和量产效果有极致追求，能主动跟进闭环各类量产问题；5、扎实的数理基础与Python/C++代码能力，熟练PyTorch深度学习训练框架；6、良好的沟通表达、协同推进能力。投递...

Premium Full-time

XPENG 11 days ago

【校招实习】强化学习运控算法工程师

千寻智能（杭州）科技有限公司 ( Beijing )

【校招实习】强化学习运控算法工程师北京、杭州实习互联网 / 电子 / 网游 - 研发千寻智能2027届校招实习招聘项目职位描述 1、基于强化学习的人形机器人（轮式/轮足/双足）运动控制算法研究与实现，包括行走、操作、跑步、跳跃等动态运动技能的训练与部署。2、设计并优化Sim-to-Real迁移策略，解决仿真与真实机器人之间的动力学差异（domain gap），针对机器人本体特性提出算法与机电协同设计的改进建议。3、构建强化学习训练框架（如Isaac Gym、Mujoco + RLlib等），探索强化学习与传统控制融合、大小脑算法融合。4、参与机器人运动学、动力学模型的搭建与仿真环境构建，建立基于强化学习的运动性能评估标准，与传统控制方法性能做对比。5、跟踪前沿强化学习算法（如PPO、SAC、TD3、Dropout Q-learning等）及机器人运动控制领域最新成果，进行技术文献调研与原型实现。职位要求职位要求1、硕士及以上学历，有强化学习在实际机器人系统上的部署经验、有Sim-to-Real迁移（域随机化、系统辨识、教师-学生策略等）实际项目经验。2、深入理解强化学习基础理论，熟悉MDP建模、策略梯度、价值函数估计、探索-利用权衡等核心概念。3、熟练掌握至少一种主流强化学习框架（RLlib、Stable-Baselines3、Acme、TensorFlow Agents等），并有实际训练与调优经验。4、熟悉机器人学与传统运控（运控规划、运动学、动力学等），与仿真环境（Mujoco、PyBullet、Isaac Gym等）进行交互，设计状态空间、动作空间与奖励函数。5、熟悉ROS2框架，掌握最优化与数值计算方法，能够理解强化学习算法中的梯度估计、约束优化等问题。6、熟悉NVIDIA Isaac Sim/Isaac Gym、MuJoCo等高性能仿真训练平台，熟练使用C++、Python，熟悉Eigen、NumPy等科学计算库，具备良好的工程化代码能力。7、熟悉常用传感器（IMU、力矩/力传感器、编码器等）及其在强化学习观测空间中的建模方法，了解状态估计与滤波技术。8、保持对具身智能前沿技术的持续关注，有技术热情和技术审美，敢于创新，追求卓越。优先条件1、具有人形机器人、四足机器人或其他复杂多体系统的强化学习运动控制经验者优先。2、在相关领域顶会（CoRL、ICRA、RSS、NeurIPS等）发表过强化学习与机器人控制结合论文者优先。【校招实习需在北京，实习转正通过后可发北京/杭州应届校招 offer】投递...

Premium Full-time

千寻智能（杭州）科技有限公司 8 days ago

More Jobs

Also try:

Jobs
Ppo

Upload Your ResumeLet employers contact you directly

Ppo Jobs In China - 42 Job Positions Available

Subscribe for job alerts and resources to make your job search easier!

Also try: