具身智能数据算法工程师
收藏职位
1年以上
硕士
25 - 35岁
上海市、广州市
行业领先
集团化企业
大单
最新需求开放
招聘企业
职位描述

岗位职责



1、负责物理AI基础大模型训练数据的全链路建设,覆盖采集 → 清洗 → 自动标注 → 配方 → 合成增强 → 闭环反哺的完整流程,支撑统一架构下多任务(理解、生成、策略、动力学预测)的训练需求



2、跨域数据融合:处理自动驾驶、Egocentric、互联网视频、机器人轨迹、LLM 语料等多源异构数据的对齐、配比与质量控制,设计可量化的数据配方(data recipe)



3、Auto-labeling 体系建设:基于 VLM / LLM 构建大规模自动化标注 pipeline,覆盖语义 caption、空间结构、物体属性、动作 CoT、因果推理标注等任务



4、合成数据生成(SDG):基于物理仿真和生成式模型构建合成数据集(PhysSim、RobotSim 等方向),扩展长尾场景与多 embodiment 覆盖



5、质量评估与数据-模型闭环:构建可量化、可闭环的数据准入标准(忠实性、完整性、正确性等),基于下游模型表现反向挖掘失败模式、定位数据缺陷、闭环补充新数据



6、数据基础设施:参与大规模多模态数据 pipeline 的设计与优化,包括 embedding 存储与语义检索、可视化与调试工具、多分辨率/多帧率数据加载器、token packing 等



任职要求



1、计算机、人工智能、机器人或相关专业,硕士及以上学历



2、精通 Python,熟悉 PyTorch,有大规模分布式数据处理经验(Spark / Ray / 自研 pipeline 均可)



3、熟练掌握 VLM / LLM / Open-Vocabulary 检测等模型的实际应用,能用大模型驱动大规模自动化标注



4、熟悉主流具身数据集(Open X-Embodiment、AgiBot World、RoboMIND、Ego4D、Ego-Exo4D 等)的结构、格式与适配方法



5、对 3D 视觉、6D 位姿、场景图、轨迹数据等具身相关的数据形态有理解,对时序对齐、传感器漂移、标注噪声敏感



6、具备处理 PB 级数据的工程经验,理解数据吞吐、IO 瓶颈、对象存储(MinIO / S3 等)

热招职位/高薪职位
相关企业
热门招聘区域
热招行业
联系我们
联系我们