清华专家解读：机器人写论文，前沿VLA架构咋用

频道：行业资讯日期：2026-04-19 16:16:30 浏览：2

今天的嘉宾乃是，清华大学交叉信息研究院的助理教授，同时还是星动纪元的创始人陈建宇，他所涉猎的研究方向以及创业方向全都是人形机器人。

大语言模型掀起浪潮并爆发之后，学界与工业界察觉到了机器人从专用朝着通用转变的可能迹象，紧接着机器人革命便随之降临。在此过程中，对于本轮革命而言至关重要的一点是，针对机器人底层架构，也就是机器人的“大脑”展开探索。

不过通用机器人仍处在科学研究的阶段，处于产业发展的早期时期；在这一集节目当中，陈老师会带领大家，以概览的方式去阅读机器人基座模型以及当下最为前沿的架构VLA架构（也就是Vision-Language-Action Model，视觉语言动作模型）的经典论文。

心里期盼着，我们所做的节目，能够从直觉上，帮到更多的人，朝着科学前沿的方向靠近，去体会技术所蕴含的那种美妙感觉，而且可以凭直觉就察觉到目前技术所呈现出的那个转折点。

还是那句话：期待2025，我们和AI共同进步！

既然是由于因为缘故，陈老师确实分享了数目众多的动图以及视频，本集伴随着视频一同利用的效果更佳哟！能够前往：包含投屏功能的视频版本处。嘿嘿！预先祝愿你学得心情愉悦！学得顺畅如意呀！

播客节目是我们制作的，在腾讯新闻那儿最先发布，各位能够去予以关注哟，如此一来就能在第一时间得到节目相关信息以及更多的新闻界资讯啦：）

02:30 陈建宇的研究和创业方向

04:11 讲解开始前，先提问几个小问题

当下，数量最大的变量，是从专用的模型方向，朝着转变为通用性模型，也就是robot foundation model的这种可能性，时间是17:36。

大模型浪潮爆发之后，机器人领域历经了两个阶段，其一为利用基础模型开展机器人研究，也就是leveraging foundation models in robotics，其二是为机器人预训练基础模型，即pretraining foundation models for robotics。

第一阶段，是要借助基础模型来开展机器人研究，也就是leveraging foundation models in robotics。

21时59分，机器人传统的三个板块，即Planning加上Perception再加上Actuation（也就是规划加上感知再加上执行），第一步，要使用LLM（也就是Large Language Model，大语言模型）来替换Planning。

23时54分，一篇具身智能开创性论文，名为《Do As I Can, Not As I Say: Grounding Language in Robotic Affordances》，是由Google Robotics团队提出的。

中，文，名，为，我，能，做，到，而，不，是，我，说，到，将，语，言，与，机，器，人，的，可，供，性，相，结，合。

这是第二步，要使用视觉语言模型也就是VLM，替代掉Perception ，27:03。

论文《Inner Monologue: Embodied Reasoning through Planning with Language Models》，来自二十二点五十二分的谷歌，再往前追溯是二十七点，也就是下午的五点五十二分。

（中文名：内心独白：通过语言模型规划进行具身推理）

29时51分，有一个出自清华大学以及上海姚期智研究院名为《DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment》的东西被提出来了。

中文名是DoReMi，它借助于依据检测以及恢复规划与执行出现的不一致情况，从而实现语言模型的落地。

用具体针对代码相关任务所构建的大型语言模型Code LM去替换Actuation，以此来将Actuation更深入地推进至自动化，这是第三步，时间是32:47 ，有什么问题吗？

于32比24这种比例下，由李飞飞团队所提出的，名为《VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models》的这个东西。

中文名是VoxPoser，它是用于机器人操作的可组合3D价值地图，借助语言模型来达成目的，呐~

第二步：给机器人预先训练基础模型，（该项为pretraining foundation models for robotics）。

时长为三十八分三十六秒的视觉语言动作模型——也就是VLA端到端模型，有着这样的表述：人是具备很高智能程度的VLA Agent。

39:53 关于VLA的经典论文及分类：

40比17，阿罗哈论文，名为《Learning Fine - Grained Bimanual Manipulation with Low - Cost Hardware》。

（中文名：学习用低成本硬件进行精细双手操作）

四十七比三十六，Mobile Aloha的论文，名为《Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation》。

名为移动ALOHA，其用途是借助低成本方式，进行全身远程操作，以此来学习双手在移动状态下的操作。

一份名为《A Generalist Agent》的论文讲出了一个称作Gato的通用型人工智能代理，其比例为50比15。

（中文名：通用型代理）

52比45，关于RT - 1相关的论文，名为《RT - 1: Robotics Transformer for Real - World Control at Scale》。

机器人基座模型VLA架构_人形机器人_智能机器人科技论文写作

将“RT-1”称为“机器人Transformer用于大规模现实世界控制当中的那个中文名” ，且这“中文名采用的是RT-1”。

时长为五十九分零二秒的关于《Octo: An Open-Source Generalist Robot Policy》的Octo论文。

（中文名：Octo：一个开源的通用机器人策略）

01:02:20，CrossFormer这篇论文，名为《Scaling Cross - Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation》。

中文名字是，扩展跨开身学习，操控、导航、运动以及飞行的统一策略。

01:06:58，字节跳动AI Lab有着两项工作，一项是GR-1，另一项是GR-2。

为视觉机器人实施操控而将大规模视频生成预训练予以释放推出的作品，名为《Unleashing Large-Scale Video Generative Pre-Training For Visual Robot Manipulation》。

一个带有网络规模知识、用于机器人操作的生成视频-语言-动作模型，名为《A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation》。

01:15:02，Palm-E论文，名为《PaLM-E: An Embodied Multimodal LanguageModel》。

（中文名：PaLM-E：具身多模态语言模型）

目前那会儿，VLA，最具知名度的开创性工作，是Google所推出的RT - 2论文，名为《RT - 2：Vision - Language - Action Models Transfer Web Knowledge to Robotic Control》。

（中文名：RT - 2，视觉 - 语言 - 动作模型，把网络知识转移至机器人控制里）

01:26:05，RT - X论文，名为《Open X - Embodiment: Robotic Learning Datasets and RT - X Models》。

（中文名：开放X具身：机器人学习数据集与RT-X模型）

截至01:31:16 的那一对象，名为《OpenVLA: An Open-Source Vision-Language-Action Model》，它等价于开源版本的RT-2。

（中文名：OpenVLA：一个开源的视觉-语言-动作模型）

01:32:56，陈建宇课题组，《HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers》。不能丢。不能丢。不能丢？

中文名是，HiRT，而HiRT指的是，利用分层机器人Transformer增强机器人控制。

在01:38:40这个时刻，存在这样一种情况，名为Figure AI Helix的事物，它没有发表论文，然而它却是今年Figure的最新架构。

01:39:28这款Pi0论文，名为《π₀: A Vision-Language-Action Flow Model for General Robot Control》。

中文名是π₀，它是一个用于通用机器人控制的，视觉、语言以及动作的流模型。

01:41:36，英伟达，近期推出的，GROOT N1模型，《GR00T N1: An Open Foundation Model for Generalist Humanoid Robots》。

（中文名：GR00T N1：通用人形机器人的开放基础模型）

01:42:32，《通过动作扩散来进行视觉运动策略学习的扩散策略：Diffusion Policy》。

（中文名：扩散策略：通过动作扩散进行视觉运动策略学习）

《RDT - 1B: A Diffusion Foundation Model for Bimanual Manipulation》，这是清华发布于具体时间为点对应显示为01:47:39那会儿的成果。

（中文名：RDT-1B：双手操作机器人的扩散基础模型）

零点五十一分零四秒，《Prediction with Action: Visual Policy Learning via Joint Denoising Process》（此乃通过联合去噪过程来开展视觉策略学习的动作预测）

与之相续的作品《Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations》（视频预测策略：一个具备预测视觉表征的通才机器人策略）。

两点零三分零六秒，存在两个面向未来的方向：《UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent》这部作品，也就是所谓的具身智能体的统一理解与预测模型。

借助在线强化学习，对视觉-语言-动作模型予以改进，名为《Improving Vision-Language-Action Model with Online Reinforcement Learning》。

02:09:22 最后的提问

【技术之美】系列：

逐步地，逐一细节地讲解，关于DeepSeek - R1的技术报告，以及Kimi K1.5的技术报告，还有OpenAI o1的技术报告——“最优美的算法最干净”。

依据顺序，对关于DeepSeek的具有关键意义的九篇论文，逐一展开讲解，同时介绍其所涵盖的创新要点，这堪称一场“勇敢者的游戏”。

一片一片地讲解，深邃探寻、基米、迷你最大注意力机制所产生的新鲜论著，那是在硬件方面呈现出的暴力美学。

关键词：机器人 VLA架构

上一篇：科沃斯上市一周年连获两大奖，引领家庭服务机器人行业发展

清华专家解读：机器人写论文，前沿VLA架构咋用

相关文章