April_May_think

Jrryzh

2026-05-17

writing

最近对policy这边的理解有了些更新，所谓vla is dead or not，甚至 wm is dead or not，都值得时间证明。wm的魅力还是在于能够很好的、自然的学习到dynamics知识，再把dynamics知识映射到动作，还是觉得这比vlm to a更自然。

越来越对真机实验感到有意思，你可以清晰的看到不同数据在真机上的效果。好的结果令人兴奋，但差的结果应当更令人兴奋，因为差意味着梯度，或者说，不同的结果才是有梯度的好结果。

human data（from community）和 umi的实验结果（from my personal observation）也说明robotics数据又开始diverse了，这令人开心。很认同罗老师说的，现在的所谓pre-train其实是mid-train，全是真机expert数据不够diverse，信息量也不足以作为pretrain。真机数据作为mid-train的adapter也许已经够了。比如你应该在足够diverse的世界中学习到各种知识和能力，最后适应你的地球的真机躯体，再精调一下完成final mission。

未来各种各样的数据怎么用，什么是好数据什么是差数据，差数据为什么somehow对好数据影响那么严重，flow matching的机制……还有许多急需学习和可以解决的，long way to go。隐约觉得数据scaleup已经不能solve everything，甚至只能solve little things了，下一步怎么用好数据，数据背后意味着什么，很有趣。robotics需要自己的算法，不能是vlm+action head了，wm也是。