08版 - 本版责编：程红

2026年2月8日 · 张伟 · 来源：tutorial资讯

Pre-allocate everything

对于此事件，RLHF （基于人类反馈的强化学习）领域最知名的研究者之一，《RLHF》一书的作者 Nathan Lambert 指出，这件事没有人们想象的那么严重，但也没有那么简单。

Турист с т ，推荐阅读WPS官方版本下载获取更多信息

"DJ Got Us Fallin' In Love" by Usher ft. Pitbull (Episode 1)

把强模型的输出喂给弱模型，弱模型能快速获得类似能力——这个逻辑本身成立，Lambert 没有否认。但他指出了一个没人说清楚的问题：蒸馏的天花板到底在哪里，取决于你想要的是什么类型的能力。

A02社论