AI编程新范式：何恺明MIT团队发布ELF，105M参数小模型掀翻千亿参数

5月13日，AI圈同时炸了两件大事。顶级CV学者、MIT教授何恺明带着团队发布了人生第一个语言模型ELF，瞬间引发学术圈和产业界的双重关注。与此同时，”效率革命”成为当天最热门的议题。

不走寻常路的技术路线

ELF的参数量仅105M，与当前动辄千亿参数的大模型相比堪称”袖珍”。但它不走GPT自回归的老路，全程在连续embedding空间里做扩散，最后一步才离散化回文字。这种”diffusion in embedding space”的技术路线，在学术界引发了激烈讨论。

支持者认为这是”通往AGI的第三条路”，是对传统自回归范式的根本性突破。质疑者则对其实用性存疑，认为在复杂推理任务上，小模型仍有明显短板。无论如何，ELF的发布为AI领域带来了新的技术思考。

ELF的发布，与同一天另一件大事形成了有趣呼应：大模型领域正在经历一场”效率革命”，行业风向正从”参数堆砌”转向”效率优先”。

实测数据显示，在特定任务上，经过优化的105M小模型已经能够匹敌甚至超越千亿参数模型的表现。这一现象并非个案，而是正在成为行业趋势。

小模型逆袭的背后，是三重因素的叠加：

训练数据质量提升：研究表明，高质量训练数据比参数规模更重要。通过数据清洗、课程学习等策略，小模型可以在更少的数据上学习到更有价值的知识。
推理优化技术成熟：知识蒸馏、量化压缩、推理优化等技术让小模型能力倍增。以蒸馏为例，千亿参数模型的知识可以被”蒸馏”到小模型中，使其在特定任务上达到与大模型相当的效果。
场景需求转变：边缘部署、实时响应、隐私保护等场景催生轻量化需求。在手机、IoT设备等场景中，小模型更有优势。