2026FIFA世界杯中国比分网字节会师何恺明！开源勾通扩散讲话模子Cola DLM

大讲话模子确实只可走"权衡下一个 token "的蹊径吗？

继何恺明之后，字节也给出了一样的陈说：NO。

何况，双方都殊途同归地盯上了归并个标的——在勾通语义空间中建模讲话。

更枢纽的是，字节此次径直开源开到底，论文、代码、模子权重、中语博客通通释出。

帮人人快速回忆一下。就在上周，何恺明团队推出首个扩散讲话模子 ELF ——

它跳过 token 层，把通盘生成经过留在勾通 embedding 空间里完成，仅用 105M 参数就跑赢一众主流扩散讲话模子，第一次讲授勾通道路在讲话生成上真有后劲。

而字节此次带来的 Cola DLM（Continuous Latent Diffusion Language Model），则进一步佐证了这一趋势。

他们一样秉承跳出闹翻 token 的握住，把生成经过交给勾通空间，结束是：

在 ~2B 参数、约 2000 EFLOPs 的严格对照实验下，Cola DLM 展现出了比自归来模子和主流闹翻 DLM 更通晓的 scaling 趋势。

然则，方正你觉得这不外是又一个"把图像扩散模子搬进讲话规模"的故事时，字节却告诉你：错了。

Cola DLM 的 motivation 从来不是 diffusion。

啊？？不是为了 diffusion，结束作念了个 diffusion language model？

字节：Token ≠语义，表征才是的确的主角

事实上，的确的主角藏在这句话的后半段：

Cola DLM 的 motivation 从来不是 diffusion，而是representation（表征）。

在字节看来，的确进军的是表征，Token 这种 tokenizer 工程和历史演化的副家具，只是是表征被完毕出来的一种体式费力。他们还骁勇给出了一个暴论：

Token 是东谈主类讲话系统的上层载体，不是语义自身。

浅易看一个例子你就懂了，比如咱们用不同的话抒发归并个真谛：

我今天很雀跃。

今天我情愫很好。

今天过得挺雀跃。

token 差了一大堆，但语义如故那一个。

放在以前，主流大模子往往会把这些不同说法，当成几套不同的抒发差异去学——明明背后是归并个语义，模子偏专爱在 token 这个上层挨个对皆。

是以字节的判断是，要是模子里面存在一种更通晓、更详尽的"语义现象"，那这些本色调换、只是说法不同的句子，其实没必要被差异驰念，而是不错在里面照猜度左近的暗示。因此本色上而言：

Cola DLM 的 diffusion 不是在规复 token，而是在 transport 一个 latent prior。

如何" transport 一个 latent prior "？字节秉承径直把语义和完毕分层。

具体措施论指路论文 3.1.1，这里咱们浅易翻译过来等于：

Cola DLM 的生成模子，本色上唯有两部分。一个 latent prior，隆新生成"潜在语义"；一个 decoder，隆重把这些语义翻译成具体笔墨。看上去就像是把"生成一句话"拆成了两件相对疏淡的事。

而且枢纽在于，通盘 diffusion/flow matching 经过，其实都发生在 latent 空间里，而不是 token 空间里。

等于说，Cola DLM 干的不是把一堆脏 token 迟缓去噪成干净 token，而是先在勾通语义空间里，把一团巧合语义迟缓组织成出奇念念的潜在抒发，终末再融合翻译成笔墨。

是以在它的生成旅途里，其实根柢莫得 token 的渐渐生成经过，token 只在终末一步才出现，前边学的都是"语义如何造成"。

这亦然 Cola DLM 和好多扩散讲话模子最大的不同。

好多 DLM，本色上如故围绕 token 在作念"修修补补"，比如规复被 mask 的 token、渐渐还原闹翻文本。但 Cola DLM 径直把 diffusion 从"笔墨层"搬到了"语义层"，diffusion 不再隆重"生成 token "，而是隆重"组织语义"。在字节看来：

这不是包装上的各别，而是改革了 diffusion 在模子里到底干什么。

Cola DLM 背后枢纽细节

措施论咱们知谈了，那 Cola DLM 的确"和传统勾通 DLM 拉开差距"的所在到底在哪？

谜底，就藏在几个很工程化但很枢纽的遐想秉承里。

枢纽 1：latent 不是浅易的 embedding 替代品

最初是 latent 是如何来的。好多东谈主一听"勾通讲话模子"，第一响应是——不等于在 word embedding 上作念扩散嘛。

但 Cola DLM 偏巧没这样作念，开运体育世界杯中国官网首页它专门搭了一套 Text VAE：

Encoder：把闹翻文本压缩成勾通 latent（绝顶于索要"语义指纹"）；

波音(bbin)体育官方网站

Decoder：把 latent 再还原回环本。

死别在哪？token embedding 如故和 token 逐一绑定的，每个 token 一个向量，本色上如故 token 序列。

而 Cola DLM 要的 latent，是一个不错勾通变化、可被概率建模的巧合变量。

这样一来，模子处理的对象就不再是"下一个 token "，而是"整段文本对应的语义现象"。

枢纽 2：prior 不是粗鄙的 diffusion

Cola DLM 用的不是人人熟习的"加噪→去噪"那种 diffusion，而是一个叫 block-causal DiT+Flow Matching 的组合。

组合看不懂没关系，知谈这个组合作念的事就行了：

从一个浅易散布（比如高斯）开赴；

在勾通技艺里学习一个 vector field（向量场）；

把这个散布"运输"成的确数据对应的 latent 散布。

说白了等于，不靠反复去噪，而是径直学一条"最优旅途"，把噪声平滑地引向出奇念念的语义。

更妙的是，它在这个语义旅途上还引入了 block 结构——

块内并行惩处局部语义的快速组织，块间按因果法例保证举座逻辑不乱。

举座绝顶于在语义层从新搭了一套生成框架，"局部快、举座顺"，两样都没丢。

枢纽 3：测验时变装单干明确

勾通扩散讲话模子有一个常见问题：

语义暗示 latent 很容易被 diffusion 带偏，终末退化成一个"穿了马甲的 token "，即名义是勾通向量，但骨子里如故在记词，根柢没造成的确的语义详尽。

是以 Cola DLM 的作念法是——把两个任务透彻分开。

Encoder/Decoder：只管"如何把笔墨变谚语义暗示，再变回来"；

Prior（DiT+FM）：只管"如何从噪声生谚语义暗示"。

而且测验时，Encoder 在 diffusion 阶段基本"冻结不动"。

为什么不让它也随着学？因为一朝让 Encoder 去适合 diffusion，它就会为了镌汰 loss 而偷懒，把语义暗示暗暗滑向"好权衡的 token 体式"，终末又回到老路上。

字节想要的是一个通晓的语义空间，而不是一个被任务羞辱的中介层。是以他们反治其身，让 prior 去适合语义空间，世界杯比分而不是让语义空间奉迎 prior。

此外，他们还加了一个语义照应（BERT-style mask loss），预防 encoder 在重建时"语义垮塌"。

实考据明，莫得这个照应，latent 照实会为了降 loss 而漂走。

枢纽 4：把测验想法拆成了三块不错差异会诊的子任务

要是说前边三点更像工程上的巧念念，而这第四点等于 Cola DLM 在表面上的硬功夫。

字节把测验想法拆成了三个不错单独看、单独会诊的子任务：

重建智力：给了 latent，Decoder 能弗成把原文还原出来？

压缩智力：这个语义暗示到底压缩了几许原文信息？

拟合智力：Prior 能弗成学出 latent 的的确散布？

这样拆的平允在于，传统自归来把总共东西都糊在一个"权衡下一个词"的赔本函数里。

生生效果不好时，你根柢不知谈是何处出了问题，不知谈是交融错了、驰念不够，如故生成旅途歪了。

而 Cola DLM 把账算得纯洁嫩白，何处不行差异看目的就知谈。

这也它能跑出通晓 scaling 趋势的底层原因——

不是瞎蒙，而是每一个门径都能单独会诊、单独优化。

终末鉴于篇幅原因，这里咱们径直放上字节 Cola DLM 筹商的后果省流版（隆重内容指路博客）：

归并个追问，两种谜底

而说到这里，咱们很难不把字节 Cola DLM 与何恺明团队的 ELF 放在一皆看。

很出奇念念的是，两份使命简直同期，都在挑战一个被默许了二十年的假定——

讲话模子必须成就在闹翻 token 上。

为什么这个假定开动受到质疑？

一方面，自归来大模子走到今天，"权衡下一个 token "这条路的瓶颈越来越彰着——推理慢、长程依赖弱、测验想法和的确生成质料之间存在结构性 gap。

另一方面，扩散模子在图像、视频生成上的得胜，让人人开动反念念：闹翻 token 确实是讲话智能必须依附的载体吗？如故只是历史秉承的一种民风？

这两年扩散讲话模子的探索（LLaDA、Dream-7B、MDLM 等）也曾把这个问题拉到了台面上，但大大都使命还停留在"闹翻派"——如故在 token 上作念扩散。

直到 ELF 和 Cola DLM 出现，双方简直同期给出了归并个谜底——毋庸绑在 token 上。

只不外具体解法上有所不同。

我也去对比了两项筹商之前的区别，用图片展示如下：

浅易说，ELF 像一个东谈主从新干到尾，在原长度 embedding 空间里反复接洽，到终末一步才落笔成字。

Cola DLM 则像两个单干部门，语义部先操办"要抒发什么"，笔墨部再隆重"具体如何写"。

两条道路措施上自然不同，但底层温雅绝对一致——

让建模发生在最合适讲话本色的暗示空间里，不要被" token= 语义"这个默许框架截至。

本色上而言，它们其实是归并个问题的两种陈说。

而这也代表着一种趋势——是时候从新坚毅勾通扩散讲话模子了。

夙昔两年，扩散讲话模子的舞台简直一直由"闹翻派"占据。但 ELF 和 Cola DLM 这一前一后两次动手，让"勾通道路"第一次以一种严肃、可被对比、可被复现的姿态站到了台前。

更值得提神的是，Cola DLM 还顺遂指出了一件更大的事——长期以来"融合多模态"卡住的中枢辞让之一，等于文本是闹翻的，而图像、视频、音频自然偏勾通。

要是想让它们的确参加归并个" latent 天下"，必须有一个把文本映射到勾通语义 latent 的接口。

而 Cola DLM 恰好上演了这样的变装。而这，大要才是字节此次动手的的确贪心——

不是在扩散讲话模子的赛谈里再添别称选手，而是为讲话模子造一座桥，把它接入勾通多模态的天下。

自然，Cola DLM 团队我方也很克制，他们在博客终末写谈：

Cola DLM 只是这条路上的一次早期尝试，但这条路自身值得持续走下去。

作家先容

终末按照成例先容一下这项筹商的作家。

通盘团队由字节逾越 Seed 团队主导，连合了来自港大、东谈主大、北大、北邮、澳国立多所高校的筹商者，障翳讲话建模、扩散模子、视频生成等多个标的。

第一签字 Hongcan Guo（郭泓灿），当今是北邮东谈主工智能学院大四本科生，从 2025 年 6 月起在字节 Seed 实习。

筹商敬爱辘集在生成模子与推理模子的数学基础和学习能源学，Cola DLM 的博客恰是出自他手。

通信作家 Yan Zeng（曾妍）则是字节 Seed 里面的"大牛级"东谈主物，她是字节爆款视频生成模子 Seedance 系列的研发隆重东谈主。有贵府表示，这位西安交大学友 2021 年以校招生身份加入字节后，仅用了五年就从算法工程师培植至 4-2 职级。

此次 Cola DLM 里好多"分层潜变量 +diffusion prior "的念念路，与视频生陈规模长期选定的 latent diffusion 道路存在彰选藏复之处。

团队里还有一位很出奇念念的"跨界选手"—— Shen Nie。他是东谈主大高瓴 AI 学院李崇轩组的代表性筹商者，同期亦然闹翻扩散讲话模子 LLaDA 的第一作家。而 LLaDA 赶巧亦然 Cola DLM 在论文里重心相比的一条闹翻扩散道路。

某种真谛上，这件事自身就挺出奇念念：一位闹翻扩散道路的代表东谈主物，也参与到了勾通 latent 道路的筹商里。某种进度上也评释，Cola DLM 此次的确想操办的，也曾不单是"扩散如何生成文本"，而是更底层的：

文本智能到底应该成就在什么样的现象空间之上？

其他几位中枢作家一样来头不小。

Hengshuang Zhao 是香港大学筹画机系助理教训，曾在 MIT CSAIL、牛津 Torr Vision Group 作念博士后，长期活跃于筹画机视觉与生成建模规模。

Qiushan Guo 则来自港大 MMLab 羅平组，同期亦然字节 Seedream 图像生成模子的进军研发成员之一。

其他签字作家还有：Qinyu Zhao、Yian Zhao、Rui Zhu、Feng Wang、Tao Yang、Guoqiang Wei。

本质上，要是把整份作家名单放在一皆看，其实会发现一个相称出奇念念的自傲——

字节此次作念讲话模子，某种进度上简直是把"视频 / 视觉生成"那套中枢念念路举座带了进来：

作念 latent diffusion 的、作念视频生成的、作念图像 prior 的、作念闹翻 DLM 的，终末一皆从新念念考"文本到底该如何建模"。

这大要亦然为什么 Cola DLM 举座看上去，会和传统讲话模子道路呈现出相称不同的气质。

因为它从一开动关注的，就不单是"如何更好地生成文本"，而是在尝试把讲话从新放回勾通语义空间里，变成一种能够与图像、视频、音频自然对皆的模态。

而这，也许才是 Cola DLM 最值得关注的所在：

当文本不再只是 token 序列，而成为勾通天下中的一种语义现象后，多模态智能又会长成什么样。

抱抱脸地址：https://huggingface.co/ByteDance-Seed/Cola-DLM

GitHub 地址：https://github.com/ByteDance-Seed/Cola-DLM

论文：https://arxiv.org/abs/2605.06548

博客：https://hongcanguo.github.io/posts/2026-cola-dlm-zh.html

一键三连「点赞」「转发」「小心心」

接待在计划区留住你的想法！

— 完 —

中国 AIGC 产业峰会全威望发布！� �搜检议程

从底层架构到爆款诳骗，从软件到硬件，从创作到投资 ... 这一次，咱们但愿聚皆AI 赛谈的实战派，聊透 AI 到底如何落地、如何赢利、如何改革使命。

5 月 20 日，北京 · 金茂万丽旅社，@总共东谈主，立时 AI 起来！� �

一键关注 � � 点亮星标

科技前沿施展逐日见2026FIFA世界杯中国比分网

2026FIFA世界杯中国比分网字节会师何恺明！开源勾通扩散讲话模子Cola DLM

QQ咨询

QQ：

2026FIFA世界杯中国比分网 字节会师何恺明！开源勾通扩散讲话模子Cola DLM

QQ咨询

QQ：

2026FIFA世界杯中国比分网字节会师何恺明！开源勾通扩散讲话模子Cola DLM