• 2026FIFA世界杯中国比分网 字节会师何恺明!开源勾通扩散讲话模子Cola DLM
  • 2026FIFA世界杯中国比分网
世界杯最新消息
热点资讯
推荐资讯

2026FIFA世界杯中国比分网 字节会师何恺明!开源勾通扩散讲话模子Cola DLM

发布日期:2026-05-18 22:01 点击次数:154

2026FIFA世界杯中国比分网 字节会师何恺明!开源勾通扩散讲话模子Cola DLM

大讲话模子确实只可走"权衡下一个 token "的蹊径吗?

继何恺明之后,字节也给出了一样的陈说:NO。

何况,双方都殊途同归地盯上了归并个标的——在勾通语义空间中建模讲话。

更枢纽的是,字节此次径直开源开到底,论文、代码、模子权重、中语博客通通释出。

帮人人快速回忆一下。就在上周,何恺明团队推出首个扩散讲话模子 ELF ——

它跳过 token 层,把通盘生成经过留在勾通 embedding 空间里完成,仅用 105M 参数就跑赢一众主流扩散讲话模子,第一次讲授勾通道路在讲话生成上真有后劲。

而字节此次带来的 Cola DLM(Continuous Latent Diffusion Language Model),则进一步佐证了这一趋势。

他们一样秉承跳出闹翻 token 的握住,把生成经过交给勾通空间,结束是:

在 ~2B 参数、约 2000 EFLOPs 的严格对照实验下,Cola DLM 展现出了比自归来模子和主流闹翻 DLM 更通晓的 scaling 趋势。

然则,方正你觉得这不外是又一个"把图像扩散模子搬进讲话规模"的故事时,字节却告诉你:错了。

Cola DLM 的 motivation 从来不是 diffusion。

啊??不是为了 diffusion,结束作念了个 diffusion language model?

字节:Token ≠语义,表征才是的确的主角

事实上,的确的主角藏在这句话的后半段:

Cola DLM 的 motivation 从来不是 diffusion,而是representation(表征)。

在字节看来,的确进军的是表征,Token 这种 tokenizer 工程和历史演化的副家具,只是是表征被完毕出来的一种体式费力。他们还骁勇给出了一个暴论:

Token 是东谈主类讲话系统的上层载体,不是语义自身。

浅易看一个例子你就懂了,比如咱们用不同的话抒发归并个真谛:

我今天很雀跃。

今天我情愫很好。

今天过得挺雀跃。

token 差了一大堆,但语义如故那一个。

放在以前,主流大模子往往会把这些不同说法,当成几套不同的抒发差异去学——明明背后是归并个语义,模子偏专爱在 token 这个上层挨个对皆。

是以字节的判断是,要是模子里面存在一种更通晓、更详尽的"语义现象",那这些本色调换、只是说法不同的句子,其实没必要被差异驰念,而是不错在里面照猜度左近的暗示。因此本色上而言:

Cola DLM 的 diffusion 不是在规复 token,而是在 transport 一个 latent prior。

如何" transport 一个 latent prior "?字节秉承径直把语义和完毕分层。

具体措施论指路论文 3.1.1,这里咱们浅易翻译过来等于:

Cola DLM 的生成模子,本色上唯有两部分。一个 latent prior,隆新生成"潜在语义"; 一个 decoder,隆重把这些语义翻译成具体笔墨。 看上去就像是把"生成一句话"拆成了两件相对疏淡的事。

而且枢纽在于,通盘 diffusion/flow matching 经过,其实都发生在 latent 空间里,而不是 token 空间里。

等于说,Cola DLM 干的不是把一堆脏 token 迟缓去噪成干净 token,而是先在勾通语义空间里,把一团巧合语义迟缓组织成出奇念念的潜在抒发,终末再融合翻译成笔墨。

是以在它的生成旅途里,其实根柢莫得 token 的渐渐生成经过,token 只在终末一步才出现,前边学的都是"语义如何造成"。

这亦然 Cola DLM 和好多扩散讲话模子最大的不同。

好多 DLM,本色上如故围绕 token 在作念"修修补补",比如规复被 mask 的 token、渐渐还原闹翻文本。但 Cola DLM 径直把 diffusion 从"笔墨层"搬到了"语义层",diffusion 不再隆重"生成 token ",而是隆重"组织语义"。在字节看来:

这不是包装上的各别,而是改革了 diffusion 在模子里到底干什么。

Cola DLM 背后枢纽细节

措施论咱们知谈了,那 Cola DLM 的确"和传统勾通 DLM 拉开差距"的所在到底在哪?

谜底,就藏在几个很工程化但很枢纽的遐想秉承里。

枢纽 1:latent 不是浅易的 embedding 替代品

最初是 latent 是如何来的。好多东谈主一听"勾通讲话模子",第一响应是——不等于在 word embedding 上作念扩散嘛。

但 Cola DLM 偏巧没这样作念,开运体育世界杯中国官网首页它专门搭了一套 Text VAE:

Encoder:把闹翻文本压缩成勾通 latent(绝顶于索要"语义指纹");

波音(bbin)体育官方网站

Decoder:把 latent 再还原回环本。

死别在哪?token embedding 如故和 token 逐一绑定的,每个 token 一个向量,本色上如故 token 序列。

而 Cola DLM 要的 latent,是一个不错勾通变化、可被概率建模的巧合变量。

这样一来,模子处理的对象就不再是"下一个 token ",而是"整段文本对应的语义现象"。

枢纽 2:prior 不是粗鄙的 diffusion

Cola DLM 用的不是人人熟习的"加噪→去噪"那种 diffusion,而是一个叫 block-causal DiT+Flow Matching 的组合。

组合看不懂没关系,知谈这个组合作念的事就行了:

从一个浅易散布(比如高斯)开赴;

在勾通技艺里学习一个 vector field(向量场);

把这个散布"运输"成的确数据对应的 latent 散布。

说白了等于,不靠反复去噪,而是径直学一条"最优旅途",把噪声平滑地引向出奇念念的语义。

更妙的是,它在这个语义旅途上还引入了 block 结构——

块内并行惩处局部语义的快速组织,块间按因果法例保证举座逻辑不乱。

举座绝顶于在语义层从新搭了一套生成框架,"局部快、举座顺",两样都没丢。

枢纽 3:测验时变装单干明确

勾通扩散讲话模子有一个常见问题:

语义暗示 latent 很容易被 diffusion 带偏,终末退化成一个"穿了马甲的 token ",即名义是勾通向量,但骨子里如故在记词,根柢没造成的确的语义详尽。

是以 Cola DLM 的作念法是——把两个任务透彻分开。

Encoder/Decoder:只管"如何把笔墨变谚语义暗示,再变回来";

Prior(DiT+FM):只管"如何从噪声生谚语义暗示"。

而且测验时,Encoder 在 diffusion 阶段基本"冻结不动"。

为什么不让它也随着学?因为一朝让 Encoder 去适合 diffusion,它就会为了镌汰 loss 而偷懒,把语义暗示暗暗滑向"好权衡的 token 体式",终末又回到老路上。

字节想要的是一个通晓的语义空间,而不是一个被任务羞辱的中介层。是以他们反治其身,让 prior 去适合语义空间,世界杯比分而不是让语义空间奉迎 prior。

此外,他们还加了一个语义照应(BERT-style mask loss),预防 encoder 在重建时"语义垮塌"。

实考据明,莫得这个照应,latent 照实会为了降 loss 而漂走。

枢纽 4:把测验想法拆成了三块不错差异会诊的子任务

要是说前边三点更像工程上的巧念念,而这第四点等于 Cola DLM 在表面上的硬功夫。

字节把测验想法拆成了三个不错单独看、单独会诊的子任务:

重建智力:给了 latent,Decoder 能弗成把原文还原出来?

压缩智力:这个语义暗示到底压缩了几许原文信息?

拟合智力:Prior 能弗成学出 latent 的的确散布?

这样拆的平允在于,传统自归来把总共东西都糊在一个"权衡下一个词"的赔本函数里。

生生效果不好时,你根柢不知谈是何处出了问题,不知谈是交融错了、驰念不够,如故生成旅途歪了。

而 Cola DLM 把账算得纯洁嫩白,何处不行差异看目的就知谈。

这也它能跑出通晓 scaling 趋势的底层原因——

不是瞎蒙,而是每一个门径都能单独会诊、单独优化。

终末鉴于篇幅原因,这里咱们径直放上字节 Cola DLM 筹商的后果省流版(隆重内容指路博客):

归并个追问,两种谜底

而说到这里,咱们很难不把字节 Cola DLM 与何恺明团队的 ELF 放在一皆看。

很出奇念念的是,两份使命简直同期,都在挑战一个被默许了二十年的假定——

讲话模子必须成就在闹翻 token 上。

为什么这个假定开动受到质疑?

一方面,自归来大模子走到今天,"权衡下一个 token "这条路的瓶颈越来越彰着——推理慢、长程依赖弱、测验想法和的确生成质料之间存在结构性 gap。

另一方面,扩散模子在图像、视频生成上的得胜,让人人开动反念念:闹翻 token 确实是讲话智能必须依附的载体吗?如故只是历史秉承的一种民风?

这两年扩散讲话模子的探索(LLaDA、Dream-7B、MDLM 等)也曾把这个问题拉到了台面上,但大大都使命还停留在"闹翻派"——如故在 token 上作念扩散。

直到 ELF 和 Cola DLM 出现,双方简直同期给出了归并个谜底——毋庸绑在 token 上。

只不外具体解法上有所不同。

我也去对比了两项筹商之前的区别,用图片展示如下:

浅易说,ELF 像一个东谈主从新干到尾,在原长度 embedding 空间里反复接洽,到终末一步才落笔成字。

Cola DLM 则像两个单干部门,语义部先操办"要抒发什么",笔墨部再隆重"具体如何写"。

两条道路措施上自然不同,但底层温雅绝对一致——

让建模发生在最合适讲话本色的暗示空间里,不要被" token= 语义"这个默许框架截至。

本色上而言,它们其实是归并个问题的两种陈说。

而这也代表着一种趋势——是时候从新坚毅勾通扩散讲话模子了。

夙昔两年,扩散讲话模子的舞台简直一直由"闹翻派"占据。但 ELF 和 Cola DLM 这一前一后两次动手,让"勾通道路"第一次以一种严肃、可被对比、可被复现的姿态站到了台前。

更值得提神的是,Cola DLM 还顺遂指出了一件更大的事——长期以来"融合多模态"卡住的中枢辞让之一,等于文本是闹翻的,而图像、视频、音频自然偏勾通。

要是想让它们的确参加归并个" latent 天下",必须有一个把文本映射到勾通语义 latent 的接口。

而 Cola DLM 恰好上演了这样的变装。而这,大要才是字节此次动手的的确贪心——

不是在扩散讲话模子的赛谈里再添别称选手,而是为讲话模子造一座桥,把它接入勾通多模态的天下。

自然,Cola DLM 团队我方也很克制,他们在博客终末写谈:

Cola DLM 只是这条路上的一次早期尝试,但这条路自身值得持续走下去。

作家先容

终末按照成例先容一下这项筹商的作家。

通盘团队由字节逾越 Seed 团队主导,连合了来自港大、东谈主大、北大、北邮、澳国立多所高校的筹商者,障翳讲话建模、扩散模子、视频生成等多个标的。

第一签字 Hongcan Guo(郭泓灿),当今是北邮东谈主工智能学院大四本科生,从 2025 年 6 月起在字节 Seed 实习。

筹商敬爱辘集在生成模子与推理模子的数学基础和学习能源学,Cola DLM 的博客恰是出自他手。

通信作家 Yan Zeng(曾妍)则是字节 Seed 里面的"大牛级"东谈主物,她是字节爆款视频生成模子 Seedance 系列的研发隆重东谈主。有贵府表示,这位西安交大学友 2021 年以校招生身份加入字节后,仅用了五年就从算法工程师培植至 4-2 职级。

此次 Cola DLM 里好多"分层潜变量 +diffusion prior "的念念路,与视频生陈规模长期选定的 latent diffusion 道路存在彰选藏复之处。

团队里还有一位很出奇念念的"跨界选手"—— Shen Nie。他是东谈主大高瓴 AI 学院李崇轩组的代表性筹商者,同期亦然闹翻扩散讲话模子 LLaDA 的第一作家。而 LLaDA 赶巧亦然 Cola DLM 在论文里重心相比的一条闹翻扩散道路。

某种真谛上,这件事自身就挺出奇念念:一位闹翻扩散道路的代表东谈主物,也参与到了勾通 latent 道路的筹商里。某种进度上也评释,Cola DLM 此次的确想操办的,也曾不单是"扩散如何生成文本",而是更底层的:

文本智能到底应该成就在什么样的现象空间之上?

其他几位中枢作家一样来头不小。

Hengshuang Zhao 是香港大学筹画机系助理教训,曾在 MIT CSAIL、牛津 Torr Vision Group 作念博士后,长期活跃于筹画机视觉与生成建模规模。

Qiushan Guo 则来自港大 MMLab 羅平组,同期亦然字节 Seedream 图像生成模子的进军研发成员之一。

其他签字作家还有:Qinyu Zhao、Yian Zhao、Rui Zhu、Feng Wang、Tao Yang、Guoqiang Wei。

本质上,要是把整份作家名单放在一皆看,其实会发现一个相称出奇念念的自傲——

字节此次作念讲话模子,某种进度上简直是把"视频 / 视觉生成"那套中枢念念路举座带了进来:

作念 latent diffusion 的、作念视频生成的、作念图像 prior 的、作念闹翻 DLM 的,终末一皆从新念念考"文本到底该如何建模"。

这大要亦然为什么 Cola DLM 举座看上去,会和传统讲话模子道路呈现出相称不同的气质。

因为它从一开动关注的,就不单是"如何更好地生成文本",而是在尝试把讲话从新放回勾通语义空间里,变成一种能够与图像、视频、音频自然对皆的模态。

而这,也许才是 Cola DLM 最值得关注的所在:

当文本不再只是 token 序列,而成为勾通天下中的一种语义现象后,多模态智能又会长成什么样。

抱抱脸地址:https://huggingface.co/ByteDance-Seed/Cola-DLM

GitHub 地址:https://github.com/ByteDance-Seed/Cola-DLM

论文:https://arxiv.org/abs/2605.06548

博客:https://hongcanguo.github.io/posts/2026-cola-dlm-zh.html

一键三连「点赞」「转发」「小心心」

接待在计划区留住你的想法!

—  完  —

中国 AIGC 产业峰会全威望发布!� �搜检议程

从底层架构到爆款诳骗,从软件到硬件,从创作到投资 ... 这一次,咱们但愿聚皆AI 赛谈的实战派,聊透 AI 到底如何落地、如何赢利、如何改革使命。

5 月 20 日,北京 · 金茂万丽旅社,@总共东谈主,立时 AI 起来!� �  

一键关注 � � 点亮星标

科技前沿施展逐日见2026FIFA世界杯中国比分网

------

QQ咨询

QQ: