• 世界杯比分 无需构造偏好对:TGO用标量反应对都视觉生成模子
  • 2026FIFA世界杯中国比分网
世界杯最新消息
热点资讯
推荐资讯

世界杯比分 无需构造偏好对:TGO用标量反应对都视觉生成模子

发布日期:2026-05-18 12:53 点击次数:53

世界杯比分 无需构造偏好对:TGO用标量反应对都视觉生成模子

生成模子的偏好对都,可能正在插足一个新的阶段。

昔时几年,大模子 post-training 最主流的行径是让模子从"成对偏好"中学习。但无论是 RLHF 仍是 DPO,都存在合并个问题:反应必须成对出现。

但在真实场景中,反应大多都是单个样本的标量分数。

为此,新加坡国立大学团队提议了一个更为凯旋的解法:Threshold-Guided Optimization ( TGO ) ,一种不依赖成对偏好数据、凯旋左右寂寥样本标量评分进行对都的新范式。

浮浅来说,便是从分数散布中测度一个阈值,高于阈值的样本被看作 pseudo-positive,低于阈值的样本被看作 pseudo-negative;进修时,模子提高前者相对 reference model 的概率,镌汰后者的概率。

同期,样分内数离阈值越远,评释监督越确定,进修权重也越大。

现在该究诘已被ICML 2026接收,它让生成模子对都不再只依赖"哪个更好",而是运转凯旋左右"这个有多好"。

DPO 的优雅,来自 pairwise data

DPO之是以能成为偏好优化里的代表行径,一个要津原因是它把本来复杂的 KL-regularized RL objective,改写成了一个可以凯旋进修的分类成见。

在这个成见里,模子不需要显式进修 reward model,也不需要像 PPO 那样作念在线 rollout,只须有离线的偏好对,就能完成 policy fitting。

它背后的数学结构也很明晰:

在 KL 正则化的对都成见下,最优计策可以写成一个 closed-form solution。但这个解里有一个 partition function,也便是归一化项,需要对扫数可能输出乞降,平时不可打算。

DPO 能绕开这个问题,是因为在合并个 prompt 下比较 preferred output 和 rejected output 时,这个 partition function 会在 reward difference 里当然对消。

皇冠体育(CrownSports)官网

也便是说,DPO 的纯粹,很猛进度上来自成对偏好数据本人。两个输出一比较,难算的项就消释了,问题也就变成了一个相对概率的分类问题。

但这个上风也反过来戒指了它的适用范围。

一朝监督信号不再是 pair,而是单个样本的 scalar score,原来靠"两两相减"对消 partition function 的成见就不再凯旋竖立。

于是实施中常见的作念法,是把标量分数转成偏好对。举例在一个 batch 内排序,把高分样本四肢 winner,低分样本四肢 loser;大致对合并 prompt 下多个候选后果两两比较,再构造 chosen/rejected pair。

这种作念法固然可以用,但它也会带来信息亏空。

一个 9.5 分样本和一个 7.5 分样本,在 pairwise 进修里可能都仅仅 winner;一个 4.9 分样本和一个 4.8 分样本,也可能被硬拆成一组 winner 和 loser。

刻下后两个样本差距很小、评分噪声又比较大时,这种东谈主为构造出来的偏好对或然可靠,以至可能放大无理监督。

关于视觉生成来说,这个问题更高出。

图像和视频的质地很少是浮浅的二元判断。图像可能审好意思可以但文本对都一般,也可能构图准确但作风不够好;视频还要计划通顺是否当然、主体是否厚实、本领是否连贯。

许多本领,一个流畅分数比一个 winner/loser 标签更接近真实反应。

三条道路,都在减弱 pairwise 拘谨

至于究诘团队新提议的 TGO,也并非孤苦出现。最近边界内好几篇责任其实都在回话合并个问题:偏好优化能不可不再强依赖成对偏好?

PMPO

率先是 Google DeepMind 最近发布的《Preference Optimization as Probabilistic Inference》一文。

它的起点是,模子并不一定需要看到严格配对的 preferred/dis-preferred samples,才调学习偏好。

只须有 preferred examples 或 dis-preferred examples,以至惟有其中一种反应,也可以进行优化。

行径上,它基于 EM-style policy improvement,把成见写成三个部分:提高 preferred samples 的 likelihood,镌汰 dis-preferred samples 的 likelihood,同期让新计策保合手接近 reference policy。

这条道路的重心,是反应结构更活泼。传统 DPO 需要一个 prompt 下的 chosen 和 rejected 配成一双,而PMPO允许正负样本不成对出现,也允许数据散布顽抗衡。

这对许多执行任务是有益思意思的,因为真实数据里频频惟有"这个后果可以"大致"这个后果不行",而不是完满的两两比较。

QRPO

论文《Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions》则贬责的是另一个所在的问题:

若是咱们手里有的不是正负标签,而是 pointwise absolute reward,能不可凯旋作念 policy fitting?

这背后仍然绕不开partition function。

QRPO的作念法是把原始 reward 转成 quantile reward。这么,在 reference policy 下,quantile reward 的散布会变成 uniform distribution,partition function 也就有了判辨体式。

于是模子可以用一个浮浅的 pointwise regression objective,凯旋拟合 KL-regularized objective 的最优计策,而不需要依赖成对比较来对消归一化项。

TGO

而本文《Threshold-Guided Optimization for Visual Generative Models》回答的亦是合并个问题,只不外和 PMPO、QRPO 处理的是交流问题的不同切面。

PMPO 暖和 unpaired positive/negative feedback,QRPO 暖和 pointwise absolute reward 的可判辨 policy fitting,而 TGO 则面向视觉生成模子,采纳了一个更轻量的 threshold 决策。

三者的共同点,是都在把偏好优化从"必须有 pair "这个前提里松开。

TGO 的中枢:用阈值类似 baseline

具体来说,TGO 的行径看似浮浅,但并非单纯拍一个阈值出来作念二分类。它背后的推导来自KL-regularized alignment objective。

这就引出一个问题:关于一个给定样本,最优计策到底应该提高它的概率,仍是镌汰它的概率?

在表面上,这取决于它的 reward 是否跳跃某个 instance-specific oracle baseline。若是 reward 高于这个 baseline,那么模子应该提高该样本相对 reference model 的概率;若是 reward 低于 baseline,就应该镌汰它的概率。

但这个 oracle baseline 和 partition function 相关,平时不可打算。

DPO 的作念法是用成对比较让它对消掉;QRPO 的作念法是通过 quantile transformation 让 partition function 变得可判辨;TGO 则采纳用一个driven global threshold来类似它。

TGO 先从 scored dataset 的分数散布中测度一个阈值。

最常见的采纳是 percentile threshold,比如中位数。之后,扫数分数高于阈值的样本被视为 pseudo-positive,低于阈值的样本被视为 pseudo-negative。

进修时,模子学习调整我方相关于 reference model 的 log-likelihood ratio:对 pseudo-positive 样本提高,对 pseudo-negative 样本镌汰。

更进一步,TGO 还引入了confidence weighting。分数离阈值越远,评释这个样本被判为正例或负例的置信度越高,2026最新赛程它对进修的孝敬也应该越大。分数接近阈值的样本则更隐隐,进修时权重更低。

这么一来,TGO 并莫得完全丢掉标量分数的幅度信息,而是把分数大小调整成了监督强度。

是以,TGO 的规定可以空洞为两层:阈值决定更新所在,距离决定更新力度。

这亦然它和普通二值化的分手。普通二值化只保留正负标签,而 TGO 的 confidence weighting 络续左右了分数离阈值的进度。

关于视觉生成这种评分噪声较大、质地散布流畅的任务,这少量很遑急。

需要珍惜的是,TGO 并不摒除对反应质地的依赖。标量分数仍然需要与成见偏好充足关系;若是打分器有偏或噪声较大,阈值产生的 pseudo-label 也会袭取这些偏差。

因此,TGO 贬责的是若何更凯旋地左右 scalar feedback,而不是替代反应建摹本人。

为什么视觉生成尤其符合 scalar feedback

话语模子里,成对偏好很当然。东谈主类比较两个回答哪个更好,许多本领如实比凯旋打分更厚实。但在视觉生成里,情况并不完全相通。

一张图好不好,频频不是一个浮浅的"胜过另一张图"就能评释。它可能在审好意思上很好,但 prompt alignment 稍弱;也可能语义准确,但构图普通;还有一些偏好更主不雅,比如作风、色彩、东谈主物姿态、配景复杂度。

这些身分叠在一齐,更符合被表罢了一个流畅分数,大致多个维度的评分。

视频生成更是如斯。视频不仅要看单帧质地,还要看通顺合感性、本领一致性、主体厚实性、镜头变化以及文本对都。

把这些信号强行压成一个 pairwise preference,频频会亏空许多细节。

真实居品里的反应也更接近 scalar 或 implicit feedback。用户可能点赞、储藏、点击、停留、打分,大致对生成后果作念二次裁剪。

这些信号并不自然成对,却是模子革新十分遑急的数据起原。若是对都行径只可处理 winner/loser,就很难充分左右这类反应。

TGO 针对的恰是这个缺口。它不条目每个 prompt 下都有多个候选后果,也不条目东谈主为构造偏好对。只须每个样本有一个分数,就可以插足进修。

这让视觉生成模子的对都,更接近真实反应的集结神气。

从图像到视频:TGO 在多种视觉生成范式上考据

论文的实验隐蔽了两类视觉生成范式:一类是diffusion-based models,另一类是masked generative models。

前者包括 Stable Diffusion v1.5、FLUX、Wan 1.3B 等常见模子,后者则包括 Meissonic 这么的 masked generative transformer。

这评释TGO 并不是只适配某一种模子结构。关于 diffusion model,它可以纠合 MSE-style objective;关于 MaskGIT 作风的破裂生成模子,它也可以基于 token likelihood 作念进修。

换句话说,TGO 更像是一种通用的 scalar-feedback alignment framework,而不是某个特定架构上的手段。

在图像生成实验中,TGO 在 Pick-a-Pic、PartiPrompts 和 HPSv2 等测试集上进行评估,并使用 HPSv2.1、PickScore、ImageReward、CLIPScore、LAION Aesthetic Score 等多个 reward model 作为评价规划。

后果泄露,比拟 SFT、CSFT、AlignProp、Diffusion-DPO、Diffusion-KTO、DSPO 等行径,TGO 在多个设立下都能获得更高的 reward-model scores。

视觉生成对都里,一个常见担忧是 reward hacking:模子可能仅仅把某一个 reward model 刷高了,但生成质地并莫得真的改善。

TGO 在多个 reward model 上都有升迁,评释它并不是单纯拟合某个打分器,而是在更粗鄙的视觉偏好维度上带来了革新。

在视频生成上,TGO-LoRA 也被用于 Wan 1.3B+VideoReward 的实验设立。后果泄露,它不仅升迁了举座 VideoReward score,也改善了多个组件规划。

这评释 threshold-guided scalar feedback 不仅仅图像生成里的一个局部行径,也有后劲膨胀到视频生成。

不是替代 DPO,而是补上另一种反应接口

但TGO 并不是要辩白 DPO。

成对偏好仍然很遑急,在许多任务里也仍然是最厚实、最直不雅的反应体式。尤其是当东谈主类很难给出系数分数,但能比较两个后果好坏时,pairwise preference 仍然有很强的实用价值。

但问题在于,pairwise preference 不应该是独一接口。

生成模子正在插足更多真实应用场景,而真实场景里的反应并不会老是以 chosen/rejected pair 的体式出现。

话语模子会有 reward model score、verifiable reward、数学考据后果、代码通过率;图像模子会有审好意思分数、图文对都分数、东谈主类评分;视频模子会有通顺质地、本领一致性和视频文本对都;多模态系统还会有点击、储藏、停留、裁剪等用户行径信号。

这些反应大多是 pointwise 的。它们不告诉模子"这个比另一个更好",而是告诉模子"这个后果本人有多好"。若是对都行径只可处理比较数据,就会错过宽阔当然存在的监督信号。

PMPO、QRPO 和 TGO 的共应允思意思,正在于把偏好优化从 pairwise supervision 膨胀到更一般的 feedback optimization。

PMPO 评释,未配对的正负反应可以被纳入概率推断式的 policy improvement;QRPO 评释,系数奖励也可以通过 quantile reward 插足可判辨的 policy fitting;TGO 则评释,在视觉生成里,一个劝诫阈值加置信度权重,就足以把 scalar score 转成灵验的对都信号。

那么为什么这件事如今值得被负责对待呢?

因为生成模子越往居品里走,反应形式就越复杂。

早期的对都究诘可以假定有干净的偏好对,但真实用户不会老是互助系统作念 A/B comparison。

更多本领,系统拿到的是一个分数、一次点击、一次储藏、一次停留,大致一次修改。这些信号看起来阑珊,却可能组成下一阶段 post-training 的主要数据起原。

关于视觉生成尤其如斯。图像和视频的质地,本来就不犀利黑即白的判断,而是审好意思、语义、结构、通顺、作风和个体偏好的综合后果。凯旋从 scalar feedback 中学习,可能比先构形成对偏好更当然,也更容易膨胀。

TGO 的价值就在这里。它莫得把问题复杂化,而是用一个很克制的神气,把标量反应接进了 KL-regularized alignment objective。

表面上,它用劝诫阈值类似不可打算的 oracle baseline;工程上,它只需要 scored samples 就能进修;实施上,它能同期隐蔽 diffusion 和 masked generative paradigms,并在图像和视频任务上带来厚实升迁。

这可能是生成模子对都接下来很遑急的一步:模子不可只会从"谁赢了"中学习,也要能从"这个后果有多好"中学习。

总的来说,昔时,偏好优化的主流接口是 pairwise comparison。这个接口充足融会,也催生了 DPO/GRPO 这么浮浅灵验的行径。

但跟着生成模子插足更复杂的应用场景,反应本人正在变得愈加种种。评分、通过率、奖励模子输出、用户行径日记、裁剪操作,这些 pointwise signals 会越来越常见。

TGO 给出的谜底很凯旋:不一定要把它们都折叠成 winner 和 loser。关于视觉生成模子,只须找到一个合理的阈值,就可以把标量分数转成更新所在;再用分数离阈值的距离,计算这个监督信号有多真的。

这并不是一个复杂的系统,也不是一个重型 RL pipeline。它更像是把真实反应里本来就存在的信息,以更凯旋的神气交给模子。

若是说 DPO 让偏好优化解脱了复杂 RL,那么 TGO、QRPO 和 PMPO 这一类责任,正在让偏好优化进一步解脱对成对比较的强依赖。

生成模子对都的下一步,可能不仅仅络续问"哪个更好"。而是要让模子真的学会相识:这个后果到底有多好。

参考文件:

[ 1 ] Preference Optimization as Probabilistic Inference, https://arxiv.org/abs/2410.04166

[ 2 ] Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions, https://arxiv.org/abs/2507.08068

[ 3 ] Threshold-Guided Optimization for Visual Generative Models, https://arxiv.org/abs/2605.04653

一键三连「点赞」「转发」「留神心」

迎接在挑剔区留住你的念念法!

—  完  —

咱们正在招聘又名眼疾手快、关注 AI 的学术裁剪实习生  � �

感意思意思的小伙伴迎接关注 � �  了解确定

� � 点亮星标 � �

科技前沿推崇逐日见世界杯比分

------

QQ咨询

QQ: