世界杯比分无需构造偏好对：TGO用标量反应对都视觉生成模子

生成模子的偏好对都，可能正在插足一个新的阶段。

昔时几年，大模子 post-training 最主流的行径是让模子从"成对偏好"中学习。但无论是 RLHF 仍是 DPO，都存在合并个问题：反应必须成对出现。

但在真实场景中，反应大多都是单个样本的标量分数。

为此，新加坡国立大学团队提议了一个更为凯旋的解法：Threshold-Guided Optimization ( TGO ) ，一种不依赖成对偏好数据、凯旋左右寂寥样本标量评分进行对都的新范式。

浮浅来说，便是从分数散布中测度一个阈值，高于阈值的样本被看作 pseudo-positive，低于阈值的样本被看作 pseudo-negative；进修时，模子提高前者相对 reference model 的概率，镌汰后者的概率。

同期，样分内数离阈值越远，评释监督越确定，进修权重也越大。

现在该究诘已被ICML 2026接收，它让生成模子对都不再只依赖"哪个更好"，而是运转凯旋左右"这个有多好"。

DPO 的优雅，来自 pairwise data

DPO之是以能成为偏好优化里的代表行径，一个要津原因是它把本来复杂的 KL-regularized RL objective，改写成了一个可以凯旋进修的分类成见。

在这个成见里，模子不需要显式进修 reward model，也不需要像 PPO 那样作念在线 rollout，只须有离线的偏好对，就能完成 policy fitting。

它背后的数学结构也很明晰：

在 KL 正则化的对都成见下，最优计策可以写成一个 closed-form solution。但这个解里有一个 partition function，也便是归一化项，需要对扫数可能输出乞降，平时不可打算。

DPO 能绕开这个问题，是因为在合并个 prompt 下比较 preferred output 和 rejected output 时，这个 partition function 会在 reward difference 里当然对消。

皇冠体育(CrownSports)官网

也便是说，DPO 的纯粹，很猛进度上来自成对偏好数据本人。两个输出一比较，难算的项就消释了，问题也就变成了一个相对概率的分类问题。

但这个上风也反过来戒指了它的适用范围。

一朝监督信号不再是 pair，而是单个样本的 scalar score，原来靠"两两相减"对消 partition function 的成见就不再凯旋竖立。

于是实施中常见的作念法，是把标量分数转成偏好对。举例在一个 batch 内排序，把高分样本四肢 winner，低分样本四肢 loser；大致对合并 prompt 下多个候选后果两两比较，再构造 chosen/rejected pair。

这种作念法固然可以用，但它也会带来信息亏空。

一个 9.5 分样本和一个 7.5 分样本，在 pairwise 进修里可能都仅仅 winner；一个 4.9 分样本和一个 4.8 分样本，也可能被硬拆成一组 winner 和 loser。

刻下后两个样本差距很小、评分噪声又比较大时，这种东谈主为构造出来的偏好对或然可靠，以至可能放大无理监督。

关于视觉生成来说，这个问题更高出。

图像和视频的质地很少是浮浅的二元判断。图像可能审好意思可以但文本对都一般，也可能构图准确但作风不够好；视频还要计划通顺是否当然、主体是否厚实、本领是否连贯。

许多本领，一个流畅分数比一个 winner/loser 标签更接近真实反应。

三条道路，都在减弱 pairwise 拘谨

至于究诘团队新提议的 TGO，也并非孤苦出现。最近边界内好几篇责任其实都在回话合并个问题：偏好优化能不可不再强依赖成对偏好？

PMPO

率先是 Google DeepMind 最近发布的《Preference Optimization as Probabilistic Inference》一文。

它的起点是，模子并不一定需要看到严格配对的 preferred/dis-preferred samples，才调学习偏好。

只须有 preferred examples 或 dis-preferred examples，以至惟有其中一种反应，也可以进行优化。

行径上，它基于 EM-style policy improvement，把成见写成三个部分：提高 preferred samples 的 likelihood，镌汰 dis-preferred samples 的 likelihood，同期让新计策保合手接近 reference policy。

这条道路的重心，是反应结构更活泼。传统 DPO 需要一个 prompt 下的 chosen 和 rejected 配成一双，而PMPO允许正负样本不成对出现，也允许数据散布顽抗衡。

这对许多执行任务是有益思意思的，因为真实数据里频频惟有"这个后果可以"大致"这个后果不行"，而不是完满的两两比较。

QRPO

论文《Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions》则贬责的是另一个所在的问题：

若是咱们手里有的不是正负标签，而是 pointwise absolute reward，能不可凯旋作念 policy fitting？

这背后仍然绕不开partition function。

QRPO的作念法是把原始 reward 转成 quantile reward。这么，在 reference policy 下，quantile reward 的散布会变成 uniform distribution，partition function 也就有了判辨体式。

于是模子可以用一个浮浅的 pointwise regression objective，凯旋拟合 KL-regularized objective 的最优计策，而不需要依赖成对比较来对消归一化项。

TGO

而本文《Threshold-Guided Optimization for Visual Generative Models》回答的亦是合并个问题，只不外和 PMPO、QRPO 处理的是交流问题的不同切面。

PMPO 暖和 unpaired positive/negative feedback，QRPO 暖和 pointwise absolute reward 的可判辨 policy fitting，而 TGO 则面向视觉生成模子，采纳了一个更轻量的 threshold 决策。

三者的共同点，是都在把偏好优化从"必须有 pair "这个前提里松开。

TGO 的中枢：用阈值类似 baseline

具体来说，TGO 的行径看似浮浅，但并非单纯拍一个阈值出来作念二分类。它背后的推导来自KL-regularized alignment objective。

这就引出一个问题：关于一个给定样本，最优计策到底应该提高它的概率，仍是镌汰它的概率？

在表面上，这取决于它的 reward 是否跳跃某个 instance-specific oracle baseline。若是 reward 高于这个 baseline，那么模子应该提高该样本相对 reference model 的概率；若是 reward 低于 baseline，就应该镌汰它的概率。

但这个 oracle baseline 和 partition function 相关，平时不可打算。

DPO 的作念法是用成对比较让它对消掉；QRPO 的作念法是通过 quantile transformation 让 partition function 变得可判辨；TGO 则采纳用一个driven global threshold来类似它。

TGO 先从 scored dataset 的分数散布中测度一个阈值。

最常见的采纳是 percentile threshold，比如中位数。之后，扫数分数高于阈值的样本被视为 pseudo-positive，低于阈值的样本被视为 pseudo-negative。

进修时，模子学习调整我方相关于 reference model 的 log-likelihood ratio：对 pseudo-positive 样本提高，对 pseudo-negative 样本镌汰。

更进一步，TGO 还引入了confidence weighting。分数离阈值越远，评释这个样本被判为正例或负例的置信度越高，2026最新赛程它对进修的孝敬也应该越大。分数接近阈值的样本则更隐隐，进修时权重更低。

这么一来，TGO 并莫得完全丢掉标量分数的幅度信息，而是把分数大小调整成了监督强度。

是以，TGO 的规定可以空洞为两层：阈值决定更新所在，距离决定更新力度。

这亦然它和普通二值化的分手。普通二值化只保留正负标签，而 TGO 的 confidence weighting 络续左右了分数离阈值的进度。

关于视觉生成这种评分噪声较大、质地散布流畅的任务，这少量很遑急。

需要珍惜的是，TGO 并不摒除对反应质地的依赖。标量分数仍然需要与成见偏好充足关系；若是打分器有偏或噪声较大，阈值产生的 pseudo-label 也会袭取这些偏差。

因此，TGO 贬责的是若何更凯旋地左右 scalar feedback，而不是替代反应建摹本人。

为什么视觉生成尤其符合 scalar feedback

话语模子里，成对偏好很当然。东谈主类比较两个回答哪个更好，许多本领如实比凯旋打分更厚实。但在视觉生成里，情况并不完全相通。

一张图好不好，频频不是一个浮浅的"胜过另一张图"就能评释。它可能在审好意思上很好，但 prompt alignment 稍弱；也可能语义准确，但构图普通；还有一些偏好更主不雅，比如作风、色彩、东谈主物姿态、配景复杂度。

这些身分叠在一齐，更符合被表罢了一个流畅分数，大致多个维度的评分。

视频生成更是如斯。视频不仅要看单帧质地，还要看通顺合感性、本领一致性、主体厚实性、镜头变化以及文本对都。

把这些信号强行压成一个 pairwise preference，频频会亏空许多细节。

真实居品里的反应也更接近 scalar 或 implicit feedback。用户可能点赞、储藏、点击、停留、打分，大致对生成后果作念二次裁剪。

这些信号并不自然成对，却是模子革新十分遑急的数据起原。若是对都行径只可处理 winner/loser，就很难充分左右这类反应。

TGO 针对的恰是这个缺口。它不条目每个 prompt 下都有多个候选后果，也不条目东谈主为构造偏好对。只须每个样本有一个分数，就可以插足进修。

这让视觉生成模子的对都，更接近真实反应的集结神气。

从图像到视频：TGO 在多种视觉生成范式上考据

论文的实验隐蔽了两类视觉生成范式：一类是diffusion-based models，另一类是masked generative models。

前者包括 Stable Diffusion v1.5、FLUX、Wan 1.3B 等常见模子，后者则包括 Meissonic 这么的 masked generative transformer。

这评释TGO 并不是只适配某一种模子结构。关于 diffusion model，它可以纠合 MSE-style objective；关于 MaskGIT 作风的破裂生成模子，它也可以基于 token likelihood 作念进修。

换句话说，TGO 更像是一种通用的 scalar-feedback alignment framework，而不是某个特定架构上的手段。

在图像生成实验中，TGO 在 Pick-a-Pic、PartiPrompts 和 HPSv2 等测试集上进行评估，并使用 HPSv2.1、PickScore、ImageReward、CLIPScore、LAION Aesthetic Score 等多个 reward model 作为评价规划。

后果泄露，比拟 SFT、CSFT、AlignProp、Diffusion-DPO、Diffusion-KTO、DSPO 等行径，TGO 在多个设立下都能获得更高的 reward-model scores。

视觉生成对都里，一个常见担忧是 reward hacking：模子可能仅仅把某一个 reward model 刷高了，但生成质地并莫得真的改善。

TGO 在多个 reward model 上都有升迁，评释它并不是单纯拟合某个打分器，而是在更粗鄙的视觉偏好维度上带来了革新。

在视频生成上，TGO-LoRA 也被用于 Wan 1.3B+VideoReward 的实验设立。后果泄露，它不仅升迁了举座 VideoReward score，也改善了多个组件规划。

这评释 threshold-guided scalar feedback 不仅仅图像生成里的一个局部行径，也有后劲膨胀到视频生成。

不是替代 DPO，而是补上另一种反应接口

但TGO 并不是要辩白 DPO。

成对偏好仍然很遑急，在许多任务里也仍然是最厚实、最直不雅的反应体式。尤其是当东谈主类很难给出系数分数，但能比较两个后果好坏时，pairwise preference 仍然有很强的实用价值。

但问题在于，pairwise preference 不应该是独一接口。

生成模子正在插足更多真实应用场景，而真实场景里的反应并不会老是以 chosen/rejected pair 的体式出现。

话语模子会有 reward model score、verifiable reward、数学考据后果、代码通过率；图像模子会有审好意思分数、图文对都分数、东谈主类评分；视频模子会有通顺质地、本领一致性和视频文本对都；多模态系统还会有点击、储藏、停留、裁剪等用户行径信号。

这些反应大多是 pointwise 的。它们不告诉模子"这个比另一个更好"，而是告诉模子"这个后果本人有多好"。若是对都行径只可处理比较数据，就会错过宽阔当然存在的监督信号。

PMPO、QRPO 和 TGO 的共应允思意思，正在于把偏好优化从 pairwise supervision 膨胀到更一般的 feedback optimization。

PMPO 评释，未配对的正负反应可以被纳入概率推断式的 policy improvement；QRPO 评释，系数奖励也可以通过 quantile reward 插足可判辨的 policy fitting；TGO 则评释，在视觉生成里，一个劝诫阈值加置信度权重，就足以把 scalar score 转成灵验的对都信号。

那么为什么这件事如今值得被负责对待呢？

因为生成模子越往居品里走，反应形式就越复杂。

早期的对都究诘可以假定有干净的偏好对，但真实用户不会老是互助系统作念 A/B comparison。

更多本领，系统拿到的是一个分数、一次点击、一次储藏、一次停留，大致一次修改。这些信号看起来阑珊，却可能组成下一阶段 post-training 的主要数据起原。

关于视觉生成尤其如斯。图像和视频的质地，本来就不犀利黑即白的判断，而是审好意思、语义、结构、通顺、作风和个体偏好的综合后果。凯旋从 scalar feedback 中学习，可能比先构形成对偏好更当然，也更容易膨胀。

TGO 的价值就在这里。它莫得把问题复杂化，而是用一个很克制的神气，把标量反应接进了 KL-regularized alignment objective。

表面上，它用劝诫阈值类似不可打算的 oracle baseline；工程上，它只需要 scored samples 就能进修；实施上，它能同期隐蔽 diffusion 和 masked generative paradigms，并在图像和视频任务上带来厚实升迁。

这可能是生成模子对都接下来很遑急的一步：模子不可只会从"谁赢了"中学习，也要能从"这个后果有多好"中学习。

总的来说，昔时，偏好优化的主流接口是 pairwise comparison。这个接口充足融会，也催生了 DPO/GRPO 这么浮浅灵验的行径。

但跟着生成模子插足更复杂的应用场景，反应本人正在变得愈加种种。评分、通过率、奖励模子输出、用户行径日记、裁剪操作，这些 pointwise signals 会越来越常见。

TGO 给出的谜底很凯旋：不一定要把它们都折叠成 winner 和 loser。关于视觉生成模子，只须找到一个合理的阈值，就可以把标量分数转成更新所在；再用分数离阈值的距离，计算这个监督信号有多真的。

这并不是一个复杂的系统，也不是一个重型 RL pipeline。它更像是把真实反应里本来就存在的信息，以更凯旋的神气交给模子。

若是说 DPO 让偏好优化解脱了复杂 RL，那么 TGO、QRPO 和 PMPO 这一类责任，正在让偏好优化进一步解脱对成对比较的强依赖。

生成模子对都的下一步，可能不仅仅络续问"哪个更好"。而是要让模子真的学会相识：这个后果到底有多好。

参考文件：

[ 1 ] Preference Optimization as Probabilistic Inference， https://arxiv.org/abs/2410.04166

[ 2 ] Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions， https://arxiv.org/abs/2507.08068

[ 3 ] Threshold-Guided Optimization for Visual Generative Models， https://arxiv.org/abs/2605.04653

一键三连「点赞」「转发」「留神心」

迎接在挑剔区留住你的念念法！

— 完 —

咱们正在招聘又名眼疾手快、关注 AI 的学术裁剪实习生 � �

感意思意思的小伙伴迎接关注 � � 了解确定

� � 点亮星标 � �

科技前沿推崇逐日见世界杯比分

世界杯比分无需构造偏好对：TGO用标量反应对都视觉生成模子

QQ咨询

QQ：

世界杯比分 无需构造偏好对：TGO用标量反应对都视觉生成模子

QQ咨询

QQ：

世界杯比分无需构造偏好对：TGO用标量反应对都视觉生成模子