维生素c阳性是什么意思| 宝宝咳嗽挂什么科| 水乳是什么| 什么狗不如| 社论是什么| 活化部分凝血活酶时间偏高是什么意思| 小孩子发烧手脚冰凉是什么原因| 什么榴莲好吃| 非球面镜片是什么意思| 杜甫是什么派诗人| 对峙是什么意思| 胎儿缺氧是什么原因造成的| 1310是什么意思| 1月28日什么星座| 阴茎皮开裂是什么原因| 血气方刚什么意思| 明天属什么生肖| bigbang是什么意思| logo是什么| 心跳突然加快是什么原因| 孕育是什么意思| 行房时硬度不够是什么原因| 牙疼脸肿了吃什么药| 喉咙干咳嗽是什么原因| 兵不血刃的意思是什么| 突然流鼻血是什么征兆| 胃酸多吃什么药| 跛行是什么意思| 中国是什么时区| 线索细胞阳性是什么意思| 冬字五行属什么| 向内求什么意思| 不见棺材不落泪是什么生肖| 蜗牛的天敌是什么| 肝火旺盛吃什么食物好| 心脏缺血吃什么药| 霍金得的是什么病| 为什么会肚子痛| 长期吃二甲双胍有什么副作用| 脖子长疣是什么原因| 家是什么| 突然膝盖疼是什么原因| 米酒是什么酒| 滚床单什么意思| 食管反流什么症状| 不射精是什么原因| 共济失调是什么意思| 为什么会长汗疱疹| 手术前吃什么补充营养| 左耳朵发热代表什么预兆| 无穷大是什么意思| casio是什么牌子| 医院规培生是什么意思| 祛湿吃什么| 为什么招蚊子咬| 什么是免冠照片| 哀怨是什么意思| 鼻子出血是什么原因引起的| 为什么相爱的人却不能在一起| 身上长疮是什么原因引起的| 什么是题材股| 吃什么补气养血最快| 美色是什么意思| 颠鸾倒凤什么意思| 籽骨出现意味着什么| 翠色什么流| 日本人为什么长寿| 三什么道中| 买什么保险最好最划算| 什么的北京城| 焱字五行属什么| 咳嗽咳到吐是什么原因| 误人子弟什么意思| 复三上坟是什么意思| 儿童嗓子哑了什么原因| 抑郁症是什么| 为什么脚会抽筋| nuxe是什么牌子护肤品| 湿毒是什么原因引起的| 什么是凯格尔运动| 印堂发亮预兆着什么| 经常喝蜂蜜水有什么好处和坏处| 7号来的月经什么时候是排卵期| 碧玺是什么意思| 艾斯挫仑是什么药| 什么是牙冠| 护理考研考什么| 左边头疼是什么原因怎么办| 小白龙叫什么| 热毒是什么| 脑梗是什么病严重吗| 月经期间适合吃什么食物| 头皮疼是什么原因| 格力空调se是什么意思| 处女座是什么星座| 骨裂什么症状| 血红蛋白低说明什么| 歼31为什么没消息了| 菠菜是什么意思| 治疗晕病有什么好方法| 什么叫高尿酸血症| 蝙蝠侠叫什么| 5月什么星座| ocg是什么意思| 复合维生素b片主治什么病| 毛周角化症用什么药膏| 美国为什么不建高铁| 牙龈起包是什么原因| 吃什么解毒最快| 晚上七八点是什么时辰| 女人吃什么最好| 婴儿放屁臭是什么原因| 低血压不能吃什么食物| 孩子手抖是什么原因| 无后为大是什么意思| 口周读什么| 长智齿是什么原因引起的| 大象的耳朵像什么一样| 儿童手指头脱皮什么原因引起的| 7月去青海带什么衣服| 胸有成竹什么意思| saucony是什么品牌| 修复子宫内膜吃什么药| 痱子用什么药| 什么人心什么| 红眼病有什么症状| 阴囊湿疹吃什么药| 日本投降是什么时候| 为什么在| 立冬和冬至什么区别| 蛋清加蜂蜜敷脸有什么好处| 尿比重高是什么原因| 冬天什么| 吃什么提高代谢| 血清果糖胺测定是什么| 孩子胆子小用什么方法可以改变| 心直口快是什么意思| 泰迪狗长什么样子| 100年前是什么朝代| 婳是什么意思| 盆腔炎用什么药好| 生气发抖是什么原因| 1月3日是什么星座| 测智力去医院挂什么科| fu是什么| 舌苔厚白吃什么药最好| 吃什么鱼最健康| 什么地坐着| vc什么意思| 肺结核挂什么科| 棉絮是什么意思| 怕热爱出汗是什么原因| 伏吟是什么意思| 失重感是什么感觉| 祛湿是什么意思| 烧心吃什么药| 4.15是什么星座| 宫内暗区是什么意思| 天数是什么意思| 跃字五行属什么| 皮肤发黄什么原因| 985学校是什么意思| 左什么右什么| 小妾是什么意思| 胸片是什么| 文科女生学什么专业就业前景好| kick什么意思| 扎心是什么意思| 什么积木| 1905年属什么生肖| 缺钠是什么原因造成的| 12月24是什么星座| ng是什么单位| 5月2日是什么星座| 部堂大人是什么职位| 尿酸高不能吃什么| 小朋友眼袋很重是什么原因| 胆碱能性荨麻疹吃什么药| 撒贝宁是什么族| 手麻挂什么科| h皮带是什么牌子| 跟腱为什么会断裂| 吃什么通大便最快| 变性淀粉是什么| 榴莲什么时候最便宜| 寂是什么意思| 噬是什么意思| 布洛芬的副作用是什么| 梦见吃葡萄是什么意思| 呃逆是什么意思| 不伤肝的他汀类药是什么| 白细胞减少有什么症状| 陆地上最重的动物是什么| 刺身是什么鱼| 积液是什么东西| 为什么月经前乳房胀痛| 1月17号什么星座| 汤去掉三点水念什么| 70年出生属什么生肖| 耳鸣是什么原因| 肚子不舒服挂什么科| 脾虚湿盛吃什么药| 牙齿脱矿是什么原因| 脚后跟干裂起硬皮用什么药| 做梦梦到已故的亲人是什么意思| 老母鸡炖什么好吃又有营养价值| 什么时候同房容易怀孕| 乙肝表面抗体偏高是什么意思| 用盐水洗脸有什么好处和坏处| 驰骋沙场百战威是什么生肖| 缺镁吃什么食物补充最快| 喘不过气是什么原因| 文房四宝是指什么| 西葫芦炒什么好吃| 龟头炎用什么软膏最好| 什么是德行| 不负众望什么意思| 儿童哮喘挂什么科| 爱理不理是什么意思| 什么的公鸡| 鹿茸是什么| 仕女图是什么意思| 水弹是什么材料| 甘之如饴是什么意思| 甲基化是什么意思| 骨刺挂什么科| 头皮痒用什么洗头好| 北肖指什么生肖| 精神病吃什么药| 胆固醇低吃什么| 下水道井盖为什么是圆的| 04年属猴的是什么命| 枸杞子泡茶喝有什么好处| 刷牙时牙龈出血是什么原因| 2006年是什么年| 1月2日是什么星座| 河虾最爱吃什么食物| 换手率是什么意思| 眼珠子发黄是什么原因| 地皮菜是什么菜| 杨紫属什么生肖| 氯喹是什么药| 什么是益生菌| 吃什么容易拉肚子| 经常吃海带有什么好处和坏处| 这是什么字| 赛能是什么药| 五月二十四号是什么星座| 婚检都检查什么项目| 双肾实质回声增强是什么意思| 总是犯困是什么原因| 脑袋进水什么意思| 九九重阳节是什么意思| 梦见粽子是什么预兆| a型和o型生的孩子是什么血型| 什么的猫| 玉米淀粉能做什么美食| 儿童吃手指是什么原因| 吐舌头是什么意思| 25岁属什么生肖| 吹泡泡是什么意思| 什么花是蓝色的| 吃什么对头发有好处| 肌肉跳动是什么原因| 百度

LLM中的Top-K/Top-p/温度都是怎么发挥作用的?

写在前面

百度 老师和学员们纷纷表示,中科院老年人大学现在已成为广大老同志学习的重要阵地,成为老年人提高素质、增进健康、愉悦身心、陶冶情操、丰富生活、更新知识的重要平台,希望中科院老年人大学继续加强教学的组织与管理,实现中科院老年教育新发展。

许多大模型具有推理参数,用于控制输出的“随机性”。常见的几个是 Top-K、Top-p,以及温度。比如我们常用的 Dify 平台就支持 Top-p 和 温度 的设置:

鼠标放到问号上面,可以看到各自的解释:

Top-p:

  • 含义:Kernel sampling threshold. Used to determine the randomness of the results. The higher the value, the stronger the randomness. The higher the possibility of getting different answers to the same question.
  • 翻译过来就是:核采样阈值。用于决定结果的随机性。值越高,随机性越强。对于同一个问题,得到不同答案的可能性越高。

温度:

  • 含义:The probability threshold of the nucleus sampling method during the generation process. The larger the value is, the higher the randomness of generation will be. The smaller the value is, the higher the certainty of generation will be.
  • 翻译过来就是:在生成过程中,核采样方法的概率阈值。值越大,生成的随机性越高。值越小,生成的确定性越高。

看起来,他们都可以控制模型输出内容的随机性。那么它们有什么不同呢?以及作用机制又有哪些区别呢?本文将一探究竟。

前置知识:LLM 输出概率分布

LLM 通常对一系列 token 进行操作,这些 token 可以是单词、字母或子词单元。操作后得到的 token 集,称为 LLM 的词汇表。

LLM 接收一个输入的 token 序列,然后尝试预测下一个 token。它通过使用 Softmax 函数作为网络的最后一层,为所有可能的 token 生成离散概率分布来实现此目的。这是 LLM 的原始输出。

例如,如果我们的词汇量为 5,则输出可能如下所示(大多数 LLMs 的词汇量显然要大得多):

t0→0.4
t1→0.2
t2→0.2
t3→0.15
t4→0.05

由于这是一个概率分布,因此所有值的总和为 1。一旦我们有了这个概率分布,我们就可以决定如何从中采样,这就是 Top-K 和 Top-p 的作用所在。

小记:Top-K 和 Top-p 是两种不同的采样方法。

Top-K 采样

Top-K 采样的工作原理如下:

  1. 按概率的降序排列token。
  2. 选择前 K 个 token 来创建新的分布。
  3. 从这些 token 中抽取样本。

例如,假设使用上述示例中的 Top-3 策略进行采样。排名前 3 的是:

t0→0.4
t1→0.2
t2→0.2

但是,概率加起来不再等于 1 ,所以必须用前 3 个 token 的总和来进行规一化。我们将每个概率除以 0.4+0.2+0.2=0.8,得到前 3 个 token 的新概率分布:

t0→0.5
t1→0.25
t2→0.25

现在可以通过从中采样来选择一个 token。

如果设置 K=1,那么会得到所谓的贪婪策略,因为总是选择最可能的token。

Top-p 采样

这种策略(也称为核采样,英文通常为 Nucleus sampling 或 Kernel sampling)与 Top-K 类似,但我们不是选择一定数量的 token,而是选择足够多的 token 来“覆盖”由参数 p 定义的一定概率,方式如下:

  1. 按概率的降序排列 token。
  2. 选择最少数量的顶级 token,使得它们的累积概率至少为 p。
  3. 从这些 token 中抽取样本。

例如,假设我们使用 p=0.5 和 top-p 策略进行采样,同样取自上述示例。该过程如下:

  1. 最上面的 token t0 被选中。它的概率是 0.4,我们的累积概率也是 0.4。
  2. 累积概率小于 p=0.5 ,因此我们选择下一个token。
  3. 下一个token t1 的概率为 0.2,现在我们的累积概率为 0.6。
  4. 累积概率至少为 p=0.5 的值,因此我们停止。

结果是只有前 2 个 token 被选中:

t0→0.4
t1→0.2

再次,我们必须通过除以总和 0.4+0.2=0.6 来对概率进行归一化,得到:

t0→0.67
t1→0.33

我们现在可以从该分布中采样,就像之前使用 Top-K 所做的那样。

再次理解核采样的定义

核采样只关注概率分布的核心部分,而忽略了尾部部分。因为它只关注概率分布的核心部分,而忽略了尾部部分。

例如,如果 p=0.9,那么我们只从累积概率达到 0.9 的最小单词集合中选择一个单词,而不考虑其他累积概率小于 0.9 的单词。 这样可以避免采样到一些不合适或不相关的单词,同时也可以保留一些有趣或有创意的单词。

Top-p 值通常设置为比较高的值(如0.75),目的是限制低概率 token 的长尾。

有兴趣的同学可参阅论文“THE CURIOUS CASE OF NEURAL TEXT DeGENERATION”,详细了解核采样。

温度对采样的影响

温度会影响模型输出的“随机性”,其作用与前两个参数不同。虽然 Top-K 和 Top-p 直接作用于输出概率,但温度会影响 Softmax 函数本身,因此需要简要回顾一下其工作原理。

也即:温度影响的环节,更靠前一些。

Softmax 函数接收一个由 n 个实数组成的向量,然后将其标准化为这 n 个元素的离散概率分布,且概率的总和为 1。标准 Softmax 函数定义如下:

\[\sigma(\vec{x})_i = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}} \]

该函数应用于输入向量\(\vec{x}\)中的每个元素,以生成相应的输出向量。即:

  1. 指数函数应用于元素\(x_i\)
  2. 然后将结果值通过所有元素\(x_j\)的指数和进行归一化。这确保了结果值的总和为 1,从而使输出向量成为概率分布。

除了将输出转换为概率分布之外,Softmax还会改变每个元素之间的相对差异。Softmax 函数的效果取决于输入元素的范围\(x_i\)

  • 如果被比较的两个输入元素都是\(x_i\)< 1,那么它们之间的差异就会缩小
  • 如果被比较的元素中至少有一个大于 1,那么它们之间的差异就会被放大。这可以使模型对预测更加“确定”。

这可以使模型对预测更加“确定”。这句话怎么理解呢?

简单理解就是:不同 token 之间的差异越大,那么模型输出时,总是倾向于选择头部 token,自然就表现得更为“确定”。

我们看看这个标准 Softmax函数的输入和输出值,看看相对差异是如何改变的。当输入值小于 1 时,输出值的相对差异会减小:

相反,当某些输入值大于 1 时,它们之间的差异在输出值中会被放大:

我们已经知道,输出值的缩小或放大会影响模型预测的“确定性”。那么,如何控制 Softmax 函数输出的概率分布的“确定性”呢?这就是“温度”参数的作用所在。考虑以下形式的“缩放” Softmax 函数:

\[\sigma(\vec{x})_i = \frac{e^{\frac{x_i}{T}}}{\sum_{j=1}^{n} e^{\frac{x_j}{T}}} \]

唯一的区别是:指数函数中应用了逆缩放参数 \(\frac{1}{T}\) ,其中 T 定义为温度。让我们考虑 T 对输出的影响:

  • 如果为 0 < T < 1,则 \(x_i\) 输入值与 0 之间的距离会进一步拉大,差异也会被放大
  • 如果为 T > 1 ,则 \(x_i\) 输入值将被推向 0,差异就会减少

让我们再次绘制 Softmax函数的输出,但这次我们将比较 T 的不同值:

可见,温度 T 的值越小,输入值之间的差异就越大。相反,温度 T 的值越大,差异就越小。

还可以考虑极端情况下发生的情况,以更直观地了解温度如何影响输出:

  • 如果是 T 趋近于 0,那么我们将处理极大的指数,因此具有最大值的\(x_i\)元素将占主导地位,即它的概率将接近 1,而所有其他元素的概率将接近 0。这相当于一种贪婪策略,其中始终选择顶部token,非常“确定”。
  • 如果是 T 趋近无穷大 ∞,则指数全部变为\(e^0\)= 1,这会使输出变为均匀分布,即所有概率变为\(\frac{1}{n}\) 。也就是说,所有token的概率都相等。当然,这显然不再是一个有用的模型。

本质上,温度会改变概率分布的形状。随着温度升高,概率差异会减小,从而导致模型输出更“随机”。这表现为 LLM 输出更具“创造性”。相反,较低的温度会使输出更具确定性。

顺便说一句,该参数之所以被称为“温度”,与热力学中的概念有关:在较高温度下,气体或流体的浓度会比在低温下扩散(扩散)得更快。有兴趣的同学可参阅模拟退火中的温度概念,下图引用了 Simulated annealing - Wikipedia 的图片(随着温度的降低,跳跃越来越不随机,最优解也越来越稳定)。

总结

Top-K、Top-p 和温度都是影响生成token方式的推理参数,它们都作用于大模型的输出概率分布。

  • Top-K 和 Top-p 均为采样策略。它们并非特定于 LLMs,甚至根本不特定于神经网络。它们只是从离散概率分布中采样的方法。
  • Top-K 将我们要考虑的特定token限制为一定数量(K)。
  • Top-p 将我们限制在特定的累积概率(p)内。

相比之下,温度的作用方式不同:

  • 温度不是一种采样策略,而是网络最后一层的 Softmax 函数的一个参数。
  • 温度影响概率分布的形状。
  • 高温使 token 概率彼此接近,这使得输出更加随机、“有创意”。
  • 低温通过放大概率差异,这使得输出更加确定。

扩展阅读

posted @ 2025-08-04 22:52  xiaoxi666  阅读(204)  评论(0)    收藏  举报
TOP
扁桃体发炎严重吃什么药好得快 印堂发红是什么的征兆 关节炎吃什么药好得快 大腿外侧什么经络 容祖儿老公叫什么名字
郫县豆瓣酱能做什么菜 尿液弱阳性什么意思 免疫是什么意思 同人文什么意思 姨妈没来是什么原因
空腹血糖受损是什么意思 黄什么 长春新碱是什么药 为什么会突然不爱了 什么叫cta检查
大腿正面是什么经络 肌肉拉伤用什么药 肾尿盐结晶是什么意思 过氧化氢是什么意思 yair是什么牌子的空调
水痘长什么样子gysmod.com 甲状腺囊肿是什么病hcv8jop9ns2r.cn 两个人可以玩什么游戏hcv8jop2ns8r.cn 粉玫瑰花语是什么意思tiangongnft.com 痔疮手术后可以吃什么水果hcv8jop3ns1r.cn
60年是什么婚hcv9jop1ns2r.cn 女性经常手淫有什么危害hcv9jop5ns4r.cn 男大三后面一句是什么hcv7jop6ns9r.cn 黄连治什么病最好hcv8jop5ns8r.cn 胸腰椎退行性变是什么意思naasee.com
师弟是什么意思hcv8jop8ns6r.cn 便秘喝什么药hcv8jop4ns0r.cn 乙肝肝炎表面抗体阳性是什么意思hcv8jop6ns8r.cn 女性尿急憋不住尿是什么原因hcv8jop4ns2r.cn 中元节是什么时候hcv8jop1ns1r.cn
一直打嗝吃什么药hcv7jop9ns2r.cn 角化型足癣用什么药zsyouku.com 4月3日什么星座hcv9jop2ns0r.cn 孕妇喉咙痛吃什么好得最快hcv9jop2ns5r.cn 烫伤挂什么科hcv8jop1ns1r.cn
百度