置信度

搜索文档
人生,就是活在两个悬崖之间
虎嗅· 2025-09-24 00:01
丘吉尔的这句话令人触动。 故事3:有位被大家评价为超级聪明的朋友,说自己处在人生的低谷——"左右为难"。他一直认为自己 有较高的"人生均值",以至于因为傲慢而忽略了"人生波动"。幸运儿和聪明人,总是以为自己可以 被"不确定性"赦免,可事实并非如此, 本文的主题,与上面的三个故事紧密相关。 "在你的两边都有一个悬崖:一个是谨慎的悬崖,一个是过度大胆的悬崖。" 给我的启发是: 先分享三个真实的故事: 故事1:投资人李国飞只选有95%确定性的好公司。有次吃饭,我问他对年化回报率的要求,他说"没 有"。他只看未来五年到十年有数倍的涨幅可能性,但具体是多少,以及哪一年发生,自己"并不知 道"。 故事2:最近接触到一位年轻人,对投资充满了激情,也在当前短暂的牛市中获得了自信。他的话语体 系里都是"板块轮动、捕捉热点、最佳买点、追随故事......"简而言之,仿佛一切都可以预测,每个牛股 都能论天来择时捕获。 我们的人生并不是找到一个完美的、牢不可破的"点",而是要找到一个"区间"。 一个人生区间,可以由两个关键参数定义:中点c和半径r。 1、中点c代表了你的人生策略的"均值"或"核心"。 是偏向安稳,还是偏向冒险? 一 ...
OpenAI的新论文,为什么被业内嘲讽是营销?
虎嗅· 2025-09-12 09:16
近期,OpenAI 发布了一篇新论文《 Why Language Models Hallucinate 》,指出当前大模型幻觉的主要 来源,引发了广泛关注。 OpenAI 拿自家模型举了一个例子,在 SimpleQA 基准中,旧模型 o4-mini 相比新模型 GPT-5-thinking- mini 准确率略高( 22% vs. 24% ),但也有高得多的错误率( 75% vs. 26% ),因为它更少 " 弃答 "。 OpenAI据此主张:在往后的评估基准中,应对高自信的错误施以惩罚,并为恰当的不确定表达给出适 当分数,使激励从 " 大胆猜 " 转向 " 知之为知之 ",改变主流排行榜长期以 " 准确率 " 一项称王的局 面。 可以说,这篇研究是在把 " 幻觉 " 从工程缺陷转化为技术社区的 " 激励设计 " 问题。 如果真的往这个方向发展,以后真正值得关注的,将不再是谁的准确率小幅上涨,而是谁愿意重写评测 与产品规则,让模型在不确定时自然地说:" 我不知道 "。 他们给出了一个简洁却颠覆性的解释:大模型之所以出现幻觉,并非由于模型架构的失灵,而是当前技 术社区的训练与评测机制倾向于奖励猜测,并且惩罚承认 ...