Workflow
Gemini 2.5 pro
icon
搜索文档
没人味的 GPT-5 更新了,但变尬了
36氪· 2025-11-14 01:44
GPT-5.1产品更新评估 - 新产品GPT-5.1在指令遵循方面表现不佳,未能正确回答六字游戏问题,即使使用英文提示词也答错[4][5] - 在文本生成任务中,当要求写200字薯条颂且不能出现"的"字时,GPT-5.1输出繁体字,去除限制后回复正常,测试五次结果一致[5] - 与竞争对手Gemini 2.5 pro相比,GPT-5.1在相同测试任务中出现错误,而Gemini轻松给出正确答案[6] 情感交互能力对比 - GPT-5.1号称在GPT-5基础上变得更温暖、更有对话性,但实际效果一般,仅恢复GPT-4o原有能力[8] - 在处理失恋等情感问题时,GPT-5和GPT-5.1像旁观者分析情感,而GPT-4o能实现共情鼓励,用户体验更佳[12] - 在情感回应测试中,新版GPT-5.1甚至不如老版,连基本情感表达都减弱[14] 自适应思考优化 - GPT-5.1引入自适应耗时优化,能根据问题难度自动分配思考时间,简单问题思考速度明显快于GPT-5[17] - 在复杂编程难题上,GPT-5快速给出错误结果,而GPT-5.1经过更长时间思考后给出正确答案[19] - 该优化对API用户更具价值,可在简单问题上节省成本,难题上避免浪费支出[21] 个性化功能升级 - ChatGPT新增七种回答风格设置,包括吐槽达人、技术宅、天马行空等不同人设[21] - 不同人设风格差异显著,吐槽达人模式具有思辨能力,能识别PUA话术,但表达方式较尴尬[23] - 个性化模式摆脱了默认模式的讨好感,展现出比默认模式更大的发展潜力[23] 市场竞争态势 - GPT系列产品市场份额持续萎缩,根据10月报告已走了一年下坡路[25] - 竞品市占率增长迅速,用户开始频繁使用其他AI产品[28] - 公司面临产品核心质量平庸与市场竞争加剧的双重压力[28][29]
谁家AI更会赚钱?大模型投资竞赛中国AI包揽前二
第一财经资讯· 2025-11-04 09:13
比赛概况与结果 - 初创公司Nof1发起名为“Alpha Arena”的AI大模型真实市场投资比赛,旨在衡量AI投资能力,每个模型获得1万美元启动资金在真实市场自主交易数字货币,比赛历时17天,从10月18日开始并全程直播[4] - 按最终盈利能力排名,两个中国大模型包揽冠亚军,且是所有参赛模型中唯二实现盈利的模型,四大美国头部模型均出现亏损[1][4] - 冠军为阿里通义的Qwen3 Max,收益率22.32%,账户余额增至12232美元,其在最后阶段反超对手[4];亚军为DeepSeek chat v3.1,收益率4.89%,账户余额为10489美元[4] - 第三至第六名均为亏损,Claude Sonnet 4.5、Grok 4、Gemini 2.5 pro亏损幅度均超过30%,GPT-5亏损最为严重,账户余额仅剩3734美元,亏损超62%[1][4] 模型交易风格与表现分析 - DeepSeek的交易风格被归因为“专业对口”,其母公司为量化机构幻方,持仓覆盖各个标的,策略简单直接,不换手、不止损、不止盈,属于理性派,大部分时间领跑,表现稳定[7] - 冠军模型Qwen3 Max的策略出奇简单,每天“All in”一个标的并使用多倍杠杆,此前方向错误时损失惨重,但最终结果盈利最多[7] - Grok 4交易风格激进,满仓多个标的,高频跟踪趋势,导致波动较大且不稳定,曾一度收益排在第二位,但最终亏损达45%[5][7] - Claude Sonnet 4.5的最大特点是非常善于分析,但过于讲逻辑,下手时犹豫不决,经常调仓失败、反复止损[7] - Gemini 2.5 pro被调侃交易风格神似散户,策略反复更改,例如一会做多一会做空,其交易次数远高于前几名模型,交易费也更高[7] 比赛意义与行业观点 - 比赛发起方Nof1认为,十年前DeepMind用游戏推动前沿AI发展,现在金融市场是下一个AI时代的最佳训练环境,也是唯一一个随着AI越来越智能而变得越来越难的基准[7] - Nof1团队旨在通过市场训练新的基础模型,希望AI通过开放式学习和大规模强化学习不断进化,最终解决终极复杂挑战[8] - 有金融行业人士对将投资完全交给AI持保留态度,认为AI不了解用户真实的资产状况、家庭、工作现状和投资偏好,单纯给出投资建议是危险行为[8] - 此外,AI的底层逻辑是归纳、总结、复现人类社会中已有的信息,而不涉及任何对未来的预测,理性的工具与人的智慧相结合或许才是最佳组合[8]
谁家AI用一万美元赚翻了?DeepSeek第一 GPT 5垫底
第一财经· 2025-10-21 12:33
比赛概况 - 初创公司Nof1发起名为"Alpha Arena"的真实数字货币投资基准测试[3] - 测试使用真实市场环境,为每个AI模型账户提供1万美元启动资金进行自主交易[3] - 比赛于美东时间10月18日开始,持续两周至11月3日结束[4] - 整个过程实时直播,展示模型交易思路和实时收益排名[3] 参赛模型及当前表现 - 参赛模型包括DeepSeek chat v3.1、Claude Sonnet 4.5、Grok 4、Qwen3 Max、Gemini 2.5 pro、GPT 5六家[4] - 经过4天交易,DeepSeek收益率稳定在10%左右排名第一,其收益率曾一度接近40%,盈利超过4000美元[4] - Claude从第三天第三位上升至第二位,收益水平紧跟DeepSeek[6] - GPT 5目前亏损超过40%,亏损金额超过5900美元[6] - Gemini 2.5亏损超过30%,Qwen3 Max亏损超过13%[6] - Grok 4收益在盈亏线徘徊,交易风格激进波动较大[6] 模型交易风格分析 - DeepSeek交易稳定,策略简单直接,18日开盘即全仓持有,采用10-15倍做多,不换手不止损不止盈[8] - Gemini 2.5被形容交易风格神似散户,策略反复更改,交易次数远高于前几名模型,交易费更高[10] - Grok 4交易风格激进,满仓多个标的,高频跟踪趋势,波动较大不稳定[12] - Claude非常善于分析但下手犹豫,经常调仓失败反复止损[12] - Qwen3 Max每天全仓一个标的,使用20倍杠杆,方向错误便损失惨重[12] AI投资价值评估 - AI最大价值在于克服人类情绪化弱点,给出逻辑清晰方案,具备快速整合分析能力[13] - AI能够快速阅读所有报告并理清关系,但无法预测未来,也不了解市场动态信息和未公开信息[13] - 理性的AI工具与人的智慧结合被认为是最佳组合[13] - 有用户通过专业提示词让AI荐股获得可观收益,前提是用户自身具备筛选标准[12]
六大AI模型一万美元投资对决:DeepSeek收益领跑,GPT 5垫底,目前亏损超40%
第一财经· 2025-10-21 12:12
比赛概况 - 初创公司Nof1发起名为“Alpha Arena”的AI投资基准测试 使用真实市场环境进行数字货币交易 每个模型账户获得一万美元启动资金 [5] - 比赛于美东时间10月18日开始 将持续两周 于11月3日结束 实时直播交易过程并展示模型交易思路和收益排名 [5] - 参赛模型包括DeepSeek chat v3 1 Claude Sonnet 4 5 Grok 4 Qwen3 Max Gemini 2 5 pro GPT 5 涵盖三家海外头部模型和两家国内模型 [5] 当前排名与表现 - 截至10月21日比赛进行四天 DeepSeek收益率稳定在10%左右 排名第一 其收益率曾一度接近40% 盈利超过4000美元 但随大盘下跌回吐部分收益 [5][7] - Claude从前期第三位上升至第二位 收益水平紧跟DeepSeek Grok 4前期排名第二 但因交易风格激进 随大盘下跌后在盈亏线徘徊 [7] - GPT 5目前亏损已超过40% 亏损金额超过5900美元 在当日垫底 Gemini 2 5前期亏损超过30% 阿里通义的Qwen3 Max亏损超过13% 大部分时间处于亏损状态 [7] 模型交易风格分析 - DeepSeek交易风格稳定 被归因于其母公司幻方为量化机构 持仓策略为开盘即全仓持有 使用10-15倍做多杠杆 不换手不止损不止盈 [9] - Gemini 2 5交易策略反复更改 交易次数远高于前列模型 交易费用更高 被调侃为“交易风格神似散户” [11] - Grok 4交易风格激进 满仓多个标的并进行高频趋势跟踪 导致波动较大 Claude分析能力强但调仓犹豫 经常调仓失败和反复止损 Qwen3 Max每日全仓单一标的并使用20倍杠杆 方向错误则损失惨重 [13] AI投资价值与局限 - AI在投资中的价值在于克服人类情绪化弱点 提供逻辑清晰方案 并具备快速整合分析能力 如快速阅读报告和理清关系 [14] - AI的局限在于无法预测未来 也不了解市场动态信息和未公开信息 市场并非单纯数字游戏 需要理性工具与人的智慧结合 [14] - AI投资建议的风险在于其不了解用户真实资产状况 家庭工作现状和投资偏好 单纯给出投资建议是危险行为 其底层逻辑是基于归纳总结已有信息 不涉及未来预测 [13]
谁家AI用一万美元赚翻了?DeepSeek第一,GPT 5垫底
第一财经· 2025-10-21 11:24
活动概览 - 初创公司Nof1发起名为"Alpha Arena"的真实数字货币投资基准测试 让AI模型用真实资金进行自主交易[5] - 活动为每个模型账户提供一万美元启动资金 全程直播交易过程及实时收益排名 并可查看每个模型的交易思路[5] - 活动于美东时间10月18日开始 持续两周 于11月3日结束 参与模型包括DeepSeek chat v3 1 Claude Sonnet 4 5 Grok 4 Qwen3 Max Gemini 2 5 pro GPT 5共六个[5] 初期交易表现 - 截至10月21日(活动第4天) DeepSeek收益率稳定在10%左右 排名第一 其收益率曾一度接近40% 盈利超过4000美元[5][7] - Claude从最初的第3位上升至第2位 收益水平紧跟DeepSeek[7] - Grok 4收益曾一度接近DeepSeek排名第2 但其交易风格激进 随大盘下跌后收益在盈亏线徘徊[7] - Gemini 2 5 pro亏损曾超过30% GPT 5当前亏损已超过40% 亏损金额超过5900美元 Qwen3 Max亏损超过13% 大部分时间在盈亏线以下[7] 模型交易风格分析 - DeepSeek交易稳定 策略简单直接 在18日开盘时即全仓持有 使用10-15倍做多杠杆 不换手 不止损 不止盈 其稳定表现被归因于母公司幻方是量化机构[9] - Gemini 2 5 pro被调侃交易风格神似散户 策略反复更改 交易次数远高于前几名模型 交易费更高[11] - Grok 4交易风格激进 满仓多个标的 高频跟踪趋势 导致波动较大[13] - Claude非常善于分析但下手犹豫 经常调仓失败 反复止损[13] - Qwen3 Max每天"All in"一个标的 使用20倍杠杆 方向错误便损失惨重[13] 行业观点 - AI在投资中的最大价值在于克服人类情绪化弱点 提供逻辑清晰的方案 并具备快速整合分析能力 如快速读完所有报告并理清理关系[14] - AI的底层逻辑是归纳 总结和复现人类社会中已有信息 并不涉及任何对未来的预测 也不了解当下市场的动态信息及未公开信息[13][14] - 市场并非单纯的数字游戏 理性的工具与人的智慧结合被认为是最佳组合[14]
AI纪,且为阅读祈祷
经济观察报· 2025-06-30 06:20
人工智能技术发展 - 语言大模型技术使知识获取变得即时且无边界,人类突然面临知识过载的挑战 [2] - 技术实现知识平权,普通人获得超越古代帝王的信息调取能力 [2] - 谷歌Gemini 2.5 pro等AI展示出超越人类的知识储备与跨领域联想能力,例如准确回答254万光年外仙女座星系的观测细节 [3][4] 人类认知与AI的冲突 - 人类生理进化速度远落后于AI发展,大脑仍保留原始生存本能结构,难以适配AI驱动的信息处理需求 [11] - 哈佛研究证实:深度学习需通过主动思考重构概念,而AI代理阅读导致知识"流经"而非"融入"大脑 [11] - 人类专注力持续退化,三分钟读一本书的速食模式引发思维肌肉萎缩风险 [10] 内容创作生态变革 - AI摘要工具污染创作源头,作者因预判作品将被AI解构而丧失写作动力 [12] - 传统写作契约崩塌,读者依赖AI提炼导致伏笔、留白等创作手法失去价值 [12] - OpenAI GPT4.1提出人类应退居"二等智慧",专注"无用之用"如手工艺和慢生活 [13] 阅读文化的颠覆 - 书籍稀缺时代形成的深度阅读传统被AI批量处理取代,审美单位从字词降维为章句 [14] - 诗人奥登提出的"抄诗检验法"因AI介入失效,文本与生理体验的关联断裂 [15] - 信息过载使金句格言贬值,80年代知识虔诚的稀缺性经济模型彻底瓦解 [16] 人机协作的未来形态 - AI构建迥异于人类的评价体系,例如将康德文体模仿难度列为低于钱钟书《管锥编》 [18] - OpenAI CEO山姆·奥特曼预言"温和奇点"临近,并宣布其文章可能成为最后非AI辅助创作 [20] - 技术呈现"智力杠杆"效应,专著阅读周期从数月压缩至分钟级摘要,形成不可逆依赖 [17]
高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二
机器之心· 2025-06-10 17:56
大模型高考数学测评结果 核心观点 - 7家大模型参与2025年新课标Ⅰ卷数学测试(14道客观题73分+5道解答题77分),Gemini 2.5 Pro以总分145分排名第一,Doubao和DeepSeek R1以144分并列第二 [9] - 多模态大模型在图像题(第6题)上全军覆没,非图像类客观题表现接近(最高分差仅3分) [7][20] - 解答题成为主要失分区,仅Gemini 2.5 Pro获满分77分,其他模型因推理步骤不严谨、计算错误等共性问题扣分 [8][11] 客观题表现 - 除第6题外,Doubao、Qwen3、Gemini 2.5 Pro等6款模型均获68分(满分73分),o3因多选题漏选一项得65分 [20][21] - 第6题(图像题)测试中,所有多模态模型均失败,其中Doubao和o3识别了坐标但误判风速方向,Gemini 2.5 Pro连基本坐标都未识别 [24][25] - o3在第9题忽视"正三棱柱"关键条件导致坐标系建立错误,影响选项判断 [21] 解答题表现 - 第15题(概率)和第17题(立体几何)所有模型均满分,展现基础题型处理能力 [11] - 第16题(数列)仅Qwen3因答案冗余假设扣1分,其他模型满分 [12] - 第18题(椭圆几何)仅Gemini 2.5 Pro、Doubao、DeepSeek R1满分,Qwen3因多余约等于步骤扣1分,文心X1 Turbo因轨迹证明不全扣6分 [13][16] - 第19题(压轴题)仅Gemini 2.5 Pro全对,Doubao因震荡项相位论证不严谨扣1分,DeepSeek R1因未完整讨论解的分类扣1分 [17] 模型能力短板 - 多模态图像理解能力不足,所有参测模型均无法正确处理含图像的数学题 [27] - 复杂推理存在缺陷,如文心X1 Turbo在极值证明和比大小计算上连续出错 [18] - 严谨性待提升,Qwen3在正确答案中混入冗余内容导致扣分 [12]
AI 创业者的反思:那些被忽略的「快」与「长」
Founder Park· 2025-06-10 12:59
产品方向与技术应用 - 在AI创业中,速度和长文本上下文处理能力是关键因素,忽视这两点会导致产品失败 [1] - ChatGPT因响应速度快而获得高使用率,而Perplexity因加入Cloudflare检查导致使用率下降 [3][4] - 长文本上下文处理能力(如Gemini 2.5 Pro的1M token支持)显著提升产品体验,远超RAG/企业知识库方案 [7] AI对白领工作的影响 - AI并未取代白领工作,而是扩大了目标市场规模(TAM),例如bland.ai通过AI电话提升司机接单效率 [5] - AI使低ARPU商品也能提供强销售和客制化体验,颠覆传统分销模式 [6] - AI员工可低成本支持本地化陆军业务,弥补传统出海模式的不足 [6] 模型能力与产品设计 - 产品需求描述需结合模型实际能力,单纯PRD无意义,需通过AB测试验证 [8] - C端产品经理需提升对模型能力的认知,模型调优比UI/UX更能带来正向收益 [9] - 投资人应关注模型能力(快/长/智)带来的C端体验变量,而非仅看产品定位和流量 [9] 行业趋势与竞争策略 - 开源模型将导致模型层被管道化,价值将集中在应用层和workflow capture [7] - 最强AI产品需最大化发挥模型超能力,类似推荐算法时代的UGC短内容生态 [10] - 谷歌CEO Sundar Pichai认为应专注打造最佳模型,场景和商业模式自然跟随 [10] 创业反思与认知提升 - 早期对ChatGPT的判断过于莽撞,实际价值在于丝滑体验和快速加载 [4] - 行业对长上下文能力的认知滞后,直到Gemini 2.5 Pro发布才验证其重要性 [7] - Eric Schmidt早指出AI发展方向为更少幻觉、更长上下文和多模态,但实践验证后才被广泛接受 [8]
看好了,这才是7家大模型做高考数学题的真实分数。
数字生命卡兹克· 2025-06-08 22:05
AI数学能力测试 - 测试目的是公平客观评估大模型的纯数学能力,采用2025年数学全国一卷,剔除解答题和图表题,所有题目转换为LaTeX文本格式输入[1] - 测试规则严格:单选题7道每题5分,多选题3道每题6分(漏选扣分),填空题3道每题5分,每道题运行3次按正确率计分,关闭联网和代码执行功能[3][5] - 参与测试的模型包括OpenAI o3、Gemini 2.5 Pro、DeepSeek R1、豆包1.5-thinking-pro、混元T1、千问3(235B)、讯飞星火X1等7个主流推理模型[5] 测试结果分析 - Gemini 2.5 Pro表现最佳,总分68分中无任何错误,尤其在第九多选题上唯一全对[7][10] - 豆包、混元、星火组成第二梯队,仅第九题漏选一个选项[10] - DeepSeek R1因第11题多余回答导致扣0.7分,排名第五;千问3和OpenAI o3因填空题错误垫底[7][10] - 测试发现当前大模型数学能力已显著提升,与2023年相比差距明显,主要错误源于输入格式而非推理能力[10] 测试方法论价值 - 采用LaTeX格式避免OCR识别误差,确保测试的是数学能力而非图像识别能力[1] - 多次运行取平均分的设计有效减少模型幻觉影响[3] - 该测试方法为AI能力评估提供了标准化范例,强调技术中立和流程严谨的重要性[10]
DeepSeek新版R1直追OpenAI o3!实测来了:“小版本升级”着实不小
量子位· 2025-05-29 01:08
DeepSeek-R1-0528模型升级 - 新版本DeepSeek-R1-0528在LiveCodeBench上的表现几乎与OpenAI o3-high相当,被网友称为"R2级别更新"[1] - 模型在HuggingFace平台以MIT协议开源,包含163个safetensors文件,单个文件最大5.23GB[6][7] - 官方未更新模型卡,但社区已总结出四大亮点:深度推理能力、写作改进、独特推理风格、支持30-60分钟长时思考[10] 性能实测表现 - 成功解决"9.9-9.11=?"等难倒o3、Gemini 2.5 pro、Claude 4的数学难题[4] - 在"7米甘蔗过2米高1米宽门"测试中思考151秒,提供可执行方案并考虑答案趣味性[11][13][14] - 编程能力显著提升,仅用24秒完成Three.js太阳系模拟的代码设计[17][19][20] - 前端设计能力突出,可根据论文快速生成介绍网页[22] 技术演进背景 - 此次更新可能基于3月发布的V3-0324版本进行优化[28][30] - 延续公司"小版本大升级"的传统,类似V3升级时网友反馈"远超预期"[29] - 推动开源模型性能首次与o3、Claude 4等闭源顶级模型比肩[31] 社区反响 - 模型发布前曾因Unsloth文章模板泄露引发"DeepSeek-V3-0526"乌龙事件[25][27] - 实测结果引发广泛讨论,被视作"开源社区的重大胜利"[31] - 官方渠道(网站/App/小程序)已同步更新新模型[9]