Workflow
Seed Prover 1.5
icon
搜索文档
字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌
量子位· 2025-12-25 06:08
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 字节最新数学推理专用模型,刚刚刷新战绩:拿下IMO金牌成绩。 Scaling Law 加持下,这个名为 Seed Prover 1.5 的模型,在16.5小时内,顺利解决IMO 2025的前5道题目,在仅失一题的情况下拿到35 分,达到今年IMO的金牌线。 这一成绩与7月官方认证的IMO金牌"选手"谷歌Gemini打平。而字节自己的前代模型,当时的成绩是3天完成了6道题目中的4道,以及一道题 的部分证明,达到银牌成绩。 同时,Seed Prover 1.5也在北美本科级别数学竞赛Putnam这一基准上,大幅刷新了SOTA成绩。 模型尚未开源,但技术报告已经公开。 值得关注的是,Seed Prover 1.5强调了大规模强化学习给数学模型带来的性能提升,也证明,在推理阶段增加计算资源,可以显著提高解题 率。 即,验证了测试时Scaling和强化学习训练时的Scaling的有效性。 Seed Prover 1.5为了平衡两种方法的优缺点,提出了一种全新的Agentic Prover架构: 模型将Lean语言视为一种工具,且在证明过程中可以自主地调用其他多种工具 ...
8点1氪:官方回应吸毒记录封存相关问题;强生爽身粉致癌案判赔女子约110亿元;俞敏洪敲定东方甄选接班人
36氪· 2025-12-25 00:26
科技与人工智能 - 小米发布自研开源推理模型MiMo-V2-Flash,总参数309B,激活参数15B,在多个Agent测评基准上排在全球开源模型前二 [8] - 字节跳动推出形式化数学推理专用模型Seed Prover 1.5,在16.5小时内针对IMO 2025前5题生成了完整可编译验证的Lean证明代码,换算成绩为35/42,达到金牌分数线 [27] - 阿里升级新一代语音模型Qwen3-TTS,发布音色创造和音色克隆两款新模型,可实现DIY声音设计和像素级音色模仿 [28] - 猿辅导素养课发布新一代“AI课堂2.0”,经AI赋能,学生学习效率提升20%,留存率提升10%,满意度提升37% [29] - 字节跳动旗下AI产品“豆包”的日均活跃用户数(DAU)已突破1亿,据内部人士透露,其推广费用是字节历史上所有破亿DAU产品中花费最低的 [30][31] - 杭州云深处科技股份有限公司正式启动上市辅导,辅导机构为中信建投证券 [23] - AI初创公司“深势科技”完成总额超8亿元人民币的C轮融资 [32] - 桌面级激光加工设备科技企业“壹粟创新”完成亿元Pre-A轮融资 [33] - OPPO ColorOS智慧产品研发总监姜昱辰透露,公司正与支付宝进行深度合作,并计划于明年1月官宣与另一个重要伙伴的战略合作 [9] 消费电子与硬件 - 消息称苹果计划从iPhone 18系列开始调整发布策略,2026年秋季将推出iPhone 18 Pro、iPhone 18 Pro Max及折叠屏iPhone,基础款iPhone 18和iPhone 18e则安排在2027年春季上市,iPhone 18 Pro系列可能新增咖啡色、紫色、酒红色三款配色 [12][13] - 三星电子、SK海力士等存储供应商已上调明年HBM3E价格,涨幅接近20% [17] - 苹果与巴西反垄断机构达成和解,将允许在巴西的iOS系统中运营第三方应用商店,并允许应用开发者推广外部优惠和提供其他购买方式 [17][18] - 影石创新表示,其首款全景无人机上市两周内,网络上涌现超过2500条恶意不实攻击信息,公司已固定证据并获公安机关正式立案,同时发起最高10万元奖励的线索悬赏 [7][8] - B站否认“全面付费观看”传闻,造谣人员已被警方依法予以行政拘留 [7][8] 汽车与出行 - 理想汽车合并第一、二产品线,由原第一产品线总裁汤靖管理,第二产品线负责人张骁主动离职 [18] - 美国汽车安全监管机构对约179,071辆2022年款特斯拉Model 3展开缺陷调查,原因是担心紧急车门释放控制装置可能不易触及或无法清晰识别 [19] - 阿维塔澄清旗下车型阿维塔12将在南极经历16个月以上的适应性测试,以验证极地不同季节及环境变化下的车辆性能 [19][20] - 现代汽车美国公司因拖车灯故障和电路短路隐患,在美国市场召回51,587辆汽车 [18] - 长城汽车董事长魏建军回应魏牌频繁换帅,称中国汽车品牌高端化仍在探索阶段,运营汽车品牌体系复杂度高 [15] - 长安汽车发布声明,否认网传“公司废轻铁拍卖疑致国有资产流失”等信息为不实信息 [20] 消费品与零售 - 贵州茅台酒价格全线上涨,12月24日,25年飞天茅台原箱批价报1600元/瓶,较上一日涨40元;25年飞天茅台散瓶报1590元/瓶,较上一日涨40元 [14] - 京东旗下餐饮平台“七鲜小厨”自今年开出首店后,用4个月时间在北京开出30家门店,基本实现五环内主要城区全覆盖 [10] - 德国平价超市品牌奥乐齐目前在华门店数量为80多家,预计明年一季度在中国市场的门店数量将达到100家,2025年新开店数量约30家,约90%为自有品牌商品 [16] - 新乡胖东来三胖店试营业,店内售卖梅西、姆巴佩、库里等球星的亲笔签名球衣,价格从数千元到数万元不等,最贵球衣售价13.8万元 [21] - 岁末美妆消费潮带动市场,国货化妆品品牌交易额占比已达55.2%,爱企查数据显示,中国今年年内新增化妆品相关企业超400万家,已超越去年全年注册量 [34] 互联网与平台 - 微信公众号正式上线“付费加热”功能,创作者可选择提升阅读量或增加新关注,例如500个微信豆(约合50元人民币)可选择新增阅读125-500人,估算新增一个阅读成本约0.1-0.4元 [15] - 意大利竞争与市场管理局对Meta扩大调查范围,新增对WhatsApp商业解决方案条款的审查,并已对Meta、WhatsApp及Facebook实施临时措施,调查其是否存在滥用市场支配地位的行为 [16] 医药与健康 - 美国马里兰州陪审团裁定,强生公司需向一名因使用其婴儿爽身粉罹患间皮瘤的女性支付15.6亿美元(约合人民币110亿元)赔偿,创下强生滑石粉致癌诉讼15年来单一原告获赔最高纪录,强生公司表示将上诉 [7] - 辉瑞公司表示,一名参与其血友病药物Hympavzi长期研究的患者出现严重副作用后死亡,公司正在收集信息以了解情况,该消息导致辉瑞当天股价收盘下跌超过1% [21][22] 房地产与政策 - 北京市优化调整住房限购政策,放宽非京籍家庭购房条件,将非京籍家庭购买五环内商品住房的社保或个税缴纳年限由“3年”调减为“2年”,购买五环外商品住房的由“2年”调减为“1年”,同时支持多子女家庭住房需求,允许其在五环内多购买一套商品住房 [13] 资本市场与公司动态 - 友邦吊顶公告,公司实际控制人正在筹划控制权变更事项,可能导致公司控股股东、实际控制人发生变更,公司股票自12月24日起停牌,预计停牌时间不超过2个交易日 [11] - 深圳四方精创资讯股份有限公司、苏州优乐赛共享服务股份有限公司、北京宇信科技集团股份有限公司均向港交所提交上市申请书 [24][25][26] - 苹果公司首席执行官蒂姆·库克斥资约295万美元买入50,000股耐克股票,交易后共持有105,480股耐克股票 [21] - 美股三大指数集体收涨,均录得日线5连涨,道指涨0.6%,标普500指数涨0.32%,纳指涨0.22%,其中标普500指数和道指均创历史收盘新高 [22] - 东方甄选方面确认,俞敏洪已敲定由新东方教育科技集团副总裁孙进担任东方甄选执行总裁 [7] - 日本东京电力公司宣布,将于明年1月20日重启柏崎刈羽核电站6号机组反应堆,这将是2011年福岛核事故后,东京电力公司旗下首个重启的核电机组 [16]
字节推出形式化数学推理专用模型Seed Prover 1.5;雷军介绍小米开源推理模型MiMo-V2-Flash丨AIGC日报
创业邦· 2025-12-25 00:12
1.【全球首款具备视觉感知能力的主动式AI耳机发布】12月24日消息,光帆科技推出全球首款具备视 觉感知能力的主动式AI耳机。据悉,光帆Lightwear AI全感穿戴设备由开放式耳挂AI耳机与智能手 表协同构成,希望成为AI时代的"个人助理",实现日程管理、机酒预定、打车出行、餐厅推荐等工作 生活场景中高频任务的自主处理。该设备将于明年第一季度正式上市,目前已开放预约,并计划于1 月中旬启动用户公测计划。光帆科技成立于2024年10月,已经连续完成多轮融资,投资方包括韶 音、歌尔、联想、宁德、兆易创新等。(科创板日报) 2.【雷军介绍小米开源推理模型MiMo-V2-Flash】12月24日上午,小米创办人、董事长兼CEO@雷 军在微博援引@小米技术的文章,介绍小米自研开源模型,雷军表示:"MiMo-V2-Flash是小米专为 极致推理效率自研的总参数309B(激活15B) MoE模型,通过引入Hybrid注意力架构创新及多层 MTP推理加速,在多个Agent测评基准上排在全球开源模型前二。"(新浪财经) 扫码可订阅产业日报 欢迎加入 睿兽分析会员 ,解锁 AI、汽车、智能制造 等相关 行业日报、图谱和报告 ...
俞敏洪确定东方甄选接班人,19年老将孙进担任;英伟达放风春节前向中国客户交付H200;造谣“B站全面付费观看”之人被行拘丨邦早报
创业邦· 2025-12-25 00:12
东方甄选人事变动 - 俞敏洪选定孙进为东方甄选执行总裁,官方回应情况属实 [3] - 孙进为新东方教育科技集团副总裁、广州学校校长,2006年加入新东方,拥有丰富的教学与运营经验 [3] 中兴通讯AI生态合作 - 中兴通讯相关人士表示已收到部分大模型厂商的合作邀约,相关沟通正在推进 [5] - 公司秉持“开放即创新”理念,与字节跳动合作AI手机是基于对AI手机趋势的共同认同,旨在实现“1+1>2”的协同效应 [5] 理想汽车组织架构调整 - 理想汽车第一产品线张骁主动离职,或将参与创业 [5] - 张骁离职后,其所管理的第二产品线与第一产品线合并,由原第一产品线总裁汤靖管理 [5] 英伟达对华芯片供应 - 英伟达计划于明年2月中旬(中国农历春节前)向中国客户交付其AI芯片H200 [5] - 计划动用库存履行首批订单,预计发货总量为5000至10000套芯片模组,相当于约4万至8万颗H200芯片 [5] - 能否顺利交付仍存不确定性,中方尚未批准任何一笔H200芯片的采购订单 [5] 奔驰战略投资与合作 - 奔驰已与千里科技达成长期战略合作协议,围绕人工智能、智能驾驶、智能座舱等领域展开深度合作,并可能派驻一名董事 [7] - 梅赛德斯-奔驰(上海)数字技术有限公司以每股9.87元人民币获得千里科技3.00%的股份,成为其第五大股东 [7] - 梅赛德斯-奔驰美国公司及其母公司同意支付近1.5亿美元,就柴油车尾气排放造假指控与美国多地检方达成和解 [11] 哔哩哔哩(B站)谣言事件 - 因发布“明年B站所有视频需购买会员才能观看”不实信息,造谣行为人被警方依法行拘 [7] - B站表示将保留对该违法行为人进一步追诉的权利 [7] 苹果公司产品与监管动态 - 科技媒体前瞻iPhone 18 Pro系列可能在2026年秋季发布,为容纳更大电池或增加机身厚度,将首发采用台积电2nm GAA工艺的A20芯片 [7] - 苹果CEO蒂姆·库克斥资约295万美元买入5万股耐克股票,交易后共持有105480股耐克股票 [9] - 苹果与巴西反垄断机构达成和解,将在巴西的iOS系统中允许第三方应用商店运营,并允许应用内购买使用第三方支付方式 [11] OpenAI商业模式探讨 - 知情人士透露,OpenAI员工已探讨在ChatGPT回复中优先展示推广内容的方案,并设计了多种广告呈现形式的样稿 [7] 阿维塔汽车极地测试 - 阿维塔澄清旗下车型阿维塔12将在南极经历16个月以上的适应性测试,以经历极地不同季节及环境变化 [7][8][9] - 车辆将跟随中国极地科考队在南极驻留至2027年4月 [8] 特斯拉相关动态 - 美国国家公路交通安全管理局(NHTSA)缺陷调查办公室收到请愿书,要求对2022款特斯拉Model 3的机械式车门解锁装置展开缺陷调查 [9] - 英伟达机器人业务总监Jim Fan表示,特斯拉的FSD v14首次让AI通过了他提出的“物理图灵测试”,马斯克随后表示赞同 [9] - 今年前11个月,特斯拉在欧洲新车注册量同比下降28%;在欧盟范围内,前11个月注册量同比下降38.8%,市场份额降至1.3% [20] 自动驾驶技术进展 - Waymo表示将对无人驾驶车队进行技术升级,以优化车辆在断电故障期间的导航能力 [9] 三星电子与手机战略 - 三星电子会长李在镕位居韩国持股百富榜榜首,其持有股票市值从12.033万亿韩元增至23.359万亿韩元,增幅高达94.1% [9] - 消息称三星已决定彻底取消Galaxy S26 Edge的研发与发布计划,放弃“超薄手机”赛道 [11] 字节跳动AI产品进展 - 豆包的日均活跃用户数(DAU)已突破1亿,是字节历史上所有破亿DAU产品中市场推广费用最低的 [11] - 豆包的周活跃用户规模达到了1.55亿 [20] - 字节跳动Seed团队推出形式化数学推理专用模型Seed Prover 1.5,该模型在16.5小时内对IMO 2025前5题生成了可验证证明,换算成绩为35/42,达到金牌分数线 [17] 人工智能行业融资与研发 - 思锐智能完成数亿元C轮融资,由国开制造业转型升级基金、中国国有企业结构调整基金等联合领投 [12] - 深势科技完成超8亿元人民币的C轮融资,由达晨财智、京国瑞基金等机构共同出资 [12] - 苏州易芯半导体完成战略轮融资,将用于扩大Micro-LED封装芯片产能及加速全色系芯片产品落地 [12] - 壹粟创新完成亿元Pre-A轮融资,专注于桌面级激光加工设备 [12] - 小米开源推理模型MiMo-V2-Flash,总参数309B,在多个Agent测评基准上排在全球开源模型前二 [13] - 阿里升级新一代语音模型Qwen3-TTS,发布音色创造和音色克隆两款新模型,可加速在专业领域落地 [19][20] 欧洲电动汽车市场数据 - 11月欧盟市场纯电动汽车的新车注册量同比增长44.1%;今年前11个月,纯电动汽车占欧盟市场份额的16.9% [20] - 混合动力汽车同比增长4.2%,占34.6%的市场份额,为欧盟消费者首选 [20] 中国AI应用市场动态 - 中国下半年新上线AI应用共205个,其中应用插件(In-App AI)占比达81.5% [20] - AI图像处理与AI专业顾问是下半年热门赛道;AI搜索与AI综合助手已形成近7亿规模用户池 [20] - 最新统计周期内,周活跃用户规模Top10的AI APP中,有6个通用AI,4个垂类AI [20] - DeepSeek、元宝的周活跃用户规模分别为8156万、2084万 [20] - 蚂蚁阿福App、灵光App周活跃用户规模分别达1025.4万和295.2万,位列下半年新上线原生App第一、第二 [20] 智能穿戴设备市场 - Counterpoint预计全球智能手表出货量将在2025年年底同比增长7% [21] - 本轮复苏由华为领衔,其年出货量同比增长42%居首;苹果第三季度出货量同比增长12%,结束了连续七个季度下滑 [21] - 小米同比增长22%,Imoo同比增长17% [21] 宝马电动汽车进展 - 宝马纯电M3(或命名iM3)路测图曝光,基于Neue Klasse平台打造,预估拥有700马力并采用四电机驱动 [15] 香港科技人才政策 - 香港特区政府创新科技署推出科技人才入境计划优化措施,包括精简申请程序、豁免14个指定科技范畴限制等 [20]
8点1氪|官方回应吸毒记录封存相关问题;强生爽身粉致癌案判赔女子约110亿元;俞敏洪敲定东方甄选接班人
36氪· 2025-12-24 23:57
法律与监管 - 修订后的《治安管理处罚法》将于2026年1月1日起施行,其中第136条规定了治安违法记录封存制度,适用于包括吸毒在内的未成年人治安违法行为 [2][3] - 官方澄清治安违法记录封存是一种信息管控措施,并非消除记录,被封存的信息不得随意查询、提供或披露,但为国家机关办案需要或根据国家规定查询的除外 [4][5] - 明确吸毒行为在中国法律中属于治安违法行为而非刑事犯罪,治理重点在于戒毒,相关戒毒人员信息一直依法处于保密和受管控状态 [6][8][9] 科技与人工智能 - 小米发布自研开源推理模型MiMo-V2-Flash,总参数309B,在多个Agent测评基准上排名全球开源模型前二 [12] - 字节跳动豆包AI的日均活跃用户数(DAU)已突破1亿,据称是字节历史上推广费用最少的破亿DAU产品 [33] - 字节跳动Seed团队推出形式化数学推理专用模型Seed Prover 1.5,该模型在16.5小时内对IMO 2025前5题生成了可验证的证明代码,换算成绩达到金牌分数线 [30] - 阿里升级语音模型Qwen3-TTS,发布音色创造和音色克隆两款新模型,可实现DIY声音设计和像素级音色模仿 [31] - 猿辅导素养课发布“AI课堂2.0”,称经AI赋能后学生学习效率提升20%,留存率提升10%,满意度提升37% [32] 消费电子与汽车 - 消息称苹果计划从iPhone 18系列开始调整发布策略,2026年秋季推出iPhone 18 Pro、Pro Max及折叠屏机型,基础款iPhone 18和18e则安排在2027年春季上市,iPhone 18 Pro系列可能新增咖啡色、紫色、酒红色配色 [15] - 苹果与巴西反垄断机构达成和解,同意在巴西的iOS系统中允许第三方应用商店运营,并允许应用开发者推广外部优惠 [20] - 理想汽车合并第一、第二产品线,由副总裁汤靖管理,原第二产品线负责人张骁被报道将主动离职 [21] - 阿维塔澄清其车型阿维塔12将在南极进行为期16个月以上的适应性测试,以经历极地不同季节及环境变化 [22] - 现代汽车美国公司因拖车灯故障和电路短路隐患,在美国召回51,587辆汽车 [20] - 美国汽车安全监管机构对约179,071辆2022年款特斯拉Model 3展开缺陷调查,涉及紧急车门释放装置可能不易触及或识别 [21] 互联网与社交媒体 - B站否认“全面付费观看”传言,相关造谣人员已被警方行政拘留 [11] - 微信公众号正式上线“付费加热”功能,创作者可付费提升内容阅读量或增加新关注,估算新增一个阅读成本约0.1-0.4元 [17] - 意大利竞争与市场管理局对Meta采取临时措施,调查其将Meta AI服务整合至WhatsApp过程中是否存在滥用市场支配地位的行为 [19] 零售与消费品 - 京东旗下餐饮平台“七鲜小厨”在北京已开出30家门店,基本实现五环内主要城区全覆盖 [13] - 德国平价超市奥乐齐计划在2025年一季度将中国门店数量扩至100家,目前其在华门店约80多家,2025年计划新开约30家 [18][19] - 胖东来新店售卖梅西、姆巴佩、库里等球星的亲笔签名球衣,价格从数千元到数万元不等,最贵球衣售价13.8万元 [24] - 根据“今日酒价”数据,12月24日茅台价格全线上涨,25年飞天茅台原箱批价报1600元/瓶,较前一日涨40元;24年飞天茅台原箱报1630元/瓶,较前一日涨30元 [16] 金融与资本市场 - 美股三大指数集体收涨并录得日线5连涨,道指涨0.6%,标普500指数涨0.32%,纳指涨0.22%,其中标普500指数和道指均创历史收盘新高 [25] - 多家公司启动上市进程:杭州云深处科技启动A股上市辅导 [26];四方精创 [27]、优乐赛 [28]、宇信科技 [29] 向港交所提交上市申请书 - 友邦吊顶公告实际控制人正在筹划控制权变更事项,公司股票自12月24日起停牌,预计不超过2个交易日 [14] 医药与健康 - 强生公司在一起爽身粉致癌诉讼中被美国马里兰州陪审团裁定,需向一名女性支付15.6亿美元(约合人民币110亿元)赔偿,创下其同类诉讼15年来单一原告最高赔偿纪录 [10] - 辉瑞公司一款血友病长效凝血因子疗法Hympavzi在长期研究中出现一例患者死亡,该患者于12月14日因中风后脑出血死亡,辉瑞股价当日收盘下跌超1% [24] 公司动态与人事 - 东方甄选确认俞敏洪已敲定接班人,由新东方教育科技集团副总裁孙进担任东方甄选执行总裁 [10] - 影石创新针对其新品无人机遭遇超过2500条恶意不实攻击信息,发起最高10万元悬赏征集“黑公关”线索,并表示已获公安机关正式立案 [11] - OPPO ColorOS智慧产品研发总监否认拒绝与字节跳动就“豆包AI手机”合作,称对任何合作持开放态度,并透露正与支付宝深度合作,计划明年1月官宣与另一重要伙伴的战略合作 [12] - 长城汽车董事长魏建军回应魏牌频繁换帅,称打造成功高端品牌对CEO要求全面,中国品牌高端化仍在探索阶段 [17] - 长安汽车发布声明,否认“公司废轻铁拍卖疑致国有资产流失”的网络信息为不实信息 [23] - 苹果公司CEO蒂姆·库克斥资约295万美元买入5万股耐克股票,交易后共持有105,480股耐克股票 [24] 能源与工业 - 日本东京电力公司宣布将于2026年1月20日重启柏崎刈羽核电站6号机组反应堆,这将是福岛核事故后其旗下首个重启的核电机组 [19] - 据韩媒报道,三星电子和SK海力士已上调明年HBM3E价格,涨幅接近20% [20] 房地产政策 - 北京市四部门联合发文优化调整住房限购政策:非京籍家庭购买五环内商品住房的社保或个税缴纳年限由3年减为2年,五环外由2年减为1年;支持二孩及以上多子女家庭在五环内多购买一套商品住房 [15] 投融资 - 桌面级激光加工设备科技企业“壹粟创新”宣布完成亿元Pre-A轮融资,由同创伟业联合元钛基金、协立资本共同参与,资金将用于技术迭代、产品线拓展及全球化布局 [34][35]
腾讯研究院AI速递 20251225
腾讯研究院· 2025-12-24 16:01
生成式AI 一、Anthropic在GitHub正式开源了Skills官方知识库 1. Anthropic官方开源Skills项目,包含16个生产级技能库,涵盖文档处理类(docx、pdf、pptx、xlsx)、创意设计 类(算法艺术、前端设计)和开发技术类(Web测试、MCP构建); 2. 特别包含skill-creator元技能,可帮助用户创建新技能,极大降低自定义门槛,成为扩展性的关键体现; 3. 该项目展示从创意到企业级的完整谱系,证明Skills系统能处理高度专业化的重复任务,已在GitHub正式发布。 https://mp.weixin.qq.com/s/hfXLyzx9wUiDmiAYQnzUkA 二、Seed Prover 1.5 Agentic 架构,更强数学推理表现 1. 字节跳动Seed团队推出Seed Prover 1.5,通过大规模Agentic RL训练,16.5小时内针对IMO 2025前5题生成完 整Lean证明代码,换算成绩35/42达金牌分数线; 2. 模型采用全新Agentic Prover架构,可调用Mathlib搜索工具、Python代码执行和增量式引理验证,像人类一 ...
字节跳动推出新一代形式化数学推理专用模型 Seed Prover 1.5
北京商报· 2025-12-24 08:20
北京商报讯(记者 陶凤 王天逸)12月24日,字节跳动 Seed 团队宣布,近日推出新一代形式化数学推理 专用模型 Seed Prover 1.5 ,通过大规模的 Agentic RL 训练,其推理能力和推理效率取得显著进步。 相比上一代模型,Seed Prover 1.5 在 16.5 小时内,针对 IMO 2025 的前 5 道题目生成了完整可编译验证 的 Lean 证明代码,换算成绩为 35/42,达到此前 IMO 评分标准的金牌分数线。 ...
字节跳动Seed团队推出形式化数学推理专用模型Seed Prover 1.5
智通财经网· 2025-12-24 06:16
公司技术发布 - 字节跳动Seed团队于12月24日宣布推出形式化数学推理专用模型Seed Prover 1.5 [1] - 该模型通过大规模的Agentic RL训练,在推理能力和推理效率上宣称取得显著进步 [1] - 公司已对外公开Seed Prover 1.5的技术报告,后续将开放API供数学和AI研究者体验 [1] 模型性能表现 - 在IMO 2025前5道题目上,模型在16.5小时内生成完整可编译验证的Lean证明代码,换算成绩为35/42,达到金牌分数线 [1] - 针对Putnam 2025赛题,模型用时9小时,对12道题中的11道生成了可编译验证的Lean代码 [1] - 在完整的Putnam历史评估集上,模型解决了88%的问题 [1] - 在代表硕士数学难度的Fate-H评估集上,模型解决了80%的问题 [1] - 在代表博士生数学难度的Fate-X评估集上,模型解决了33%的问题 [1] - 模型在上述评测集上刷新了形式化数学推理模型的SOTA表现 [1]
字节推出形式化数学推理专用模型Seed Prover 1.5,AI人工智能ETF(512930)红盘向上
新浪财经· 2025-12-24 05:26
市场表现 - 截至2025年12月24日13:01,中证人工智能主题指数(930713)上涨0.03% [1] - 指数成分股北京君正(300223)上涨11.33%,深桑达A(000032)上涨6.38%,德赛西威(002920)上涨2.84%,浪潮信息(000977)上涨2.45%,中科星图(688568)上涨2.31% [1] - AI人工智能ETF(512930)上涨0.09%,冲击4连涨,最新价报2.16元 [1] 行业动态与技术进步 - 字节跳动Seed团队宣布推出形式化数学推理专用模型Seed Prover 1.5,该模型在16.5小时内针对IMO 2025前5道题目生成了完整可编译验证的Lean证明代码,换算成绩为35/42,达到此前IMO评分标准的金牌分数线 [1] - Seed Prover 1.5的技术报告已对外公开,后续将开放API供数学和AI研究者体验 [1] - 火山引擎在Force原动力大会上发布豆包大模型1.8及音视频创作模型Seedance 1.5 pro,推动多模态内容生成技术发展 [2] 行业趋势与商业化进程 - AI大模型商业化进程持续推进,降本成为关键路径 [2] - 谷歌发布Gemini 3.0 Flash版本,旨在以更低的成本提供前沿智能水平,反映出AI行业已从技术验证转向商业化落地阶段,成本控制成为影响用户采纳的核心因素 [2] - Flash版本基于强大基模进行蒸馏优化,体现了系统性降本的技术趋势 [2] - AI变现仍依赖现有互联网商业模式,头部平台凭借生态优势和用户基础,在马太效应下更具竞争力 [2] - 后续市场需关注AI产品发布是否超预期以及AI Agent的实际落地进展 [2] 指数与ETF构成 - AI人工智能ETF紧密跟踪中证人工智能主题指数,该指数选取50只业务涉及为人工智能提供基础资源、技术以及应用支持的上市公司证券作为指数样本 [2] - 截至2025年11月28日,中证人工智能主题指数前十大权重股分别为中际旭创、新易盛、寒武纪、中科曙光、澜起科技、科大讯飞、海康威视、豪威集团、金山办公、浪潮信息,前十大权重股合计占比63.92% [3] - AI人工智能ETF(512930)设有场外联接基金,包括平安中证人工智能主题ETF发起式联接A(023384)、C(023385)、E(024610) [3]
达到金牌分数线:字节跳动推出新一代数学推理专用模型Seed Prover 1.5
凤凰网· 2025-12-24 04:34
公司技术进展 - 字节跳动Seed团队推出新一代形式化数学推理模型Seed Prover 1.5 [1] - 该模型基于大规模智能体强化学习训练,在数学竞赛题的形式化证明能力上有所提升 [1] 模型性能表现 - 在IMO 2025的前5道题目上,模型于16.5小时内生成了完整可编译验证的Lean证明代码,换算成绩达到此前金牌分数线 [1] - 在Putnam 2025的12道赛题中,模型用时9小时对其中11道生成了可验证代码 [1] - 在Putnam历史评估集上,该模型解决了88%的问题 [1] 当前能力与未来计划 - 当前模型仍主要面向“规则清晰、背景封闭”的竞赛题目,与前沿数学研究所需的长链条、文献依赖推理尚有距离 [1] - 技术报告已公开,后续将开放API供研究者体验 [1]