Workflow
大语言模型
icon
搜索文档
8点1氪丨英伟达拟向OpenAI投资至多1000亿美元;万豪酒店承认拖鞋循环多次使用;“最快女护士”张水华发文道歉
36氪· 2025-09-23 00:04
人工智能与科技合作 - OpenAI与英伟达宣布合作伙伴关系意向书 英伟达将逐步向OpenAI投资至多1000亿美元用于支持数据中心及相关基础设施建设 双方合作将为OpenAI的下一代人工智能基础设施部署至少10吉瓦的英伟达系统 首批吉瓦级系统将于2026年下半年部署[3] - OpenAI已就具体项目与国内供应链展开合作 产业链人士证实相关合作正在进行中[2][16] - 美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking 该模型是国内首个兼具深度思考与工具调用能力的大语言模型 在逻辑数学代码智能体等多领域推理任务中达到全球开源模型最先进水平[25] - DeepSeek线上模型升级至DeepSeek-V3.1-Terminus版本 针对语言一致性和Agent能力进行改进 缓解中英文混杂及异常字符问题 优化Code Agent与Search Agent表现[24] - OpenAI将推出若干计算密集型新功能 部分功能初期仅面向Pro订阅用户开放 部分新产品将收取额外费用[24] - Meta为Facebook Dating接入人工智能约会助手 通过Meet Cute功能基于算法每周为用户推荐惊喜匹配对象[24] 半导体与硬件投资 - 小米旗下基金入股旗芯微半导体 该公司为汽车控制器芯片研发商 注册资本增至1546.39万元[13] - 英伟达股价涨超3%创历史新高 美股三大指数集体收涨 纳指涨0.7% 道指涨0.14% 标普500指数涨0.44%[7] - 硅谷灵巧手创业公司TetherIA.ai完成数百万美元天使轮融资 由经纬创投领投 奇绩创坛跟投 资金用于团队扩充及初代产品研发推进[22] 新能源汽车与电池 - 比亚迪李云飞回应巴菲特清仓比亚迪股份 表示股票投资有买就有卖是正常现象 伯克希尔于2022年8月开始陆续减持 去年6月持股已低于5%[12] - 天赐材料向港交所提交上市申请书 联席保荐人为摩根大通中信证券和广发证券[19] - 新能源航空器研发制造商零重力飞机工业完成近亿元A++轮战略融资 由云时资本和盐城黄海汇创科泰低空经济产业投资基金联合投资 资金用于推进适航认证及产品研发量产[23] 消费与零售动态 - 太二酸菜鱼等多款预制菜在山姆会员店上架 包括太二酸菜鱼每份119.9元 松鼠桂鱼每份129.9元 九毛九西北菜卤牛腱拌凉皮每份69.9元[2][9][10] - 百果园拟筹约3亿元还债 通过配售2.795亿股H股 配售价每股1.17港元 公司半年亏损超3亿 一年关店超1600家[2][10] - 转转集团宣布逐步关停自由市场业务 未来全力聚焦官方验业务模式[14] - 山寨美心月饼售价60至80元 仅为正品官方定价368元的20% 采用无痕发货模式 生产源头多数位于广东[10][11] 企业资本运作 - 大洋电机向港交所提交上市申请书 联席保荐人为华泰国际和花旗[18] - 浩博医药完成6300万美元B2轮融资 由启明创投携手产业投资机构共同领投 资金用于推进核心产品AHB-137临床试验及商业化布局[20] - 沃庭科技完成数千万元天使轮融资 资金用于技术研发投入和产业布局完善[21] 企业回应与声明 - 贵州茅台否认下调今年业绩目标 公司证券部表示上半年已按计划完成目标进度[2][15] - 罗永浩回应债务问题 称作为被执行人冻结股权总额约为1758万元 表示五年前已还清法律强制个人偿还的债务 后续主动偿还公司债务[2][9] - 抖音电商货架场GMV同比增长49% 过去一年超过511万名新电商作者和536万新商家通过平台获得收入 平均每天有125万场电商直播开播[15] 行业监管与法律 - 美国寻求拆分谷歌数字广告业务 法官裁定谷歌部分数字广告技术构成非法垄断 认为其行为抑制市场竞争损害在线出版商利益[16] - 外交部发言人表示希望美方为中国企业到美国投资提供开放公平非歧视的营商环境 尊重企业符合市场规则的商业谈判[11]
GPT-5编程测评大反转,表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
36氪· 2025-09-22 11:39
行业基准测试 - Scale AI推出全新软件工程基准SWE-BENCH PRO 旨在通过更严格的测试标准评估大语言模型在实际开发场景中的能力[4] - 新基准包含1865个问题 覆盖商业应用 B2B服务和开发者工具的多元化代码库 包括731个公共集问题 276个商业集问题和858个保留集问题[7] - 测试设计采用human in the loop模式 每个问题都经过人工增强 包含问题陈述 需求说明及接口信息 并在容器化环境中进行评估[8][9][10] 模型性能表现 - 在SWE-BENCH PRO测试中 主流大语言模型解决率普遍低于25% 其中GPT-5以23.3%的解决率位列第一 Claude Opus 4.1以22.7%居次 Gemini 2.5 Pro Preview以13.5%排名第三[1][13] - 若仅统计已提交任务 GPT-5准确率达63% 显著高于Claude Opus 4.1的31% 显示其在擅长领域的稳定性[3] - 在商业集测试中 最优模型得分仍低于20% 表明当前模型处理真实商业场景问题的能力有限[13] 技术细节分析 - 测试结果显示编程语言难度影响显著 Go和Python语言上部分模型解决率超过30% 而JavaScript和TypeScript表现波动较大 介于0%至30%之间[15] - 不同代码库解决率差异明显 部分代码库解决率低于10% 另一些超过50%[15] - 模型失败模式各异 Claude Opus 4.1主要因语义理解不足失败(错误解答35.9% 语法错误24.2%) GPT-5未回答率高达63.1% Claude Sonnet 4存在35.6%的上下文溢出问题[16][17] 测试方法论 - SWE-BENCH PRO针对SWE-Bench-Verified的缺陷进行改进 使用全新题目避免数据污染 并排除1-10行代码的琐碎编辑 专注于需要大量多文件修改的复杂任务[4][7] - 测试通过fail2pass和pass2pass双验证机制确保质量 fail2pass测试经过人工筛选 偶尔失败的测试会运行三次以保证结果稳定性[10] - 基准采用分集策略 公共集在HuggingFace发布 商业集和保留集保持私有 商业集测试结果公开 保留集用于验证模型过拟合情况[7]
苹果传统强项再发力,视觉领域三种模态终于统一
机器之心· 2025-09-22 10:27
机器之心报道 编辑:冷猫 苹果新品发售的热度还没消退,大家都在讨论新手机的硬件进化。 而在 AI 功能方面,苹果仍然没有拿出什么颠覆性的应用,Apple Intelligence 在国内仍然遥遥无期。 再叠加上近期苹果 AI 团队和 硬件团队的人才流失 ,这一切似乎对苹果而言都不是太乐观。 虽说苹果在大模型领域上总是吃瘪,但说一个不冷不热的知识:苹果在计算机视觉领域的智能研究是其传统强项。 在构建和视觉相关的大模型时,有一个非常显著的痛点。视觉模态包含图像、视频和三维这三种,这些视觉模态具备不同是数据维度和表征方式,在研究中几乎 不可避免的需要分开处理,使得视觉模型被拆分为三个相不互通的研究领域,难以实现视觉领域的统一泛化。 但大语言模型却已经通过统一的分词方案展现出了强大的泛化能力。 然而, 视觉 AI 仍然呈现 出割裂状 态 ,不同任务与模态依赖专门化的模型:图像、视频和三维资产通常需要独立的分词器,这些分词器往往只在 高保真重建 或 语义理解 其中之一上进行优化,而极少兼顾二者。 为此, Apple 研究团队 提出了 ATOKEN(A Unified Tokenizer for Vision) ,针对这 ...
氪星晚报|国泰航空恢复西雅图航线每周五对直航往返航班;马斯克称明年SpaceX可能将全球总有效载荷的95%送入轨道
36氪· 2025-09-22 08:49
航空与交通 - 国泰航空将于2026年3月30日重启西雅图直航航线 成为其在北美第九个客运航点 2026年夏季每周提供超过110对往返北美航班 [1] - 印尼鹰航计划2026年与捷蓝航空 利雅得航空及维珍航空建立合作关系以拓展全球航线网络 [5] 航天与科技 - SpaceX在2025年第二季度发射了88.5%的卫星 按送入轨道重量计算占全球总量86% 马斯克预计2026年可能将全球总有效载荷95%送入轨道 2027年比例或达98% [2] - 美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking 该模型是国内首个兼具深度思考与工具调用能力的大语言模型 在多领域推理任务中达到全球开源模型最先进水平 部分任务性能接近闭源模型GPT5-Thinking [9] 电商与零售 - 淘宝2025年双11将首次同步在全球20个国家和地区启动 以五种语言版本面向全球消费者 并在海外市场投入10亿元营销补贴 目标帮助10万商家实现海外成交翻倍 [3] - 抖音电商过去一年货架场GMV同比增长49% 超过511万名新电商作者和536万新商家通过平台获得收入 平均每天有125万场电商直播被3亿多人观看 [4] - SHEIN在2025年8月美国时尚与服饰类别中排名第一 全球流量环比增长9.74% 谷歌搜索量增长25% [5] 电信与基础设施 - VodafoneThree与爱立信和诺基亚签订价值20亿英镑(约26.9亿美元)网络合同 由两家企业为其在英国全境提供网络技术 [6] 资本市场与投融资 - 京东工业股份有限公司港股IPO获中国证监会备案 拟发行不超过253,309,800股普通股在香港联合交易所上市 [7] - 零重力飞机工业完成近亿元A++轮战略融资 由云时资本和祥源文旅参股基金联合投资 资金将用于推进适航认证及产品研发与量产交付 [8] - 辉瑞可能以73亿美元收购减肥药开发商Metsera 包括每股47.50美元现金收购及每股22.50美元基于业绩里程碑的额外支付 [9] 金融与货币政策 - 人民币已成为中国对外收支第一大结算货币 全球第三大贸易融资货币和第三大支付货币 在IMF特别提款权货币篮子中权重位列第三 [10] - 金融监管总局扩大无还本续贷政策覆盖范围 涉及贷款9.4万亿元 去年以来通过小微企业融资协调工作机制发放贷款22万亿元 [11] - 中国跨境资金流动总体均衡 人民币汇率在主要货币中表现稳定 经济基本面长期向好为外汇市场提供坚实保障 [12] 能源与工业 - 伯克希尔·哈撒韦通过增持持有三井物产10%以上表决权股份 成为其主要股东 [12] - 华能新能源股份有限公司成立华能(北京)综合能源科技服务有限公司 注册资本2亿元人民币 经营范围包括碳减排技术研发和储能技术服务等 [12]
27亿美元天价回归,谷歌最贵“叛徒”、Transformer作者揭秘AGI下一步
36氪· 2025-09-22 08:48
大模型核心需求 - 大模型最核心需求是算力 具体表现为更多FLOPS意味着更好性能 [5][9][21] - 内存容量和带宽对模型结构灵活性至关重要 不足会限制非线性层添加 [24][26] - 网络带宽是关键但常被忽视因素 影响分布式训练和推理时参数访问速度 [27][28] 硬件资源需求 - 计算资源需求急剧增长 从2015年32个GPU训练发展到需要数十万个GPU [12] - 内存系统需要多层次优化 包括片上SRAM、HBM和DRAM等中高速缓存 [14][26] - 集群需要更大更快设备 更大内存带宽直接决定推理速度 [15][28] 精度与性能平衡 - 低精度运算成为趋势 可使用8-bit甚至4-bit换取更多FLOPs [32][33] - 需确保训练精度足够和推理误差小 accumulator使用更高精度或进行裁剪防止溢出 [34][40] - 可重复性至关重要 除非获得10倍性能否则不应牺牲确定性 [35][39] AI技术发展路径 - AI发展处于早期阶段 当前LLM只是单步预测引擎 [47] - 未来将加入持久记忆和长期预测能力 发展为具备完整规划能力的行动型AI [48] - 技术飞跃可能在2026年底前实现 一切都将发生深刻变化 [49] 行业影响与社会挑战 - AI将导致大规模失业潮 未来20年内白领认知劳动将被高效替代 [52] - 需要政府通过税收等再分配机制缓冲社会巨变 [52] - 面临"遏制困境"挑战 当执行想法成本趋近零时可能引发大量冲突 [54][55] 安全与治理框架 - 设定四条不可逾越红线:递归式自我改进、自主设定目标、获取自身资源、在世界上自主行动 [56] - AI存在于物理数据中心 可通过"拔掉电源"方式控制 [56] - 需要建立识别和集体决策机制来应对可能出现的失控情况 [56]
美股异动|百度盘前涨超3% 海通国际上调其估值 予目标价188美元
格隆汇· 2025-09-22 08:40
股价表现 - 港股百度逆势收涨超3% 带动美股盘前涨超3%至139.59美元[1] - 美股盘前涨幅达3.13% 上涨4.24美元[2] - 总市值465.29亿美元 市盈率(TTM)12.36倍[2] 估值调整 - 海通国际将估值方法从市盈率改为分部估值法 因应新任CFO提出释放隐藏资产策略[1] - 新目标价定为每股ADR 188美元 对应2025财年22倍市盈率[1] - 综合企业折让45%后得出总估值640亿美元[1] 战略转型 - 公司在大语言模型浪潮下重塑传统业务 包括调整搜寻业务及丰富AI SaaS产品[1] - 寻求云端市场超越机会 提供具成本效益且高可靠性的云端基础设施[1] - 致力于打造开放的基础模型生态系统[1] 交易数据 - 当日最高价138.18美元 最低价134.86美元 振幅2.46%[2] - 成交量766.49万股 成交额10.43亿美元[2] - 流通市值373.61亿美元 换手率2.78%[2]
美团发布高效推理模型LongCat
环球网· 2025-09-22 08:09
技术能力突破 - 增强智能体自主调用工具能力并扩展形式化定理证明能力 [3] - 成为国内首个同时具备深度思考+工具调用与非形式化+形式化推理能力的大语言模型 [3] - 在高复杂度任务(如数学、代码、智能体任务)处理上具备显著优势 [3] 开源与平台部署 - 已在HuggingFace、Github全面开源 [3] - 用户可通过官网直接体验模型功能 [3]
美团发布高效推理模型LongCat-Flash-Thinking,聚焦高复杂度任务
环球网· 2025-09-22 08:02
技术能力 - 增强智能体自主调用工具能力并扩展形式化定理证明能力 [3] - 成为国内首个同时具备深度思考+工具调用与非形式化+形式化推理能力的大语言模型 [3] - 在高复杂度任务(如数学、代码、智能体任务)处理上具备显著优势 [3] 开源与体验 - 已在HuggingFace、Github全面开源 [3] - 用户可在官网体验 [3]
AI无处不在的小应用,与行业发展的大困局
虎嗅· 2025-09-22 07:07
前段时间重点关注AI领域的新突破,结果众多大厂的新版本都低于预期,许多新技术和理念禁不起推 敲,目前的窘境不由得使我对未来发展多了一丝担忧。 阿朱说,如今的AI能听、会说、会看、会写,还能交流,所以现在就是AI时代。 我是认可阿朱这个说法的,现在AI可以完成很多辅助性的工作,大幅提升了数字化能力。已经有大量 的案例,就是利用常规的AI工具对数字化系统的输入进行结构化处理。 比如,通过语音和语义识别,在线会议软件将会议过程进行自动转录,法院专用软件将庭审自动生成为 文书,客服系统把用户的语音内容自动转化并进行结构化分类和处理,客户经理用语音方式回顾走访客 户的过程,由系统转化为结构化的走访记录,并以此为基础自动完成客户画像、梳理商机等动作。 比如,一线人员对服务现场进行拍照,系统自动进行图像识别,完成数据采集和录入工作,既减轻了一 线人员的工作负荷,又大幅提高了数据的准确性。 但在参加几次AI落地实践有关的交流后,我对AI的态度又变得乐观了:AI已经大面积铺开,在千行百 业发挥着作用,潜移默化地在改变我们的世界。 用简单的AI能力破解数字化难题 什么样的系统才算是AI系统? 有专业人士觉得,AI是高科技领域的创 ...
美团(03690)发布高效推理模型LongCat-Flash-Thinking
智通财经网· 2025-09-22 06:40
公司技术发布 - 美团于9月22日发布高效推理模型LongCat-Flash-Thinking [1] - 模型在HuggingFace和Github平台全面开源 [1] 技术性能表现 - 基于AIME25实测数据 模型在确保90%准确率前提下比不使用工具调用节省64.5%的Tokens [1] - 在逻辑、数学、代码、智能体等多个领域推理任务中达到全球开源模型最先进水平(SOTA) [1] - 在超高复杂度任务(如数学、代码、智能体任务)处理上具备显著优势 [1] 技术能力突破 - 增强智能体自主调用工具能力并扩展形式化定理证明能力 [1] - 成为国内首个同时具备"深度思考+工具调用"与"非形式化+形式化"推理能力相结合的大语言模型 [1]