大语言模型
搜索文档
中山大学最新论文登上Cell头条
生物世界· 2025-12-03 10:00
研究概述 - 中山大学中山眼科中心团队在Cell子刊Cell Reports Medicine上发表了一项随机对照试验研究,评估大语言模型在医学人工智能研究中对医生的有效性[2][4] - 研究旨在探索大语言模型能否帮助医生克服技术障碍,协助其开展医疗人工智能研究[4] 研究背景与设计 - 跨学科研究推动了数字医学等领域的发展,但人工智能在生物医学的广泛应用受限于医生的技术障碍,特别是偏远地区或资源有限的年轻医生团队[6] - 研究招募了64名初级眼科医生,进行为期两周的“自动化白内障识别”项目,采用优效性、开放标签的随机对照试验设计[6] - 干预组32人使用ChatGPT-3.5,对照组32人不使用大语言模型,旨在最小化工程辅助的情况下评估效果[6] 核心研究发现 - 干预组项目总完成率显著高于对照组,达到87.5%,而对照组仅为25.0%[7] - 干预组无辅助完成率也远高于对照组,分别为68.7%和3.1%[7] - 干预组展现出更优的项目规划能力和更短的完成时间[7] - 经过两周洗脱期后,41.2%的成功干预组参与者能够在没有大语言模型支持的情况下独立完成新项目[7] - 大语言模型将医疗AI项目的完成率从25%提升至87%,并使41%的成功干预医生在后续能独立完成新项目[11] 潜在风险与影响 - 调查显示,42.6%的参与者担心会不加理解地复述AI信息,40.4%的参与者担忧AI会助长惰性思维,表明存在潜在的依赖性风险[7] - 大语言模型虽能帮助医生克服技术障碍并促进医疗AI研究民主化,但存在幻觉和依赖风险,其长期风险仍需进一步研究[8][11][12] - 研究提出了与大语言模型有效互动的初步提示指南[11]
OpenAI内忧外患拉响“红色警报”:多个项目暂停 神秘模型曝光!
每日经济新闻· 2025-12-03 04:58
公司战略调整 - OpenAI CEO宣布公司进入“红色警报”状态,暂缓非核心项目以集中资源提升ChatGPT能力[1][3] - 被暂停的项目包括商业化前景广阔的广告业务、自动化处理复杂任务的AI Agent项目以及个性化资讯报告功能Pulse[3][4] - 公司首席财务官向投资者承认ChatGPT增长出现放缓,CEO警告谷歌的强势回归可能带来短期经济压力[3] 竞争格局与市场表现 - 谷歌Gemini在桌面和移动端的单次平均使用时长飙升至7.2分钟,首次超越ChatGPT的约6分钟[7] - ChatGPT月度下载量约8700万仍领先,但Gemini从2025年年中每月约1500万下载量一路飙升至10月底的约6600万,追赶速度惊人[10] - Salesforce CEO公开表示在使用Gemini 3两小时后,因其在推理、速度、图像、视频方面的优势而放弃使用三年的ChatGPT[13] 技术发展与产品路线图 - OpenAI计划下周发布一款全新推理模型,内部评估显示其性能比Gemini 3更强[5] - 公司研发新一代代号为“Garlic”的模型,修复了GPT-4.5早期结构中的问题,预计明年初作为GPT-5.2/GPT-5.5发布[5] - 在开发Garlic过程中预训练取得重大突破,能够将大型模型知识打包到更小架构中[5] 财务状况与资本开支 - 据测算,从2025年到2030年,OpenAI在云和算力成本将高达7920亿美元,到2033年算力承诺总额飙升至1.4万亿美元[14] - 到2030年,公司累计自由现金流仍为负,资金缺口高达2070亿美元,必须通过额外融资或更激进创收手段填补[14] - 随着一笔380亿美元贷款方案加入,围绕OpenAI的债务总额逼近1000亿美元大关[15] - 公司未来八年数据中心项目承诺投资总额约为1.4万亿美元,巨额开支让软银、甲骨文、CoreWeave等合作伙伴负债累累[16]
奥特曼发红色警报,大模型走进死胡同了吗 ?
36氪· 2025-12-03 04:31
行业技术瓶颈 - 大语言模型训练成本飙升但性能提升显著放缓,2019-2022年成本增加10倍性能提升25%-35%,2023年后同样成本投入性能提升降至10%-15%,2024年以来成本翻倍性能提升不足5% [2][3] - 头部模型性能表现趋同,在关键基准测试上得分集中在一个狭窄区间,2025年11月排名第一和第十的模型Elo评分差距从2024年6月的超过150分收窄至不足50分 [10] - 曾经被视为黄金定律的Scaling Law正在失效,模型代际更新间隔拉长,例如Meta Llama模型从第三代到计划推出的第四代间隔已超过15个月 [11][12] OpenAI面临的竞争与内部挑战 - 公司宣布进入"Code Red"紧急状态,竞争对手谷歌Gemini 3模型在基准测试上实现超越,其月活跃用户从2025年7月的4.5亿增长至10月的6.5亿,同时Anthropic的Claude周访问量达0.41亿人次,较六周前增长17.1% [1][3] - 自2024年5月GPT-4o发布后,公司顶尖研究人员未能成功完成一次大规模全面预训练,GPT-5相比GPT-4更像是微调优化而非代际升级,其MMLU评分仅比GPT-4提升10%-20% [6][7] - 公司调整策略重心转向优化现有产品ChatGPT,改进个性化功能、速度及可靠性,并推迟广告、健康AI代理等其他项目开发,鼓励员工调岗并每日召开改进会议 [8] 技术困境的根本原因 - 大语言模型面临"不可约误差"限制,当模型足够强不再犯低级错误后,由语言本身歧义和不确定性造成的误差无法通过增加数据、算力或改进算法消除 [14][15][16] - 高质量训练数据面临枯竭,GPT-4几乎已用完互联网上高质量文本,剩余大量低质量内容,使用AI生成数据训练会导致"模型崩溃",使模型输出多样性下降并放大自身错误 [20][21] - 互联网上已充斥大量AI生成内容,未来模型通过爬取网络获取训练数据将不可避免包含这些内容,使模型崩溃从理论问题转变为实际威胁 [22] 行业未来发展方向争议 - 以李飞飞为代表的观点认为大语言模型只是AI系统组件,未来需要发展能理解三维物理世界的"世界模型",使用逻辑规则和符号推理而非统计模式 [23][24] - 杨立昆等学者批评语言模型路径只是学习统计规律而非真正理解世界,实现真正智能需让AI建立对物理世界基本概念的模型 [25][27] - OpenAI和Anthropic坚持"规模假说",认为继续扩大模型规模、投入更多数据和算力,智能会"自动涌现",语言模型路径仍有潜力达到AGI [28][29]
华为、京东、优必选等先后入局,AI玩具成AI硬件新蓝海?
国际金融报· 2025-12-03 04:09
行业热度与市场前景 - AI玩具赛道热度迅速攀升 2025年上半年京东平台销量环比激增六倍 同比增速超200% [1] - 预计到2030年 AI玩具全球市场规模将突破千亿量级 年复合增长率超过50% 国内市场规模有望突破百亿 年复合增长率超70% [5] - 行业毛利率颇具吸引力 定价300-400元的基础款毛利率约50%-65% 1500-3000元的中高端产品毛利率约70%-85% 个别高端产品毛利率达90%以上 [5] 主要参与者与资本动态 - 赛道参与者多元 包括跃然创新 珞博智能等初创公司 奥飞 汤姆猫等传统玩具厂商 以及京东 荣耀 华为等科技大厂 [1] - 2024年以来 AI玩具赛道已有超30起投融资事件 吸引近百家投资机构 超20家相关初创公司获得融资 [4] - 近期巨头密集发布新品 例如优必选推出“优崽” 华为与珞博智能联合开发“智能憨憨”开售即售罄 [3] 驱动因素与增长逻辑 - 社会趋势如“单身经济” “老龄化” “精细化育儿”推动了对情感陪伴的现实需求 AI玩具提供了新的情感解决方案 [5] - 大语言模型在情绪理解与自然对话能力上的持续突破 推动生成式AI技术向情感交互产品加速渗透 [6] - AI芯片 多模态传感器等关键硬件达到量产水平 软硬件双重突破使产品爆发成为可能 [6] 产品现状与核心挑战 - 市场尚未诞生真正的爆款 产品同质化趋势明显 例如“优崽”与“智能憨憨”的核心逻辑高度相似 [2][7] - 用户体验存在不足 包括交互生硬 答非所问 无法敏锐感知情绪变化 缺乏自然连续对话能力等 [7] - 数据安全与隐私问题突出 产品需持续采集用户隐私数据以构建动态记忆 引发消费者对数据泄露与滥用的疑虑 [8] 商业模式与未来展望 - AI玩具的想象空间不止于硬件销售 其本质是触达用户的入口 更大的价值在于通过持续提供内容与交互服务实现长期变现 [8] - 订阅服务是潜在商业模式 例如提供年费一两百元的互动订阅 或与喜马拉雅等内容平台合作拓展收入来源 [9] - 行业仍处于早期发展阶段 距离真正走向成熟或许仍有漫漫长路 [2]
为什么OpenAI要启动“红色警报”?英伟达是否也要亮红灯?图说AI竞争
华尔街见闻· 2025-12-02 22:17
OpenAI战略调整与竞争压力 - OpenAI CEO宣布启动“红色警报”,将全部资源集中于优化ChatGPT,以应对谷歌Gemini的激烈竞争,并推迟了包括广告业务、健康和购物AI代理等在内的其他产品开发 [1] - 公司表示仍需改进ChatGPT的日常体验,包括提升个性化功能、速度和可靠性,并扩大可回答问题的范围 [1] - OpenAI面临来自谷歌和Anthropic等多方竞争压力,谷歌新版Gemini AI模型在行业基准测试中超越了OpenAI [20][22] 谷歌Gemini用户增长与市场表现 - 市场数据显示,11月谷歌Gemini的月度下载量达到1.008亿次,而ChatGPT为6780万次 [2] - 用户现在在Gemini上的聊天时间已超过ChatGPT或Claude等竞争对手 [4] - 自谷歌Gemini 3发布以来的两周内,ChatGPT的每日独立活跃用户数(七天均值)已下降6% [6] - 谷歌透露,Gemini的月活跃用户从7月的4.5亿增长至10月的6.5亿 [22] 谷歌TPU芯片进展与市场影响 - 瑞银分析师指出,谷歌新一代TPU芯片Ironwood及其生态系统正在对英伟达构成实质性挑战 [1][10] - Ironwood芯片针对大语言模型、专家混合模型和高级推理进行优化,支持训练、微调和推理工作负载 [11] - 相比前代Trillium芯片,Ironwood拥有更多计算资源、FP8支持和大幅增加的HBM容量(192 GiB vs 32 GiB),预计单芯片性能将显著超越Trillium [14] - Ironwood的峰值计算性能(FP8)为每芯片4614 TFLOPs,HBM带宽为每芯片7380 GB/s,TPU规模可扩展到最多9216个芯片 [15] - 谷歌通过使用自研定制芯片训练AI模型,已经“显著提升了性能” [19] 英伟达的回应与市场展望 - 英伟达强调与谷歌云平台的牢固关系,指出谷歌在Gemini推理工作负载中同时使用TPU和GPU [23] - 公司认为云服务商不太可能在其云堆栈中运行TPU,因为需要大量工作负载优化才能在专用集成电路上实现总体拥有成本优势 [23] - 英伟达指出,Anthropic的1吉瓦容量和HUMAIN的60万单位扩张是其2025-2026年5000亿美元订单数量之外的增量 [23] - 英伟达的CPX芯片正在瞄准需要100万以上token上下文窗口的高级编程应用,该应用约占推理市场的20% [23] 行业投资与竞争格局 - OpenAI的ChatGPT目前占全球搜索活动的约10%且增长迅速,搜索被视为最大的机遇领域之一 [9] - OpenAI拥有未来八年总额约为1.4万亿美元的承诺资金投入,用于数据中心项目以维持其行业领先地位 [23] - 自谷歌发布Gemini 3以来,其母公司Alphabet股价在不到两周内累涨超10%,上周一周涨超14% [20] - 瑞银认为,Meta和苹果是内部TPU部署的主要候选对象,因为它们拥有大型AI项目、庞大的内部AI集群,且对谷歌云平台的依赖相对较小 [19]
OpenAI正开发大语言模型“Garlic”。(The Information)
华尔街见闻· 2025-12-02 15:05
文章核心观点 - 文档内容为标准的风险提示与免责声明,未包含任何关于具体公司、行业、市场事件或财务数据的实质性信息 [1] 根据相关目录分别进行总结 - 文档未提供任何可总结的行业动态、公司业绩、财务数据或市场事件 [1]
DeepSeek-V3.2正式版及高计算版发布
新华网· 2025-12-02 12:14
公司动态 - 深度求索公司于12月1日晚间宣布发布两个正式版模型:DeepSeek-V3.2和高计算版本DeepSeek-V3.2-Speciale [1] - 公司推出的DeepSeek-V3.2模型在保持卓越推理能力和智能体性能的同时,实现了高计算效率的平衡 [1] - 深度求索公司全称为杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月 [1] 行业与产品 - 深度求索公司专注于大语言模型及多模态AI技术研发 [1]
NeurIPS 2025|CAKE:大模型驱动的贝叶斯优化新配方,让黑箱优化更智能、更高效
机器之心· 2025-12-02 06:47
核心技术创新 - 提出名为Context-Aware Kernel Evolution (CAKE)的新方法,利用大语言模型的推理与生成能力,在贝叶斯优化过程中自动、动态地设计最优的高斯过程核函数[5][6] - 该方法将核函数设计问题重新构想为一个"进化过程",LLM作为生成新核函数的引擎,执行交叉和变异两类遗传操作,并根据贝叶斯信息准则评估性能[15][17][19] - 提出BIC-Acquisition Kernel Ranking (BAKER)方法,通过加权平衡模型拟合度和采样潜力两个指标对核函数进行排序,在优化代理模型与实际推进最优解之间取得稳健平衡[21][22] 技术性能优势 - 在超参数优化任务中,CAKE在60个HPO任务上所有测试的ML模型中均取得最高最终准确率,在优化早期(如前25%预算内)能迅速收敛到高性能区域[27] - 在控制器调优任务中,CAKE显著优于所有基线,能更快收敛至高回报控制策略,在月球着陆任务中是少数能成功达到200分目标分数的BO方法之一[28] - 在光子芯片设计的多目标优化中,CAKE使用预期的超体积改进作为获取函数,求得高质量解的速度提升近十倍,大幅节省设计时间与成本[29][32] 方法比较验证 - 与三大类基线方法比较:固定核(SE或M5)、自适应核(随机选择、按获取函数值选择或按BIC选择)、组合与高级方法(深度高斯过程、高斯过程集成等)[25][26] - 消融研究证实CAKE和BAKER两个组件的必要性,完整模型效果远超CKS + BAKER(证明LLM优于传统搜索)和CAKE + BIC(证明BAKER平衡策略优于单独BIC)[35] - 实验证明LLM作为遗传算子能更迅速引导核函数种群朝更高适应度方向进化,与随机重组或传统遗传算法相比,适应度分布曲线能更快向高分区域移动[31] 计算成本分析 - 使用LLM会增加每次迭代的"墙上时钟时间"至8.3秒,而固定核方法仅需0.6秒,自适应方法需3.7秒[40] - 在贝叶斯优化典型应用场景(如药物研发、芯片设计)中,函数评估成本(数小时或数天)远高于LLM推理成本(秒级),CAKE通过减少函数评估次数总体上极大节约优化总成本[39] - 性能随着LLM能力提升而提升,使用gemini-2.0-flash在LR、SVM、RF、XGB、MLP任务上分别达到0.8253、0.8720、0.9056、0.9310、0.8780准确率,证明框架具有良好的"未来兼容性"[41] 应用前景拓展 - CAKE标志着AI for Science范式下的一次根本性跃迁,将大语言模型角色从文本生成工具提升为参与算法级结构设计的智能协作者[42] - 未来计划扩展CAKE框架,引入更具通用性的核函数语法,并将其核心思想推广至其他基于核方法的机器学习任务,如支持向量机、核主成分分析以及度量学习等[42] - 这项工作为构建更加自主、可解释且持续进化的智能优化系统开辟新路径,有望成为推动自动化实验室与加速科学发现进程的关键技术之一[42]
深演智能冲刺港股:2024年净利骤降64.6% 2025年上半年客户集中度飙至70.2%
新浪财经· 2025-12-02 00:26
主营业务结构 - 公司核心业务为智能广告投放与智能数据管理,2025年新增AI智能体系统Deep Agent [1] - 业务结构严重失衡,智能广告投放业务收入占比从2022年的82.1%持续攀升至2025年上半年的93.3%,而智能数据管理业务占比从17.9%萎缩至6.7% [1] - 新增的Deep Agent系统尚未产生实质收入,无法缓解业务单一化风险 [2] 财务表现与盈利能力 - 公司营收波动,2024年营收为5.38亿元人民币,同比下滑12.0% [3] - 净利润剧烈波动,2024年净利润为2150万元人民币,较2023年的6070万元骤降64.6% [3] - 2025年上半年净利润为360万元人民币,同比增长134.3%,但主要因2024年同期基数仅153.6万元,盈利质量堪忧 [3] - 盈利能力持续恶化,综合毛利率从2022年的30.9%降至2025年上半年的27.1% [4] - 净利率显著下降,从2022年的10.9%降至2025年上半年的1.3% [4] 客户与供应商集中度 - 客户集中度问题恶化,2025年上半年,前五大客户收入占比飙升至70.2%,创历史新高,其中第一大客户收入占比达23.9% [5] - 供应商集中度同样高企,2025年上半年,前五大供应商采购额占比升至38.6% [6][7] - 媒体资源采购渠道单一,若主要供应商调整合作条款或提高价格,将直接影响公司成本 [7] 成本结构与议价能力 - 智能广告投放业务高度依赖媒体资源采购,2025年上半年媒体资源采购成本占销售成本比例高达87.1% [2] - 公司对上游媒体代理商议价能力受限,成本控制能力薄弱 [2] - 2024年毛利率下降,主要因媒体资源采购成本下降幅度(12.8%)不及收入降幅(12.0%) [4] 研发投入与行业竞争力 - 2024年公司研发投入占比为10.5%,低于行业平均水平的15% [8] - 2024年公司人均研发费用为18万元人民币,不足头部企业(如百度营销、阿里妈妈)的一半 [8] - 公司2024年毛利率27.3%低于行业均值35%,净利率4.0%显著低于同行平均8% [8] - 公司核心技术仍依赖传统机器学习模型,生成式AI布局滞后,2025年推出的Deep Agent尚未贡献收入 [8][10] 市场份额与行业环境 - 中国营销决策AI市场参与者超百家,百度、阿里等科技巨头凭借技术和资源优势加速布局 [9] - 深演智能2024年市场份额仅2.6%,在巨头挤压下,生存空间持续收窄 [9] - 行业价格战愈演愈烈,技术迭代速度难以匹配行业36.5%的复合增长率 [9][10] 数据合规与现金流 - 2025年《网络数据安全管理条例》实施后,数据合规成本显著增加 [11] - 公司存在因历史数据处理不合规而面临监管处罚的风险 [11] - 2024年经营活动现金流净额为4210万元人民币,同比下降26.2% [12] - 2024年应收账款周转天数为159天,较2023年延长17天,显著高于应付账款周转天数64天,营运资金占用持续增加 [12] 公司治理与股权结构 - 实控人黄晓南与谢鹏通过一致行动协议合计控制公司35.73%股权,为共同控股股东 [13] - 股权集中可能导致决策过度依赖核心管理层 [13] - 2022年至2025年上半年,公司累计未足额缴纳社保及公积金达3390万元人民币 [14]
DeepSeek发布V3.2正式版
新京报· 2025-12-01 15:01
公司产品发布 - DeepSeek于12月1日晚间发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常问答场景和通用Agent任务场景 [1] - 在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [1] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [1] 产品性能与定位 - DeepSeek-V3.2-Speciale的目标是将开源模型的推理能力推向极致,探索模型能力的边界 [1] - V3.2-Speciale是DeepSeek-V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力 [1] - 该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力 [1] - 在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [1]