开源模型

搜索文档
开源Qwen一周连刷三冠,暴击闭源模型!基础模型推理编程均SOTA
量子位· 2025-07-26 05:06
模型性能突破 - 通义千问开源Qwen3-235B-A22B-Thinking-2507推理模型,在MMLU-Pro(84.4)、GPQA(81.1)、AIME25(92.3)等基准测试中超越DeepSeek-R1和OpenAI o4-mini,登顶开源SOTA [3][10][12][15] - 新模型在"人类最后考试"HLE测试得分从11.8提升至18.2,超越DeepSeek-R1(17.7)和o4-mini高性能模式(18.1) [13][14] - 支持256K原生上下文,在逻辑推理、数学、编码等复杂任务中性能显著提升,编程能力超越Gemini-2.5 Pro等闭源标杆 [16][17] 开源战略布局 - 一周内连续开源Qwen3基础模型(235B参数)、Qwen3-Coder编程模型和Qwen3-235B推理模型,形成技术矩阵 [6][22][26] - Qwen3-Coder在SWE-bench测试中达到69.6分,超越Claude Sonnet 4(70.4)和DeepSeek-V3(38.8),刷新AI编程SOTA [26][27] - 基础模型Qwen3-235B-A22B-Instruct-2507在GPQA、LiveCodeBench等12项测评中超越Claude4非思考版,登顶开源第一 [32] 市场影响与行业地位 - 通义千问API调用量突破1000亿Tokens,在OpenRouter平台包揽全球前三热门模型 [31] - 阿里已开源300余款大模型,通义千问衍生模型突破14万个,超越Llama成为全球最大开源模型家族 [37] - 公司计划未来三年投入3800亿元建设AI基础设施,持续升级全栈能力 [38] 中国开源生态崛起 - DeepSeek、Qwen、Kimi等中国开源模型引领全球风潮,在Llama4表现不佳后成为行业新标杆 [34][35] - 中国开源模型发展速度被黄仁勋公开认可,技术差距与闭源模型快速缩小 [36][39] - 开源三连击战略使中国AI技术首次实现在基础模型、编程模型、推理模型三个维度同时达到世界前沿水平 [7][33][37]
硅谷华人能不能站起来把钱挣了?
虎嗅· 2025-07-24 23:24
美国AI行业动态 - 马斯克旗下XAI发布grok4模型 部分能力显著提升但编程能力仍有局限 写作能力出现倒退[1] - Meta人工智能部门进行大规模重组 高薪引进新人才同时裁撤原有团队 核心团队44人中至少50%为华人[4][6] - 美国AI行业炒作热点从AGI(通用人工智能)转向SSI(超级人工智能) 概念定义模糊但商业价值显著[22][24] Meta技术路线调整 - Llama系列开源模型表现下滑 从Llama3开始被中国开源模型超越 Llama4因应对竞争仓促调整导致性能不佳[2][3] - 原首席科学家Yann LeCun被替换 因其公开质疑当前大模型架构无法实现AGI 主张需要全新架构[6] - 新任AI部门主管Alexander Wang来自Scale AI(数据标注公司) 缺乏大模型研发经验引发行业质疑[7][8] 中美AI竞争格局 - 中国开源模型如DeepSeek冲击美国闭源商业模式 通过开源降低行业利润 公布推理过程实现技术祛魅[25][26] - 美国AI企业高度依赖华人人才 Grok4团队几乎全为华人 顶级AI会议参会者至少50%为华人[10][12] - 部分美国企业采取技术封锁策略 Llama3/4刻意弱化中文支持 政治因素影响技术决策[12][16] 行业人才结构 - Meta新组建团队包含大量OpenAI/DeepMind前员工 22位研究科学家中有14位华人 主要毕业于清华/MIT/斯坦福等名校[5][6] - 美国AI领域存在显著族裔不平等 华人技术贡献与职业地位不匹配 高管层仍以白人为主[10][11] - 英伟达等芯片企业同样依赖华人人才 黄仁勋公开承认这一事实[12] 开源与闭源之争 - Meta可能放弃开源路线 转向闭源开发 中国成为开源生态主要维护者[16][31] - 美国企业开发"符合价值观"的基准测试(如R1-1776) 将技术问题政治化[19][26] - 开源模式冲击闭源商业逻辑 迫使OpenAI等公司提高免费用户额度[31]
21对话|全球网络峰会创始人:中国正在赢得科技竞赛
21世纪经济报道· 2025-07-24 02:06
美股科技股表现 - 美股"七巨头"(英伟达、微软等)股价和市值持续刷新历史新高,4月至7月资金以16年来最快速度涌入美国科技股 [1] - 目前美股"七巨头"在标普500的市值占比已达到三分之一 [1] AI领域竞争格局 - 硅谷巨头难以长久维持技术领先,AI未来属于开源模型,DeepSeek的出现预示这一趋势 [1] - 中国在AI学术研究文献引用量全球领先,美国排名第二,且美国高质量AI研究中近三分之一引用来自中国 [3][4] - 闭源大模型难以持续发展,中国AI公司坚持的开源模式是正确方向 [4] - 西方投资者吹捧的"数十亿甚至万亿美金"AI造富神话难以长期维系 [4] 全球科技竞争态势 - 在《自然》杂志研究领导者榜单中,中国有7所科研院校进入前十,美国仅1所,四五年前中国仅2所 [5] - 中国在先进材料、通信、AI、能源等50多个关键科技领域占据主导地位,美国仅在8%-9%领域领先 [5] - 中国科研投入增速亮眼,企业将利润再投资于研发和设备采购,而西方企业更多用于股票回购等短期操作 [6] 能源与汽车行业 - 中国转向可再生能源与清洁技术,发展中国家清洁技术投资增长迅猛,中国是该领域领头羊 [7] - 中国商飞是重要初创企业,未来中国飞机有望进入全球市场,提供更便宜、燃油效率更高的机型 [12] - 中国新能源汽车行业竞争激烈,虽然未来市场会集中,但目前竞争推动创新和定价能力 [15] 航天与通信技术 - 中国在低轨卫星领域有潜力,早期部署的卫星具备更强数据传输能力和更快速度 [12] - 中国在激光信息光传输技术领先,未来可能出现多家中国公司与SpaceX星链竞争 [12] 行业泡沫风险 - 西方对AI过度依赖和看重存在泡沫化趋势,"FIRE"行业(金融、保险、房地产)也存在泡沫 [13] - 中国制造业广泛应用工业机器人,在该领域引领全球发展,这是中国制造保持竞争力的原因之一 [13] 市场竞争格局 - 中国市场参与者众多推动创新潜力,如汽车产业竞争将公司创新和定价能力推向极限 [15] - 西方国家市场集中度高,各行业公司数量处于历史低点 [15]
“国产芯片必须咬牙坚持用!”周鸿祎:360近期采购全是华为产品
第一财经· 2025-07-23 06:28
国产芯片发展 - 360集团近期采购转向国产芯片,主要采购华为产品,承认国产芯片与英伟达存在差距但强调必须坚持使用以推动改进 [1] - 英伟达H20芯片更适合推理场景而非训练,国产芯片在推理任务上性价比更高,H20面临市场尴尬 [1] - 中国开源模型和AI产业链迎来发展新机会,国产芯片追赶速度令人惊叹 [1] DeepSeek的价值与行业影响 - DeepSeek流量下滑不能简单判断其价值,许多大模型和行业Agent接入其技术作为基座模型 [2] - DeepSeek推动中国大模型产业整合,消灭"百模大战",证明开源路线和开放生态对建立国际竞争力的重要性 [2] - DeepSeek创始人梁文锋专注AGI研发而非to C产品,行业对其R2版本发布保持期待 [2] AI Agent带来的安全挑战 - 大模型降低技术门槛,非专业人员可通过指令操控模型进行"注入攻击"等危险操作 [3] - 黑客利用AI升级攻击手段,打造"黑客智能体",单个黑客可操控数十至数百智能体进行全天候攻击 [3] - 网络安全对抗模式转变为"人与算法/机器/算力"对抗,安全企业需转型开发"智能体安全专家" [3] AI智能硬件发展 - 360计划进入AI眼镜领域,认为眼镜必须配备显示功能才能区别于智能耳机 [4] - 当前智能眼镜面临重量与功能平衡难题,用户更倾向近视手术而非佩戴多功能眼镜 [4]
阿里,最新发布!
证券时报· 2025-07-23 03:59
阿里通义千问AI编程大模型Qwen3-Coder发布 - 阿里正式发布并开源全新AI编程大模型Qwen3-Coder,编程能力登顶全球开源模型阵营,超越GPT4-1等闭源模型,比肩全球最强编程模型Claude 4 [1] - Qwen3-Coder是千问系列首个采用混合专家MoE架构的代码模型,总参数480B,激活参数35B,原生支持256K上下文并可扩展至1M长度 [2] - 该模型在代码占比70%的7.5T数据上进行预训练,后训练阶段进行了编程任务及智能体任务的强化学习 [2] Qwen3-Coder技术性能 - 最强大版本Qwen3-Coder-480B-A35B-Instruct在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use三类任务中获得开源SOTA [3] - 在Terminal-Bench测试中得分37.5,高于Claude Sonnet-4的35.5和GPT4-1的25.3 [2] - 在SWE-bench Verified测试中,500轮得分为69.6,接近Claude的70.4 [2] - 在执行任务时能调用的工具数量比Claude多几倍 [3] Qwen3-Coder应用场景 - 具备"氛围编程"功能,可完成写代码、补全代码、修Bug等基础编程任务 [4] - 编程工作效率大幅提升,代码测试、查询生成等工作从数小时降至数分钟 [4] - 新人程序员一天可完成资深程序员一周的工作量,生成品牌官网最快只需5分钟 [4] - 普通人用一句话即可生成复杂3D物理模拟过程 [4] 商业化与市场表现 - 采用阶梯计费方式,256K-1M档输入价格6美元/百万token,输出价格60美元/百万token [4] - 有望取代昂贵的Claude成为Agent领域最受欢迎的编程模型 [4] - 千问系列编程模型全球下载量已突破2000万次,是全球最受欢迎的开源编程模型 [6] - 阿里巴巴内部已大量使用,一汽集团、中国石油、建设银行等行业头部企业也已接入 [6] 行业竞争格局 - AI编程成为检验模型性能的重要领域,科技巨头加大投入布局 [5] - 谷歌以24亿美元引入初创公司Windsurf核心团队及技术 [5] - ChatGPT用户请求中近29%与编程相关,反映企业用户对AI辅助开发的兴趣 [5] - AI编程有利于补强云服务生态黏性,是大模型商业化的重要机会点 [5]
马斯克拟推儿童版AI应用;工信部或推“新车登记半年内禁转让”
21世纪经济报道· 2025-07-21 02:40
人工智能与模型创新 - xAI将开发专为儿童设计的AI应用Baby Grok并提供友好型内容 同时Grok平台推出虚拟伙伴功能包括动漫角色Ani和卡通熊猫Rudy [2] - 英伟达CEO黄仁勋称赞DeepSeek的R1模型重新设计AI模型运行方式并充分发挥H20架构优势 对中国创新能力充满信心 [3] - OpenAI推理模型在国际数学奥林匹克竞赛中取得金牌水平表现 解决六道题中的五道并获得35分(满分42分) 但数学家陶哲轩指出需谨慎对待AI与人类表现比较 [6] - 全球开源模型排行榜中Kimi K2、DeepSeek R1、Qwen3三个中国模型排名前三 领先谷歌Gemma3和Meta Llama4 Kimi K2成为全球最强开源模型 [5] 硬件与技术漏洞 - 白帽黑客发现英伟达GPU存在严重漏洞 通过GPUHammer攻击可使大模型准确率从80%暴跌至0.02% 在RTX A6000测试成功 英伟达建议开启纠错码但会导致性能下降3%-12% [4] - Linux用户空间模拟器felix86更新使RISC-V处理器能运行《巫师3》等3A游戏 但仍面临性能瓶颈和处理器核心数量有限的挑战 [14] 机器人与智能制造 - 优必选科技中标觅亿汽车科技9051.15万元人民币机器人设备采购订单 成为全球人形机器人企业最大采购订单 计划今年交付500台工业人形机器人并发布自主换电机器人Walker S2 [3] 企业融资与上市 - 瀚博半导体启动上市辅导 由中信证券担任辅导机构 钱军和张磊通过直接间接持股及17家员工持股平台合计控制公司42.1465%表决权 [12] - 醇氢科技完成第三轮融资超2亿美元 由杭州高新金投领投 融资资金用于醇氢产品技术研发及生态体系建设 [13] 消费电子产品 - 折叠屏iPhone采用三星OLED面板 电池容量5000-5500mAh 物料成本759美元 定价预计1800-2000美元(约人民币12920元) 国行版可能突破15000元 [15][16] - 华为Pura 80标准版手机7月23日预售 搭载麒麟9010S处理器 配备6.6英寸LTPO OLED直屏 支持可变光圈四摄和5600mAh电池 [18] - 小米骨传导耳机2定价699元 采用开放式设计 支持IP68防水 内置32GB存储和游泳算法可监测游泳数据 [19] 企业合作与业务拓展 - 微软与Vaulted Deep达成超17亿美元合作协议 计划12年内处理490万吨有机废物并注入地下深处 以抵消数据中心碳排放 [7][8] - 特斯拉首家超级充电餐厅在洛杉矶试营业 融合20世纪50年代风格 配备机器人服务员和大尺寸电影屏幕 [17] 操作系统与政策动态 - 华为鸿蒙HarmonyOS 5.1系统将于7月开启升级 Mate 70和Mate 60系列预计2025年7月底前陆续升级 [9] - 工信部拟推行新车登记后6个月内禁止转二手政策 从源头阻断套利空间 [10] 汽车行业动态 - 法拉第未来新车Super One被指抄袭长城汽车高山车型 官网删除高山9描述 发布会显示一小时内下定量10034台 [11]
OpenAI推出全新智能体产品,Grok发布智能伴侣功能
国盛证券· 2025-07-20 09:39
报告行业投资评级 - 增持(维持)[6] 报告的核心观点 - 本周(7.14 - 7.18)中信一级传媒板块下跌1.58% ,游戏板块调整但AI应用板块热度提升 ,临近中报期重视中报预期较好公司投资机会 ,2025年下半年看好游戏等基本面驱动板块及AI应用与IP变现方向 ,AI应用关注新应用映射投资及成熟应用数据跟踪 ,聚焦AI陪伴等方向 ,IP变现聚焦有IP优势及全产业链潜力公司 ,潮流玩具等方向有机会[1] 根据相关目录分别进行总结 投资聚焦 行情概览 - 本周(7.13 - 7.18)传媒板块下跌1.58% ,涨跌幅前三板块为通信(7.02%)、医药(3.91%)、汽车(3.22%) ,后三为综合金融( - 4.12%)、房地产( - 2.08%)、传媒( - 1.58%)[11] - 传媒板块本周涨幅前五为世纪天鸿(17.1%)、焦点科技(13.8%)等 ,跌幅前五为紫天科技( - 36.0%)、华媒控股( - 24.8%)等[14] - 教育&人服板块本周涨幅前五为童程童美(47.6%)、粉笔(25.1%)等 ,跌幅前五为博瑞传播( - 8.5%)、勤上股份( - 6.7%)等[14] - 重点港股&中概股上市公司一周走势:泡泡玛特( - 3.5%)、快手(12.0%)等[14] 本周子板块观点 - 游戏关注ST华通、吉比特等公司[2][19] - AI关注豆神教育、盛天网络等公司[2][19] - 资源整合预期关注中视传媒、国新文化等公司[2][19] - 国企关注慈文传媒、皖新传媒等公司[2][19] - 教育关注学大教育、粉笔等公司[2][19] - 港股关注阿里巴巴、腾讯控股等公司[2][19] 重点事件回顾 AIGC - 7月18日OpenAI推出全新智能体产品“ChatGPT Agent” ,具备自主思考与行动能力 ,可完成多步骤复杂任务 ,节省时间和人力[3][21] - 中国KimiK2、DeepSeek R1、Qwen3三个开源模型在全球开源模型排行榜中排名前三 ,KimiK2成全球最强开源模型[4] - 7月15日Grok APP推出「智能伴侣」功能 ,付费用户可尝试 ,目标或为吸引特定用户[5][21] 子板块数据跟踪 游戏 - 近期热门重点游戏包括《现代战舰》《问鼎三国 - 策略国战手游》等[22] - 展示腾讯、完美世界等公司部分游戏畅销榜排名变化情况 ,如腾讯《英雄联盟》排名5(↑12)等[23] 院线 - 内地电影市场周总票房(7.12 - 7.18)约6.31亿元(不含服务费) ,票房排名前三电影为《侏罗纪世界:重生》(0.97亿元)、《聊斋兰若寺》(0.93亿元)、《长安的荔枝》(0.83亿元)[25] 影视视频 - 2025年7月12日至7月18日全平台剧集收视播放量 ,《书梦一卷》排名第一 ,全网热度81.1 ,《朝雪录》第二 ,全网热度82.1 ,《以法之名》第三 ,全网热度81.9[25][27] - 同期全平台综艺收视播放量 ,《奔跑吧第九季》排名第一 ,全网热度80.9 ,《麻花特开心第二季》第二 ,全网热度73.4 ,《风驰赛车手》第三 ,全网热度60.2[27]
DeepSeek终于丢了开源第一王座。。。
自动驾驶之心· 2025-07-19 10:19
模型排名与表现 - Kimi K2在全球开源模型中排名第一,总榜排名第五,紧追马斯克Grok 4等顶尖闭源模型 [3] - 在总榜TOP 10中,Kimi K2得分为1420,与Grok 4(1437)和GPT 4.5(1437)差距较小 [4][26] - 唯二进入总榜TOP 10的开源模型均来自中国,包括Kimi K2(第5)和DeepSeek R1(第8) [4][26] 技术架构与优化 - Kimi K2继承了DeepSeek V3的架构,并进行了四项关键参数调整:增加专家数量、注意力头数减半、仅保留第一层Dense、专家无分组 [17] - 调整后总参数增至1.5倍,但推理耗时更小,成本控制优于V3架构 [18] - 团队选择完全继承V3架构的原因包括已验证的可靠性和有限的训练资源 [13] 市场热度与社区反响 - Kimi K2发布一周内GitHub标星达5.6K,Hugging Face下载量近10万 [6] - Perplexity CEO公开支持K2,计划基于该模型进行后训练 [8] - 用户访问量激增导致官方发布公告应对流量压力 [9] 开源模型趋势 - 开源模型性能已接近闭源模型,TOP 10分数均超过1400,差距显著缩小 [24][26] - 行业专家如Tim Dettmers和Perplexity CEO认为开源模型将逐步超越闭源,并在AI全球化中发挥关键作用 [28][30] - 开源社区对Kimi K2的编程能力(第二)、复杂提示词处理能力(第二)等单项表现给予高度评价 [7]
AI大家说 | Kimi K2:全球首个完全开源的Agentic模型
红杉汇· 2025-07-18 12:24
模型架构与技术特点 - 采用稀疏MoE架构,拥有1万亿总参数量,激活参数为320亿,包含384个专家,每个token选择8个专家进行计算,并设置1个共享专家提高通用性 [4] - 使用改进的MuonClip优化器,在15.5万亿tokens预训练规模下保持稳定,避免大模型常见的"训练崩溃"问题 [7] - 最大上下文长度达128K,擅长处理长文档理解、长对话及大规模检索任务 [8] 性能表现与基准测试 - 在SWE Bench Verified、Tau2、AceBench等测试中取得开源模型SOTA成绩,代码、Agent、数学推理能力领先 [8] - LiveCodeBench编程基准测试准确率53.7%,超越GPT-4.1(44.7%),OJBench得分27.1% [19] - SWE-bench Verified单次尝试准确率65.8%,超越多数开源模型 [21] - Tau2-bench加权平均值66.1%,AceBench英文测试准确率80.1%,MMLU-Pro多语言测试进入领先梯队 [25] 开源与商业化 - 模型权重和代码发布于Hugging Face与Github,采用MIT许可证,支持免费使用与修改 [24] - API定价为4元/百万输入tokens和16元/百万输出tokens,成本优势显著 [24] - 海外平台如OpenRouter、Cline、Visual Studio Code已宣布接入 [12] 行业影响与评价 - 英伟达创始人黄仁勋评价其为"全球最优秀推理模型之一",开源价值获全球认可 [9] - Hugging Face联合创始人称赞其突破闭源限制,《自然》期刊称其引发"DeepSeek时刻" [13][14] - Perplexity CEO计划基于K2进行后训练,科技媒体评价其"成本低廉、性能卓越" [12][16] 应用场景 - 擅长前端开发,可生成3D场景代码,支持粒子系统、可视化等复杂交互 [20] - 能自动解析13万行数据,生成统计图表与回归模型报告,适用于数据分析 [22] - 在EQ-Bench3情商测试与Creative Writing v3创意写作测试中登顶 [25]
黄仁勋对话王坚:AI演进路径明确,硅基时代延续20年,开源模型成中国突围支点
海通国际证券· 2025-07-18 08:49
报告行业投资评级 未提及 报告的核心观点 - 2025年7月17日NVIDIA创始人黄仁勋与王坚围绕人工智能多话题展开对话,黄仁勋回顾AI三次浪潮并提出物理AI为下一阶段方向,强调未来20年AI发展高度依赖硅基技术 [1][7] - AI发展是计算能力驱动的软件范式变革,从规则式软件过渡到预测型智能系统 [2][8] - NVIDIA推动三维晶体管结构等关键方向形成下一代AI加速平台,规划未来10 - 20年技术路线图,底层创新基于硅基技术突破 [2][8] - 对话具备多重战略含义,包括确立硅基算力20年时间窗、中国开源模型获认可将撬动“算法出海”、开源模式成未来AI创新主引擎、AI for Science成科研新加速器 [3][9][10] 根据相关目录分别总结 AI发展阶段 - 感知AI(2012 - 2017)视觉、语音、语言识别超越人类 [5][11] - 生成式AI(2018 - )多模态交叉生成,重塑内容生产 [5][11] - 推理AI(2023 - )具备类人逻辑拆解、未知问题求解能力 [5][11] - 物理AI(未来)具身智能落地机器人系统 [5][11] 对话战略含义 - AI算力时代硅续命确立20年时间窗,黄仁勋将硅基延展技术确认为未来主路径,国产芯片厂商当前架构兼容路线可安全演进一代以上 [3][10][11] - 中国开源模型获世界级认可,黄仁勋点名DeepSeek等模型,其有利于降低部署成本,在国际项目有中立性和合规优势,将撬动“算法出海”新通道 [3][10][11] - 开源模式成为未来AI创新主引擎,全球AI创新将转向工程协作模式,中国模型厂商建立开放社区可在全球开发者生态占关键角色 [3][4][11] - AI for Science将成为科研领域新加速器,AI可补齐人类“中尺度模拟”建模能力缺口,国内相关机构将在多领域迎来产业机会 [4][10][11]