Seek .(SKLTY)

搜索文档
AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!
华尔街见闻· 2025-04-30 12:52
DeepSeek-Prover-V2-671B模型发布 - 公司于4月30日在Hugging Face平台开源了专注于数学定理证明的大语言模型DeepSeek-Prover-V2-671B [1] - 模型采用DeepSeek-V3架构,参数高达6710亿,采用MoE模式,具有61层Transformer层,7168维隐藏层 [3][6] - 模型最大位置嵌入达到16.38万,能够处理极其复杂的数学证明问题 [6] 模型技术细节 - 模型分为163个分片,每个分片大小约为4.3GB [4] - 使用safetensors文件格式,支持BF16、FP8、F32等多种计算精度 [4] - 采用FP8量化技术减小模型大小,提高推理效率 [8] - 结合合成数据、强化学习与蒙特卡洛树搜索等优化技术 [6] 模型性能提升 - 在高中数学题测试中,成功率从50%提高到了63.5% [12] - 相比V1.5版本7B参数的小模型,此次直接升级为大模型 [14] 公司发展动态 - 创始人梁文锋表示要将探索通用人工智能作为核心使命 [7] - 团队保持每季度重大更新的开发范式:2024年9月V2.5、12月V3、2025年3月V3-0324 [7] - 3月发布的V3-0324版本已被业内视为未来R2的基础模型 [5][7] 行业反响 - 在社交平台X上,网友对R2大模型发布表示期待 [7] - 有评论称"中国的AI初创公司正在改变整个游戏规则" [15] - 行业对"中国正在将一些功夫应用于AI"表示兴奋 [16]
华为郭振兴: DeepSeek浪潮后,AI将快速释放巨大的制造业生产红利 | 最前线
36氪· 2025-04-30 09:48
行业峰会概况 - 华为AI+制造行业峰会2025在广州举办 主题为"加速行业智能化" 参会人数超过900人 涵盖汽车 机械电子 医药 重工业 轻工业等多个制造行业 [1] - 公司发布"三层五阶八步"方法论 分享制造行业七大场景20个解决方案 [1] 华为AI解决方案 - 全栈AI基础设施可灵活适配制造多场景 降低企业使用AI门槛 智能应用让一线工人也能轻松使用AI [1] - 联合伙伴打造系列化方案 覆盖车辆装备 机械电子 医药轻工到具身智能等新领域 [1] - 基于昇腾解决方案对DeepSeek进行全方位适配 从预训练到推理场景均有针对性计算方案 帮助客户快速完成二次训练 [3] - 与主流模型(包括DeepSeek)进行资源匹配调优 使各模型在昇腾环境下达到性能最优 [3] - 昇腾全栈软件站已开源开放 已有100多个制造业伙伴基于昇腾打造DeepSeek方案 [3] 汽车行业应用案例 - 与广汽集团合作建设智能化研发平台 将新车研发周期从36个月缩短至18个月 [1] - 联合发布智能化研发平台解决方案 启动样板点建设 [1] 研发效率提升 - 将1300多万片高价值基础文档 1万多篇API文档 850多万个开源代码舱导入研发数据平台 [2] - 通过研发大模型和AI助手 软件版本开发周期从9-18个月缩短至1个月 [2] 行业部署情况 - 2025年预计有300多家企业制定大模型部署计划 [2] - 一汽使用DeepSeek代码能力使代码输出效率提升30% [2] - 广药集团用DeepSeek建设医药知识库 实现知识跨部门复用 应用于研发 销售 医学研究等多个场景 [2] 未来规划 - 2025年将围绕数据"采传存 算管用"等需求 提供智能联接 存储 算力 平台的端到端全栈新型基础设施 [3] - 设置车辆装备 电子及新能源 计算部件伙伴等分论坛 围绕细分行业深入交流 [3]
从DeepSeek到硬科技:国中资本的投资新视野 | 投资人:快答2025
搜狐财经· 2025-04-30 06:29
人工智能与硬科技投资趋势 - DeepSeek的出现是AI领域的里程碑事件 通过算法优化节约算力 打破传统算力-算法-数据三要素的机械排序 [3][4] - AI三要素(算力 算法 数据)是动态互动关系 任一要素突破都可能改变发展路径 [3][4] - 中国在AI技术深度和突破认知方面与海外差距快速缩小 [4] 创业者特质与企业家精神 - 优秀创业者需具备"五个力":使命感动力 解决问题能力 创新活力 坚韧毅力 务实定力 [5][6] - 生物医药案例显示 坚持11年研发最终打开70亿美元市场 [6] - 年轻企业家如梁文锋 王兴兴体现时代创新精神 反映中国创业环境活力 [5] 2025年核心投资赛道 - 重点布局硬科技领域:新能源汽车(含自动驾驶) 半导体 AI 医疗大健康 新材料与先进制造 [7] - 关注两类项目:国家战略性新兴产业项目 具有技术创新优势的项目 [7] - 投资逻辑强调"四个不"原则:不追风 不搭车 不着急 不眼红 [8][15] AI大模型投资前景 - 头部大模型企业优势明显 从零开始的新模型机会有限 但改进型模型存在空间 [9][10] - DeepSeek未开放融资 其成功启发投资逻辑创新 证明技术路径多样性 [10] 政府与GP合作模式 - 政府资金占行业资金来源绝大多数 双方需磨合适应新要求 [12] - 城市发展AI需构建完整生态 非简单复制成功案例 [11] 中小企业发展环境 - 2025年政策环境向好 国家持续出台支持民营企业的法律政策 [13] - 创业者需强化核心竞争力 坚持专业深耕 适应市场变化 [13] 募资与退出策略 - 完成40亿元新基金募资 2025年探索天使基金 并购基金等新类型 [14] - 当前退出仍依赖IPO路径 并购基金和S基金发展受文化基因制约 [14] 文化消费投资机遇 - 国潮崛起体现文化自信 关注传统文化IP与现代科技融合项目 [15][16] - 消费是永恒主题 2025年将出现科技驱动的智能终端消费新形态 [18][19] 行业未来十年展望 - 投资机遇集中于科技创新领域:AI 生物科技 新能源 新材料及"卡脖子"技术突破 [16][17] - 成功机构需坚守价值投资 紧扣国家战略 管理规模达160亿元 [17] - 对2025年一级市场持乐观态度 关注市场波动中的策略适应性 [20]
Qwen3深夜炸场,阿里一口气放出8款大模型,性能超越DeepSeek R1,登顶开源王座
36氪· 2025-04-29 09:53
模型发布与性能 - 公司一次性开源8款混合推理模型,包括2款MOE模型(Qwen3-235B-A22B和Qwen3-30B-A3B)和6款Dense模型(Qwen3-32B至Qwen3-0.6B) [2][4][6] - 旗舰模型Qwen3-235B-A22B拥有2350亿参数,激活参数220亿,在ArenaHard测试(95.6分)接近Gemini2.5-Pro(96.4分),超越OpenAI o1(92.1分)和DeepSeek R1(93.2分) [2][3] - Qwen3-30B-A3B仅激活30亿参数(总参数300亿),性能却优于QwQ-32B,小模型Qwen3-4B达到Qwen2.5-72B水平 [5][6] 技术创新 - 国内首个支持"思考模式"(深度推理)和"非思考模式"(快速响应)的混合推理模型,可通过指令切换 [8][10] - 预训练数据量达36万亿token(Qwen2.5的两倍),支持119种语言,采用三阶段训练策略(S1:30T token基础训练,S2:5T token专业强化,S3:32K上下文扩展) [17][18][12] - 后训练采用四阶段流程:长链推理冷启动→强化学习→模式融合→通用能力强化,实现深度推理与快速响应平衡 [21][22] 行业影响 - 成为全球最大开源模型族群(累计200+模型,衍生模型超10万),超越Meta Llama系列 [24] - 专家混合模型(MoE)显存效率高,20-30B规模即可实现接近GPT-4的推理能力 [24] - GitHub发布后迅速获17.9k星,用户实测显示其在编程、数学和多语言处理(119种)表现优异 [24][25][28][30] 部署与应用 - 提供0.6B-32B多种规模选择,支持从笔记本测试到多卡集群扩展 [24] - 推荐使用SGLang/vLLM框架部署,本地支持Ollama/LMStudio等工具 [16] - 已上线Hugging Face/ModelScope/Kaggle等平台,普通用户可通过网页/APP直接体验 [13][14][15]
DeepSeek-R2发布在即,参数量翻倍,华为昇腾芯片利用率达82%!
搜狐财经· 2025-04-29 07:17
模型参数与架构 - DeepSeek-R2采用混合专家模型(MoE)架构,配备智能门控网络层以优化高负载推理任务性能 [5] - 模型总参数量达1.2万亿,较DeepSeek-R1(6710亿参数)提升约1倍 [5] - 规模对标ChatGPT的GPT-4 Turbo和谷歌Gemini 2.0 Pro [5] 硬件与算力效能 - 基于华为昇腾910B芯片集群训练,FP16精度下算力达512 PetaFLOPS,芯片利用率82% [7] - 昇腾910B集群算力达同规模A100集群的91%(华为实验室数据) [7] - 单位推理成本降至0.07美元/百万token,较GPT-4(0.27美元/百万token)下降97.4% [8] 供应链与生态合作 - 华为昇腾生态核心代工厂承接DeepSeek超算中心50%以上算力基建订单(拓维信息) [7] - 英博数科独家运营华北算力节点,储备3000P+AI算力(鸿博股份) [7] - 中科曙光提供国产液冷服务器集群,单机柜功率密度40kW [7] - 云暴智联为DeepSeek搭建政务大模型专用云,落地15个省级智慧城市项目 [7] - 新易盛CPO硅光方案通过验证,能耗降低35% [7] - 润建股份运维华南超算中心,年服务合同金额超5亿元 [7] - 中贝通信运维西北算力中心,储备1500P异构算力 [7] 国产化替代进展 - 昇腾910B集群降低对英伟达A100等海外芯片依赖 [10] - 华为昇腾910C芯片进入量产阶段,CloudMatrix 384超节点采用384颗910C芯片,或替代英伟达NVL72集群 [10]
阿里发布并开源模型Qwen3,成本仅为DeepSeek-R1的1/3
观察者网· 2025-04-29 03:27
4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的 1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等领先模型,登顶全球最强开源模型。 千问3是国内首个"混合推理模型",将"快思考"与"慢思考"集成进同一个模型,大大节省算力消耗。 根据官方的说法,千问3的旗舰版本 Qwen3-235B-A22B,在代码、数学、通用能力等基准测试中,达到 了与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 同一梯度的水平。 在奥数水平的 AIME25 测评中,Qwen3-235B-A22B 斩获 81.5 分,刷新了开源模型的纪录;在考察代码 能力的 LiveCodeBench 评测中,Qwen3-235B-A22B 突破 70 分,表现甚至超过 Grok 3;在评估模型人类 偏好对齐的 ArenaHard 测评中,Qwen3-235B-A22B 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。 | | Qwen3-235B-A22B | Qwen3-32B | OpenAl-o1 | Dee ...
阿里Qwen3性能超越DeepSeek-R1;美媒曝马斯克孩子数量远超14个;ChatGPT推出购物功能
观察者网· 2025-04-29 01:10
美股市场 - 美股三大指数收盘涨跌不一,道指涨0.28%,标普500指数涨0.06%,纳指跌0.1% [1] - 大型科技股互有涨跌,英特尔涨超2%,苹果、特斯拉、奈飞、Meta小幅上涨,英伟达跌超2%,微软、谷歌、亚马逊小幅下跌 [1] 人工智能与科技 - 阿里巴巴开源大模型Qwen3,性能超越DeepSeek-R1和OpenAI o1,采用MoE架构,总参数235B,8款混合推理模型全部开源并免费商用 [2] - OpenAI更新ChatGPT Search,新增电商功能,用户可通过自然语言搜索商品并直接购买,目前覆盖时尚、美妆、家居用品和电子产品 [7] - 苹果重组机器人团队至硬件部门,库克对AI进展不满,Siri团队移交VisionPro部门主管,AI主管JG团队将独立负责底层模型开发 [5][6] 航天与通信 - 亚马逊发射"柯伊伯计划"首批量产卫星,计划部署超3200颗近地轨道卫星,提供全球互联网服务 [7] 资本市场与融资 - 谷歌母公司Alphabet计划发售约40亿美元高等级公司债券,最长40年期债券收益率或比美国国债高1-1.05个百分点 [7] - 赛力斯申请港股主板上市,2024年收入1451亿元,同比增长305.5%,毛利率23.8%,成为全球第四家盈利的新能源车企 [9] - 石头科技考虑今年香港IPO,拟筹资至多5亿美元,目前处于初期阶段 [10] 机器人产业 - 北京亦庄等地方政府设立机器人产业基金,首期规模3亿元,全国已有超700亿元地方政府基金投向人形机器人产业链 [8] 互联网平台 - 抖音、美团、小红书等平台加速算法透明化,算法治理成为互联网企业2025年必修课,但透明化对部分商业模式构成挑战 [10]
阿里发布并开源千问3,称成本仅需DeepSeek-R1三分之一
第一财经· 2025-04-29 00:33
模型性能与架构 - 千问3是国内首个"混合推理模型",集成"快思考"与"慢思考"功能,参数量仅为DeepSeek-R1的1/3 [1] - 千问3采用混合专家(MoE)架构,总参数量235B,激活仅需22B,预训练数据量达36T [2] - 在ChatBot Arena等榜单中性能全面超越R1、OpenAI-o1等全球顶尖模型,登顶全球最强开源模型 [1] - 具体性能表现:ArenaHard 95.6、AIME'24 85.7、CodeForces Elo Rating 2056等指标领先竞品 [2] - 30B参数MoE模型实现10倍以上性能杠杆提升,仅激活3B就能实现上代Qwen2.5-32B模型性能 [3] 成本与部署优势 - 部署成本大幅下降,仅需4张H20即可部署千问3满血版,显存占用仅为DeepSeek-R1的三分之一 [1][3] - 所有千问3模型都是混合推理模型,API可按需设置"思考预算"灵活满足不同场景需求 [3] - 通过优化架构实现稳定且高效的"思考预算"控制能力,对简单需求可"秒回"答案 [2] 产品发布与开源 - 公司开源了2款30B、235B的MoE模型,以及6款密集模型(0.6B至32B) [3] - 用户可在魔搭社区、HuggingFace等平台下载商用,或通过阿里云百炼调用API服务 [4] - 个人用户可通过通义APP体验,夸克即将全线接入千问3 [4] 技术路线与发展规划 - 未来将通过优化架构和训练方法扩展数据规模、增加模型大小、延长上下文长度 [4] - 计划拓宽模态范围并利用环境反馈推进强化学习以进行长周期推理 [4] - 团队表示Qwen3是通往AGI和ASI旅程中的重要里程碑,正过渡到以训练Agent为中心的时代 [4]
阿里开源千问3模型 成本仅需DeepSeek-R1三分之一
21世纪经济报道· 2025-04-29 00:24
阿里通义千问3模型发布 - 阿里开源新一代通义千问模型Qwen3,参数量235B,激活仅需22B,成本大幅下降,性能全面超越DeepSeek-R1、OpenAI-o1等全球顶尖模型 [1] - 千问3是国内首个"混合推理模型",集成"快思考"与"慢思考",对简单需求可低算力"秒回"答案,对复杂问题可多步骤"深度思考",大大节省算力消耗 [1] - 千问3采用混合专家(MoE)架构,预训练数据量达36T,并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中 [1] 性能表现 - 千问3在AIME25测评中斩获81.5分,刷新开源纪录;在LiveCodeBench评测中突破70分,表现超过Grok3;在ArenaHard测评中以95.6分超越OpenAI-o1及DeepSeek-R1 [2] - 千问3仅需4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一 [2] - 千问3在BFCL评测中创下70.8的新高,超越Gemini2.5-Pro、OpenAI-o1等顶尖模型 [5] 模型版本与部署 - 千问3提供2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,每款模型均斩获同尺寸开源模型最佳性能 [4] - 千问3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能 [4] - 32B版本的千问3模型可跨级超越Qwen2.5-72B性能 [4] - 4B模型适合手机端,8B可在电脑和汽车端侧部署,32B最受企业大规模部署欢迎 [4] 应用支持与开源 - 千问3原生支持MCP协议,具备强大的工具调用能力,结合Qwen-Agent框架可大大降低编码复杂性 [5] - 千问3系列模型采用Apache2.0协议开源,支持119多种语言,全球开发者、研究机构和企业可免费下载并商用 [5] - 阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个,已超越美国Llama [6] - 个人用户可通过通义APP体验千问3,夸克即将全线接入千问3 [6]
超越DeepSeek?巨头们不敢说的技术暗战
36氪· 2025-04-29 00:15
DeepSeek-R1模型技术突破 - 模型性能指标与OpenAI等领军企业产品相当甚至超越 计算资源需求较同类减少30% [1] - 独创分布式训练框架和动态量化技术使单位算力推理效能提升40% [1] - 多头潜注意力机制(MLA)实现内存占用降低50% 但开发复杂度显著增加 [2] MLA技术创新与挑战 - 键值矩阵存储密度提升18-23倍 4096 tokens上下文窗口内存占用量从96GB降至7.2GB(降幅92.5%) [4][5] - 非英伟达GPU部署需手动实现37%算子级优化 工程周期平均延长2.8周 [5] - RISC-V架构处理器运行MLA时推理延迟激增300% [6] 全球AI算力发展格局 - 全球AI算力支出占比从2016年9%升至2022年18% 预计2025年达25% [9] - 2022年全球智能算力规模451EFlops首次超越基础算力(440EFlops) 同比增速94.4% [10] - GPT-4单次训练消耗超2.5万块A100 GPU 相当于1200个美国家庭年用电量 [10] 算力市场竞争态势 - 美国科技巨头2023年AI算力投入占资本开支超60% 中国2022年AI算力支出增速38% [11] - 中美欧形成三足鼎立格局(美34% 中33% 欧17%) 竞争转向生态控制 [12] - 中国国产AI芯片良率仅达国际水平60% 先进制程代工依赖构成隐忧 [13] 新一代计算基础设施需求 - 需实现即插即用式替换 开发者仅需最小化修改即可部署各类系统 [15] - 要求自适应实时性能优化 硬件能动态调整资源配置维持峰值利用率 [16] - 必须突破传统架构桎梏 构建多层次算力矩阵应对指数级增长需求 [18] 中国算力产业发展 - 2024年全国算力总规模突破280EFLOPS 智能算力占比超30% [18] - 2025年中国智能算力预计突破千亿EFLOPS 2026年实现两年翻番 [19] - 推理算力年复合增速将达训练算力四倍 推动形成三位一体算力生态 [20]