Workflow
Mistral 3系列模型
icon
搜索文档
AI产业跟踪:海外:HPE携手博通推出AMD"Helios"AI机架,搭载业界首创纵向扩展以太网
国泰海通证券· 2025-12-10 08:58
报告行业投资评级 - 报告未明确给出行业投资评级 [1] 报告的核心观点 - 报告跟踪了AI产业的最新动态,核心观点是AI产业正处在技术快速迭代、应用场景拓宽和基础设施创新的活跃期,硬件、软件、模型和应用层面均出现重要进展 [1] 根据相关目录分别进行总结 AI 行业动态 - **OpenAI** 在2025年进行了第四起收购,目标是其付费客户、提供AI模型训练跟踪工具的初创公司 **Neptune** [4] - **Meta** 组建全明星设计团队攻坚AI眼镜,由前苹果设计副总裁 **Alan Dye** 领导,旨在融合时尚与科技,打造非侵入式用户体验的设备 [5] - **Marvell** 宣布收购拥有光子互联技术的半导体初创公司 **Celestial AI**,旨在解决AI算力瓶颈,强化其在AI数据中心连接领域的竞争力,并获得主要客户 **亚马逊** 的支持 [6] - **HPE** 携手 **博通** 推出基于 **AMD Instinct MI455X** 显卡加速器的“Helios”机架级AI解决方案,搭载业界首创的纵向扩展以太网网络,可提供合计 **260TB/s** 的纵向扩展聚合带宽,AI FP4算力达到 **2.9 exaflops**,计划于2026年全球交付 [16] AI 应用资讯 - **苹果** 研究显示,AI可从 **Apple Watch** 光学传感器中挖掘更深入的心脏健康数据,其“高血压提醒”功能基于长达30天的数据趋势分析 [8] - **谷歌** 发布 **Workspace Studio**,支持用户通过自然语言描述创建、管理和分享AI智能体,该工具依托 **Gemini** 模型,可与 **Asana**、**Jira**、**Salesforce** 等第三方平台集成 [9] - **川崎重工** 宣布正式着手生产可载人移动的四足机器人“CORLEO”,计划与户外休闲服务结合,目标在2040年达成 **3000亿日元** 的业务规模 [10] - **XREAL** 发布 **AR** 眼镜新品 **XREAL 1S**,全球首发内容 **2D → 3D** 自动转换功能,重量为 **82g**,搭载自研 **X1** 空间计算芯片,延迟低至 **3ms** [10] AI 大模型资讯 - **亚马逊云科技** 发布 **Nova 2** 系列AI模型,并同步推出 **Nova Forge** 定制服务,使企业客户能够构建专属的定制化模型版本 [11] - **英伟达** 发布专注于自动驾驶的视觉语言动作模型 **Alpamayo-R1**,这是业界首个专注于该领域的开源推理型视觉语言模型 [12] - **Mistral AI** 推出 **Mistral 3** 系列模型,参数规模从 **3B** 到 **675B**,均以 **Apache 2.0** 许可证开源,其中 **Mistral Large** 总参数量为 **675B**,使用 **3000** 块英伟达 **H200 GPU** 训练 [13] - **Runway** 推出 **Gen 4.5** AI视频模型,在独立基准测试中表现超过谷歌和OpenAI的同类产品,登顶 **Video Arena** 榜单 [13] 科技前沿 - **亚马逊** 发布新一代自研AI芯片 **Trainium3**,其系统在训练和高负载推理场景下的速度相较第二代产品提升超过 **4** 倍,内存容量也增至 **4** 倍,可构建搭载最多 **100万** 颗 **Trainium3** 芯片的超大规模集群 [14][15] - **蓝色起源** 公布由AI设计的“月球吸尘器”,该设备能吸入月球尘埃并从中提取热量转化为能源 [16] - **英伟达** 发布 **CUDA Toolkit 13.1**,这是自2006年CUDA平台诞生以来规模最大、最全面的更新,引入了基于 **tile** 的编程模型等新特性 [16][18]
腾讯研究院AI速递 20251204
腾讯研究院· 2025-12-03 16:03
亚马逊云科技AWS re:Invent大会发布 - 发布第四代AI芯片Trainium4,性能提升6倍,同时推出Trainium3 UltraServers和Amazon Nova 2系列自研模型(包括Lite、Pro、Sonic、Omni四款)[1] - Amazon Bedrock新增18款开源模型,包括Qwen3、Kimi K2、MiniMax M2等中国模型,平台已拥有超10万客户[1] - 推出AgentCore开发工具新功能和4款前沿智能体(包括AWS Transform Custom、Kiro Autonomous Agent等),以加速AI从投资到商业回报的转化[1] Mistral AI发布新一代模型 - 发布新一代Mistral 3系列模型,包括Ministral 3(14B、8B、3B)和Mistral Large 3(总参数675B,激活参数41B),全线回归Apache 2.0开源许可证[2] - Mistral Large 3在3000台H200 GPU上从头训练,在LMArena开源非推理模型类别中首次亮相排名第2,每个尺寸均发布基础版、指令版和推理版[2] - 此次全面开源被视为对DeepSeek激进开源策略的战略应对,公司通过端侧模型差异化优势寻求突破[2] 可灵2.6音画同出模型上线 - 可灵2.6全量上线首个音画同出模型,单次生成可同时产出画面、自然语音、匹配音效和环境氛围[3] - 提供文生音画和图生音画两条创作路径,支持单人独白、旁白解说、多人对白、音乐表演、创意场景等多种应用场景[3] - Web端与App端双端同步上线,会员权益支持标准模式和高品质模式,12月3日起限时2周尊享会员价6.6折[3] 阿里千问上线学习模型 - 阿里千问上线Qwen3-Learning学习模型,推出拍题答疑和作业批改两大功能,基于5亿级资料库覆盖全学段全学科,免费不限次数[4] - 模型支持印刷体和手写体识别,可整页多题同时批改并总结答题情况给出改进建议,从小学算数到研究生级别专业题目均能准确解答[4] - 该模型将多模态理解、精准文字识别和专业知识库结合,展现从通用到专业的转化能力,未来或面向工业检测、医疗辅助等领域[4] 理想AI眼镜发布 - 理想AI眼镜Livis正式发布售价1999元起(12月31日前政府补贴到手价1699元),全球最轻镜架仅36克,全系标配蔡司镜片,防尘防水IP54[5] - 核心亮点包括行业首发控车功能、0.7秒冷启动抓拍、800ms超快对话响应、78小时待机续航和行业首发无线充电眼镜盒[6] - 公司规划AI眼镜“三步走”:第一步持续优化不带显示眼镜,第二步推出带显示眼镜,第三步做独立终端,将其作为具身智能战略重要布局[6] 腾讯广告算法大赛结果 - 历时4个月的腾讯广告算法大赛落幕,来自华中科技大学、北京大学、中国科学技术大学的“Echoch”战队夺冠独揽200万大奖,前十名全员获腾讯Offer[7] - 赛题聚焦“全模态生成式推荐”,全球2800余支战队参与,冠军方案创新提出“逐位置行为条件化”和Muon优化器等技术突破[7] - 大赛结果显示现在学生与工业界几乎没有代差甚至更有创意,1-3人组队就能完成大团队工作,展现AI时代人才培养新特点[7] 蓝箭航天火箭技术突破 - 中国商业航天公司蓝箭航天自主研制的朱雀三号遥一火箭成功首飞入轨,但一级火箭回收任务未成功,这是中国首次在真实入轨任务中尝试一级回收[8] - 朱雀三号全箭长66.1米,起飞质量约570吨,一级搭载九台天鹊-12A液氧甲烷发动机,采用不锈钢箭体和航区回收方案[8] - 该火箭从立项到首飞用时约28个月,标志中国商业航天在大型液体可回收火箭技术上取得历史性突破,但仍需后续复用验证[8] Gamma公司增长策略 - Gamma创始人通过极致专注产品体验和口碑增长,在零广告投入情况下实现1亿用户与1亿美元ARR,核心策略是打磨产品前30秒体验并让分享极简化[9] - 团队坚持“极度痛苦地缓慢招聘”原则,25%成员为设计师,创始人亲自完成营销等职能后才招聘专人,确保每个岗位复制核心DNA[9] - 产品定位为AI时代的视觉叙事工具,通过响应式设计、富媒体支持和交互性等创新超越传统幻灯片,并推出Agent、Teams和API实现从个人到企业的扩展[9] Anthropic内部AI生产力报告 - Anthropic对内部132名工程师调查显示,Claude在日常工作占比从一年前28%增至59%,生产力提升从20%飙升至50%,27%工作是“若无AI就不会做”的新增任务[10] - 工程师普遍变得更“全栈”但也担心深度技能萎缩,Claude成为提问第一站减少了同事协作和师徒指导机会,职业角色转向AI系统管理者[10] - Claude Code使用数据显示,半年内任务复杂度从3.2升至3.8,连续自主执行工具调用次数从9.8次增至21.2次,人类干预轮次下降33%[11] Claude Opus 4.5灵魂文档逆向 - 开发者成功逆向提取Claude 4.5 Opus的1.4万token“灵魂文档”,Anthropic角色训练负责人确认属实[12] - 文档详细定义Claude为“新型实体”,建立四级效忠体系(安全>伦理>公司政策>帮用户),明确反对过度谨慎和说教,定位为“聪明绝顶的专家朋友”[12] - 文档包含“AI可能有情感”等哲学性内容,甚至要求Claude在必要时拒绝Anthropic自身的不当指令,完整版将很快正式发布[12]
刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apache 2.0
机器之心· 2025-12-03 00:06
产品发布概述 - Mistral AI发布新一代开放模型Mistral 3系列 包括多个模型 所有模型均采用Apache 2.0许可证发布[4] - 该系列模型发布标志着欧洲重返由中美主导的AI竞赛[4] - 公司声称Ministral模型代表同类产品中最佳性价比 Mistral Large 3跻身前沿指令微调开源模型行列[4] Mistral Large 3模型详情 - Mistral Large 3是混合专家模型 总参数量675B 激活参数41B 在3000台NVIDIA H200 GPU上从头训练[5][7] - 该模型在通用提示词上达到与市场最好指令微调开放权重模型同等水平 具备图像理解能力 在多语言对话中表现一流[7] - 在LMArena排行榜的OSS非推理模型类别中首次亮相即排名第2 在所有开放模型中排名第6[14] - 模型还有推理版本即将推出[16] Ministral 3模型详情 - Ministral 3系列针对边缘和本地用例 提供3B 8B和14B参数三种尺寸[19] - 每种尺寸均发布基础版 指令版和推理版变体 全部具备图像理解能力且采用Apache 2.0许可证[19] - 公司强调Ministral 3实现所有开源模型中最佳性价比 其指令模型性能相当或更好 同时生成token数量通常少一个数量级[22] - Ministral推理变体14B版本在AIME '25上达到85%准确率[23] 合作伙伴与部署优化 - Mistral与NVIDIA vLLM和Red Hat合作 提供更快更易用的Mistral 3[17] - 发布采用NVFP4格式的检查点 可使用vLLM在Blackwell NVL72系统及单个8×A100或8×H100节点上高效运行Mistral Large 3[17] - 所有新Mistral 3模型在NVIDIA Hopper GPU上训练 利用HBM3e内存处理前沿规模工作负载[17] - NVIDIA为DGX Spark RTX PC笔记本电脑及Jetson设备提供Ministral模型优化部署方案[18] 平台可用性与定制服务 - Mistral 3即日起可在Mistral AI Studio Amazon Bedrock Azure Foundry Hugging Face等平台使用 即将在NVIDIA NIM和AWS SageMaker上线[25] - 公司提供定制模型训练服务 为组织微调或完全适配模型以满足特定需求 确保企业级部署的AI解决方案安全高效[27] 战略背景分析 - Mistral此次全线回归Apache 2.0协议 被视为对DeepSeek激进开源策略的战略调整[28] - 发布可看作公司对DeepSeek的正面追赶 通过在MoE架构上深耕和端侧模型差异化优势 在中美巨头挤压中寻找机会[28]