Workflow
开源模型
icon
搜索文档
【昇腾全系列支持Qwen3】4月29日讯,据华为计算公众号,Qwen3于2025年4月29日发布并开源。此前昇腾MindSpeed和MindIE一直同步支持Qwen系列模型,此次Qwen3系列一经发布开源,即在MindSpeed和MindIE中开箱即用,实现Qwen3的0Day适配。
快讯· 2025-04-29 06:27
昇腾全系列支持Qwen3 - Qwen3于2025年4月29日发布并开源 [1] - 昇腾MindSpeed和MindIE此前已同步支持Qwen系列模型 [1] - Qwen3系列发布后立即在MindSpeed和MindIE中实现开箱即用 [1] - 昇腾全系列完成Qwen3的0Day适配 [1]
通义App全面上线千问3
快讯· 2025-04-29 03:13
通义千问开源模型Qwen3上线 - 阿里新一代通义千问开源模型Qwen3于4月29日全面上线通义App与通义网页版(tongyi.com) [1] - 用户可通过通义App和网页版中的专属智能体"千问大模型"及主对话页面体验该模型 [1] - 该模型被描述为全球最强开源模型,具备顶级智能能力 [1]
阿里巴巴,登顶全球开源模型!
证券时报· 2025-04-29 02:41
模型性能 - 千问3在GPQA、AIME24/25、LiveCodeBench等多个权威基准测试中全面超越R1、OpenAI-o1等全球顶尖模型,登顶全球开源模型 [1] - 在奥数水平的AIME25测评中获得81.5分,刷新开源纪录 [1] - 在LiveCodeBench测评中突破70分大关,表现超过Grok3 [1] - 在Arena Hard测评中以95.6分超越OpenAI-o1及DeepSeek-R1 [1] - 采用混合专家架构,总参数量为235B,激活参数量仅需22B [2] 技术亮点 - 国内首个"混合推理模型",集成"快思考"与"慢思考",可在思考模式与非思考模式之间无缝切换 [3] - 提供8款不同尺寸的模型版本,包含2款30B、235B的混合专家模型和6款稠密模型 [3] - 推理能力显著提升,在数学、代码生成和常识逻辑推理方面超越QwQ和Qwen2.5 instruct models [4] - 支持MCP协议,具备强大的工具调用能力,在BFCL评测中拿下70.8的新高 [5] - 旗舰模型部署成本仅为满血版R1的25%—35%,成本大降75%—65% [5] 开源与应用 - 采用宽松的Apache2.0协议开源,首次支持119多种语言 [6] - 已上线魔塔社区、HuggingFace、Github等平台,全球开发者可免费下载模型并商用 [6] - 个人用户可通过通义APP直接体验,夸克即将全线接入 [6] - 阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个 [7] - 超越Meta的Llama,成为全球第一开源模型 [7]
Meta,重磅发布!
证券时报· 2025-04-06 04:58
Meta推出Llama 4开源AI模型 - Meta发布Llama 4系列首批模型,包括Llama 4 Scout和Llama 4 Maverick两个版本,是公司迄今为止最先进的模型,也是同类产品中多模态性最强的模型 [1][5] - Llama 4是Llama系列模型中首批采用混合专家(MoE)架构的模型,与传统的稠密模型相比,MoE架构中单独的token只会激活全部参数中的一小部分,训练和推理的计算效率更高 [7] - Llama 4 Behemoth是Meta未来最强大的AI模型之一,总参数高达2万亿,作为对照,DeepSeek-R1总参数规模为6710亿 [8] Llama 4的技术特点 - 参数规模大:Llama 4 Scout共有16位"专家"、1090亿参数、170亿激活参数量;Llama 4 Maverick有128位"专家"、4000亿参数、170亿激活参数量;Llama 4 Behemoth具有2880亿激活参数量 [8] - 多模态能力突出:采用早期融合(Early Fusion)技术,可以用海量的无标签文本、图片和视频数据预训练模型,实现文本和视觉token无缝整合 [8] - 长文本能力突破:Llama 4 Scout模型支持高达1000万token的上下文窗口,刷新了开源模型的纪录,市场上其他领先模型如GPT-4o也未能达到此规模 [9] 开源模型竞争格局 - Meta是开源模型的重要奠基者,2023年开源Llama 2并免费商用,激活了开发者社区的创新潜力,基于Llama 2构建的应用项目数量大大增加 [11] - DeepSeek的崛起对Meta在开源模型社区的领先地位构成巨大冲击,仅用550万美元训练的DeepSeek-V3在基准测试中表现优于Llama模型 [12] - 阿里巴巴通义千问系列开源大模型也表现优异,阿里至今已向全球开源200多款模型,千问衍生模型数量突破10万,超越美国Llama系列 [12] 行业发展趋势 - OpenAI计划在几周后发布最新的推理模型o3和基座模型o4-mini,几个月后推出GPT-5 [13] - DeepSeek与清华大学研究团队联合发布重磅论文,提出两项核心技术,为提升大语言模型的推理能力提供新方法论 [13] - 大模型竞争进入推理强化和应用拓展的下半场,开源开放日益成为大模型的核心竞争力 [13]
速递|筹集400亿美元后,OpenAI宣布开源模型回归计划,推理能力模型即将面世
Z Potentials· 2025-04-01 03:49
开源模型发布计划 - 公司即将在未来数月推出自GPT-2以来首个具备推理能力的开源模型 [1][3] - 新开放模型能力类似于o3-mini 将根据准备框架评估后再发布 [2][3] - 计划举办全球开发者活动收集反馈 首场活动在旧金山举行随后扩展至欧洲和亚太 [4] 融资与基础设施投入 - 公司以3000亿美元估值完成400亿美元融资 为历史上最大私人融资之一 [1] - 180亿美元资金将用于Stargate项目 建设美国人工智能数据中心网络 [1] 开源战略调整 - CEO表示需调整开源策略 未来将推出更好模型但领先优势可能减弱 [5] - 面临开源竞争对手压力 如DeepSeek采用开放模型发布方式 [5] - 技术战略负责人透露今年将发布可自主部署的模型架构 [7] 行业竞争态势 - 开源生态崛起 Meta的Llama系列模型下载量突破10亿次 [6] - DeepSeek通过开源战略快速扩张全球用户版图 [6]
3D版DeepSeek卷起开源月:两大基础模型率先SOTA!又是VAST
量子位· 2025-03-28 10:01
3D生成模型技术突破 - VAST公司发布TripoSG和TripoSF两个基础3D生成模型,均刷新开源和闭源领域的SOTA性能[6][7][8] - TripoSG开源1.5B版本模型权重、推理代码及演示Demo,在质量、细节和保真度实现重大突破[14][15][16] - TripoSF采用阶段性开源策略,目前发布VAE预训练模型和推理代码,满血版将在Tripo 3.0开放[16][64] 技术创新亮点 - TripoSG首创将矫正流(RF)Transformer架构应用于3D生成,结合MoE层实现参数容量提升[21][22][24][25] - 开发基于SDFs的高精度VAE架构,引入混合监督训练策略提升几何表示质量[28][30][31] - TripoSF核心创新SparseFlex表示方法,支持1024³高分辨率训练,内存占用降低82%[48][49][54][57] - 构建200万高质量"图像-SDF"训练样本数据集,验证数据质量对性能的关键影响[32][34] 性能表现 - TripoSG在语义一致性上超越现有模型,能处理复杂拓扑结构和精细元素[35][37][43] - TripoSF在标准测试中实现82% Chamfer Distance降低和88% F-score提升[57] - 高分辨率版本(Ours1024)在Toys4k和Dora Benchmark上全面领先竞品[58] 开源战略布局 - 启动持续一个月的开源计划,每周发布新项目[10][13] - 后续将开源三维部件补全模型、绑定生成模型及SIGGRAPH Asia收录的交互式草图模型[66][67] - 此前已开源MV-Adapter多视图生成方案和MIDI单图3D场景创建技术[70][72][74][75] 行业影响 - 公司2024年发表数十篇论文,此前开源项目包括threestudio、Wonder3D等业界知名框架[80] - 被专业艺术工作者认可,成为3D生成领域国产代表企业[81][87] - 技术路线规划明确:从静态生成向动态交互演进,目标2025年底实现零门槛3D创作[83][84][85]
华尔街这是“约好了一起唱空”?巴克莱:现有AI算力似乎足以满足需求
硬AI· 2025-03-27 02:52
算力供需分析 - 2025年全球AI算力可支持15-220亿个AI Agent,足以满足欧美1亿多白领和10亿企业软件许可证需求 [3][4] - 2025年全球将有1570万个AI加速器在线,其中40%(630万个)用于推理,50%推理算力(310万个)专用于Agent/聊天机器人 [4] - 现有H100等效安装基数为1570万颗,其中60%(940万颗)用于训练,40%(630万颗)用于推理,50%推理芯片(310万颗)分配给Agent服务 [5] - 使用高效模型(如DeepSeek R1)可使行业容量提升15倍,企业正转向开源模型(如Mistral)降低成本 [6][11] - 表面算力充足但存在结构性缺口,需更多专用推理芯片和训练GPU转推理用途 [13] 市场机会与竞争格局 - AI Agent市场增长潜力巨大,低推理成本和开源模型是盈利关键 [8][9] - 高效推理成本结构和专注小型高效模型的公司更具竞争优势 [13] - 超级Agent产品(如GPT-5)单月消耗3560万Token,日查询44次,远超普通Agent的2.6次 [18] 模型经济效益对比 - OpenAI o1模型Agent年成本2400美元,DeepSeek R1仅88美元,后者用户容量是前者15倍 [15] - Agent单次查询生成1万Token(传统聊天机器人400个),推理成本增加25倍 [15] - 不同模型参数差异显著:GPT-5参数1.5万亿(活跃33%),DeepSeek R1参数671亿(活跃6%) [5] 技术发展趋势 - 行业需从基准测试转向实用Agent部署,关注单位经济学 [2][13] - 更便宜/小型高效模型(如DeepSeek风格)是未来需求方向 [13]
Z Potentials|沈振宇,一个潮玩公司如何做出世界第一的AIGC模型平台
Z Potentials· 2025-03-26 03:49
核心观点 - AI技术将像水电一样普及,未来所有公司都将成为AI公司,不再有AI与非AI公司的区别 [2][4] - 开源模型将主导未来AI发展,技术秘密正在加速流动,闭源模式难以长期维持技术壁垒 [1][12][13] - TensorArt通过构建"模型规模"和"创作者规模"双重护城河,已成为全球最大开源图像视频模型平台 [1][19][20] - AI行业分为三层:底层算力和基座模型、中层平台、上层应用,TensorArt选择专注平台层 [10] - 低价策略带来规模效应是核心商业哲学,TensorArt会员费仅9.9美元,算力价格比竞品便宜5倍 [17][29] 创业历程 - 创始人沈振宇北大计算机系毕业,曾创立图虫被字节收购,亲历字节崛起全过程 [3][6] - 第二次创业选择潮玩赛道切入年轻人兴趣社区,现已覆盖数十个品类数千个IP [5] - 从字节学到"以终为始"思维方式和组织建设方法论,影响后续所有决策 [6][7] - 创业动机包含商业和情怀双重因素,看好小众兴趣大众化趋势 [4][5] TensorArt战略 - 定位为AI模型托管平台和分享社区,目前用户超200万,模型超50万,日生成图片超200万张 [9] - 核心优势在于强大的推理功能、高性能低价格的算力服务、完善的创作者商业化机制 [17][18] - 视频生成领域布局积极,已是支持最多基座模型的视频生成平台 [22][23] - 商业模式以会员订阅为主,50%收入来自额外算力包,海外用户付费意愿显著高于国内 [24] - 明确不做自有模型,专注开源模型基础设施,已赞助多个流行开源模型训练 [16] AI行业洞察 - 单一大模型能力有限,需要大量微调模型解决细分场景问题 [2][12] - 技术壁垒难以长期维持,Transformer原理已可被普通大学生理解 [13] - 95%模型训练师不会写代码,普通人也能参与AI创新 [2][14] - ChatBot和当前Agent都不是AI应用的最终形态,未来交互将更碎片化 [4][25] - AI工作流将成为重要方向,通过组合多个模型解决复杂问题 [26][27] 商业理念 - 坚持"低价带来规模"策略,定价贴近成本,通过规模效应盈利 [29] - 全球市场定位明确,模型开发者追求全球影响力而非局限国内 [21] - 借鉴小米科技普惠理念,让更多人能使用AI技术 [29] - CEO需要克服ego干扰,保持冷静判断市场情绪 [28][32]
DeepSeek,上新!
证券时报· 2025-03-25 04:28
DeepSeek V3-0324模型升级 核心观点 - DeepSeek发布V3-0324模型,参数规模达6850亿,较前版6710亿小幅提升,优化性能与用户体验并采用更宽松的MIT开源协议 [1][2][3] 性能优化 - 未公布基准测试但用户反馈显示在复杂代码生成、数学求解、前端设计任务表现更优,代码能力提升显著,接近Anthropic Claude3.5/3.7 Sonnet水平 [2] - 示例:单提示即可生成完整市场网站,涵盖命名、主题设计等,被评价为"击败编码领域其他模型" [2] 交互改进 - 默认关闭"深度思考"模式以提升响应速度,适合快速迭代任务,API用户无需调整代码即可兼容 [2] - 多轮对话中自然语言表达能力增强,上下文理解与人类化表达改善,减少机械式回复 [3] 开源策略 - 采用MIT开源协议,允许自由下载、修改及商业集成,较初代V3更宽松,激发开发者社区关注 [3] 市场预期 - 分析认为V3-0324或为DeepSeek-R2基础模型,虽官方辟谣R2提前发布传闻,市场仍预期其5月推出 [3]
百度2024年财报解析:传统业务疲软,AI与智能驾驶能否撑起未来?
YOUNG财经 漾财经· 2025-03-11 11:10
2024年,百度在AI转型的关键一年交出了一份喜忧参半的财报。智能云业务逆势增长26%,文心一言调 用量激增33倍,转型成果初显。然而,传统广告业务持续承压,爱奇艺业绩表现不佳,整体 业绩略显疲 软。更值得关注的是,百度在AI领域的先发优势被DeepSeek等开源模型全面瓦解,这背后,除了战略失 误,或许还掩藏着组织内耗、人才流失等更深层次的困境。 然而,2024年行业格局骤变:异军突起的DeepSeek以极低的成本实现对标GPT-4的基准性 能,并用开源生态瓦解了传统大厂的技术壁垒,直接冲击百度的"生态闭环优势"。 此刻摆在百度面前的,是比财务数据更严峻的产业拷问:当年轻用户的搜索习惯向AI助手迁 移的背景下,其传统搜索业务是否还能继续造血?当国产大模型拥抱开源生态,其商业模式 百度2024年财报解析:传统业务疲软,AI与智能 驾驶能否撑起未来? 又该如何重构? 吴楠 2025年2月18日,百度交出2024年四季度及全年成绩单。 财报三大分化 从财报数据看,2024Q4公司实现营业收入341亿元,同比下降2%,Non-GAAP净利润为67亿 元,同比下降13%;2024年公司全年总收入为1331亿元,同比减 ...