Workflow
小语言模型
icon
搜索文档
“小而美”语言模型正崛起
环球网资讯· 2025-09-11 02:10
行业趋势变化 - 大型语言模型进展乏善可陈 热度不及最新iPhone 17 [1] - 小型语言模型在企业中崛起 需求增速预计是大型语言模型的两倍 [1][2] - 企业更青睐行业数据微调的专业模型 因大型语言模型存在AI幻觉等问题导致用户疲劳 [2] 技术性能比较 - 小型语言模型参数通常在40亿甚至低于1亿 大型语言模型参数达数千亿 [2] - 训练方式改进使小型语言模型缩小与大型语言模型差距 例如英伟达9亿参数模型超过元公司40倍参数模型(40倍参数约360亿参数) [2] - 当前小型语言模型比去年大型模型更强大 [2] 应用场景优势 - 小型模型适合企业内部IT系统运行 以及智能手机、自动驾驶汽车等对能耗与速度敏感的设备 [1] - 人力资源聊天机器人等特定任务无需大型模型全知全能能力 [1] - 小型模型在AI代理中具优势 能以更低成本完成任务并支持多个专业模型组合替代单一大型模型 [3] 成本效益分析 - 小型语言模型成本低、易部署更经济高效 [1] - 重复可标准化任务可用小型模型完成 无需调用资源消耗巨大的大型模型 [2] - 小型模型可在更便宜芯片上运行 降低硬件成本 如万国商业机器公司Docling产品仅用2.5亿参数执行数据转化任务 [2] 市场策略调整 - 苹果等厂商未大举投资云端大型语言模型被视为明智决策 [1] - 大型语言模型仍主导ChatGPT等消费者应用 但企业与设备端AI可能更多采用小型语言模型 [3] - OpenAI内部使用不同规模模型 根据任务复杂度分配资源 [3]
英伟达最新研究:小模型才是智能体的未来
36氪· 2025-08-05 09:45
小语言模型(SLM)的优势 - SLM已足够强大,能处理AI智能体中大多数重复、专一的任务,且天生更适合智能体系统的架构,灵活且易集成 [3] - 从经济角度看,SLM更省钱、更高效,能大幅降低AI运行成本 [3] - SLM小巧,训练/微调成本低(几小时GPU就行),易适应新需求(如新法规),带来"民主化",让更多人能开发智能体,减少偏见,促进创新 [5] AI智能体市场的现状与问题 - 2024年AI智能体市场已达52亿美元,预计到2034年飙升至2000亿美元,企业中超过一半已经在用 [5] - 目前大多数AI智能体依赖LLM作为"大脑",但任务往往重复单一(如"检查邮件""生成报告"),用LLMs过于浪费资源 [5] - 智能体系统任务的特点使得小模型能更好的适配智能体生态,从而更有可能交付出更符合要求的结果 [5] SLM的技术特点与性能 - SLM能装进普通消费电子设备(如手机或笔记本),推理速度快,能实时服务一个用户的智能体请求,10亿参数以下的模型可以算是SLM [9] - 最前沿的小模型如Phi-3和Hymba,在工具使用、常识推理和指令遵循方面,性能足以媲美30B到70B的大模型,但在实际工作流中的计算量却降低了10-30倍 [11] - 英伟达测试发现:MetaGPT 60%的任务可用SLM取代,Open Operator 40%,Cradle(图形界面自动化)70% [11] SLM未被广泛采用的原因 - 路径依赖:大量资金(高达570亿美元)被投入了中心化的大模型基础设施,团队倾向于重复使用付费设置,短期内难以转变 [11] - 行业内对「大即是好」的偏见依然强烈,小型模型的研究一直在追逐用于大型模型的相同广泛基准,这些测试体现不出小模型在智能体任务上的优秀表现 [12] - SLM几乎没有GPT-4那样的热度,小模型也不像大模型那样经历营销热潮,许多构建者从未尝试过更便宜更合理的路线 [13] SLM的未来发展建议 - 收集梳理数据,针对特定任务微调SLM,把任务进行聚类并建立SLM的"技能" [13] - 智能体运行时自然产生的专精数据可用来微调SLM,形成良性循环,使得结果越来越好 [6] - 智能体系统天然异构利于混用模型,主智能体用LLM,子任务用SLM [5] 作者背景 - SHIZHE DIAO:先后就读于北京师范大学、香港科技大学,曾在UIUC做访问学者,字节AI LAB实习,2024年加入英伟达担任研究科学家 [15][17] - Xin Dong:博士毕业于哈佛大学,曾在腾讯、Meta等公司工作和实习,现为英伟达研究科学家 [20][22][24]
2025年AI在多个方面持续取得显著进展和突破
搜狐财经· 2025-06-23 07:19
多模态AI发展 - 多模态AI成为2025年AI领域关键趋势 能够处理和整合文本、图像、音频和视频等多种形式输入 [1] - OpenAI的GPT-4可从文本、音频和视觉输入生成文本 谷歌Gemini模型展示出色多模态能力 微软Designer应用利用多模态AI进行图形设计任务 [1] - 多模态AI在医疗保健领域可结合医疗图像和患者病史进行更准确诊断 在客户服务方面提供更直观全面支持 在内容创作上能根据单一提示生成多种媒体类型 [1] AI智能体演进 - AI智能体从简单聊天机器人向更智能、具有情境感知能力的助手转变 改变客户服务、生产力和用户交互方式 [3] - 智谱AI推出的智能体可替用户点外卖 能在无人工干预下完成跨应用程序、多步骤的真实任务 [3] - 2025年智能体将更加普及 能处理更复杂任务 为供应链经理、软件开发人员、金融分析师等提供支持 并有望革新自动驾驶领域 [3] 小语言模型(SLMs)崛起 - 2025年小语言模型(SLMs)快速发展并广泛采用 相比大型语言模型(LLMs)具有开发和实施成本低等优势 [3] - 微软Phi和Orca模型、GPT-4 o - mini、Claude 3.5 Haiku、Meta的Llama 2以及谷歌研究的更高效语言模型展示了SLMs潜力 [3] - SLMs使AI能力可应用于边缘设备和智能手机 为小型组织和研究人员提供更易获取的AI应用开发途径 并加快实时应用的推理时间 [3] AI4S推动科研变革 - 大模型引领的AI4S(AI for Science)成为推动科学研究范式变革的关键力量 [4] - 2025年多模态大模型进一步融入科学研究 帮助挖掘多维数据的复杂结构 为生物医学、气象、材料发现等基础与应用科学研究开辟新方向 [4] - 2024年诺贝尔物理学奖颁给机器学习先驱 化学奖颁给能预测蛋白质结构的AI开发者 凸显AI对推动科研的巨大贡献 [4] 具身智能发展 - 2025年被认为是"具身智能元年" 具身智能从本体扩展到具身脑 [4] - 行业格局上近百家具身初创企业可能迎来洗牌 技术路线上端到端模型不断迭代 小脑大模型的尝试有望取得突破 [4] - 商业变现方面会有更多工业场景应用具身智能 部分人形机器人迎来量产 如特斯拉的"擎天柱"有望在2025年实现小批量生产并投入使用 [4]
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
机器之心· 2025-06-04 04:41
强化学习对语言模型能力的影响 - 学界长期争论RL是否能真正提升语言模型的推理能力,还是仅优化已有知识的调用效率 [1] - 过去研究多持悲观态度,认为RL收益有限且可能导致模型同质化 [1] - NVIDIA研究指出问题根源在于基础模型训练数据中数学/编程任务过度呈现,以及RL训练步数不足 [1] ProRL框架的核心创新 - 将RL训练步数从传统几百步大幅提升至2000步以上,释放小模型潜力 [3] - 采用多样化可验证奖励任务,涵盖数学/编程/科学问答/逻辑谜题等多领域数据 [5] - 引入GRPO+DAPO算法组合,通过解耦裁剪和动态采样提升训练效率 [7] - 采用KL正则化+周期性策略重置机制,有效打破训练停滞 [8] ProRL的技术突破表现 - 在逻辑谜题任务中实现pass@k 100%的突破性表现 [6] - 创造力指标(Creativity Index)显著提升,模型能生成全新解题路径 [6] - 数学任务性能提升14.7%,代码生成领先同类1.5B模型6.5%,逻辑推理准确率提升54.8% [12] - 在基础模型表现较弱的任务上,RL展现出最强的"推理边界扩展"能力 [13] Nemotron-1.5B模型的性能优势 - 在AIME24/AIME25/AMC Math等数学测试中,1.5B模型性能接近7B大模型 [10] - 在apps/CC/cf等编程任务中表现优于同类1.5B模型 [10] - 在GPOA/IFEval/Reasoning等推理任务中大幅超越7B模型,部分指标提升超过50% [10] 研究结论与行业意义 - 长期稳定的RL训练能真正扩展模型能力边界,不仅是策略优化 [15] - 小模型通过ProRL可在复杂推理任务中超越大模型,不依赖更多数据或更大参数量 [16] - 该方法为开发高推理能力、低部署成本的小语言模型提供了新路径 [17]
智能体引领下一波AI浪潮 联发科“兵分三路”布局
21世纪经济报道· 2025-04-24 02:31
公司战略与产品布局 - 联发科针对智能体AI在手机等终端的新空间采取三路策略 涵盖芯片层 开发工具及生态建设[1] - 公司发布天玑9400+旗舰5G智能体AI移动芯片 采用第二代全大核架构设计 集成第八代AI处理器NPU 890[1] - 天玑9400+在智能体AI任务推理速度提升20% 并率先支持DeepSeek-R1推理模型及增强型推理解码技术(SpD+)[1] - 推出一站式可视化智能开发工具天玑开发工具集(Dimensity Development Studio)及天玑AI开发者套件2.0[1] - 天玑AI开发套件2.0支持DeepSeek四大关键技术 使token产生速度提升2倍 内存带宽占用量节省50%[2] - 联合阿里云通义千问 传音 面壁智能 摩托罗拉 OPPO 荣耀 vivo 微软 小米启动"天玑智能体化体验领航计划"[2] 财务表现与业务增长 - 2024年联发科全年营收达新台币5305.86亿元 同比增长22.4% 合并毛利率49.6% 同比增长1.8个百分点[2] - 营业利益同比增长42.6% 净利润同比增长38.8% 天玑旗舰芯片业务营收超预期达20亿美元[2] - 受益于AI需求 ASIC业务有望在2026年营收突破10亿美元[2] 行业技术趋势演变 - AI模型发展从"大规模参数为王"转向注重提升效率 小语言模型发展速度加快[3] - 手机采用4B小语言模型可实现良好效果 DeepSeek蒸馏模型推理能力适配手机端运行[3] - AI芯片朝异构计算 能效优化和多任务融合方向发展 训练与推理环节下沉至终端侧[5] - 终端侧算力发展满足本地算力 数据隐私 能源效率等多方面要求[5] 生态合作与行业挑战 - 当前AI手机体验存在碎片化问题 系统AI与第三方AI需打通整合[4] - 芯片厂商联合终端厂商和第三方应用厂商共同打造从系统级AI到智能体助手的整合体验[5] - 未来AI手机竞争焦点包括系统级AI能力 端云协同优化 开发生态完善与用户场景体验闭环[5] - 芯片厂商角色从硬件提供者转变为生态赋能者 需早期深度介入软件工具与生态构建[5]