模型蒸馏

搜索文档
前谷歌 CEO 施密特:AI 像电与火,这 10 年决定未来 100 年
36氪· 2025-09-24 01:27
2025 年,AI 世界正被无形的张力撕扯: "AI 的到来,在人类历史上,等同于火、电的发明。而接下来的 10 年,将决定未来 100 年的格局。" 他不是在讲模型性能,也不是 AGI 的远近,而是在说: 一边是模型参数的激增,一边是系统资源的极限。 大家都在问:GPT-5、Claude 4、Gemini 2.5 谁更强?但前谷歌 CEO Eric Schmidt (埃里克·施密特) 在 2025 年 9 月 20 日的公开演讲中提出了更深层的洞 察: AI 不再是提升工具效率,而是重新定义商业运作方式。 在这场对话里,Eric Schmidt 开门见山地说: "AI 的到来在人类历史中,和电、火的发明处于同一等级。" 他不是在强调 AI 有多聪明,而是在提醒大家:我们熟悉的工作方式、管理模式、赚钱方法,都可能要彻底改变。 不是让 AI 帮你写得更快, 而是让 AI 决定该怎么写。 与此同时,在硅谷知名投资机构 a16z 的一场对话中,芯片分析师 Dylan Patel 指出: "夸张的说,现在抢 GPU 就像抢'毒品'一样,你要托关系、找渠道、抢配额。但这不是重点,真正的竞争是谁能构建出支撑 AI 的一个 ...
核心模型被曝蒸馏DeepSeek?前女友一纸控诉,曝出欧版OpenAI塌房真相
36氪· 2025-08-18 12:12
核心观点 - Mistral AI被前员工指控通过蒸馏DeepSeek模型开发核心技术 但对外宣称是自主强化学习RL成果 并歪曲基准测试结果[1][3][7] - 公司因缺乏技术透明度陷入抄袭丑闻 引发行业广泛质疑[1][4][21] 技术争议 - 行业博主通过层次聚类分析发现Mistral-small-3.2与DeepSeek-v3的特征相似度极高[9][10][12] - 技术分析使用生物信息学工具基于slop特征谱生成谱系树 显示两模型在谱系图中位置接近[12][14] - Gemini Pro 2.5也被发现与DeepSeek-R1在角色一致性等表现上高度相似[17] 公司背景 - Mistral AI成立于2023年 由谷歌DeepMind和Meta前员工创建 定位为遵循欧洲模式的开源AI公司[29] - 公司成立7个月即发布两个SOTA开源大语言模型mistral-7b和mixtral 采用稀疏专家混合架构[34] - 2025年2月估值达62亿美元 被法国总统马克龙称为"法国人工智能产业皇冠瑰宝"[24][28] 融资与成本 - 公司以2200万美元成本开发出竞争性AI模型 对比OpenAI训练GPT-4超1亿美元成本[31] - 法国政府计划投资1090亿欧元支持AI产业发展 为Mistral等公司创造空间[33] 市场表现 - 旗下应用助手Le Chat曾登顶法国免费APP榜首[26] - 最新发布Mistral Medium 3.1宣称整体性能提升巨大 但引发广泛质疑[34][35] 行业技术观点 - 蒸馏技术是通过小模型模仿大模型输出实现 可使大模型适配低性能设备[20] - HuggingFace联合创始人认为蒸馏开源模型不违反开源原则[18] - 行业观点指出问题核心在于未标注模型蒸馏来源 而非蒸馏技术本身[19][21]
被曝蒸馏DeepSeek还造假!欧版OpenAI塌房了
猿大侠· 2025-08-15 04:11
公司争议事件 - 网友爆料Mistral离职员工群发邮件揭露公司多项黑幕,其中最劲爆的是Mistral最新模型疑似直接蒸馏自DeepSeek,却对外包装成强化学习成功案例并歪曲基准测试结果[2][3] - 早在6月就有博主通过"语言指纹"分析发现Mistral-small-3.2和DeepSeek-v3高度相似,而2月时网友还调侃DeepSeek是"中国的Mistral",半年后剧情反转[7][9][11] - 推特博主Sam Peach通过分析模型输出中过度使用的词汇模式(Slop),采用层次聚类方法生成相似性图,证实Mistral-small-3.2和DeepSeek-v3输出模式高度相似[13][14][16][17][18] 公司背景与市场地位 - Mistral被誉为欧洲版OpenAI,是全球开源明星玩家之一,模型性能一直备受好评[4][5] - 公司成立于2023年,base法国巴黎,由前Google DeepMind的Arthur Mensch和前Meta的Guillaume Lample与Timothée Lacroix联合创立[24] - 2024年6月完成由General Catalyst领投的6亿欧元(6.45亿美元)融资,估值达58亿欧元(62亿美元),排名全球第四(美国湾区外排名第一)[25] 业务与技术 - Mistral保持开源路线,今年开源模型包括轻量级模型Mistral Small和主打编程的Mistral Code等,在多语言处理和推理能力方面具备竞争力[27] - 推出自家聊天机器人LeChat,对标ChatGPT,内置深度研究模式、原生多语言推理和高级图像编辑等功能[28] - 就在争议爆发前一天,公司还发布了新模型Mistral Medium V3.1[29] 市场动态 - 2024年8月被曝估值达到100亿美元,且正在筹集新一轮10亿美元融资[25] - 在大模型市场中凭借开源、小快灵的特点占据独特地位[27]
数智科技大数据公司科研成果获IEEE国际学术会议收录
经济网· 2025-07-31 06:38
技术突破 - 公司提出基于分阶段渐进式训练和多层级注意力融合的蒸馏技术 有效提升模型蒸馏压缩时的知识迁移效率 [1] - 技术使径流时序预测模型算力消耗降低52% 推理速度提升40% 显著降低水电行业AI应用的硬件资源需求 [1] - 研究成果被AICSIP 2025国际学术会议收录 论文将进入IEEE Xplore核心数据库并提交EI Compendex与Scopus检索 [1][2] 行业应用 - 技术已成功应用于云上水电模型云平台 解决原始AI模型在企业级应用中参数量大、硬件要求高的问题 [1] - 通过模型蒸馏压缩显著提升人工智能技术在水电行业的应用水平 为行业智能化提供有力支撑 [1]
我在618主场,和3位顶尖技术博士聊了聊
量子位· 2025-06-18 07:49
618购物节技术升级 - 今年618购物节用户体验显著提升,商品推荐精准度提高、物流速度加快、智能客服更拟人化[1][2] - 技术改进聚焦实际应用而非概念炒作,支撑亿级用户流畅购物体验[3][4] - 京东618始于公司周年庆,通过限时秒杀等简单玩法吸引消费者,已持续二十余年[5][6] 零售技术突破 - 京东零售开发"同品判别系统",通过商品属性对比实现同类商品自动归类,提升比价效率[8][9] - 采用模型蒸馏技术解决7B大模型成本过高问题,将训练资源消耗降低40%-60%同时保持精度[12][13][16] - 创新数据筛选机制优先处理模糊样本,并开发自动数据配比算法提升多任务训练效率[16] 物流智能化实践 - 京东物流开发智能分区模型,结合快递员画像和小区特征优化末端配送效率[33][34] - 分拣中心部署具身智能机械臂,专注中小件包裹分拣码放单一场景,利用内部海量图像数据优化识别[36][38][39] - 建立样本识别失败快速反馈机制,形成模型训练闭环[40] 语音识别技术创新 - 语音识别系统已接入协同办公、智能客服等核心业务线,会议转写系统效果超越外部竞品[42][48][49] - 针对方言识别难题收集全国样本,采用MoE机制增强模型泛化能力[52] - 开发语音情感分析技术,通过语气波动判断用户意图倾向[52] 技术人才培养体系 - 京东推出TGT计划全球招募技术人才,提供无上限薪资和三导师制培养[57][59] - 公司拥有电商数据、物流网络等完整技术生态,支持从研究到规模部署的全链路实践[59] - 博士管培生项目提供业务导师指导,6个月基础培养后进入实战项目[46] 公司技术文化 - 京东技术风格强调踏实敢为,鼓励长期深耕业务实际问题[54][56] - 完整供应链体系带来独特技术挑战与机会,需在更大搜索空间寻优[22][23] - 技术人员可获得充分资源支持,验证期即获团队协作保障[20][47]