Workflow
Large Language Model
icon
搜索文档
一招缓解LLM偏科!调整训练集组成,“秘方”在此 | 上交大&上海AI Lab等
量子位· 2025-06-10 07:35
核心观点 - 上海交大与上海AI Lab联合团队提出的IDEAL方法通过科学调整SFT训练集组成,显著缓解LLM多任务训练中的"偏科"现象,提升模型综合性能 [3][4] - 该方法基于数学建模量化不同领域数据对最终性能的影响,优化训练集配比,而非简单增加弱势领域数据量 [4][5] - 实验显示IDEAL使Llama 3.1-8B原本较弱的代码能力获得明显提升,且在多个领域benchmark上均实现平均性能优化 [2][10][11] 方法原理 - **问题建模**:引入变量β显式建模训练集优化问题,目标是最小化验证集损失函数,公式包含参数二阶矩阵逆运算 [5][7] - **高效计算**:采用K-FAC理论近似简化Hessian矩阵逆运算,筛选模型"重要层"参数降低计算量,通过超参数m控制调整比例 [8] - **配比优化**:数据分布配比比数据量更关键,不当配比下增加数据量或训练epoch会放大负面冲突 [6][15] 实验结果 - **领域覆盖**:在4领域4 benchmark和5领域8 benchmark测试中,IDEAL均优于人工经验配比,验证其普适性 [11] - **参数选择**:超参数m推荐值为0.15,过小影响优化效果,过大偏离原始分布 [15] - **对比基线**:相比DoReMi和DOGE等re-weighting方法,IDEAL在同等数据量下性能提升更显著 [15] 应用价值 - 自动化解决高质量多领域数据配比问题,替代人工经验调整,具有工程实用价值 [14] - 为LLM多任务训练提供理论框架,指导数据集的科学构建与优化 [4][5]
Concord Healthcare Announces Official Release of the Proton Therapy Large Model
Prnewswire· 2025-05-29 20:30
公司动态 - 和康医疗集团自主研发的质子治疗领域垂直大语言模型(LLM)正式发布并成功部署于广州和康肿瘤医院[1] - 该质子LLM是中国首个专注于质子治疗的LLM 整合了近10000例高质量放疗病例构建多模态医疗数据[2] - 质子治疗在广州和康肿瘤医院已完成多例高质量患者治疗案例 展现出精准治疗、显著疗效和减少副作用等突出优势[1] 技术进展 - 质子LLM研发依托和康医疗多年积累的肿瘤诊疗技术体系和海量数据 同时整合了质子中国及专业期刊文献数据以增强模型训练效果[2] - 质子治疗系统作为公司癌症医院配备的先进技术设备之一 体现了公司在精准放射治疗领域的技术实力[4] 资本市场 - 和康医疗集团H股已于2024年1月9日在港交所主板上市 股票代码2453HK[3] - 母公司Concord Medical Services Holdings Limited在纽约证券交易所上市 股票代码CCM[1] 业务模式 - 和康医疗通过自有医疗机构为癌症患者提供全周期肿瘤医疗服务 同时通过医疗设备/软件及相关服务为第三方医疗机构提供支持[5] - 自有医疗机构采用多学科专家团队和精准放射治疗技术 提供涵盖诊断/治疗/教育/预防的全方位肿瘤医疗服务[4][5] - 第三方服务包括医疗设备销售安装、软件服务、管理技术支持以及经营租赁等一体化肿瘤相关服务[5] 行业定位 - 公司致力于通过自有及合作医院网络提升中国癌症治疗的质量和可及性 专注于提供多学科癌症护理服务[4] - 作为特色肿瘤医疗服务提供商 业务涵盖癌症诊断/治疗/教育/预防全周期[4]
DeepSeek技术溯源及前沿探索报告
浙江大学· 2025-05-22 01:20
报告行业投资评级 未提及 报告的核心观点 报告围绕语言模型、Transformer、ChatGPT、DeepSeek和新一代智能体展开,介绍语言模型的目标、任务、编码方式及发展历程,阐述Transformer的理论架构和训练机制,分析ChatGPT的发展及能力,探讨DeepSeek的技术创新和全栈影响,还提及新一代智能体的构成和能力[6][32][87][107][132] 根据相关目录分别进行总结 语言模型 - 终极目标是计算任意词序列是一句话的概率,基本任务是编码让计算机理解人类语言,编码方式有One - hot Encoding和Word Embedding,Word Embedding用低维词向量表示词,能使相近向量对应物体含义相近,语言模型发展经历基于统计的N - gram、基于神经网络的LSTM/GRU和Transformer阶段,还有Encoder - Decoder框架用于解决Seq2Seq问题[6][9][13][22][24] - 自监督学习包括语言的Masked Langauge Modeling和图像的Masked AutoEncoders,训练transformer需要数据、模型和算力,如ChatGPT训练使用45TB数据、近1万亿个单词和数十亿行源代码,包含1750亿参数,训练门槛是1万张英伟达V100芯片、约10亿人民币[55][57][62] Transformer - 理论架构创新包括自注意力机制、多头注意力和前馈网络/位置编码/层归一化,其注意力机制在语言任务中捕捉单词间关系,在图像任务中进行图像特征抽取,是大模型的技术基座[32][34][37] ChatGPT - 大型语言模型发展历经多个阶段,GPT - 3是语言模型转折点,有1750亿参数和涌现能力,ChatGPT是人工智能的IPHONE时刻,其训练基于GPT - 3.5,使用人类反馈的强化学习和近端策略优化算法微调[76][78][82] - GPT - 3系列和GPT - 3.5系列通过代码训练和指令微调增强能力,ChatGPT触发翔实回应、公正回应、拒绝不当问题和拒绝知识范围外问题的能力,多模态模型发展有开源的Meta的LLaMA系列、GPT - 4v和GPT - 4o等,各有不同能力提升[84][88][91] DeepSeek - 推理模型从生成到推理重心转变,DeepSeek - V3/R1是专家模型、强化学习、开源且高效,其技术全景图包括DeepSeek - V3 Base、DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill阶段,采用动态路由机制和专家共享机制,有极致工程优化[107][108][113] - DeepSeek - V3对标GPT - 4o,DeepSeek - R1对标OpenAI - o1,通过不同阶段训练提升推理能力和全场景能力,DeepSeek - R1 - Distill模型基于低参数量通用模型微调,可大幅提升性能和压缩参数[111][117][120] - 带来全栈影响,涉及大模型应用层、中间层和基础模型层,应用于教育、医疗等多个领域[121][122] 新一代智能体 - 从LLM到Agent发展,新一代智能体= Agent + LLM,LLM是Agent大脑,核心能力是逻辑推理,具备规划技能、工具使用和记忆能力,还有时空型GPT驱动的闭环多智能体协同系统实现时空智能自主化构建[126][132][137]
Did Elon Musk Just Give Nvidia Investors 40 Billion Reasons to Cheer?
The Motley Fool· 2025-05-16 21:00
Elon Musk's AI start-up appears to be eyeing more Nvidia GPUs.When it comes to training generative AI models, Nvidia's (NVDA 0.28%) graphics processing units (GPUs) are hailed as the gold standard among industry experts. That's not exactly a novel conclusion considering the semiconductor powerhouse has amassed an estimated 90% or more of the GPU market.The more subtle idea here is how exactly Nvidia built such a gigantic lead over the competition. While it does not explicitly specify which companies buy its ...
Meta delays release of flagship ‘Behemoth' AI model as engineers struggle: report
New York Post· 2025-05-15 23:15
Meta Platforms延迟发布Behemoth AI模型 - 公司因技术能力问题推迟旗舰AI模型Behemoth的发布,工程师难以显著提升其性能[1] - 内部员工质疑该模型相比早期版本的改进是否足以支持公开发布[1] Behemoth模型发布时间线 - 最初计划在4月Meta首届AI开发者大会期间发布[2] - 后内部目标推迟至6月,现进一步延迟至秋季或更晚[2][3] 模型技术定位 - 公司称Behemoth为"全球最智能的LLM之一"及"迄今最强大模型"[3][5] - 该模型被设计用于指导公司新一代AI模型的训练[3] 同期其他模型发布 - 4月已发布Llama系列新版本Llama 4 Scout和Llama 4 Maverick[5]
Meta Reportedly Delays 'Behemoth' AI Model: What This Could Mean for Its AI Tools
CNET· 2025-05-15 22:18
Meta大型语言模型Behemoth发布推迟 - Meta推迟其大型语言模型Behemoth的发布时间至秋季 原计划4月发布以配合首届AI大会LlamaCon 后推迟至6月 现再次延期[1] - 推迟原因是工程师认为Behemoth相比已发布的Llama 4改进不足 不足以支撑6月发布[2] - Behemoth被描述为"全球最智能的LLM之一" 将作为新模型的训练基础[3] Meta的AI战略布局 - 公司目标是成为全球顶级AI供应商 已将AI深度整合至Facebook Instagram WhatsApp等应用 用于辅助写作和图片编辑[4] - 4月底推出独立Meta AI应用 包含Ray-Ban智能眼镜功能入口[4] 行业竞争态势 - 分析师认为延迟发布可能导致Meta在AI竞赛中进一步落后于OpenAI和谷歌[5] - AI技术发展竞争激烈 延迟可能使竞争对手取得更大领先优势[6]
Cerence(CRNC) - 2025 Q2 - Earnings Call Transcript
2025-05-07 22:02
财务数据和关键指标变化 - Q2营收7800万美元,超出7400 - 7700万美元的指引上限,预计本财年剩余时间无重大固定许可收入合同签署 [4][17] - 与去年同期相比,Q2营收增加1020万美元,主要因固定许可收入增加1110万美元,但专业服务收入减少有所抵消;受欧元兑美元汇率波动影响,营收受到负面影响,但对盈利能力无影响 [18] - Q2毛利率77%,超出74% - 76%的指引上限,技术收入在营收组合中的占比高于预期 [18] - 非GAAP运营费用为3410万美元,较去年同期的5000万美元减少1590万美元(32%),主要源于去年底的重组努力、研发招聘延迟、欧洲子公司运营成本降低以及国际税收抵免 [19] - 调整后EBITDA为2950万美元,超出1800 - 2200万美元的指引上限,较去年同期约30万美元的EBITDA亏损改善2980万美元 [20] - Q2净利润为2170万美元,去年同期净亏损2.78亿美元,去年同期记录了2.52亿美元的商誉减值费用 [20][21] - 本季度末现金及可交易证券为1.228亿美元,较上季度末增加1230万美元,源于本季度1310万美元的正自由现金流 [21] - 可变许可收入为2990万美元,较去年同期增加480万美元(19%),略高于预期;固定许可收入为2150万美元,去年同期为1040万美元;连接服务收入为1260万美元,较去年同期的1360万美元下降100万美元(7%),但去年同期记录了260万美元的收入调整 [21] - 专业服务收入同比下降约480万美元,降幅略高于预期,因解决方案标准化程度提高,部分OEM将集成工作内部化 [22] - 总调整后账单为2.24亿美元,过去12个月与去年持平;Q2总账单(包括专业服务)为7770万美元,与去年同期相当 [23] - 预估版税为3970万美元,与去年同期相当 [24] - 上季度固定许可合同的消费量为970万美元,较去年同期下降约33%,符合预期 [25] - 截至本季度末的过去12个月,全球汽车生产渗透率为51%;Q2搭载Cerence技术的汽车发货量为1160万辆,与去年同期持平,环比下降1.3%;Q2全球IHS汽车产量同比增长1.3%,环比下降10.9%;不包括中国,全球汽车产量同比下降3%,环比下降1% [25] - 使用公司连接服务的汽车产量在过去12个月内同比增长10%,反映出对联网汽车的需求增加 [26] - 过去12个月的平均每单位价格(PPU)为4.87美元,高于去年同期的4.51美元,主要受连接服务附加率提高推动,本季度29%的车辆已连接,去年同期为26% [27] - 五年积压订单指标目前约为9.6亿美元,与两个季度前持平 [28] - 预计Q3营收在5200 - 5600万美元之间,无重大固定许可收入;预计毛利率降至66% - 68%,净亏损在1000 - 1300万美元之间,调整后EBITDA在100 - 400万美元之间 [29] - 重申本财年营收指引在2.36 - 2.47亿美元之间,预计盈利能力和自由现金流将好于原预期;预计全年调整后EBITDA在2800 - 3400万美元之间,自由现金流在2500 - 3500万美元之间 [29][30] - 计划用手头现金偿还6010万美元的2025年可转换债券,之后预计本财年剩余时间现金余额保持在7000万美元以上 [30] 各条业务线数据和关键指标变化 - **许可业务**:可变许可收入增长,固定许可收入增加,预估版税与去年同期相当,上季度固定许可合同消费量下降 [21][24][25] - **连接服务业务**:收入略有下降,但使用连接服务的汽车产量增加,反映出对联网汽车的需求增加 [21][26] - **专业服务业务**:收入同比下降,因解决方案标准化和部分OEM内部化集成工作 [22] 各个市场数据和关键指标变化 - 全球汽车生产方面,截至本季度末的过去12个月渗透率为51%,Q2搭载Cerence技术的汽车发货量与去年同期持平但环比下降,全球IHS汽车产量同比增长但环比下降,不包括中国的全球汽车产量同比和环比均下降 [25] - 中国市场对全球汽车产量季度环比下降有较大影响,公司尚未真正向中国国内市场的OEM销售产品 [26] 公司战略和发展方向和行业竞争 - 尽管面临宏观挑战和不确定性,公司仍专注于未来,凭借技术创新、多元化客户群和深厚的汽车专业知识保持差异化 [5] - 与CodeFactory合作推出Voice Topping解决方案,将对话式AI应用于自助服务亭,预计在2026财年及以后对营收和盈利能力产生影响 [9] - 战略投资于IP保护,对三星、微软和Nuance提起诉讼,以保护公司的创新技术 [10] - 推进2025年的三个关键交付成果:继续开发Cerence XUI平台,实现市场推出并与客户合作展示,计划扩展功能和语言支持;与新老客户扩大业务,多个主要客户项目开始生产;继续进行转型和成本管理,改善现金流和盈利能力 [11][14][15] - 努力扩大与分销商的合作伙伴关系,以加强汽车业务 [8] - 加速业务多元化,探索非汽车领域的新垂直市场,如与CodeFactory合作的自助服务亭项目 [9][102] 管理层对经营环境和未来前景的评论 - 对Q2业绩感到满意,对全年前景充满信心,但认识到存在宏观风险和不确定性 [33] - 基于当前信息,相信能够实现Q3和2025财年的指引 [33] - 认为关税对本季度业绩影响有限,预计Q3影响仍将有限,但客户在定价和项目时间表上有压力,公司与客户合作优化合作关系 [6][7] - 看到消费者对AI功能的需求推动了PPU的增加和连接服务的增长,对业务发展持积极态度 [45] 其他重要信息 - 公司将参加5月29日的T.D. Cowan技术、媒体和电信会议以及6月10日的Evercore ISI全球汽车OEM、经销商和供应商会议 [4] - 幻灯片和新闻稿可在公司网站的投资者板块获取 [3] 总结问答环节所有的提问和回答 问题1:请解释账单减速至0%但联网汽车加速增长的原因,以及这些指标对未来轨迹的指示作用 - 公司整体销量符合预期,略有上升;联网率上升表明更多汽车在整体销量中实现联网,联网汽车发货时产生账单,但收入在订阅期内摊销,因此联网率增加是积极信号,未来收入有望增长 [36] 问题2:新连接收入增长,是否可以预期在Q3、Q4继续增长,是否有一次性因素 - 新连接收入增长8%,本季度确认的收入来自之前的账单摊销;基于过去的账单情况,预计未来连接收入将增加,但汽车销售、连接和收入确认之间存在时间差 [38][39] 问题3:AI对连接业务增长的驱动因素是什么,以及对PPU的影响 - AI已渗透到车辆中,无论是嵌入式还是连接式汽车。嵌入式车辆中,大语言模型可实现无需特定关键词的车辆控制;连接式汽车中,AI可实现外部信息查询等功能,这些都驱动了消费者需求、PPU增加和连接服务增长 [42][45] 问题4:宏观因素会在哪些方面影响公司业务 - 宏观因素可能体现在客户定价和行业整体销量上。部分OEM因成本压力要求降价,公司通过优化软件需求和提供更好价格来应对;销量方面,公司大量业务在海外,美国的关税和影响可能不完全直接反映在公司业绩上 [46][48] 问题5:维持2025财年指引不变,专业服务减少和技术收入增加的具体情况及原因 - 专业服务面临一定逆风,但技术收入增加主要来自连接业务的增长和许可业务量的提升,同时公司减少固定合同的签订,避免了折扣,提高了有效价格 [52][53][54] 问题6:与MediaTek合作的边缘解决方案中,MediaTek带来了什么 - 这是与NVIDIA、MediaTek的三方合作,NVIDIA和MediaTek合作开发适用于汽车的核心芯片(SoC),公司与他们合作集成软件,优化性能、降低成本,减少对专业服务的需求 [57][58] 问题7:对微软提起诉讼的目的是什么 - 目的是保护公司的知识产权,确保公司在技术开发上的投资得到保护,不涉及其他额外目标 [60][61] 问题8:PPU在未来12 - 24个月的走势如何 - PPU受多种因素影响,包括定价压力、技术采用率、整体销量和连接汽车数量等,存在正负因素,目前无法提供未来指引,但过去12个月呈积极趋势 [83][84] 问题9:对微软提起诉讼的原因,以及是否意味着微软开始与公司竞争 - 诉讼主要是为了保护公司的知识产权,目前处于活跃诉讼阶段,无法提供更多细节;公司与微软仍在业务上合作,诉讼是独立问题,不影响双方的技术合作 [87][89][90] 问题10:关税是否会增加公司产品的客户兴趣 - 难以将客户兴趣与关税直接联系起来,公司认为技术本身是吸引客户的关键,如在上海车展展示的多模态功能受到消费者和OEM的喜爱;如果公司需要提高价格,需要提供更多功能以满足客户需求 [96][98] 问题11:请介绍非汽车领域的机会和潜在收入时间 - 公司与CodeFactory合作将汽车领域的大语言模型技术应用于自助服务亭,通过合作伙伴进行市场推广,成本效益高;目前正在探索其他垂直市场,但仍处于初期阶段,预计在2026财年及以后对营收产生影响 [102][103][104]
被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
机器之心· 2025-05-01 02:11
核心观点 - 2015年发表的论文《End-To-End Memory Networks》虽被Transformer的光芒掩盖,但已包含当前大型语言模型(LLM)的核心要素,如多层注意力机制、位置嵌入等 [2][8][22] - 该论文被引量仅3000+,远低于Transformer论文的17万+,但其创新性被行业低估 [3][9] 技术突破 - **注意力机制创新**:首次完全用注意力替代RNN,引入带键值投影的点积软注意力,并堆叠多层注意力结构 [8] - **位置嵌入**:为解决注意力顺序不变性问题引入时间嵌入(现称位置嵌入),现已成为LLM标准技术 [18][22] - **推理能力验证**:首次证明多层软注意力可产生复杂推理能力,奠定现代AI架构基础 [13] 研究背景 - 研究始于2014年FAIR实习项目,受导师Rob Fergus推动探索记忆机制,基于Jason Weston团队《Memory Networks》改进 [16] - 使用bAbI任务基准测试,发现RNN在无序多事实查询任务中的缺陷,促使转向注意力机制 [16][18] 关键实验 - 2014-2015年冬季实验显示:采用点积软注意力的记忆网络性能显著优于基线,尤其在语言建模任务中击败LSTM [18][19] - 创新技术包括键值分离投影、时间嵌入添加随机噪声等 [18][19] 行业影响 - 论文预见性:10年前已实现无RNN的纯注意力语言模型,其多层注意力结构和位置嵌入现被GPT等主流模型采用 [22] - 后续发展:Meta团队2024年发布《Multi-Token Attention》论文,进一步优化长上下文处理能力,解决"大海捞针"类任务 [26] 对比研究 - Transformer的改进:引入前馈层、多头注意力等,但核心思想源于早期注意力机制研究 [25] - Bahdanau等人2015年论文《Neural Machine Translation by Jointly Learning to Align and Translate》被行业认为是最早提出注意力机制的论文,但关注度仅为Transformer的1% [12]
阿里Qwen3问鼎开源王座!8款模型全面开放,最大杯全方位超越R1/o1,网友:让开源再次伟大
量子位· 2025-04-28 23:25
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 千呼万唤,Qwen3终于来了! 一口气上新8大模型,通通开源。 旗舰模型Qwen3-235B-A22B全方位超越R1、o1、o3-mini,最大杯稠密模型也以32B参数量达到了可观水平。 | | Qwen3-235B-A22B | Qwen3-32B | OpenAl-o1 | Deepseek-R1 | Grok 3 Beta | Gemini2.5-Pro | Open Al-o3-mini | | --- | --- | --- | --- | --- | --- | --- | --- | | | MoE | Dense | 2024-12-17 | | Think | | Medium | | ArenaHard | 95.6 | 93.8 | 92.1 | 93.2 | - | 96.4 | 89.0 | | AIME'24 | 85.7 | 81.4 | 74.3 | 79.8 | 83.9 | 92.0 | 79.6 | | AIME'25 | 81.5 | 72.9 | 79.2 | 70.0 | 77.3 | 86.7 | 74.8 | ...
The Second Half:一位 OpenAI 科学家的 AI 下半场启示录
海外独角兽· 2025-04-17 06:26
AI发展阶段的划分 - AI发展已进入下半场,从单纯解决问题转向定义问题和评估模型效果 [6][7] - 上半场核心在于训练方法创新,如Transformer、AlexNet、GPT-3等模型突破 [9] - 上半场训练方法论文引用量远超benchmark论文,如Transformer引用16万次vs WMT'14的1300次 [9][11] 强化学习(RL)的突破 - RL获得泛化能力,能同时处理软件工程、创意写作、数学问题等多样化任务 [8] - RL三大要素中,先验知识(priors)重要性超过算法和环境 [13][14][15] - 语言模型pre-training为RL提供了关键先验知识,但直接应用于控制领域效果不佳 [20][21] AI有效配方 - 核心配方包含:大规模语言预训练、算力数据扩展、推理与行动理念 [12] - 语言通过agent reasoning实现泛化,如ReAct框架结合推理与行动 [25][26] - 环境设计重要性凸显,OpenAI曾开发Gym、World of Bits等标准化RL环境 [18][19] 评估方法的转变 - 传统i.i.d评估假设与现实不符,需开发考虑长期记忆和连续任务的评估方式 [30] - 自动评估假设被质疑,真实人机交互评估如Chatbot Arena更具现实意义 [28][30] - 效用问题成为关键,AI需从攻克benchmark转向创造实际经济价值 [28][30] 行业影响与趋势 - 通用配方使渐进式改进价值降低,5%专项优化可能不如30%的通用模型提升 [26][28] - 下半场将催生万亿级公司,通过智能产品化实现商业价值 [30] - 行业需重新思考问题定义,产品经理类技能将更受重视 [7][28]