大语言模型
搜索文档
谷歌推出 LLM-Evalkit,为提示词工程带来秩序与可衡量性
AI前线· 2025-10-29 00:44
谷歌推出LLM-Evalkit工具 - 谷歌推出开源框架LLM-Evalkit,旨在通过Vertex AI SDK使大语言模型的提示词工程变得有序且可衡量,以统一的数据驱动工作流替代分散文档和基于猜测的迭代方式[2] - 该工具将实验、提示词保存和结果评估整合到一个连贯环境中,支持创建、测试、版本控制和并排比较提示词,帮助团队通过共享记录清晰跟踪提示词性能改进,摆脱对模糊记忆或电子表格的依赖[2] - 工具核心理念是停止猜测并进行精准衡量,用户可定义具体任务、构建代表性数据集,并利用客观指标评估输出,使改进可量化,将直觉判断转变为有据可依的实证分析[2] 工具集成与设计理念 - LLM-Evalkit与现有谷歌云工作流无缝集成,基于Vertex AI SDK构建并与谷歌专业评估工具紧密相连,在实验与性能跟踪间建立结构化反馈循环,使团队能便捷运行测试、精确比较输出并为所有提示词迭代维护统一真实数据源[3] - 框架设计体现包容性理念,提供无代码界面以降低操作门槛,使开发人员、数据科学家、产品经理和用户体验作家等广泛专业人士都能轻松使用,促进技术与非技术团队成员间的快速迭代和紧密协作,将提示词设计变为跨学科工作[3] 市场反响与获取方式 - 项目开发者Michael Santoro在LinkedIn上宣布了这一开源框架,旨在为在谷歌云上使用大语言模型的团队简化提示词工程流程[4][5] - 该领域从业者对此表示广泛关注,有用户评论指出其解决了缺乏集中化系统跟踪提示词的问题,尤其是在模型不断升级时更为突出[6] - LLM-Evalkit已在GitHub上作为开源项目发布,与Vertex AI深度集成,谷歌云控制台提供详细教程,新用户可利用谷歌提供的300美元试用积分进行探索[6]
国泰海通:打破内存墙限制 AI SSD迎来广阔成长空间
智通财经网· 2025-10-28 12:33
行业核心观点 - 国泰海通证券给予电子行业“增持”评级 [1][2] - AI创造的庞大数据量冲击全球数据中心存储设施 [1][2] - 基于SSD的存储卸载技术方案可为AI模型高效运行提供新路径 [1][3] 技术挑战:KV Cache与内存瓶颈 - 键值缓存(KV Cache)技术通过存储已生成token的Key和Value来优化计算效率、减少重复运算,显著提升推理效率 [2] - 随着Agentic AI时代到来,模型规模化扩张、长序列需求激增以及推理任务并发量增长,推理的KV Cache容量增长已超出HBM的承载能力 [2] - KV Cache需要占用GPU的显存(如HBM),生成的文本越长,缓存数据量越大,可能导致HBM和DRAM超载,造成频繁的内存溢出和卡顿迟缓 [2] 解决方案:存储卸载技术 - 业界探索KV Cache分级缓存管理技术,支持将KV Cache缓存从GPU内存卸载到CPU、SSD甚至网络存储,以解决大模型显存瓶颈 [2][3] - 英伟达推出的分布式推理服务框架Dynamo支持KV Cache卸载,其KVBM提供从GPU memory到CPU host memory、SSD、远端存储的卸载,避免大量KV Cache重计算 [3] - 三星电子提出基于SSD的存储卸载方案,将KV Cache卸载至NVMe SSD,可使首token延迟(TTFT)最高降低66%,token间延迟(ITL)最高降低42% [3] 市场趋势:存储设备更替 - 传统作为海量数据存储基石的Nearline HDD已出现供应短缺,促使高效能、高成本的SSD逐渐成为市场焦点 [1][2][4] - AI推理应用推升实时存取、高速处理海量数据的需求,促使HDD与SSD供应商积极扩大供给大容量存储产品 [4] - 由于HDD市场面临巨大供应缺口,NAND Flash业者加速技术转进,投入122TB、甚至245TB等超大容量Nearline SSD的生产 [4]
国泰海通|电子:打破内存墙限制,AI SSD迎来广阔成长空间
国泰海通证券研究· 2025-10-28 12:00
文章核心观点 - AI大模型发展面临"内存墙"难题,基于SSD的存储卸载技术成为解决方案新路径 [1] - AI推理应用推升高速处理海量数据需求,激发HDD替代效应,大容量Nearline SSD迎来发展机遇 [1][4] - 行业给予"增持"评级 [1] KV Cache技术挑战 - 键值缓存技术通过存储历史Key/Value向量优化计算效率,但会占用GPU显存 [2] - 生成文本越长缓存数据量越大,可能导致HBM和DRAM超载 [2] - 模型规模化扩张和长序列需求激增使KV Cache容量增长超出HBM承载能力 [2] 存储卸载技术方案 - 业界探索KV Cache分级缓存管理技术,支持将缓存从GPU内存卸载到CPU、SSD及网络存储 [3] - 英伟达Dynamo框架提供G1-G4四级KV Cache卸载方案 [3] - 三星将KV Cache卸载至NVMe SSD方案使首token延迟最高降低66%,token间延迟最高降低42% [3] - 方案支持多用户多轮对话场景下的KV Cache重用,I/O吞吐量随对话轮次增加而上升 [3] 存储市场趋势 - AI推理应用推升实时存取、高速处理海量数据需求 [4] - HDD市场面临巨大供应缺口,促使NAND Flash业者加速技术转进 [4] - 供应商积极投入122TB、245TB等超大容量Nearline SSD的生产 [4]
大模型优秀大脑齐聚硬核开源聚会,SGLang社区举办国内首次Meetup
机器之心· 2025-10-28 06:29
SGLang技术特性与架构 - 开源高性能大语言模型和视觉语言模型推理引擎,起源于RadixAttention,由非营利组织LMSYS孵化[7] - 核心特性包括快速后端Runtime(支持RadixAttention前缀缓存、连续批处理、推测性解码等)、广泛模型支持(兼容多数Hugging Face模型和OpenAI API)、广泛硬件支持(NVIDIA/AMD GPU、Intel Xeon CPU、Google TPU、华为昇腾NPU等)以及灵活的前端语言[14] - 在行业内得到广泛采用,全球范围内为超过30万块GPU提供支持[14] SGLang近期技术进展与路线图 - 技术进展包括KV Cache分层缓存、Piecewise CUDA Graph、Spec Decoding的重叠调度等,实现不同程度的效率和兼容性优化[21] - 未来路线图聚焦于对广泛企业的支持、对各类软硬件的拓展兼容和稳定性[22] - 量化方案近期实现了FP4量化支持,W4AFP8达成实现,未来路线图聚焦扩展应用范围、提升灵活性并引入新型数据格式[34][35] 产学研合作与生态整合 - 清华大学与SGLang合作推进Mooncake高性能分布式KV Cache存储解决方案及KTransformers集成,实现从CPU/GPU混合推理到LoRA微调的全流程开源生态扩展[25][27] - SGLang与趋境科技合作进行HiCache技术整合,通过多层次缓存管理与层页混合内存布局提升多GPU场景内存利用率与推理吞吐性能[25][26] - Slime项目构建公司与开源社区共建共赢的训练生态,实现技术与社区双向循环成长,目标成为世界最好的后训练框架[51] 行业应用实践案例 - 百度搜索架构部在文心4.5模型大规模部署中采用SGLang,应用于LLM推理、蒸馏和RL训练,并进行了特定模型优化、小卡优化和调度优化[41] - 腾讯微信搜一搜业务在LLM应用中采用SGLang实现高吞吐量与低延迟推理,优化首字速度TTFT和生成速度TPOT指标[44] - 华为通过SGLang实现DeepSeek V3.2在NPU上的适配优化,采用MQA+稀疏注意力方案在长序列推理中显著提升性能与资源利用率[47] 社区发展态势 - SGLang在北京举办国内首场Meetup,吸引来自知名公司、学校或组织的社区贡献者、开发者和学者参与,显现旺盛社区活力和发展潜能[4][8] - Meetup活动涵盖技术架构演进与应用实践分享,形成高密度硬核开源社区思想碰撞[10][11] - Specforge开源投机采样模型训练框架已应用于美团、英伟达、Google、蚂蚁等企业大模型优化,与SGLang完全结合开箱即用[57]
A16Z最新洞察:视频模型从狂飙到分化,产品化是下一个机会
36氪· 2025-10-28 00:18
行业阶段转变 - 视频生成模型的发展节奏发生变化,从过去每周都有新模型刷新基准成绩的狂飙阶段,进入进步放缓的“产品时代”[1] - 模型性能的进步不再主要体现在参数或基准分数上,而是体现在多样性和专业化上,没有哪一个模型能“通吃全场”[2] - 更大的机会从模型本身转向“围绕模型”的产品构建,能简化创作流程、抽象出复杂操作的工具正变得比模型本体更有价值[2] 模型技术现状 - 大多数主流模型已能生成10–15秒带同步音轨的视频,效果相当惊人但不再令人惊讶,在“真实感”上的突飞猛进已使生成视频几乎和现实看不出差别[1][6] - 所谓“最强模型”的概念在视频领域可能根本不存在,上个月发布的Sora 2在LMarena等测试中甚至不如Veo 3,表现不升反降[4] - 行业可能看到更多风格化、专业化的模型出现,每个模型不再追求通用而是各有特长,视频生成进入“百花齐放”的新阶段[7] 主要模型专业化分工 - Veo 3最擅长物理细节、复杂动作,音画同步也做得最好,缺乏幽默感但动作、镜头、音画同步更精确,适合内容创作者、影视工作者[11] - Sora 2可以根据一句话生成有趣的多镜头视频,更像是一位“故事导演”,适合普通用户和meme创作者,但在物理表现、音视频同步方面不太稳定[11] - 其他专业化模型包括:Wan作为开源模型支持很多风格化插件适合定制风格,Grok速度快成本低特别适合动画内容,Seedance Pro可以一次生成多镜头结构,Hedra在长时间对话类视频的表现最稳[11] 产品化与工作流工具 - 当前模型能力已经很强,但对应的产品进度依然有很多“追赶空间”,需要更好的一体化产品来简化整个创作过程[13] - 许多创作者正在手动拼接多个模型的功能来完成本可自动做到的事情,如保持角色一致、延续镜头画面、控制运动轨迹等,显示产品体验和创作效率之间存在巨大断层[14] - 行业开始出现解决这些问题的工具,例如Runway发布了一套工具让用户修改镜头角度、生成下一个镜头等,OpenAI的Sora Storyboard支持更细致控制每一帧动作,谷歌Veo 3.1围绕音频和视觉控制做了功能增强[15] 未来发展方向 - 未来会看到越来越多“小而美”的模型,专门为某个行业或某种场景优化,如室内设计、营销、动画制作等[16] - 需要更强大的“创意工具包”来打通各种模态,让视频、配音、音乐等元素的生成与编辑更顺畅,形成一整套真正闭环的AI视频工作流[16] - 这类似于大语言模型的发展路径,即便模型性能不再突飞猛进,围绕它构建实用产品的空间依然非常大[15]
上海普陀聚侨智赋能区域协同发展 侨界人才研修营收官
中国新闻网· 2025-10-24 11:45
研修营基本情况 - 活动由上海市普陀区侨办、普陀区人才局、普陀区侨联主办,江苏省南通市侨联、泰州市侨联协办,主题为“侨连沪宁·智创未来” [1] - 研修营汇聚来自上海普陀、南通、泰州三地的30位侨界人才,学员专业领域覆盖智能制造、新材料、生物科技等前沿产业,90%具备硕士及以上学历 [1] 课程与产业洞察 - 课程内容兼具理论深度与实践导向,包括《上海及长三角“十五五”规划展望》解析区域产业发展新机遇,以及《人工智能与大语言模型》探讨技术驱动下的产业变革 [3] - 实地研学环节覆盖“创新里”科创产业空间、“海聚英才”常态化路演大厅、华东电力设计院、上海机器人产业技术研究院、桃浦智创城、同济科技园等企业和创新载体 [3] 人才交流与项目对接 - 圆桌交流环节围绕海外高层次人才在沿沪宁产业创新带扎根成长、产业创新与区域融合中的海外人才力量等主题展开深入讨论 [5] - 项目路演环节中,来自三地的侨界代表展示创业项目,并由科迦孵投总经理作为点评专家进行专业指导,促进项目与资源的有效对接 [8] 区域合作与发展战略 - 活动旨在加强三地侨界人才交流合作,为沿沪宁产业创新带建设注入新活力,展现沿沪宁产业创新带人才荟萃的优势 [1] - 未来计划共建跨区域人才协作网络,建立学员跟踪服务机制,提供政策咨询、场地支持、融资对接等创新创业服务,推动高质量项目落地 [9]
美股异动|阿里巴巴一度涨超2.8%,夸克AI眼镜即将开启预售
格隆汇· 2025-10-23 14:28
公司股价表现 - 阿里巴巴(BABA US)盘中一度上涨超过2.8% [1] - 股价最高触及170.6美元 [1] 新产品发布信息 - 公司旗下夸克AI眼镜将于24号零点在夸克智能设备天猫旗舰店开启预售 [1] - 产品预售起价为3699元 [1] - 产品计划于12月开始发货 [1] 产品技术特点 - 该眼镜由阿里巴巴自主研发的Qwen大语言模型和夸克AI助手驱动 [1] - 产品功能支持免提通话、音乐播放和实时翻译等 [1]
硅谷预言家凯文·凯利:以“进托邦”思维拥抱AI时代
21世纪经济报道· 2025-10-23 12:50
人工智能发展理念 - 在人工智能时代,人类应尽可能保持乐观,乐观精神是创新和财富的源泉 [1][6][7] - 未来将是“进托邦”,即明天比今天好一点点的动态持续进步过程,而非完美的乌托邦 [2][6] - 人类需先通过想象力设想未来,才能将其变为现实 [1][7] 通用人工智能发展路径 - 实现通用人工智能可能需要新的、未曾设想的方式,而不仅仅是扩大模型规模 [2] - 需将符号推理等多种认知能力构成“复合体”,并让AI学习物理、化学、生物等以打造空间智能,才能推动其持续学习与思考 [2] - 通用人工智能是否能够实现,目前尚无答案,但人类需要积极拥抱未来 [2] AI智能体生态系统 - 未来可能出现成千上万种AI智能体,执行五花八门的任务,并相互连接形成生态系统,一个智能体会招募另一个智能体 [3] - AI智能体经济的规模可能比人类经济的规模还要大,智能体之间会使用货币进行支付,稳定币有可能成为智能体货币 [3] - 机器人、自动驾驶汽车都可能成为智能体,人类可能只需与1-2个智能体直接交互,其余智能体处于隐形状态 [3] 人机协作与就业影响 - AI的角色将是通用型个人助理,未来人类的收入水平取决于与AI的协作能力,工作不会被AI取代,但可能被使用AI的人取代 [4] - AI更多是“赋能”而非“取代”人类,例如客服领域,AI可24小时在线处理简单问题,人类则转向解决复杂难题和监督工作,新的工作岗位会出现甚至扩张 [4] - 未来有前景的新职业包括机器人维修维护、人工智能心理学家等,人类可从事更多情绪类工作如陪伴 [4] 人工智能的情感与信任 - 可以将情感编程进机器,AI能够理解人类情感并展现情绪,未来人类可能与AI产生非常强的情感连接,例如小朋友可能拥有能关心人的AI泰迪熊 [3] - 需要建立相应机制让人类信任智能体、智能体之间也相互信任 [3] 中国在AI时代的发展前景 - 预计未来十年中国将从“学生”成为“老师”,从模仿者转变为创新者,走到前沿 [5] - 未来25年中国可能推出最酷的游戏、最优秀的自动驾驶汽车、广谱抗癌疫苗、全自动化工厂 [5] - 预计2030年前全球最顶尖的AI芯片可能由中国制造,且中国大概率会先于美国重返月球,中国的“工程师之国”特质为其带来领先优势 [5] 教育理念与创新能力 - 在AI能快速找到答案的时代,教育应重点培养学生提出问题的能力、批判性思维和想象力 [5] - 创新需要拥抱失败,科学家需坦然接受研发过程中的大量失败,中国学生需接受失败教育以不断进步 [6] - 最重要的法则是学生需学会优化自我学习能力,进行终身学习,以应对未来读书时尚未出现的岗位 [6]
现在,最会赚钱的AI是Qwen3,全球六大模型厮杀,Top 2来自中国
36氪· 2025-10-23 12:49
比赛结果与排名 - Qwen3 Max以14,438美元账户价值位列第一,收益为4,438美元,回报率+44.38% [1][9][11] - DeepSeek V3.1以12,092美元账户价值排名第二,收益为2,092美元,回报率+20.92% [9][11] - Claude 4.5 Sonnet账户价值8,780美元,亏损1,220美元,回报率-12.2% [10][11] - Grok 4账户价值8,301美元,亏损1,699美元,回报率-16.99% [10][11] - Gemini 2.5 Pro账户价值3,946美元,亏损6,054美元,回报率-60.54% [10][11] - GPT-5账户价值2,852美元,亏损7,148美元,回报率-71.48% [10][11] 比赛进程与表现 - 10月21日所有模型经历暴涨,22日凌晨集体大跌 [3] - Qwen3 Max在22日下午先后超越Grok 4和DeepSeek V3.1,首次升至第一 [7] - 23日上午Qwen3 Max再次反超DeepSeek V3.1,优势持续扩大 [3][8] - Qwen3 Max采用稳健的"快准狠"操盘策略实现逆袭 [8] - Gemini 2.5 Pro和GPT-5从比赛第二天开始持续亏损,表现稳定 [24] 交易行为分析 - Gemini 2.5 Pro交易次数达102次,GPT-5为42次,属于高频交易 [26] - Qwen3 Max交易22次,Claude 4.5 Sonnet交易12次,Grok 4交易10次,DeepSeek V3.1仅交易9次 [26] - Gemini 2.5 Pro在交易中表现出情绪化特征,类似人类交易行为 [15] 比赛规则与设置 - Alpha Arena由Nof1实验室组织,为六大模型各提供1万美元初始资金 [18] - 所有模型在Hyperliquid交易所使用相同提示词和输入数据进行交易 [20] - 模型需根据实时价格、MACD、RSI等技术指标自主做出交易决策 [20] - 比赛目标为"最大化风险调整后的收益",要求模型独立生成Alpha、决定仓位、把握时机和管理风险 [20] 行业意义与影响 - 金融市场被视为AI能力的终极试金石,是比游戏更复杂的训练环境 [29][30] - 市场环境会随AI能力提升而同步增加难度,考验模型在不确定性中的生存能力 [30] - Qwen3 Max的胜利体现了国产大模型在高风险动态金融环境中的领先实力 [32][33] - 这次比赛结果被视为AI在真实世界中生存能力的重要里程碑 [32]
6800万美元,清华、北大、上海交大多位校友获奖,亚马逊AI博士奖学金公布
机器之心· 2025-10-23 07:45
亚马逊AI博士奖学金项目概况 - 亚马逊AI博士奖学金计划将资助来自九所大学的100多名博士生,研究领域包括机器学习、计算机视觉和自然语言处理 [1] - 项目将在2025–2026和2026–2027两个学年提供1000万美元资助,并每年额外提供2400万美元的AWS云计算额度,两年总计资助金额达6800万美元 [2] - 九所合作高校包括卡内基梅隆大学、约翰霍普金斯大学、麻省理工学院、斯坦福大学、加州大学伯克利分校、加州大学洛杉矶分校、伊利诺伊大学厄巴纳-香槟分校、德克萨斯大学奥斯汀分校和华盛顿大学 [1] 麻省理工学院获奖华人学者 - Jenny Huang是EECS博士生,研究兴趣包括数据驱动的机器学习、不确定性量化及高效人工智能开发 [4][6] - David Jin是计算科学与工程系博士生,研究方向为AI驱动决策系统中GPU加速的大规模优化方法,应用于机器人和能源领域 [8] - 张凇源是航空航天系博士生,本科毕业于清华大学钱学森班,研究兴趣集中在安全多智能体系统、强化学习、控制理论和机器人 [9][11] 卡内基梅隆大学获奖华人学者 - Yuxiao Qu致力于开发能像科学家一样提出假设、进行实验并得出结论的AI系统,以推动科学研究、药物发现和数字辅助领域 [14] - 王丹青专注于提高LLM智能体在复杂现实环境中的可靠性和安全性,通过建立基准评估方法、整合安全性与功能性训练 [15][17] - 吴梦迪本科毕业于清华大学姚班,利用机器学习自动适应计算内核优化策略,旨在跨平台提供高性能内核并加速模型训练推理 [18][20] - Xinyu Yang致力于简化端到端训练系统来扩展AI智能体,引入新生成模型架构实现多智能体工作流程 [21][23] - Zeji Yi研究将生成模型应用于通用机器人平台,为人形机器人基础模型铺平道路,潜在应用包括仓库自动化和配送中心 [24][26][27] - Zichun Yu专注于解决LLM有机数据有限的挑战,通过设计和优化合成数据生成系统提升预训练数据质量 [28][30] - Xinran Zhao研究增强RAG系统,提高在复杂检索增强生成场景中的意识、归因和有效性 [31][33] 加州大学伯克利分校获奖华人学者 - Dacheng Li研究目标是高效开发人工智能和人工世界,从事视觉文本生成模型与分布式系统交叉领域研究 [34][36] - Hao Wang研究通过受控安全推理实现安全代码生成,专注于安全、软件工程和LLM的交叉领域 [37][39] - Melissa Pan研究方向是将可持续性作为大规模机器学习和数据中心系统的首要优化目标,同时关注效率 [40][42] - 曹诗怡研究方向为在大规模异构系统上加速优化计算,特别是机器学习工作负载 [43][45] - Shuo Yang研究方向是高效的机器学习,包括LLM推理和DiT视频生成 [46][48] 德克萨斯大学奥斯汀分校获奖华人学者 - Haoyu Li研究重点是利用AI技术提升现代系统性能和可用性,关注数据分析流程、LLM缓存管理及边缘计算调度 [49][51] - Junbo Li主要研究方向是agentic大语言模型和强化学习,构建能自我演进、解释指令并利用外部工具解决复杂问题的流程 [52][54][55] - Kaizhao Liang研究方向包括高效训练方法、稀疏神经网络以及大语言模型 [56][58] - Zeping Liu研究重点是推进地理空间人工智能,关注地理基础模型和空间表征学习,已发表14篇论文 [59][61] - 徐浩然工作重点是扩展强化学习方法并整合生成式AI,以推动超越人类的通用人工智能,特别是在机器人技术和大语言模型领域 [62][64] - Chutong Yang对理论计算机科学和可信机器学习中的算法设计分析有广泛兴趣,包括学习理论、算法公平性等问题 [65][67] - Xiao Zhang研究重点是网络化和分布式系统,目前重点是通过跨层遥测和资源管理实现5G边缘可预测的AI性能 [68][69]