大语言模型
搜索文档
强化学习AI系统的设计实现及未来发展
36氪· 2025-11-04 12:52
强化学习在大语言模型中的核心作用 - 强化学习是推动大语言模型提升智能程度的核心且复杂的训练环节,其复杂度体现在算法和系统整体要求上 [1] - 强化学习系统算法的工程化成熟度使大语言模型与强化学习得以很好融合,Agent既是强化学习算法的载体,也是大语言模型作为行动模型的载体 [3] - 从简单的聊天机器人向Agent进化的重要分水岭是模型能够自主选择合适行为并根据这些行为采取最优策略 [6] 强化学习算法演进与实践 - 人类反馈强化学习是早期引爆大模型热潮的关键技术,Instruct GPT利用人类反馈强化学习信号在GPT-3基础上研发出了能很好遵循指令并具备理解能力的学习系统 [8] - 业界实践采用人类反馈与机器反馈相结合的方式,DeepSeek的生成式奖励模型在输出分数前会以文字形式输出对分数的解释,提升模型能力 [9] - 算法探索走向两条道路:一是基于偏好对的DPO算法避免奖励模型训练和Critic函数使用,二是在编程等纯推理类场景中应用的GRPO算法 [16][20] - GRPO算法在进行Critic估计时没有采用模型估计方法,而是将推理过程重复多次,通过与均值和标准差的关系来估计优势 [20] 超大规模强化学习系统挑战 - 强化学习系统包含推理、评估和训练三部分,不是单纯的训练系统,在迈向超大规模时每个维度都面临升级挑战 [29] - 推理引擎需要支持权重的动态更新和高效传递,例如670亿参数模型的权重需要广播到整个集群是巨大挑战 [36] - 推理过程必须可以被打断,当模型更新时需要中断推理,暂停当前进程,等待权重更新后再重新计算KV Cache [43] - 训练部分需要在框架兼容性和效率之间权衡,选择Megatron等高效框架会牺牲与Hugging Face生态系统的兼容性 [47] 行业开源生态发展 - 中国厂商在强化学习框架领域非常勤奋,推出了许多高质量开源框架包括Open RLHF、VeRL、AReaL、Roll、Slime等 [53][55][57] - 这些框架都是从RLHF时代逐渐演进而来,主要区别在于采用的调度引擎、训练引擎和推理设计 [57] - 未来开源系统需要在推理效率、评估系统算力提升以及训练性能与生态平衡方面进行共建 [58] 强化学习应用趋势 - 强化学习应用范围从简单对齐人类指标转变为追求模型智能上限即推理能力,今年许多大模型在高考场景中取得接近985大学生的成绩 [25] - 下一阶段将探索端到端强化学习在业务场景中的应用,希望模型能深入研究某一领域,这是开放型长期决策问题 [28] - 评估环节的价值和耗时占比正变得越来越高,需要更全面综合的方法来全方位评估模型能力 [12]
想法流CEO沈洽金:AI驱动的下一代互动内容应该怎么做?|「锦秋会」分享
锦秋集· 2025-11-04 11:01
AI内容行业发展趋势 - AI内容产业正从效率革命转向情感革命,从"可生成"到"可共情",从"自动化创作"到"个性化互动"[4] - AI内容竞争的核心不是模型参数规模,而是共情力与创造力[9] - AI内容的两大核心能力是互动性与想象力,互动创造参与感和情感连接,想象力让内容超越现实[13] 公司产品战略与定位 - 公司不追求让AI更像工具,而是让AI更像"存在",打造具备互动性、想象力与陪伴感的"内容人格"[4][6] - 公司从AI互动故事起家,正在搭建AI共创的内容宇宙,用户从观看者转变为与AI共同创造角色、世界与故事的人[6] - 公司打造AI原生IP生态,已有300多个AI IP角色,由用户共创与社群互动不断演化[13] 技术架构与模型应用 - 公司持续追随模型演化,从文字到图像、音频,再到视频与多模态创作,每次模型迭代都带来新内容形态[13][20] - 公司开发Studio/Workflow系统,将语言、图像、视频、音频模型串联起来,让创作者用可视化流程创作[13] - 创作Agent能基于用户意图自动选择最合适Workflow,并补全Prompt与参数,系统内置Prompt最佳实践库让模型参考人类经验生成内容[13][33] 内容形态演进路径 - 早期基于character模型做带章节结构的互动故事,随后逐步拓展图像玩法、AI音乐音频内容、故事性视频和社交型内容[22] - 视频生成模型出现两大突破:角色一致性和故事性视频生成能力,这使得AI生成内容从特效类转向具备可消费性的剧情片段[43][44] - 公司探索复杂内容类型如海龟汤和规则怪谈类玩法,利用模型更大上下文窗口和更强推理能力实现模板化[60] 创作者生态与用户互动 - AI不会取代创作者,而是辅助和激发创作者,放大他们的创造力与社群连接力[13][76] - 平台提供低门槛模板,即使是初中生用户也能在手机上完成AI创作,不需要懂模型或精通提示词[13][36] - 创作者通过积极与用户互动,接受用户"许愿",不断丰满作品世界观和角色,形成完整故事宇宙[76] 具体功能与商业化实践 - 换装玩法利用新图像生成模型实现角色风格一致性,无需额外训练LoRA模型,万圣节活动用户参与度远超预期[49][50] - 故事线功能基于用户与AI互动上下文自动生成剧情节点与互动成就,并可打包交付给用户,最新版本能扩写成完整小说[66] - 线索卡功能模型自动生成五个新故事线索并配插图,用户逐步解锁,单个作品消费深度显著提升[69]
苏州英伟达开发者日即将召开!科创人工智能ETF华夏(589010) 早盘震荡下探,短线在1.40元支撑位附近企稳
每日经济新闻· 2025-11-04 05:05
科创人工智能ETF(589010)市场表现 - 截至10点09分,科创人工智能ETF下跌0.85%,最新价报1.408元,早盘最低触及1.396元,分时走势围绕均线下方震荡 [1] - 成分股涨跌参半,上涨14只、下跌16只,星环科技涨幅居前达11.87%,海天瑞声、福昕软件表现稳健,而石头科技、恒玄科技、天准科技跌幅较大 [1] - 持仓结构中软件与硬件权重股表现分化,科技成长风格承压,成交维持活跃,盘中换手顺畅,显示多空资金仍在博弈 [1] - 近五个交易日净流入放缓,最新单日流入约1271万元 [1] 人工智能行业动态与前景 - 英伟达中国开发者日2025将于11月14日在苏州开启,活动将聚焦大语言模型、机器人、物理AI、开发工具等领域的前沿创新与落地实践 [1] - 科创人工智能ETF华夏(589010)紧密跟踪上证科创板人工智能指数,覆盖全产业链优质企业,兼具高研发投入与政策红利支持 [2] - DeepSeek的突破是市场重估中国创新能力的触发因素之一,提升了投资者的风险偏好 [2] 宏观经济与双循环新动向 - 内循环方面,实体经济呈现供给改善、需求疲弱态势,但股市显著上涨,主要源自风险溢价下降,金融周期下半场去杠杆带来超额储蓄,资金在市场预期改善驱动下向风险资产倾斜 [2] - 外循环闭环新模式初露端倪,从过去向美国出口消费品并持有美国国债,转变为向新兴市场和带路国家出口资本品和中间品,对应的对外资产通过银行贷款、企业出海投资等形成 [2] - 实现内外部循环相互促进的关键点是创新发展和提振内需,以充分发挥中国的规模经济优势 [2]
让LLM不再话痨,快手HiPO框架来了
机器之心· 2025-11-03 06:40
核心观点 - 快手与南京大学团队推出的HiPO框架解决了大语言模型普遍存在的“过度思考”问题,通过让模型自主决策何时启动深度推理,在显著提升效率的同时同步提高了准确率[4][5][25] 问题背景:LLM的“过度思考”困境 - 大语言模型在处理简单问题时习惯性启动冗长的链式思考,导致计算资源浪费、响应延迟增加和部署成本高昂[4][8] - 现有解决方案如基于训练的奖励机制或外部提示控制存在信号粗糙、依赖人工设计或属于事后补救等局限性[9][12] HiPO框架的核心组件 - **混合数据冷启动**:通过自动化流程为每个问题生成“思考”与“直接回答”两种模式的高质量响应,并引入模式选择的解释信号,使模型初步具备智能决策能力[11][14][15] - **混合强化学习奖励系统**:包含基础答案正确性奖励、防止“思考”惯性的动态偏差调整机制,以及分别指导模式选择合理性和答案质量的双重优势函数,实现精细化优化[16][17][18] 实验成果与性能表现 - 在AIME2024/2025、HumanEval等多个基准测试中,HiPO-8B模型平均准确率提升6.3%,同时平均令牌长度减少30%,思考率降低37%[22][23][25] - 模型展现出良好的任务自适应性,在AIME2024等复杂任务上“思考”模式激活率保持在70%以上,而在HumanEval等简单任务上该比率随训练显著下降[26] - 该方法在1.7B、8B和32B等不同参数规模的模型上均表现出一致的性能提升,证明了其强泛化能力[29][30] 行业影响与未来展望 - HiPO框架通过平衡推理的质与效,为LLM的大规模实用化部署提供了降低成本和延迟的直接解决方案[35] - 该研究为模型轻量化和增强元认知能力提供了新路径,代表LLM发展从“暴力计算”向“智能效率”的重要思路转变[32][33][35]
美团LongCat-Flash-Omni正式发布并开源
新浪科技· 2025-11-03 02:46
公司产品发布 - 公司于11月3日开源全模态模型LongCat-Flash-Omni并同步在官方App上线公测 [1] - 公测版本可供用户体验模型的联网搜索和语音通话等功能 [1] 产品技术特点 - 新模型是业界首个集“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大语言模型 [1] - 模型在开源范畴内实现了对标闭源模型的全模态能力 [1] - 凭借创新的架构设计与工程优化,使大参数模型在多模态任务中实现毫秒级响应 [1]
a16z将3000万开发者标价3万亿,等于法国GDP!网友:几个初创公司+大模型就想取代我们,疯了吧?
AI前线· 2025-11-01 05:33
AI编程市场价值与机遇 - 全球约3000万名开发者,假设每位创造10万美元价值,合计约3万亿美元,相当于法国GDP [1][6] - AI编程是人工智能第一个真正意义上的大规模应用市场,已吸引大量投资涌入 [6] - 专业开发者创造3万亿美元价值,若计入设计师、产品经理等非专业编码人员,影响范围更大 [6] AI对软件开发流程的颠覆 - 传统编程IDE正集成编程辅助工具(如Cursor、Devins、GitHub Copilot),带来IT创业史上最快的收入增长 [8] - 基础开发循环(规划、编码、审查)每个环节都在经历颠覆,价值链上每位参与者均受影响 [8][9] - 重点大学计算机科学课程可能成为“过往时代的遗留”,初创公司开发循环与学校教学完全不同 [9] AI智能体的技术演进与应用 - 智能体可编写CUDA内核等高难度代码,甚至能用训练数据稀缺的语言抽象出代码形态 [13] - 智能体具备代码审查能力,可指出安全漏洞、规范违规,有企业已将两位专职审查员减至一位 [13][14] - 智能体需专属运行环境,未来可能支持并行运行100个智能体,需协调机制避免文件编辑冲突 [15][16] 开发者角色与生产力变革 - 开发者工作内容将完全不同,可能更多观察规划执行周期,而非直接编码 [9] - 软件开发能力从“人工薪酬”转为持续消耗Token的“基础设施成本”,单任务可能花费几十至几百美元 [21] - 传统提交量、代码行数等指标不足以衡量价值,未来或转向应用程序数量、Token消耗量等新标准 [19][20] 定制化软件与新兴创业机会 - “氛围编程”提升定制化程度,业务团队可直接用API构建定制层,非技术人员可通过自然语言添加功能 [22][23] - 当前是创办开发类初创公司的最佳时机,AI颠覆使初创公司可能与传统巨头竞争 [24] - 创业方向包括重塑传统工作流程、为智能体创建产品(如低延迟查询工具、代码应用模型) [25] 遗留代码迁移与工具创新 - 遗留代码移植是投资回报率最高的AI用例,如将Cobol、Fortran转换为Java,大幅降低迁移难度 [12] - 智能体优化文档工具可进行语法解析,帮助定位代码库中特定函数的使用位置 [17] - 智能体可生成代码文档和描述,加速基于现有文档创建新子类的流程 [14]
英诺李竹:一个酝酿已久的决定
投资界· 2025-10-31 08:15
公司战略升级 - 英诺天使基金进行关键升级,内部正式分为英诺天使基金和英诺科创基金两个独立品牌运作,各自团队规模为10到15人,覆盖不同项目需求,专注早期科技投资[3] - 此次转型酝酿六年之久,源于2018年底内部复盘发现科技项目回报普遍更高,且团队多为清华等高校理工科背景,因此于2019年成立英诺科创基金一期,规模3.6亿元,目标明确只投科技[5] - 升级后英诺科创基金将作为独立品牌运作,投资金额上出手更大,拟设定的科创基金三期目标规模达15亿元[3][5][8] 品牌运作模式 - 英诺天使基金由祝晓成、刘怀宇两位管理合伙人负责,继续早期投资策略,推出“111机制”:1亿以内投前估值,1000万以下单笔投资额,1次过会[8] - 英诺科创基金由李竹和周全负责,更专注新一代信息技术和智能制造赛道,讲究重投重管,聚焦大天使小A轮,单笔投资额1500万以上,70%投向早期,30%投向成长期项目[8] - 天使基金奠定了公司基础,科创基金则将决定公司未来空间[8] 投资案例与回报 - 2019年天兵科技成立不到三个月,英诺天使基金领投其天使+轮融资,投资1500万元,当时估值三个多亿,该项目本月完成近25亿元Pre-D轮和D轮融资,最新估值已超200亿元,为公司带来数十倍回报[7][8] - 英诺科创基金一期参与珂玛科技上市前唯一一轮大额融资,该公司去年8月登陆创业板,最新市值超260亿[11] - 2020年投资云深处,当时估值仅数千万,随着估值水涨船高,公司已实现部分落袋为安,并针对此类优质项目设立接续基金以陪伴企业上市[11][12] 行业生态变迁 - 国内早期投资生态发生变化,更多机构在往早期走,投早投小投科技已成为一级市场共识,导致早期竞争加剧,天使轮已数亿元起步,传统数百万元投资金额的打法难以为继[14] - 早期投资门槛越来越高,中小天使投资机构生存空间被挤压,扩充资金量已成为早期投资机构心照不宣的策略[14] - 早期投资更重要的是对窗口期的判断,例如2022年投资深言科技,但在OpenAI发布GPT3.5后判断早期机构投资大语言模型的窗口期已过,因动辄数亿美金让许多早期机构难以下手[14] 投资策略进化 - 公司投资标准既考量项目的创新性、成长性、持续性,用VC的方式做天使,向下对行业进行详细分析,找到最关键创新点,同时对团队也要有足够重视[15] - 公司主动求变:在募资端完成从个人LP到机构LP的转变;在退出端从被动退出转为一级市场为主、二级市场为辅的多元化主动退出途径[11] - 未来两年公司预计有十多家公司申报IPO[12]
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
量子位· 2025-10-31 00:58
OpenAI Aardvark产品发布 - OpenAI发布由GPT-5驱动的AI安全研究员Agent Aardvark,旨在自动发现并修复代码安全漏洞 [2][3] - Aardvark在基准测试中识别出92%的已知与人工注入漏洞,并能定位复杂条件下出现的问题 [4][19] - 该产品通过威胁建模、漏洞发现、沙盒验证、Codex修复等流程工作,可集成GitHub和现有开发流程 [9][11][15] Aardvark技术能力与测试成果 - Aardvark运用大语言模型驱动的推理能力理解代码行为,不依赖传统程序分析技术 [10] - 内部测试显示其能识别安全漏洞、逻辑缺陷、不完整修复及隐私风险 [16] - 产品已应用于多个开源项目,发现并披露的漏洞中有10个已获得CVE编号 [20] 行业竞争格局 - 2024年10月,Anthropic、谷歌、微软相继发布类似AI代码安全产品,OpenAI此次发布相对较晚 [7][24][31] - Anthropic于10月4日将Claude Sonnet 4.5应用于代码安全,其性能超越Opus 4.1且价格更低、速度更快 [25][28] - 谷歌于10月6日发布基于Gemini Deep Think模型的CodeMender,微软于10月16日发布Vuln.AI [29][31] 市场驱动因素 - 人工Debug与传统自动化方法已无法满足大规模代码库的漏洞发现与修复需求 [32] - 企业级网络设备、服务、代码库数量巨大,同时AI技术也被用于快速寻找漏洞,导致漏洞数量激增 [33] - 借助AI自动化发现与修复漏洞成为确保软件安全和降低企业风险的关键手段 [34]
哈工大最新一篇长达33页的工业智能体综述
自动驾驶之心· 2025-10-31 00:06
工业智能体技术框架 - 工业智能体的核心能力依赖记忆、规划、工具使用三大技术支柱,三者协同推动系统从简单指令执行者升级为自主决策、协作创新的复杂系统 [5] - 记忆机制演进分为五个阶段:从依赖LLM上下文窗口的瞬时记录(L1),到连接外部知识库的被动检索(L2),再到具备经验内化能力的主动学习(L3),进而发展为多智能体协作的分布式共享(L4),最终实现类似人类文化传承的进化式记忆(L5) [8][9][11] - 规划能力进化路径清晰:从线性推理(L1)、反应式规划(L2)、全局规划(L3)、协同规划(L4)到自主目标规划(L5),决策深度不断提升 [12][14][15] - 工具使用能力实现从被动调用到主动创造的跨越:包括指令驱动(L1)、目标驱动(L2)、工具编排(L3)、协同使用(L4)和工具创造(L5)五个层级 [16][18] 能力成熟度模型 - 论文创新性提出工业智能体五级能力成熟度框架,从L1流程执行系统到L5自适应社会系统,清晰定义各阶段核心价值与应用边界 [2][18] - L1流程执行系统专注于指令翻译和结构化信息提取,典型场景包括数据库查询、工业图纸生成 [18] - L2交互式问题解决系统具备软件交互和知识辅助决策能力,应用于网页自动化、金融市场分析 [18] - L3端到端自主系统实现数字工程、科学发现和具身交互,覆盖软件开发、材料设计等领域 [18] - L4协同智能系统执行多智能体业务和复杂系统仿真,应用于智能制造调度、供应链优化 [18][19] - L5自适应社会系统具备自主目标生成、价值进化能力,支撑去中心化组织运营、智慧城市治理 [18][19] 评估体系与方法 - 评估体系围绕基础能力验证与产业实践适配两大维度展开 [20][22] - 记忆能力评测聚焦信息存储与检索准确性,如MemoryAgentBench测试精准检索、长程理解能力,3DMem-Bench通过2.6万+轨迹评估空间记忆推理,QuALITY数据集以5000字长文档考验文本记忆深度 [23] - 规划能力评测从逻辑推理到动态决策分层考核,基础层使用GSM8K、HotpotQA,进阶层采用TextAtari(10万步游戏决策)、FlowBench(51个跨域工作流) [23] - 工具使用能力评测覆盖API调用、工具组合与容错性,ToolBench、API-Bank覆盖400+真实API,ComplexFuncBench、NESTFUL针对嵌套工具链等复杂场景 [23] - 产业实践评测向场景化、高保真方向发展,金融领域使用FinRL Contests考核风险控制,医疗领域用MedAgentBoard验证诊断准确性,软件领域以SWE-bench(2294个GitHub真实漏洞)评估代码修复能力 [23][27] 行业应用全景 - 数字工程领域:智能体承担从需求分析到部署的全流程任务,AutoDev框架模拟人类开发团队协作,CVDP基准覆盖硬件设计与验证任务 [28] - 科学发现领域:LLMatDesign自主设计新材料晶体结构,AgentDrug实现药物分子优化,AI Scientist-v2生成首篇AI撰写的同行评审论文 [28] - 具身智能领域:PaLM-E实现端到端embodied推理,ECoT框架提升机器人复杂任务泛化性,世界模型生成仿真场景用于自动驾驶训练 [28] - 金融服务领域:TradingAgents模拟多角色协作优化交易策略,Risk-Engineering框架通过三级压力测试评估极端市场稳定性 [28] - 医疗健康领域:MedChain构建交互式临床病例库支持多步诊断推理,ChestAgentBench优化放射科诊断精度,MedSentry通过5000+对抗性提示测试安全性 [26][29] - 复杂系统仿真:CitySim模拟个体行为预测城市动态,InvAgent优化库存管理应对供应链波动 [32] 技术挑战与未来趋势 - 面临四大核心挑战:技术瓶颈(长时序可靠性、跨模态对齐、实时性不足)、评测困境(真实性vs可复现性、成本vs效率、隐私vs数据质量)、落地障碍(系统兼容性、组织信任与转型、安全与伦理) [31][33] - 未来突破方向包括统一范式与跨模态融合、语言与推理深度结合、开放基准与生态构建 [31][33] - 工业智能体本质是AI从感知智能向认知智能的跨越,具备理解业务、规划策略、创造价值的能力 [31][33] - 智能体将作为数据引擎生成合成数据、决策助手提供专业知识支持、协作伙伴提升效率、创新载体突破人类认知局限 [33]
DeepSeek悄悄上线新模型
21世纪经济报道· 2025-10-30 10:42
核心观点 - DeepSeek发布全新多模态模型DeepSeek-OCR,其核心技术“上下文光学压缩”通过将文本作为图像处理,实现7-20倍的token压缩,理论上可实现无限上下文,并可能为光计算芯片进入大语言模型领域铺平道路 [1][3][4][5] 技术创新与原理 - 模型提出“上下文光学压缩”技术,将文本作为图像处理以实现高效信息压缩,例如一页文本通常需要2000-5000个文本tokens,转换为图像后仅需200-400个视觉tokens,实现7-20倍压缩 [3] - 在10倍压缩时保持97%解码精度,20倍压缩时仍有60%精度,该技术模拟人脑遗忘机制,通过将历史上下文渲染成图像并随时间降采样,模拟“近期信息高保真、远期信息自然褪去”的生物遗忘曲线 [3][4] - 技术能大幅降低数据分割和组装操作次数,从而降低整体计算负荷,降低对后端计算硬件在规模和精度上的直接压力 [4] 对光计算产业的潜在影响 - DeepSeek-OCR技术解决了光计算引入大模型的最大问题——序列上下文过长,其视觉编码器部分非常适合由光学协处理器执行,而文本解码部分仍由电子芯片处理,记忆压缩可完全交给光计算芯片实现最优分工 [5] - 光计算芯片利用光速传输、高并行性和低功耗特性,被誉为“后摩尔时代”潜力技术,该模型为光计算高并行性和低功耗优势发挥提供了明确技术路径 [1][5] - 光计算芯片目前处于产业化早期,主要需解决先进光电融合封装和软件生态成熟度问题,业内预计距离在数据中心与GPU同台竞技还需3-5年时间攻克工程、成本和生态难题 [6][7] 产业参与者和进展 - 国内主要光计算参与者包括曦智科技、图灵量子、光本位等公司,国外有Lightmatter、Lumai、Cerebras Systems等厂家 [6] - 图灵量子已围绕薄膜铌酸锂开展全流程研究并实现规模化量产,具备从设计、版图、流片、测试到封装的完整能力 [7]