Workflow
大语言模型
icon
搜索文档
四月游戏收入同比增长超20%,游戏ETF(516010)涨超3%
每日经济新闻· 2025-06-03 03:01
中国游戏市场规模 - 2025年4月中国游戏市场规模达273.51亿元,同比增长21.93% [1] - 移动游戏同比增长28.41%,出海收入同比增长9.62% [1] Deepseek R1技术进展 - R1在AIME2024和LiveCodeBench测试中超越o3和Gemini 2.5 Pro,较旧版提升15% [1] - 推理能力蒸馏至Qwen3-8B小模型,数学测试结果较蒸馏前高10% [1] - 文字理解和创作能力提升:改写润色、总结摘要、阅读理解的幻觉率降低45%-50%,长篇写作和角色扮演能力增长明显 [1] 人工智能与游戏行业结合 - 人工智能持续发展有望提振游戏板块,游戏是成熟的人工智能应用领域 [1] - 大语言模型可能催生新玩法,例如剧本编写:通过提纲生成剧本并优化调优 [1] - 未来或通过大语言模型赋予游戏人物独立人格,使其在虚拟世界中自主行动 [1]
西南财经大学百年校庆中外大学校长论坛举行,百余所国内外知名高校校长齐聚成都 共议智能时代高等教育未来
四川日报· 2025-06-02 01:21
观点分享 ●要坚持自信自立、守正创新和开放合作,建设"大有可为""引领时代""多元包容"的高等财经教育 ●师生都面临着巨大挑战和知识更新,中国高等教育必须更加主动拥抱数字化浪潮,推进人才培养 模式深度变革 诺贝尔经济学奖得主菲利普·迪布韦克认为,目前大语言模型(ChatGPT、DeepSeek等)极大地改 变了人类工作、学习方式。"AI把结果无过滤地告诉人类,它的内容并非完全有效,人类要能发现它的 弱点,并学会使用它,这就需要背景知识、批判性思维和使用实践。"菲利普·迪布韦克说,只有兼具知 识与思辨能力,师生才能更好理解和运用新技术,应对未来不确定性。 "数字化转型不仅仅是技术。"英国剑桥大学原副校长、英国皇家工程院院士大卫·卡德维尔说,大 学必须发挥领导作用,也必须相互交流、学习。 "人工智能实现知识实时传播、快速零成本复制,以及现有知识最优组合随手可得,但没有改变我 们对知识的应用、理解和创新。"在厦门大学校长张宗益看来,教育领域长期存在"个性化、高质量、大 规模"三元悖论,数智化技术以精准适配推动个性化教育,以智慧延伸推动高质量教育,以生态共享推 动规模化教育,正在重构高等教育底层逻辑,但必须警惕创新思 ...
揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘
量子位· 2025-06-01 03:40
大语言模型隐私风险与机器遗忘技术 - 大语言模型(LLMs)能力提升的同时面临隐私风险,训练中敏感信息可能被模型"记住" [1] - 机器遗忘(Machine Unlearning)技术旨在选择性抹除特定知识而不影响整体能力 [2] 遗忘机制的核心发现 - 研究团队首次区分"可逆性遗忘"与"灾难性不可逆遗忘",揭示遗忘需多网络层协同大幅扰动 [2] - 高敏感区域(如输出logits)轻微更新仅改变行为表现,内部表示结构保持完整 [2] - 真正的遗忘是结构性抹除,仅token输出变化而内部结构未变则可能快速恢复 [3] 表示空间分析工具 - 开发统一表示层分析工具箱,支持诊断LLM在Unlearning/Relearning/Finetuning过程的内在变化 [2] - 工具包含PCA Similarity/Shift、CKA相似性分析、Fisher信息矩阵(FIM)三类指标 [6][10][13] - PCA分析显示可逆性遗忘的主方向高度恢复,不可逆性遗忘呈现广泛漂移 [9][10] 实验验证与数据表现 - 在Yi-6B模型上验证:可逆遗忘场景下Relearning后准确率快速恢复,不可逆场景结构严重扰动 [6] - 持续遗忘(如100条请求)比单次操作风险更高,GA/RLabel方法破坏性强,GA+KL/NPO稳定性更佳 [17] - Qwen2.5-7B复杂任务(MATH/GSM8K)实验显示可逆场景中Relearning后性能可超越初始状态 [16] 技术应用与潜在价值 - 不可逆遗忘伴随PCA主方向旋转、分布漂移、Fisher质量下降等结构性变化 [18] - 部分场景中Unlearning可能带来隐式增强效果,Relearning后表现优于原始状态 [19] - 结构诊断工具(PCA/CKA/FIM)可定位破坏位置,为可控安全遗忘机制奠定基础 [20]
函数向量对齐技术,让大模型持续学习不“失忆”丨ICLR 2025
量子位· 2025-05-30 05:01
大语言模型的灾难性遗忘研究 核心观点 - 大语言模型(LLMs)的灾难性遗忘本质是功能激活偏差而非能力覆盖,表现为新任务学习时旧任务功能未被正确激活[1][2] - 函数向量(FVs)可作为量化遗忘现象的工具,其相似度与模型性能下降呈强相关性(R²=0.873)[26][27] - 提出的FVG训练方法通过正则化技术保留函数向量,在持续学习任务中显著提升模型通用能力[44][51] 遗忘现象特征 - 任务类型差异:生成任务序列导致的遗忘程度(如NI-Seq-G1使Llama3-8b通用任务性能下降10.7%)显著高于分类任务(4.48%)[11][20] - 模型依赖性:Llama2-7b在混合任务序列(NI-Seq-M1)中遗忘指数达4.69,而Mistral-7b同条件下仅4.95[11] - 动态可逆性:训练初期性能下降后可能出现恢复,表明部分遗忘能力可被重新激活[20] 函数向量机制 - 构建方法:通过干预前10个关键注意力头(layer-head)的平均激活值(CE值最高)求和获得[15][18][21] - 作用原理:函数向量偏移导致输入激活机制变化,而非旧功能被覆盖(相似度降低时性能下降30%+)[26][35] - 验证实验:插入旧任务函数向量可使被遗忘任务性能恢复83%以上[43] FVG训练方法 - 双重正则化: 1) 函数向量一致性损失(L2距离约束层头激活值变化)[44] 2) KL散度损失保持零样本与干预输出的概率分布对齐[46] - 优化目标:联合损失函数平衡系数λ₁=0.1,λ₂=0.01时效果最佳[48] - 实测效果:在SuperNI数据集上使上下文学习性能下降减少19.6%(对比基线)[11][51] 技术实现细节 - 实验设置:采用6种任务序列(生成/分类/混合)评估GP/IP/FP三大指标[10][11] - 模型对比:涵盖Llama2-7b/13b、Llama3-8b、Mistral-7b等主流架构[11] - 数据公开:代码及实验数据已在GitHub开源,论文获ICLR2025 oral收录[3][54]
大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI
机器之心· 2025-05-30 04:16
大模型智能体可用性瓶颈 - 当前大模型智能体应用主要集中在专业领域如代码生成、科研辅助等,在大众日常场景中普及率较低 [1] - 核心制约因素并非模型能力不足,而是Agentic ROI(投资回报率)未达实用化门槛 [1][3] - Agentic ROI衡量信息收益与使用成本比值,需同时满足信息质量阈值和成本节省比例要求 [4] Agentic ROI关键构成要素 - Information Quality:智能体生成信息的准确性和完整性 [5] - Human Time/Agent Time:人类与智能体完成任务的耗时对比 [5] - Interaction Time:用户与智能体交互过程的时间消耗 [5] - Expense:模型调用和API使用的经济成本 [5] 当前应用场景矛盾 - 高人力成本场景(如科研)因替代效应显著而ROI较高 [7] - 日常场景(如电商)因任务简单且交互成本低,智能体边际价值不明显 [7] - 额外交互成本和延迟导致日常场景Agentic ROI偏低 [7] 发展路径优化策略 - 采用「之字形」发展模式:先规模化提升信息质量,后轻量化降低使用成本 [8][9] - OpenAI模型系列(o1-mini到o3-mini)验证该路径有效性,新一代小模型在保持性能同时降低60%推理费用 [9] 规模化提升阶段 - 预训练规模化:扩大模型参数/数据量,扩展上下文窗口和记忆机制 [11] - 后训练规模化:通过用户反馈构建数据飞轮实现持续优化 [12] - 推理时规模化:构建多模态世界模型,支持复杂任务处理 [13] - 多智能体协作和工具调用扩展可提升任务分解能力 [15] 轻量化优化阶段 - 记忆机制复用历史知识减少重复计算 [18] - 模型压缩技术可降低50%推理延迟而不显著影响性能 [18] - 优化推理策略避免冗余链条,硬件升级(如Groq芯片)提升实时响应 [18] - 主动意图理解设计可降低30%用户交互时间 [18]
关于“思考”的思考
虎嗅· 2025-05-30 03:34
时常觉得自从深度学习和"大语言"模型出来以后,大多数人除了更加不爱深入思考了(毕竟即时的快乐和身临其境的 体验似乎更值得),也越来越不爱讲话了。语言文字似乎都有点"过时"了,容易变得词不达意,或者"说多了都是鸡 同鸭讲"。看着一些GenZ的朋友第一选择已经是用视觉语言和语音在传达,以及学习是直接跟随AI给的输出,是不是 现在只要一思考,人类也会发笑呢。 AI似乎把"思考"这项能力的成本压缩到了接近零,如果你不想主动思考,确实可以不需要。这对人和组织又意味着什 么呢?人又会如何走向完全不同的方向呢(分化与异化)?我们是不是确实在走进一个vibe everything"氛围"主导一切 的世界?还没有确切的答案。 今天分享的这篇文章来自Dustin Curtis的个人博客,他是一位设计师和投资者,在网上的信息并不多。 希望这篇文章有启发。 但现在,每当我脑中自然浮现出一个可能有趣的点子时,我只需随手打出几行粗糙的提示词,就能几乎立刻得到一个 逻辑完备、论证充分、表达流畅的成品想法(I can just shove a few sloppy words into a prompt and almost instant ...
谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍
机器之心· 2025-05-30 03:28
核心技术 - 分块 KV 缓存(Block-Wise KV Cache)通过双向缓存策略实现90%以上的激活重用率,显著减少重复计算 [6][12] - 置信度感知并行解码(Confidence-Aware Parallel Decoding)通过动态阈值筛选(如≥0.9置信度)确保生成逻辑连贯性,避免无效组合 [9][13] - 伪代码展示无需训练即可集成到现有扩散LLM(如LLaDA、Dream)的即插即用加速流程 [15][16] 性能突破 - 在LLaDA模型上实现27.6倍端到端加速,1024 token长文本生成耗时从266秒压缩至12秒,单步延迟从0.26秒降至0.09秒 [18] - GSM8K任务中保持76%准确率的同时实现8.1倍吞吐量提升,HumanEval代码生成任务准确率提升1.2%且吞吐量增加3.7倍 [21] - 主流基准测试中精度损失控制在2%以内,验证技术通用性(兼容LLaDA、Dream等模型) [19][21] 应用价值 - 零训练成本特性支持快速集成到现有系统,不改变模型架构或训练流程即可提升推理效率 [20] - 特别适用于长文本生成(如代码、数学推理)和实时交互场景,解决传统扩散模型推理效率瓶颈 [17][23] - 技术设计为非自回归模型提供新优化范式,有望推动扩散模型在工业级部署中的普及 [23]
2025国际人形机器人技能大赛召开 业内呼吁理性包容机器人行业“成长的烦恼”
证券时报网· 2025-05-29 14:07
2025张江具身智能开发者大会暨国际人形机器人技能大赛 - 大会以"具身智能,未来已来"为主题,设置5大赛道覆盖28个高难度场景,60余支顶尖队伍参赛,旨在展示人形机器人解决实际问题的能力 [1] - 赛事聚焦商超、药店、工业制造等真实场景任务,强调"解决实际问题"的实用导向 [1] - 上海浦东已集聚智元、傅利叶、开普勒等整机企业和50多家产业链企业,正在打造具身智能产业集聚区 [7] 人形机器人技术发展现状 - 当前机器人多依赖遥操作实现物料抓取,尚未实现全自主操作,离真正落地应用仍有距离 [2] - 机器人自主决策面临数据集缺失、算法创新不足、硬件自由度不足等挑战,相比大语言模型发展滞后 [3] - 行业硬件相对成熟但智能缺失是主要瓶颈,需打造端到端的具身大模型来理解物理世界规律 [4] 行业解决方案与创新 - 仿真合成数据可解决真实数据匮乏问题,具身智能训练阶段90%以上使用仿真数据,具有成本优势和场景多样性 [6] - 成立具身智能数据联盟聚焦服务、交通、医疗等领域数据,加速垂类场景发展 [8] - 建立"格物-致知"通用具身智能联合开发平台,推动技术标准统一和产业生态合作 [8] 政策支持与产业生态 - 浦东新区出台具身智能产业政策十六条,从技术创新、应用推广、场景示范等多层面提供支持 [7] - 启动人形机器人产业标准互认计划,首次建立统一标准规范,包括智能化分级依据、训练场建设指南等 [8] - 政府将开放更多超大城市场景,推动具身智能在制造业、服务业、社会治理等领域的应用 [7]
Linear-MoE:线性注意力遇上混合专家的开源实践
机器之心· 2025-05-29 11:38
大语言模型架构发展 - 近年来大语言模型领域的研究热点集中在取代Transformer的高效模型架构及预训练 主要包括线性序列建模和混合专家(MoE)两部分 但两者的结合研究较少 Linear-MoE架构的开源实现此前完全缺失 [1] - 近期广受好评的MiniMax-01模型(使用Lightning Attention-MoE)和腾讯混元TurboS模型(使用Mamba2-MoE)均属于Linear-MoE架构 [1] - 上海人工智能实验室团队最新成果Linear-MoE首次系统性地实现了线性序列建模与MoE的高效结合 并开源了完整技术框架 包括Modeling和Training两大部分 支持层间混合架构 [1] 线性序列建模技术进展 - 线性序列建模技术核心优势在于线性时间复杂度的训练和恒定内存占用的推理 主要分为线性注意力(Linear Attention) 状态空间模型(SSM)和线性RNN(Linear RNN)三大类 [5] - 代表性工作包括Lightning Attention GLA Mamba2 RWKV等 研究表明这些模型可通过统一的递归形式表达 反映出技术流派逐渐收敛至统一表达形式 [5] 混合专家(MoE)技术应用 - 国际上的GPT-4系列 Gemini系列 Claude系列以及国内的DeepSeek系列 Qwen系列 腾讯混元LLM 字节豆包 MiniMax-01 Moonshot-Kimi等都在All in MoE [8] Linear-MoE架构设计 - Linear-MoE支持线性序列建模层与MoE层的灵活组合 同时兼容传统Softmax Attention Transformer层 形成混合架构 [10] - 模块化架构包括LSM层(支持Lightning Attention Gated-DeltaNet Mamba2等方法)和MoE层(集成Qwen-MoE DeepSeek-MoE Mixtral-MoE等实现) [10] - 高效训练技术基于Megatron-Core框架开发 支持张量并行 流水线并行 专家并行 LASP和MegaBlocks等优化技术 [10] Linear-MoE性能验证 - 混合模型(线性+Softmax Attention)比纯线性模型表现出更稳定的训练曲线 [13] - 借助专家并行和MegaBlocks 系统在超大参数规模下仍保持高吞吐量 [13] - 线性模型推理速度比传统架构快2-5倍 内存占用降低50%以上 [13] - 在不同规模基准测试中 Linear-MoE展现出良好的性能线性增长 [13] 开源生态与未来方向 - Linear-MoE已全面开源 支持多种主流线性序列建模方法和MoE实现 填补了技术空白 提供可复现的高效训练方案 [13] - 未来将探索Linear-MoE在长上下文理解 Vision-Language模型架构中的应用潜力 [13]
重新理解Agent的边界与潜力:AI转型访谈录
36氪· 2025-05-29 10:53
行业趋势 - 2025年被业界称为"Agent元年",各类AI Agent产品快速涌现,但市场尚未形成统一定义[1] - AI Native公司正突破传统框架,探索Agent在商业洞察、创意生成、组织变革等领域的深层价值[1] - 大语言模型使模拟研究从群体行为转向个体层面,催生"生成式社会科学"新兴学科[13][15] 产品创新 - Atypica.ai通过大语言模型模拟真实用户行为,构建典型用户画像(Persona),解决无标准答案的商业问题[3][4] - 采用多智能体协同工作模式:一个Agent扮演专家采访其他模拟用户,实现高效低成本的大规模用户访谈[6][18] - 独创发散优先模型,允许AI生成非共识观点,适用于需要多元视角的商业问题[5][24] - 工作流程分三步:明确商业问题→生成典型用户画像→多Agent访谈并生成图文报告[17][18] 应用场景 - 解决四大商业问题:市场洞察(如新能源汽车需求分析)、产品共创、产品测试(如巧克力配方选择)、内容规划[19] - 支持跨语言商业分析,如外国企业直接获取中国社交媒体数据并生成本土化报告[20] - 与权威媒体合作整合严谨数据源,平衡社交媒体多元观点与事实准确性[22][23] 技术特点 - 基于大语言模型激发特定个性特征,通过Context控制模拟深度(从简短发帖到长篇访谈)[31] - 采用预设题库+动态提问机制,使问题更贴合用户需求[35] - 保留AI"幻觉"的积极价值,拓宽思维边界,特别适合民意调查等非共识场景[24][27] 组织变革 - AI推动工作方式从专业化分工转向复合型人才,公司架构向更少岗位、更多技能方向发展[40][41] - 开发周期从两周迭代缩短至单日多次迭代,小团队(2-3人)可独立负责端到端项目[43] - 企业需平衡数据安全、私有数据整合、深度分析、结果转化等需求[38] 产品战略 - 避免"老瓶装新酒"模式,主张"新瓶装新酒"(全新AI产品)或"新瓶装旧酒"(AI重构交互)[48][49] - 重点打造账号个性化(Personality),基于企业数据源进行内容再创造而非简单改编[53] - 开发反对型AI交互,突破大模型过度驯服的问题,增加观点多样性[56][58] 未来展望 - 多智能体交互可暴露人类决策盲区,辅助管理者获得新视角[59][60] - 虚拟Agent可能成为观察人类社会的"镜像",其形态发展尚难预测但潜力巨大[5][59] - 行业需探索基于AI能力重新设计工作流程,而非简单叠加Copilot功能[52][53]