Workflow
大语言模型(LLM)
icon
搜索文档
AI写综述,靠谱吗?
虎嗅· 2025-07-04 07:49
人工智能在科学文献综述中的应用进展 - 初创公司FutureHouse开发的人工智能系统PaperQA2能在几分钟内完成科学知识总结,准确度超过维基百科页面,并生成了约17000个人类基因的维基百科式条目 [1] - 基于人工智能的科学搜索引擎如Consensus和Elicit能通过查找、分类和总结出版物帮助撰写叙述性文献综述,但尚无法独立完成高质量的系统性综述 [2][4] - 南丹麦大学研究员Mushtaq Bilal开发的工具Research Kick和Scite系统能快速找出支持或反驳某个观点的文献并做出详细分析,显著提升文献综述效率 [4] 技术实现与挑战 - FutureHouse的PaperQA2系统通过搜索多个学术数据库并访问免费和付费论文全文来识别和总结最相关内容,但运行成本较高 [5] - Elicit和Consensus等工具只能搜索开放获取论文和摘要,无法检索付费墙后的全文,处理数百万篇全文需要极高计算成本 [5] - 系统性综述至少需要25个严谨步骤,目前人工智能工具如RobotSearch和RobotReviewer可辅助部分流程,但完全自动化仍需较长时间 [7][8] 性能评估与局限性 - FutureHouse团队测试显示,人工智能生成的文章出现"推理错误"的频率仅为人工撰写文章的一半,实现了"超人类水平科学知识综合" [6] - 人工智能科学搜索引擎的输出水平类似"赶工熬夜的本科生",建议仅用于优化综述特定环节而非独立完成 [4] - 生成式人工智能在阅读和评估论文方面表现良好,但在设计全面文献搜索等环节仍存在不足 [9] 行业发展趋势 - 国际系统性综述自动化协作组织致力于开发自动化工具,Evidence Review Accelerator网站提供多种工具以逐年缩短综述时间 [9] - 英国两家资助机构宣布投入超过7000万美元开发证据综合系统,推动非营利组织参与人工智能工具开发 [12] - 研究人员担忧人工智能可能导致更多低质量综述,但也可能通过快速检查文献提高工作水平 [10][11]
14%论文都有AI代写?Nature:每7篇就有1篇藏有ChatGPT特征词
量子位· 2025-07-04 07:02
LLM在学术写作中的使用现状 - 2024年PubMed上发表的150万篇生物医学研究摘要中,超过20万篇频繁出现LLM特征词,占比约14% [1] - 部分国家和学科中AI辅助写作比例已超过五分之一,且趋势持续上升 [3] - 自ChatGPT实现学术文本生成后,LLM被广泛融入论文写作流程,甚至出现合作撰写现象 [5] LLM的文本特征识别方法 - 研究团队分析2010-2024年1400万篇PubMed摘要,构建词汇二元矩阵计算超额使用指标 [10] - 2024年后"intricate"、"notably"等风格词超额使用,其中66%为动词(如"delving")、16%为形容词(如"crucial") [11] - 通过222个低频风格词+10个高频词组合计算,2024年论文中10%-11%摘要使用LLM,部分子库高达30% [13] 跨领域使用差异 - 计算领域和生物信息学等学科LLM使用率达20%,因技术迭代快需快速掌握新技术 [16] - 非英语国家(如中国、韩国)LLM辅助英语写作使用率15%,显著高于英语国家 [16] - 开放获取期刊《Sensors》LLM使用率24%,而《Nature》《Science》等顶刊仅6%-8% [16] 人为干预对特征词的影响 - 2024年4月起"delve"、"intricate"等ChatGPT特征词使用频率显著下降 [23] - 实验显示提示词干预可降低LLM特征词频率,但无法完全消除 [25] - Binoculars检测器对提示词修改后的文本敏感度降低,但无法准确区分真实与LLM生成文本 [27] 未来研究方向 - 需通过统计大量文本词汇频率(而非单篇检测)量化AI对学术文献的影响 [28] - 当前MGT检测器准确度受模型类型、文本类别和人为修改策略多重影响 [28] - 亟需建立AI参与学术写作的边界标准和使用规范 [28]
AI:加速能力退化的元凶
36氪· 2025-07-02 07:16
行业认知与LLM依赖 - 过度依赖LLM加速工程师批判性思维退化,技术敬畏成为生存必修课 [1][3] - 工程师将LLM视为伙伴的本质是追求速度至上,但牺牲思考深度和代码质量 [4][5] - 微软研究发现AI使用以牺牲批判性思维为代价,导致能力萎缩 [6] LLM对工程师能力的影响 - 资深工程师失去攻坚成长机会,初级工程师无法建立核心能力 [6] - AI剥夺开发者心流状态和创造乐趣,影响长期职业发展 [7] - LLM无法替代人类工程智慧,但滥用可能导致能力退化和技术债积累 [12][17] 程序理论与LLM局限性 - 编程本质是理论构建活动,程序是心智模型而非代码文本,LLM无法掌握程序理论 [9][10][13] - 实验证明拥有程序心智模型的团队能更高效改造代码,而LLM仅提供表面解决方案 [10][11] - LLM生成代码存在输入输出风险,如逻辑漏洞、XY问题识别失败等 [12] 程序熵与LLM的文本局限性 - 程序开发是熵减过程,维护是熵增过程,人类才能通过设计理念延缓熵增 [14] - LLM作为token预测器仅操作文本层面,无法进行概念性思考或降低代码复杂度 [15] - LLM修改代码常引入多余改动,对话越久偏离设计初衷越远 [15] 行业长期价值与AI定位 - 企业滥用AI可能重蹈离岸开发覆辙,衍生新风险并承受长尾成本 [18] - 人类工程师的核心价值在于技术实力与深度思考,LLM应作为工具而非拐杖 [18][19] - 2019年前被重视的工程核心能力(如理论构建、熵减设计)仍是长期竞争力基础 [19]
大模型时代,通用视觉模型将何去何从?
机器之心· 2025-07-02 00:54
通用视觉模型(VGM)研究背景 - 通用视觉模型(VGM)曾是计算机视觉领域的研究热点,旨在构建统一架构处理图像、点云、视频等多种模态输入及分类、检测、分割等多样化任务,目标是实现「视觉模型大一统」[1] - 随着大语言模型(LLM)的兴起,多模态大模型成为新趋势,视觉被视作语言模型的输入模态之一,其独立性被重新定义,传统VGM研究面临边缘化风险[1] - 视觉数据具有结构化强、空间信息丰富等优势,但存在模态间差异大、难替代的挑战,如2D图像、3D点云和视频流的统一处理问题在当前多模态范式中未充分解决[1] VGM的核心能力与价值 - VGM通过广泛预训练和共享表示实现跨任务零样本迁移,无需为单一任务专门调整,解决了传统视觉模型任务专用化的局限性[7] - VGM具备多模态输入统一处理能力,能将图像、点云、视频等映射到共享特征空间,同时支持多任务并行处理(如图像识别与视频分析)[7][8] - 清华大学团队在IJCV发表的综述系统梳理了VGM研究进展,涵盖输入统一方法、任务通用策略等,为未来视觉模型发展提供参考[2] VGM的技术实现框架 - 编码式框架通过共享特征空间统一输入模态,使用Transformer编码不同数据(如图像、文本),最终生成统一输出[12] - 序列到序列框架借鉴NLP方法,将可变长度输入(如视频)转换为固定表示,适用于图像生成等任务[13] - 多任务学习、视觉-语言学习等技术被用于扩充VGM知识边界,相关领域研究为模型设计提供技术补充[13] VGM的数据与评测体系 - 训练采用大规模多模态数据集(图像/视频/点云),任务分为图像、几何、时间序列等四类,评测注重跨任务泛化能力[9] - 研究对比了主流VGM在22个基准数据集的表现,但未披露具体数据指标[14] VGM的挑战与未来方向 - 当前面临统一框架设计优化、训练效率提升和大规模数据处理等挑战,数据标注仍是发展瓶颈[16] - 自动化标注技术和大规模无监督学习将成为研究重点,需解决模型偏见、公平性等伦理问题[16] - 应用潜力覆盖智能监控、自动驾驶等领域,可扩展至视觉问答、图像-文本检索等复杂任务[16]
只用2700万参数,这个推理模型超越了DeepSeek和Claude
机器之心· 2025-06-30 10:23
大模型架构变革 - 当前大语言模型(LLM)采用思维链(CoT)技术存在任务分解复杂、数据需求大、高延迟等问题 [2] - 分层推理模型(HRM)通过循环架构实现高计算深度,仅需2700万参数和1000个训练样本即可在复杂推理任务中表现卓越 [3][4] - HRM无需预训练或CoT数据,在数独、迷宫路径查找等任务中达到近乎完美性能,并在ARC-AGI基准上超越更大模型 [5][7] HRM设计原理 - 核心灵感源于大脑分层处理和多时间尺度机制:高级模块负责抽象规划(慢速),低级模块处理细节计算(快速) [12][13] - 采用四个可学习组件(输入网络、高低级循环模块、输出网络)实现层级收敛性,H模块稳定收敛,L模块周期性重置 [14][15][17] - 通过一步梯度近似法(O(1)内存)和深度监督机制优化训练效率,避免传统BPTT算法的深层信用分配难题 [19][20][23] 性能与实验验证 - 在ARC-AGI、数独、迷宫任务中,HRM表现出类似深度优先搜索和渐进优化的底层推理算法 [31] - 训练后高层模块与低层模块自然涌现维度层级分化,而非架构固有特性 [33][34] - 具备图灵完备性,可模拟任何图灵机,通过自适应计算时间(ACT)动态调整资源分配 [35][36][27] 技术对比优势 - 相比CoT模型,HRM在符号树搜索任务(如Sudoku-Extreme)中准确率接近100%,而标准Transformer增加深度无效 [10] - 强化学习(RL)需依赖CoT能力且数据效率低,HRM通过密集梯度反馈实现连续空间运算,生物合理性更高 [37][39] - 推理阶段仅需调整计算限制参数Mmax即可扩展性能,无需重新训练 [28]
为什么说大多数LLM初创企业注定都将失败?
36氪· 2025-06-30 07:13
AI初创公司面临的挑战 - AI创业生态逐渐认清残酷现实:数千家获顶级风投支持的初创公司将未来押注于大语言模型(LLM)作为新应用平台,但这一理念存在认知谬误 [2] - 模型供应商并非类似AWS或iOS的稳定平台,而是垂直整合的端到端产品公司,与初创公司争夺用户心智 [3] - 基于他人模型构建业务的初创公司命运不由自己掌控,可能成为养料、测试案例或实验品 [3] 模块化与风投生态的误区 - LLM创业热潮中存在可组合性的妄想,创始人误以为能像基于Windows或AWS开发那样打造十亿美元级产品 [3] - 投资人与创始人将原型开发便捷性与商业模式持久性混为一谈,风险资本疯狂涌入基于公共API的套壳初创公司 [4] - 底层模型供应商不是满足于算力变现的管道,而是对下游虎视眈眈的不安分玩家,目标在于取代创业公司 [4] 幸存者的共同特征 - 少数幸存初创公司具备不可替代的护城河:分销壁垒、专有数据、推理控制或合成平台 [5][6] - 拥有深度行业关系的公司通过LLM增强客户现有工作流,优势在于整合能力而非模型 [5] - 掌握独特数据集的公司产品显著优于模型供应商内部方案,但需确保合法使用权及与工作流深度融合 [5] - 自托管或微调自有模型的初创公司掌握成本控制权、时延优势及产品自主权 [6] 垂直整合的趋势 - 模型供应商行为符合垄断企业理性选择:向上游扩张、榨取利润、掌控用户关系 [7] - AI生态正经历相变,类似Facebook吞并生态内最佳功能或微软捆绑Excel克隆,垂直整合成为宿命 [7] - 当算力变成智能,模型供应商不会甘做基础设施,而是自建下一个Salesforce取代第三方初创公司 [7] 创始人的应对策略 - 业务构建于他人LLM之上的创始人需梳理依赖链,剥离所有可被商品化的环节 [11] - 数据、分销与推理控制才是真正壁垒,其余环节危如累卵 [11] - 比模型供应商更贴近用户或可幸存,否则可能被功能开关轻易取代 [10]
从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?
机器之心· 2025-06-28 05:22
从后训练回到预训练,LLM+RL的潜力分析 - 强化学习(RL)与大型语言模型(LLM)结合的技术路径从后训练阶段延伸至预训练阶段,通过将文本生成重构为序贯决策问题,引入对未来"累积奖励"的评估机制[2] - LLM传统监督学习范式面临高质量标注数据成本高、人类知识存在边界等局限,而RL通过模型与环境交互生成数据,并将监督信号从"生成式"退化为"验证式",降低了对数据质量和标注难度的要求[3] - 微软研究院与清北研究者提出的"Reinforcement Pre-Training(RPT)"技术将RL应用于预训练阶段,在部分推理基准上表现超越传统方法训练的更大模型[4] RL在预训练阶段的技术突破 - RPT方法将下一个词元预测(NTP)任务重塑为可验证的推理任务,利用海量无标注文本数据作为RL训练资源,通过生成思维链(CoT)再预测token的方式规避传统RL方法的局限[5] - 该方法突破了RLHF依赖标注数据、RLVR受限于标准答案等约束,但尚未在更广泛文本和基础模型上验证,且存在计算资源消耗大的问题[5] - 行业早在2022年就开始关注RL预训练课题,南京大学AI学院副院长等专家曾系统分析过RL中少有预训练模型的原因[6] 技术演进趋势与挑战 - LLM+RL路线从后训练向预训练延伸,显示出技术潜力但面临理论缺陷、实现难度和任务适配等多重挑战[4] - 当前RL预训练方法虽能部分解决数据依赖问题,但计算效率、泛化能力等核心瓶颈仍未完全突破[5] - 行业需持续探索如何平衡RL的序贯决策优势与LLM的生成能力,该领域的技术突破可能重塑模型训练范式[2][3][4]
AgentAuditor: 让智能体安全评估器的精确度达到人类水平
机器之心· 2025-06-27 04:02
LLM智能体安全性评估的突破性进展 核心观点 - LLM智能体正从文本生成器进化为具备自主决策和执行能力的"行动派",但自主权带来安全性评估难题[1] - 现有评估方法存在"看不懂、看不全、看不准"三大困境,难以应对复杂交互场景[1] - AgentAuditor框架通过结构化记忆和RAG技术,使LLM评估器达到人类专家水平[2][4] 技术框架 - **特征记忆构建**:将杂乱交互记录转化为含场景、风险类型等语义信息的结构化数据库[4] - **推理记忆构建**:筛选代表性案例并生成思维链(CoT),形成类似人类专家的判案经验[5] - **记忆增强推理**:通过多阶段检索机制动态调用相关CoT辅助决策,提升评估精度[6] 基准数据集 - ASSEBench包含2293条标注数据,覆盖15种风险类型、528个环境和29个应用场景[9] - 采用人机协同标注流程,引入"严格"和"宽松"双标准评估模糊风险[9] - 同时关注Safety(避免错误)和Security(防御攻击)两大维度[9] 实验效果 - Gemini-2-Flash-Thinking在ASSEBench-Safety上F1分数提升48.2%,R-Judge准确率达96.1%[12] - 在ASSEBench-Strict/Lenient子集上能自适应调整策略,缩小不同标准下的性能差距[12] - 多模型对比显示,Claude-3.5在R-Judge上准确率提升34.8%,GPT-4.1提升20.7%[13] 行业意义 - 填补LLM智能体安全评估领域空白,为人机协同标注建立新范式[17] - 通过自适应样本选择、结构化记忆等技术显著增强LLM评估能力[17] - 为构建可信赖的智能体防御系统提供研究基础和工具支持[17]
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心· 2025-06-27 04:02
研究背景与目标 - 研究聚焦于开发能在开放世界图形用户界面(GUI)中自主探索的智能体,这是实现通用人工智能(AGI)的关键路径之一 [2] - 当前大语言模型(LLMs)和视觉语言模型(VLMs)已展现出跨领域任务泛化能力,为GUI智能体开发奠定基础 [2] - 吉林大学团队提出《ScreenExplorer》项目,旨在训练视觉语言模型实现GUI环境自主探索 [3] 方法论创新 - 构建实时交互的在线强化学习框架,智能体通过鼠标/键盘函数调用与真实GUI环境交互 [10][11] - 引入"好奇心机制"解决开放环境反馈稀疏问题,利用世界模型预测状态转移并估算新颖度 [10] - 采用"经验流蒸馏"训练范式,将每代智能体探索经验自动提炼用于下一代微调 [10] - 设计启发式+世界模型驱动的奖励体系,包含轨迹差异奖励、好奇心奖励、格式奖励和意图对齐奖励 [12] - 采用GRPO算法进行强化学习训练,实现多环境并行推理与实时策略更新 [14][15] 实验结果 基础模型表现 - 未经训练的Qwen2 5-VL-3B模型仅能随机点击屏幕,无法打开任何软件 [17] - 经过初步训练后,3B模型可成功打开桌面软件,7B模型能完成"加购物车"完整流程 [18][20] 性能对比 - ScreenExplorer-3B-E1训练后探索多样性达0 51,显著优于基础模型Qwen2 5-VL-3B的0 21 [23] - 7B版本ScreenExplorer-7B-E1表现更优,探索多样性达0 54,超过专用GUI模型doubao-1 5-ui-tars的0 45 [23] - 世界模型好奇心奖励对训练至关重要,去除后模型无法突破冷启动阶段 [26][28] 涌现能力 - 训练后智能体展现出跨模态翻译、现状计划制定和复杂推理等新能力 [29][32][34] - 探索产生的"意图"字段可自动生成标注数据,为后续任务训练提供基础 [34] 技术价值 - 首次实现视觉语言模型在真实GUI环境中的自主探索训练 [35] - 经验流蒸馏技术显著降低对人工标注数据的依赖,实现能力自主进化 [10][35] - 为开发更自主的智能体和实现AGI提供了可行的技术路径 [35]
舍弃CUDA编程!CMU等用几十行代码将LLM编译成巨型内核,推理延迟可降6.7倍
机器之心· 2025-06-21 01:33
核心观点 - 英伟达CUDA是当前大语言模型(LLM)训练和推理的核心计算引擎,但存在手动优化成本高、端到端延迟高等不足 [1][2] - CMU团队开发的MPK编译器可将LLM转化为优化的巨型内核,显著降低推理延迟1.2-6.7倍,逼近硬件理论极限 [3][4] - MPK通过自动化编译实现高性能推理,仅需几十行Python代码即可完成部署,大幅降低使用门槛 [5][41] 技术突破 性能优化 - 在A100-40GB GPU上,MPK将Qwen3-8B模型每个token的延迟从14.5毫秒降至12.5毫秒,接近10毫秒的理论下限 [4] - 通过消除内核启动开销、实现跨层软件流水线和重叠计算与通信三大机制,实现端到端延迟优化 [14][16] - 多GPU环境下性能提升更显著,计算与通信融合的巨型内核设计使扩展性随GPU数量增加而增强 [18] 架构创新 - 编译器将LLM计算图转化为细粒度任务图,在子内核级别显式捕获依赖关系,突破传统"单算子单内核"执行模型的限制 [20][26] - 运行时系统采用静态分区设计,将GPU流式多处理器划分为工作单元和调度单元,避免动态上下文切换开销 [30][32] - 事件驱动执行模型实现1-2微秒级的任务切换延迟,支持多层多GPU工作负载的高效调度 [35][36] 行业影响 技术替代性 - 直接解决PyTorch/Triton/TVM等现有框架无法生成端到端巨型内核的痛点 [11] - 突破NCCL/NVSHMEM/FlashAttention等专用内核库造成的碎片化问题,实现统一编译 [12] - 可能改变GPU上LLM推理工作负载的编译和执行范式 [41] 应用前景 - 已支持现代GPU架构,正在扩展至NVIDIA Blackwell等下一代平台 [43] - 计划增强对动态工作负载(如MoE模型)的支持,开发动态控制流编译策略 [43] - 探索优先级感知调度等高级功能,适用于延迟敏感型服务和混合批处理场景 [43] 实施细节 编译流程 - 将PyTorch定义的LLM计算图转化为优化任务图,最大化暴露并行性 [23] - 通过Mirage内核超优化器自动生成高性能CUDA实现 [28] - 输入输出仅需几十行Python代码指定,大幅简化部署流程 [41] 运行时机制 - 工作单元采用"获取-执行-触发"循环流程,保持持续满载运行 [33][37] - 调度单元采用分布式事件队列管理,单SM可并发运行4个调度单元 [34][38] - 通过触发/依赖事件机制实现细粒度任务同步 [31][39]