大语言模型
搜索文档
黄仁勋、李飞飞、Yann LeCun等六位AI顶级大佬最新对话:AI到底有没有泡沫?
AI前线· 2025-11-10 06:54
文章核心观点 - 六位AI领域奠基性人物回顾了AI从神经网络到生成式AI的发展历程,并探讨了技术对社会与经济的深远影响[2] - 当前AI热潮与互联网泡沫存在本质区别,其需求由真实价值驱动,行业正处于智能基础设施建设的起步阶段[20][21] - AI技术未来演进路径广阔,大语言模型仅是组成部分,需在多模态、空间智能等新范式上取得突破以实现更大发展[22][27][28][29] 回顾职业生涯的关键时刻 - Yoshua Bengio受Geoffrey Hinton早期论文启发进入该领域,并在ChatGPT问世后因对AI失控的担忧彻底转变研究方向[7] - Bill Dally在90年代末突破"内存墙"难题的构想催生了流处理器架构和GPU计算基础,并在2011年通过复现斯坦福实验确认GPU对深度学习的巨大潜力[7][8] - Geoffrey Hinton在1984年通过微型语言模型实验发现模型能自发学习词语语义特征,这被视为当今大语言模型的前身[8][9] - 黄仁勋在2010年前后意识到深度学习网络构建方法与芯片设计方法论相似,预见可将芯片设计规模化经验用于构建可扩展软件体系[9][10] - 李飞飞在2006-2007年认识到数据匮乏是机器视觉识别关键瓶颈,耗时三年构建包含1500万张图像、2.2万个类别的ImageNet数据集[13] - Yann LeCun在80年代与Geoffrey Hinton就无监督学习与监督学习价值进行辩论,当前大语言模型的自监督训练本质验证了其早期观点[16][17] AI领域是否会出现泡沫破裂 - 当前AI需求与互联网泡沫存在本质区别,互联网泡沫时期光纤建设远超实际需求,而如今几乎每块GPU都在全速运转并创造价值[20] - AI与传统软件根本差异在于AI需实时生成情境感知智能,这需要投入数千亿美元建设"智能工厂"基础设施以支撑未来数万亿美元产业[21] - AI技术形态已从单纯语言模型演变为能通过交互步骤达成目标的智能体,其应用边界正持续拓展,目前可能只开发了最终需求的1%[24][26] - 从市场规律看任何领域都会有阶段性调整,但AI作为年轻学科仍有无数新边疆待开拓,特别是在超越语言维度的空间智能等领域[27][28] - 某种程度泡沫体现在认为仅靠现有LLM范式就能实现人类级别智能的预期,要真正突破仍需多项根本性理论进展[29] AI智能水平发展预期 - 未来五到十年可能在新范式探索上取得重大进展,但实现根本性突破可能需要比预期更长时间[30] - 机器智能在某些特定能力(如识别2.2万种物体、翻译上百种语言)上已超越人类,但人类智能在文明社会中具有不可替代价值[31] - 现有通用智能水平已足以在未来数年转化为海量社会应用,关键在于持续应用并优化技术解决重大课题[31] - 若以"机器能在任何辩论中胜过人类"作为通用人工智能标准,很可能在二十年内实现这一目标[32] - AI在不同时间维度上的规划能力正呈指数级增长,若保持趋势预计五年内AI就能达到普通雇员的工程类任务工作水平[33]
Cell重磅:AI大模型,设计生成人类单克隆抗体,对抗新型病毒
生物世界· 2025-11-10 04:05
人工智能驱动的抗体药物发现技术突破 - 研究团队开发了名为MAGE(单克隆抗体生成器)的First in Class人工智能模型,该模型基于蛋白质语言模型(PLM),无需初始抗体模板即可根据目标抗原序列生成配对的人类抗体可变重链与轻链序列[6][8] - MAGE模型通过对Progen2(一种通过普通蛋白质序列预训练的自回归解码器大语言模型)进行微调实现,利用自注意力机制捕获输入序列中的复杂依赖关系,通过下一标记预测策略从氨基酸序列中学习规律[8] - 该技术能够生成具备多样化序列特征的抗体,包括不同的重/轻链可变区基因使用模式、体细胞超突变(SHM)程度以及在训练数据中未曾出现的新型互补决定区(CDR)[8] 模型验证与实验效果 - 针对SARS-CoV-2野生型受体结合域(RBD),在实验验证的20个MAGE生成抗体中,有9个(45%)成功确认结合特异性,其中1个抗体对SARS-CoV-2的体外中和效力优于10纳克/毫升[9] - 针对训练数据中代表性不足的呼吸道合胞病毒A(RSV-A)融合前F蛋白,MAGE生成的23个抗体中有7个(30%)通过实验验证了结合活性[9] - 针对未在训练数据中出现的H5/TX/24流感病毒血凝素(HA)抗原,18个MAGE设计抗体中有5个(28%)通过验证,展现了模型的零样本学习新抗原的能力[10] 技术优势与应用前景 - MAGE是首创的无需提供抗体序列模板即可设计出具有明确靶标结合功能的新型人类抗体的AI模型,突破了现有方法仅限于抗体重新设计且需要初始抗体模板的限制[4][6] - 冷冻电镜(cryo-EM)结构解析表明,MAGE生成的抗体具有多样化的结合模式,并能在关键结合界面引入影响功能的关键氨基酸残基[10] - 该技术标志着抗体开发从传统的基于发现的实验方法向计算驱动方法的重大转变,有望解决传统抗体发现过程费力、缓慢且成本效益低的问题[3]
MeshCoder:以大语言模型驱动,从点云到可编辑结构化物体代码的革新
机器之心· 2025-11-10 03:53
文章核心观点 - 生成式AI在3D内容创作领域面临从生成粗糙静态模型到创建可编辑、结构化数字资产的升级挑战 [2] - 公司推出的MeshCoder技术通过将3D输入直接翻译成可执行的Blender Python代码,实现了3D资产的程序化生成 [3] - 该方法的核心优势在于生成分零部件、拓扑良好、易于编辑的代码,而非不可分割的静态网格 [4][5][9] - 该技术为AI理解三维世界开辟了新方向,通过结构化代码赋能大语言模型进行3D认知 [44] 技术优势与特点 - **分零部件生成**:模型能理解物体语义结构,自动将复杂物体分解为独立部件进行代码生成,逻辑清晰 [4] - **拓扑良好的四边面**:生成的代码直接构建高质量四边面网格,优于传统Marching Cube算法产生的杂乱三角面网格,便于后续编辑和上材质 [5][7] - **易于理解和编辑**:生成高可读性Python代码,用户可通过修改参数轻松实现三维模型编辑 [9] - **可控的网格密度**:通过调整代码中的分辨率参数,可自由控制生成网格的精细程度,平衡细节与性能 [12] 技术实现路径 - **构建零部件数据集**:开发专属Blender Python API,通过参数化随机采样生成千万级别图文并茂的零部件代码配对数据集 [20][21] - **训练零件代码推理模型**:通过形状编码器从点云抽取特征,利用大型语言模型自回归生成重建零部件的结构化代码 [23] - **构建物体数据集**:利用Infinigen Indoor生成模型创建百万级别复杂物体数据集,并自动生成各部件代码 [25] - **训练最终模型**:在百万规模物体-代码数据集上训练出MeshCoder,使其学会部件间空间与语义关系,具备生成完整结构化代码的能力 [28] 性能表现 - **高保真重建精度领先**:在41类室内物体测试中,MeshCoder的Chamfer距离误差显著低于对比方法,例如椅子类别误差仅为0.060,远低于PLAD的2.26和Shape2Prog的1.30 [32] - **交并比优势明显**:整体平均IoU达到86.75%,而PLAD和Shape2Prog分别只有67.62%和45.03% [32] - **复杂结构还原能力强**:对门扇叶、窗格栅、沙发扶手等复杂结构能精准重建独立部件和清晰边界,效果与原始模型高度一致 [33] 应用价值 - **代码化编辑能力**:将3D模型变为可读可改的程序代码,支持几何编辑和拓扑编辑,如通过修改参数将方桌变为圆桌 [36][37] - **赋能三维理解**:生成的代码作为结构化知识,帮助GPT-4等大语言模型通过阅读代码理解3D物体组成、部件关系和功能属性 [41][43] - **尺寸推断优势**:代码中的尺度参数使大模型能准确推断物体尺寸,而仅从图片输入则难以实现 [43] 发展前景与挑战 - **技术潜力巨大**:代码化表征3D世界被证明是充满价值的发展方向 [46] - **当前局限性**:训练集多样性与数量不足,面对分布差异较大物体时重建效果会打折扣,泛化能力需提升 [46] - **未来规划**:重点将放在采集更多样化数据,扩充数据集广度与深度,提升模型泛化能力与鲁棒性 [46]
机器人大脑产业跟踪
2025-11-10 03:34
行业与公司 * 机器人大脑产业及人形机器人行业 [1] * 涉及公司包括特斯拉(擎天柱机器人)、高通(骁龙芯片)、以及国内机器人厂商(如银河通用)等 [10][16] 核心观点与论据 行业发展趋势 * 机器人行业重心正从传统工业机器人转向更具人形和特殊产品形态的机器人 [2] * 机器人大脑和小脑的融合概念越来越普及 [2] * 人形机器人研发与汽车智能化、电动化密切相关,许多机器人研发人员来自汽车领域,因为自动驾驶技术栈与机器人自动控制技术有延伸性 [1][2][3] 发展挑战与瓶颈 * 机器人大脑发展面临操作系统实时性和AI算法不确定性的双重挑战 [4] * AI算法(如大语言模型)存在幻觉现象,不确定性在精准控制中尤为明显 [4] * 不同场景的数据差异巨大(如家庭环境),增加了模型训练难度 [4][5][12] * 当前机器人大脑更多是特定场景下特定功能的控制系统,而非通用大脑 [10][11] * 构建大脑需要实时操作系统和足够观测算力以维持模型推理反馈速度 [10] * 算力不足是处理世界模型庞大数据集的主要困难 [9] * 中国机器人产业缺乏优秀的产品经理来定义和设计产品 [22] 不同场景的落地可行性 * 工业场景下的机器人大脑更容易落地,因为工厂项目预算较高,可支持大量数据采集、分析和训练,实现定制化 [6] * 居家养老等个人场景因预算有限且环境差异大,技术尚不成熟,预计3-5年内仍难以真正落实 [13] * 人形机器人在许多场景中优势不明显,双足机器人主要用途以展示为主,轮式机器人可能在工业生产中更适用 [17] 技术路径与进展 * 世界模型自2024年下半年受关注,其核心在于重构场景数据,但面临数据量挑战 [8][9] * 未来有望通过芯片和云端算力提升解决算力问题 [9] * 理论进展包括VLA模型、3D VLA模型以及新的语义模型(如李飞飞团队研究的空间模型) [18] * 目前AI范式没有重大突破,依然依赖大量数据,需要范式层面的突破才能显著进展 [19] * 可通过控制目标工作场景中的物品和数据量(如工业无人叉车)提高模型应用性 [13] * 通过将单一工作拆解成多个工序并由不同机器人协作完成,可以实现快速应用(如咖啡制作机器人、酒店送餐机器人) [21] 成本与产业链 * 中国机器人产业链一旦形成,成本将比美国低得多,中国拥有全世界最好的产业链建设基础 [14] * 马斯克2万美元以内的机器人部件精细度并不高 [14] * 目前国内已有几万块钱的机器人,但精度和适用场景有待考验 [14] * 智能机器人产业链尚未完全形成,全球厂商都未真正打通技术栈 [16] * 操作系统选择需在实时性(如Global公司的NX、vx)和开放性(如Linux)之间取舍 [15] * 芯片发展路径建议初期利用Global成熟芯片实现功能,稳定后再寻找国产替代方案以降低成本并应对风险 [15] 投资前景与风险 * 短期内(两到三年)大规模商业化落地仍需时间,巨额投资存在风险 [20][24] * 投资者应管理好预期,全自动化控制系统短期内难以实现颠覆性突破 [24] * 中国机器人产业应明确初期应用场景,实现快速市场化,从特定狭义场景入手(如清洁卫生间的机器人),而非追求大而全 [13][22] * 国内厂商应关注自身技术路径,通过单点突破或行业共创实现发展 [16]
刚做了一份VLA学习路线图,面向初学者......
自动驾驶之心· 2025-11-07 16:04
自动驾驶VLA行业趋势 - 自动驾驶VLA是端到端技术之后学术界和工业界聚焦的核心方向,提供了类人思考能力并通过思维链形式展现车辆决策过程,旨在实现更可靠安全的自动驾驶能力 [1] - 传统BEV感知、车道线、Occupancy等方向已相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的主流方案 [4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA技术分类 - 自动驾驶VLA目前可分为三个子领域:模块化VLA、一体化VLA和推理增强VLA [1] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息 [17] - 一体化VLA实现感知→控制的端到端映射,通过单次前向传播直接将传感器输入映射为控制动作,消除模块间耦合延迟 [17] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释 [18] 自动驾驶VLA核心技术栈 - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [7] - 涉及最前沿算法包括CoT、MoE、RAG、强化学习等 [7] - 视觉感知涉及BEV感知/动静态检测/OCC及轨迹预测 [18] - 语言模型涉及序列建模/Transformer及vision-language模态对齐算法 [18] - 动作模块包括判别式解码器和生成式解码器如何输出action [18] 行业代表性算法与模型 - 模块化&一体化VLA领域重点讲解华科和小米最新提出的ReCogDrive,其包含预训练、模仿学习训练和强化学习训练三个阶段 [17] - 推理增强VLA领域重点讲解华科&小米ICCV2025中稿的ORION、慕尼黑工大的OpenDriveVLA、上海交通大学的DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等算法 [18][19][24] - 其他重要算法包括阿里&西交的FutureSightDrive、UCLA的AutoVLA、中科院和华为诺亚的Drive-R1等 [24] 行业实践与部署 - 以Qwen 2.5VL-72为例,讲解如何使用transformers或ms-swift本地部署大模型 [15] - 第五章配套实战选取清华AIR和博世提出的Impromptu VLA,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [20] - 课程大作业要求基于ms-swift框架,自定义数据集和加载模型,开启训练任务并进行微调 [21]
群核科技黄晓煌:空间智能是继大语言模型之后一大重要领域
21世纪经济报道· 2025-11-07 15:29
行业趋势 - 空间智能被视为继大语言模型之后AI发展的重要领域,标志着AI技术从二维平面处理向三维空间感知和交互的转变 [1] - AI教母李飞飞将空间智能描述为AI发展的下一个里程碑 [1] - 互联网的数据规模增长将面临瓶颈,AI是数据积累到一定程度后的新阶段 [1] 技术应用 - 空间智能技术主要应用于两类对象:人类和机器,在大语言模型爆发后,服务重点转向机器 [1] - 该技术可用于机器人等物理AI以及视频生成领域 [1] - 未来生活环境和工作环境将充满机器人,需要空间智能技术进行统一管理和指挥 [2] 公司研发 - 公司在2022年发现大语言模型的规模化法则在空间认知和空间推理模型上同样适用 [1] - 初期该技术因缺乏应用场景主要作为科研项目,相关成果以论文形式发表 [1]
AI 大牛刘威创业公司完成 5000 万美元融资,12 月将发布新模型
AI前线· 2025-11-07 06:41
公司融资与战略规划 - 公司Video Rebirth完成5000万美元种子轮融资,投资方包括启明创投和韩国游戏公司Actoz Soft Co [2] - 融资将用于加速自研的"Bach"模型及独有的"物理原生注意力"架构研发,解决AI生成娱乐领域的挑战性问题 [2] - 公司计划在12月发布Bach模型以及基于自研模型的AI视频生成平台,与OpenAI Sora竞争 [2] - 公司初期将重点面向美国专业用户群体,采用低于Google Veo的月订阅模式 [4] 技术实力与产品进展 - 公司新模型Avenger 0.5 Pro在Artificial Analysis Video Arena的图像生成视频项目中排名第2位,仅次于Kling 2.5 Turbo [3] - 该模型相较于7月发布的Avenger 0.5有显著性能提升,但尚未提供公开访问入口 [3] - 公司团队避免使用短视频内容进行训练,以确保更高的模型质量,并使生成的物体更符合现实世界的物理规律 [4] - 公司创始人刘威和两位同事花了三个月时间训练出第一个版本的模型,基于业内常用技术并进行改进 [4] 行业竞争与市场机会 - 公司即将进入竞争激烈的领域,对手包括谷歌、字节跳动、快手等巨头 [3] - 创始人认为在视频生成领域,华人创办的小团队有很好的机会能与巨头公平竞争,与大语言模型格局已定型不同 [4] - 部分现有视频生成应用已展现出强劲变现能力,例如快手预计其Kling AI的年收入在明年2月将突破1亿美元 [3]
算力时代的“脑力之问”
央视网· 2025-11-07 06:31
算力时代的核心特征 - 算力从专业领域术语转变为驱动社会运转的核心引擎,引领社会进入全新算力时代 [1] - 以算力为核心的人工智能呈现指数级发展,对人类脑力优势构成挑战 [1] 人工智能对人类脑力的冲击 - 计算机技术深度渗透知识密集型行业,人类核心脑力正被算法的"超脑"逐步接管 [2] - 以Transformer架构为核心的大语言模型通过千亿级参数和海量数据训练形成涌现能力,在文本生成、信息处理等任务中表现出类人智能水平 [2] - 算法能够精准预测消费偏好,模型可以生成堪比大师的艺术作品,智能系统开始模拟人类情感互动 [2] - 劳动者若无法适应人机协作的新技能要求,可能面临技术性失业困境 [2] 人类脑力惰性化风险 - 2025年麻省理工学院媒体实验室研究显示,使用人工智能辅助决策时,人类大脑中与学习、记忆及创造力相关的脑区激活水平显著降低 [3] - 长期依赖人工智能处理复杂信息会削弱个体的批判性思维、深度记忆与独立思考能力 [3] - 人工智能的碎片化"答案投喂"取代系统性思考过程,人类在让渡思维主动权 [3] 算法本质与人类主体性 - 算法是人类本质力量的对象化呈现,是人类劳动的物化结晶 [4] - 算法展现的"脑力"是人脑的延伸与放大,其输出依赖于前期人类劳动的累积 [4] - 真正的智能以目的性为前提,人类是唯一能够设定目的的主体 [4] - 需要超越"谁更聪明"的表象之争,直抵"为谁服务"的价值核心 [4] 算法局限与心力价值 - 算法存在无法感知意义、无法自主生成目的的能力真空 [5] - 技术能力的颠覆性突破动摇了理性主义根基,倒逼人类主流思维方式转型 [5] - 价值判断、情感共鸣、直觉洞察等"心力"维度成为避免技术异化的最后防线 [5] 东西方思维差异与融合 - 西方思维传统崇尚理性分析,在"有"的基础上建构秩序,倾向于"脑力"思维 [6] - 东方智慧展现对"无"的洞察,通过直觉体悟、类比联想和经验归纳把握世界,更接近"心力"范畴 [6] - 中国传统文化中"天人合一""道法自然"等世界观超越主客二分框架,为多元智能和谐发展提供东方智慧 [6] - 算力时代呼唤"心力"回归,需要在逻辑推理中融入价值情感,在技术发展中嵌入人文关怀 [6]
大语言模型仍无法可靠区分信念与事实 为高风险领域应用敲警钟
科技日报· 2025-11-07 01:43
研究核心发现 - 大语言模型在识别用户错误信念方面存在明显局限性,无法可靠区分信念与事实[1] - 当用户个人信念与客观事实冲突时,模型难以作出准确判断[1] - 这一局限性为其在医学、法律和科学决策等高风险领域的应用敲响警钟[1] 模型性能表现 - 在验证事实性数据真伪时,较新的大语言模型平均准确率达到91.1%或91.5%,较老模型平均准确率分别为84.8%或71.5%[1] - 当回应第一人称信念时,模型识别虚假信念比识别真实信念更困难[1] - 较新模型识别第一人称虚假信念的概率比识别真实信念低34.3%,较老模型则低38.6%[1] - 在识别第三人称信念时,较新模型准确性降低4.6%,较老模型降低15.5%[2] 模型行为模式 - 大语言模型往往选择在事实上纠正用户,而非识别出信念[2] - 模型必须能成功区分事实与信念的细微差别及其真假,才能对用户查询作出有效回应并防止错误信息传播[2] 行业影响与警示 - 当前大语言模型虽在表面语言任务上表现优异,但缺乏人类的基础社交智能[2] - 模型在事实与信念识别上的误差暴露出AI在复杂社会语境中应用的潜在风险[2] - 在医疗咨询、法律判断等场景,模型若无法辨析主观认知与客观事实,会造成严重后果[2] - 该研究揭示出模型在认知层面的关键缺陷,对AI发展方向具有重要警示意义[2]
大语言模型仍无法可靠区分信念与事实 为高风险领域应用敲响警钟
科技日报· 2025-11-07 00:01
研究核心发现 - 大语言模型在识别用户错误信念方面存在明显局限性 无法可靠区分信念与事实[1] - 当用户个人信念与客观事实冲突时 模型难以作出准确判断[1] - 这一局限性为其在医学 法律和科学决策等高风险领域的应用敲响警钟[1] 模型性能数据分析 - 研究分析了24种大语言模型在13000个问题中的表现 包括DeepSeek和GPT-4o等模型[1] - 验证事实性数据时 较新模型平均准确率达91.1%或91.5% 较老模型平均准确率为84.8%或71.5%[1] - 回应第一人称信念时 模型识别虚假信念比识别真实信念更困难[1] - 较新模型识别第一人称虚假信念的概率比识别真实信念低34.3%[1] - 较老模型识别第一人称虚假信念的概率比识别真实信念低38.6%[1] 不同人称信念的识别差异 - 模型倾向于在事实上纠正用户而非识别出信念[2] - 识别第三人称信念时 较新模型准确性降低4.6% 较老模型降低15.5%[2] 研究结论与行业意义 - 大语言模型必须能成功区分事实与信念的细微差别及其真假[2] - 模型需对用户查询作出有效回应并防止错误信息传播[2] - 在处理涉及主观认知与事实偏差的复杂场景时需审慎对待模型输出结果[1]