Workflow
通用人工智能
icon
搜索文档
从酷炫功能到真实产业应用,AI卡在了哪里?
36氪· 2025-11-17 04:20
生成式AI技术发展与商业落地挑战 - 自2022年11月ChatGPT发布以来,生成式人工智能高速发展,大模型竞赛白热化,多模态能力持续提升 [1] - 与美国Ramp AI Index数据显示的技术高歌猛进形成对比,美国公司采用付费AI产品的比例近期有停滞迹象甚至出现下滑 [1] - 麻省理工学院2025年7月研究报告指出95%的生成式AI应用项目效果不佳或中途夭折 [4] 业务流程重构与AI路径规划 - AI落地应用需要根据AI能力边界结合行业和企业业务场景需求痛点发现价值显著业务环节优先推进 [4] - 企业需进行工作流程分割和业务流程重构将AI擅长部分交给AI其余部分由人完成以驾驭AI黏合流程断点 [5] - AI落地业务流程重构类似路径规划需动态调整随着AI能力提升企业流程重构与分工协作需不断更新 [6] - 多数企业仍停留在直接套用AI工具阶段未拆解工作流未评估AI能力与业务需求适配性未能形成投入-数据-效益飞轮 [6] AI落地主导路径 - AI落地应用需要同时懂AI和具备行业洞察催生两条路径:懂AI的人走进行业或行业内的人掌握AI [7] - 路径一为硅谷兴起的Front Deployed Engineer模式将熟悉AI技术工程师派驻客户企业深入业务一线找到价值创造点 [8] - 路径二为行业从业者学习掌握AI工具麻省理工学院报告发现超过90%公司其员工自费使用AI工具提升效率形成影子AI经济 [11] AI编程推动行业自主改造 - AI编程工具大幅降低软件开发门槛使零基础用户能用自然语言描述需求生成代码开发产品原型 [12] - 微软与谷歌CEO称其公司当前生成软件代码中约20%-30%来自AI亚马逊云服务业务CEO称AWS 75%代码已由AI生成 [12] - AI编程让行业从业者无需等待AI专家可主动运用AI编程工具根据行业特定场景需求痛点构建AI应用最小可行飞轮 [12] - AI编程有望让中小企业成为AI落地生力军因其决策迭代速度更快可直接从零构建适配AI数字化体系无需改造复杂遗留系统 [13] AI落地策略与展望 - 企业现阶段不必执着于全流程AI化可聚焦小切口高适配高收益场景找到AI与业务契合的最小可行飞轮 [14] - AI时代最重要的不再是掌握知识而是眼光和创意即看到行业需求痛点并利用新技术想出更好解决方法 [14] - 鼓励员工学习AI编程工具改造提升自己工作进而改造提升公司和行业是AI落地应用的一大路径 [14]
通用人工智能,AI下一个十年的锚点
中国经济网· 2025-11-17 03:36
行业宏观趋势 - 人工智能发展在多年科技进步积累下获得新动力,大模型的出现正革新各行各业,带来新潮流和无限发展机会 [1] - 未来人工智能最重要的发展方向是通用人工智能(AGI),其前景辽阔、影响深远 [1] - 人工智能发展坚持技术研发、产品应用、产业培育“三位一体”的思路推进,在应用过程中完善理论、拓展新方向 [1] - 以应用场景为切入点的AI2.0时代正在拉开帷幕,AGI将在未来十年AI发展中扮演关键角色 [1] 产业发展与赋能路径 - 人工智能发展的焦点是如何高效赋能千行百业,并引领未来十年的产业进阶 [1] - 推动人工智能赋能千行百业,使其扎根于具体场景,促进经济发展、增进人民福祉 [1] - AI技术的蓬勃发展旨在现实具体场景的落地应用 [1] - 以场景需求驱动技术创新,以技术创新反哺产业升级是人工智能发展的特色路径 [2] 技术演进与未来展望 - 未来十年将是机器人从“能做事”到“会做事”,从“行业工具”到“生活伙伴”的十年 [2] - 具有高效学习和泛化能力、能根据复杂动态环境自主产生并完成任务的AGI是未来关键 [1] - 产业界与学术界代表围绕大模型、场景应用、人机未来等话题研讨,勾勒出人工智能技术未来发展的丰富可能性 [2] - 以场景为锚点让技术扎根产业,以协同为动力让创新迸发,以开放姿态让中国AI成果惠及全球 [2] 实践案例与生态构建 - 《AI中国方案》结合智慧能源、智能装备、空间智能等领域产业实践案例,展现发展路径 [2] - 该方案为破解人工智能技术落地难的全球性挑战提供了宝贵参考 [2] - 企业界代表与高校专家学者共同参与生态协同、AI规模化落地等议题研讨 [2]
我国研发的微观世界“超级相机”成功验收;三星宣布未来五年内将在韩国进行450万亿韩元投资丨智能制造日报
创业邦· 2025-11-17 03:06
半导体产业投资与布局 - 三星集团宣布未来五年内在韩国进行总额450万亿韩元的投资,重点涵盖研发及半导体领域[2] - 三星电子计划在平泽园区启动第五座工厂(P5)的结构施工,该工厂预计自2028年起全面投产,以提前布局产线应对全球存储半导体的中长期需求增长[2] - 三星集团维持在未来五年内创造6万个新工作岗位的目标[2] 半导体材料与技术进展 - 芯联集成发布全新碳化硅G2.0技术平台,通过优化器件结构与工艺制程,实现高效率、高功率密度、高可靠的核心目标[2] - 该技术平台全面覆盖电驱与电源两大应用场景,可应用于新能源汽车主驱、车载电源及AI数据中心电源等市场[2] 前沿计算技术突破 - 芬兰阿尔托大学领导的研究团队开发出新方法,可利用单次光传播完成复杂张量运算,实现以光速完成深度学习中的关键计算步骤[2] - 该技术被视为向通用人工智能硬件研制迈出的重要一步,为突破现有计算平台性能瓶颈提供了新路径[2] 高端科研仪器进展 - 我国首台高能直接几何非弹性中子散射飞行时间谱仪成功验收,该设备致力于观测物质微观世界的结构与动力学性质[2] - 该谱仪填补了我国在百毫电子伏以上非弹性中子散射领域的空白[2]
马斯克最新专访:明年Q1发Grok 5,亲自主抓A15芯片,考虑自建晶圆厂
36氪· 2025-11-17 00:56
Optimus机器人规模化生产与成本 - 在达到每年100万台稳定产量后,物料和人工成本预计可降至2万至3万美元 [2] - 生产过程比汽车简单,公司对供应链成本有精确控制,若供应商利润过高将转为自行生产 [3] - 手部和前臂设计包含约50个执行器,整机总计约100个执行器,以实现人类手部级别的灵巧操作 [4] - 灵巧操作能力旨在实现可持续丰裕,使机器人能够执行精密医疗程序,如外科手术 [5] Neuralink与Optimus融合应用 - Neuralink已为超过10名瘫痪患者植入设备,使其能够实现快速沟通 [6] - 通过结合Neuralink大脑信号与Optimus机器人腿部,可为残疾人提供超人类运动能力,成本约6万美元 [7] xAI与Grok 5技术进展 - Grok 5预计在2026年第一季度发布,参数量达6万亿,具备10%概率实现通用人工智能 [1][16][18] - 模型为多模态,涵盖文本、图片、视频和音频,并具备实时视频理解能力 [18] - 公司计划构建开源知识库Galactica(银河百科全书),以永久保存人类知识 [16] Tesla AI芯片与制造效率 - 下一代AI推理芯片A15性能预计达英伟达同类产品的2至3倍,成本仅为其十分之一,功耗极低 [1][24] - 公司致力于将单车生产周期从当前约35秒缩短至5秒,以实现极高生产效率 [21][23] - FSD全自动驾驶已积累约10亿英里路测数据,安全性据称比人工驾驶高4倍 [26] 晶圆厂自建计划与产能需求 - 为解决AI芯片供应瓶颈,公司考虑自建巨型晶圆厂,目标在1至2年内建成,3年内实现无限扩张 [1][25] - 未来对AI芯片的需求量预计达100亿至200亿颗,现有合作晶圆厂产能可能无法满足 [25] X平台的数据优势与AI训练 - X平台拥有6亿用户产生的实时互动数据,为AI训练提供了独特优势 [9] - 公司基于X平台数据训练Grok,并快速建设了大规模计算基础设施 [9][14]
5年烧掉一个英伟达,OpenAI会是下一个安然吗?
36氪· 2025-11-17 00:07
文章核心观点 - 当前AI行业的高资本投入和狂热发展正面临物理世界基础设施(如电网、变压器产能)和经济效益(如投资回报要求)的双重现实制约,其发展轨迹被拿来与世纪初因财务造假而破产的能源公司安然进行类比,但两者在根本问题(财务造假 vs 现实瓶颈)上存在本质区别 [1][15][40] 历史案例:安然事件分析 - 安然公司于2001年12月2日申请破产,成为当时美国历史上最大的企业破产案 [2] - 破产前,其CEO在季度电话会上因被分析师追问资产负债表情况而情绪失控并辱骂对方,暴露出公司治理和财务透明度方面的严重问题 [4][5][7] - 公司通过金融工程和会计技巧粉饰业绩,例如将未来几十年的预计利润一次性计入当期收入,导致报表利润高但现金流差 [13] - 设立大量壳公司将失败项目的亏损和债务移至表外,至2001年此类壳公司数量已达上百个,使资产负债表看似干净 [14] AI行业与安然的类比与区别 - 类比点在于公司领导层对关键财务问题的回避态度,例如OpenAI CEO被问及盈利问题时回避具体收入数字和巨额资金缺口问题 [11] - 根本区别在于安然是主动的财务造假,而OpenAI等AI公司目前面临的是真实的业务瓶颈和巨大的资金需求 [11][40] - OpenAI等明星初创公司仍在烧钱亏损,依赖股权出售和发债融资,高盛报告预测到2026年OpenAI可能烧掉750亿美元 [25] - 整个AI行业到2030年总投资额预计高达5万亿美元,相当于烧掉一个英伟达的市值 [11][36] AI发展的物理与现实制约 - AI数据中心建设面临电网接入、光纤铺设、设备交付等物理瓶颈,变压器等关键组件产能严重不足,GE Vernova公司到2028年的变压器产能已被订满 [16][18][28] - 设备短缺非短期能解决,满足美国电力预期需求需10到15年时间,远超AI热潮的急切需求 [28] - 数据中心建设规划创历史新高,当前全球容量为70.8吉瓦,预测到2027年底达109.2吉瓦,但项目延期现象已出现 [23][33] 资本投入与回报要求 - 科技巨头资本支出刷新历史纪录,并越来越多依赖债务融资,Meta等公司使用复杂私募股权债务协议拉满杠杆 [25] - 为使5万亿美元投资获得10%的合理年化回报,AI产品每年需创造6500亿美元的新增收入,此金额是OpenAI目前年收入(约200亿美元)的30多倍,比苹果公司年总收入还多一半 [36][37] - 实现此收入目标相当于全球每位iPhone用户每月需为AI服务额外支付35美元,对市场需求假设极为乐观 [38] 行业前景与市场假设 - 乐观预测认为AI云服务收入将在五年内暴增近9倍,但此假设建立在市场对AI产品爆发前所未有需求的基础上 [33][39] - 业界预期消费者和企业将为AI驱动的更高级服务(如AI智能体、人形机器人)支付更多费用 [33] - 核心矛盾在于资本预测时对设备短缺现实“选择性失明”,同时又疯狂假设市场需求将空前高涨 [40]
单次光传播完成复杂张量计算 向通用AI硬件研制迈出重要一步
科技日报· 2025-11-16 23:47
技术突破核心 - 开发出利用单次光传播完成复杂张量运算的新方法,实现以光速完成深度学习中的关键计算步骤[1] - 该方法通过光波在空间中的自然传播实现数学运算,无需依赖电子电路和主动调控[1] - 卷积、矩阵乘法、注意力机制等深度学习的关键步骤可在光穿过系统的瞬间同步完成[1] 技术实现原理 - 将数字数据编码进光的幅度与相位,使数字信息转化为光场的物理属性,光场相互作用时自然完成矩阵和张量运算[2] - 采用多波长光使不同颜色的光分别携带不同维度的数据,从而处理更高阶的张量运算[2] - 所有计算均在光的被动传播过程中完成,无需主动控制或电子开关[2] 行业背景与需求 - 随着深度学习模型规模扩大,图像识别、自然语言处理等任务所需的张量计算量呈指数级增长[1] - 作为当前主力硬件的GPU在速度、可扩展性和能耗方面已接近极限[1] - 数据算得越来越多,能耗也越来越大,这是整个产业面临的共同难题[1] 技术优势 - 光学计算方法可实现一次性瞬间并行完成所有操作,类比于将所有检查和分拣整合在一起的一次光照射[2] - 该方法更适合低能耗、高并行度的光学平台[2] - 这是向通用人工智能硬件研制迈出的重要一步,为突破现有计算平台性能瓶颈提供全新解决路径[1]
AI浪潮奔涌,北京按下“加速键”!2025人工智能+大会以场景驱动点燃新质生产力
环球网资讯· 2025-11-16 14:22
大会概况 - 2025年11月15-17日在北京中关村国际创新中心举行“2025人工智能+大会”,主题为“AI下一个十年:场景驱动×新质引擎” [1] - 大会由国家高新区人工智能产业协同创新网络、中央广播电视总台《赢在AI+》节目组、清华大学可持续社会价值研究院、中国人民大学交叉科学研究院、赛迪研究院人工智能研究中心、中关村发展集团联合主办 [1] 行业趋势与专家观点 - 图灵奖得主姚期智提出大模型革新各行各业,未来最重要发展方向是通用人工智能(AGI),中国需培养尖端创新人才 [2] - 中国人工智能发展坚持技术研发、产品应用、产业培育“三位一体”思路,推动人工智能赋能千行百业 [2] - 宇树科技创始人王兴兴认为未来十年机器人将从“能做事”到“会做事”,从“行业工具”变为“生活伙伴” [2] - 全球人工智能发展进入技术加速进化、能力集中涌现、应用加快普及、创新群体突破的时期 [2] - 圆桌对话围绕“生态协同,AI+未来”、“AI规模化落地的机遇与策略”等话题展开探讨 [3] 产业生态与协同建设 - 北京市人工智能协会(筹)发起设立,由中关村发展集团作为主发起人,联合产业链核心企业、科研机构及高校共同发起,助力北京打造人工智能创新策源地和产业高地 [4] - 推出《清华大学交叉信息研究院人才及国际AI顶尖人才服务清单》,并向全球顶尖人才发出邀请 [4] - 举办AI青年科学家沙龙,搭建青年人才跨界创新交流平台 [4] - 中关村发展集团代表表示愿以场景为锚点让技术扎根产业,以协同为动力让创新活力迸发 [3] 科技成果转化与产业化 - 中关村原生引擎(北京)科技有限公司成立,运营全国高校人工智能区域技术转移转化中心,提供从技术挖掘到场景应用的全链条服务 [5] - 4家单位获授牌为首批“中关村人工智能企业出海服务港”,构建法律合规、技术适配、市场对接的一站式服务体系 [5] - 在“东盟AI+”合作分论坛上促成涵盖人工智能、数字基建、智慧服务等领域的20余项合作需求对接 [5] 场景应用与标杆案例 - 大会发布“AI100应用标杆”榜单,从全国1000多家企业中遴选,展示人工智能技术在各行各业的落地成效 [7] - 举办“AI+新场景”、“具身智能”、“AI+大健康”、“AI+数字孪生”、“AI+创投”、“AI+影视”等系列分论坛,推动技术与实体经济深度融合 [7] - AI+X产品秀展区汇聚10余家优质企业,展示具身智能、大模型应用等前沿成果,包括灵活机械臂协作和仿生设备互动 [7] 生态网络与未来发展 - 大会通过政策引导、智库支撑、人才引育、成果转化到国际化服务,系统性构筑“人工智能+”协同生态 [6] - 以场景为纽带串联创新应用关键环节,织密“AI+”生态网络,为AI高质量发展注入动能 [8]
姚期智、王兴兴发声!预见人工智能“下一个十年”
新浪财经· 2025-11-16 09:51
通用人工智能发展路径 - 图灵奖得主姚期智指出,通用人工智能将使机器具备认知、推理及复杂场景运动能力,其实现将在科学、战略、经济及科技竞争中产生巨大作用[5] - 走向通用人工智能有四个不可避免的方向:大模型持续演化、具身通用智能、科学智能以及AI安全治理[5] - 过去5年,中国在大模型研发方面从与国际有相当距离的程度达到了第一方阵甚至领先的地步[7] 大模型与具身智能演进 - 大模型智能越高可做的事越大,提升大模型能力是重要方向[8] - 具身智能是从大语言模型演变成具有物理知识、能了解世界智能的重要方向,能补足传统机器人产业的不足,使其取代人类不想做的工作[8] - 未来5至10年,AI for Science将对科学研究方式产生翻天覆地变化,科学家的工作必须是科学与大模型等AI技术最好地配合[8][9] AI安全与治理挑战 - AI算法天生具有不鲁棒、不确定、不可解释、不善于抵抗恶意等特性[11] - AI应用可能冲击社会运行,影响社会价值或伦理,并可能替代大量工作造成失业问题[11] - AI与核科技、生物科技不同之处在于其非常像人,可能导致失控并违背人类意愿,需研发可证明安全的AI系统并设置治理协议[11][12] 机器人产业未来十年展望 - 宇树科技创始人王兴兴认为,未来十年是机器人从“能运动”走向“能做事”,从“行业工具”迈向“生活伙伴”的十年[15] - AI技术将赋予机器人真正“理解世界”的能力,多模态大模型与机器人深度融合将使机器人更加敏锐和能干[15] - 场景将推动机器人融入生活,在工业、养老护理及家庭环境中承担各类任务,成为“全能帮手”[17] AI市场规模与商业化路径 - 智谱董事长刘德兵指出,当AI赋能各行各业时,市场规模可能达到万亿级[19] - 智谱完全支持开源,已开源40多款模型,认为开源对人工智能行业有利,需各行业人才共同参与[19][20] - 阶跃星辰CEO姜大昕看好智能终端成为未来AI入口,公司将聚焦“人·车·家”三大领域,车将成为人类第三个生活空间[22] AI企业发展理念 - 云知声创始人黄伟强调,AI企业是做技术的而非作秀的,需在适合场景用合适方式给客户最好交互[22] - 发展人工智能需“用正确的方式做正确的事”,大量苦活脏活不能发文章也不能讲酷炫的PPT[22]
Dexmal原力灵机两轮融资金额近10亿元 阿里与蔚来资本分别领投
证券时报网· 2025-11-16 04:31
融资情况 - 公司完成数亿元A+轮融资,阿里巴巴为独家投资方,此前A轮融资由蔚来资本领投,多家机构跟投及老股东追投,两轮融资金额近10亿元 [1] - 融资资金主要用于智能机器人软、硬件技术研发与落地 [1] 公司背景与团队 - 公司成立于今年3月,核心团队兼具AI顶尖学术背景和10余年AI原生产品规模落地经验 [1] - 团队在算法研发、硬件研发、数据管理、工程创新、场景落地多个方面积累丰富,具备"算法+硬件+场景"复合基因 [1] - 团队在AI物流机器人领域积累了丰富的落地经验,推动了物流行业智能化升级 [1] 核心技术 - 公司自主研发端到端多模态具身智能大模型MMLA,可深度融合多传感器、大语言模型、视觉语言模型、视觉语言动作模型与世界模型的底层能力 [1] - 该模型旨在实现跨场景、跨任务、跨构型的智能泛化 [1] 最新产品与平台 - 公司于今年10月开源基于PyTorch的VLA工具箱Dexbotic,并推出机器人开源硬件产品DOS-W1,以降低机器人使用门槛并提升维护改造便利性 [2] - 公司联合Hugging Face发布全球首个具身智能的大规模真机评测平台RoboChallenge [2] - Dexbotic、DOS-W1和RoboChallenge三者形成深度协同,从软件、硬件和标准方面推动具身智能机器人行业发展 [2] 技术成就 - 公司在CVPR2025协作智能Workshop的RoboTwin赛事第一轮仿真平台赛中斩获并列第一 [2] - 公司在ICRA2025全球机器人视触融合挑战赛中荣获"纯触觉操控"和"触觉传感器设计"两个赛道金牌 [2] 未来展望 - 公司将加速具身智能领域的算法驱动、硬件设计与场景闭环的协同创新,加快通用人工智能的物理世界落地 [2]
万字长文总结多模态大模型最新进展(Modality Bridging篇)
自动驾驶之心· 2025-11-15 03:03
多模态大语言模型(MLLM)行业技术演进 - 多模态大型语言模型(MLLM)已成为新兴研究热点,其通过将大型语言模型(LLM)作为大脑来执行多模态任务,展现出如基于图像撰写故事和无OCR数学推理等新能力,这指示了通向通用人工智能的潜在路径 [2] - 行业通常在大规模配对数据上进行预训练,以促进不同模态间的对齐,对齐数据集通常为图像文本对或自动语音识别数据集,常见方法是冻结预训练模块并训练一个可学习的接口 [2] - 行业内已涌现大量代表性模型,包括Flamingo、BLIP-2、InstructBLIP、LLaVA系列、Qwen-VL、NExT-GPT、CogVLM等,覆盖了从少样本学习到任意模态输入输出的广泛能力 [3][4] 视觉-语言对齐核心技术 - Flamingo模型采用Perceiver Resampler模块,将视觉编码器输出的可变大小时空特征映射为固定数量的视觉标记(例如64个),从而降低后续交叉注意力的计算复杂度 [6][8] - 模型通过GATED XATTN-DENSE层将视觉信息整合到冻结的语言模型中,训练过程中所有语言模型层均利用了视觉信息,门控值的绝对值随网络深度增加而增长 [9][12] - 模型通过特定的掩码方法处理交错的视觉数据与文本序列,限制文本标记仅能关注其前导图像/视频对应的视觉标记,实现了多视觉输入的支持 [11][14] 高效训练策略与数据工程 - 训练数据的构成对模型性能至关重要,例如在Flamingo中,去除交错的图像文本数据集M3W会导致性能下降超过17%,而去除传统配对图像文本对也会导致性能下降9.8% [15] - BLIP-2采用两阶段策略,第一阶段冻结图像编码器和LLM,训练轻量级Q-Former进行视觉-语言表示学习;第二阶段引导视觉到语言的生成学习,实现零样本图像到文本生成 [16][17][22] - 为提高数据效率并防止过拟合,行业采用数据集加权采样策略,采样概率与数据集大小的平方根成正比,例如InstructBLIP中M3W、ALIGN等数据集的权重分别为1.0、0.2等 [28][31][32] 指令微调与性能优化 - 指令微调对模型性能影响巨大,例如在LLaVA中,未进行指令微调的模型性能相对下降高达61.1%,而采用清晰的响应格式提示能有效引导模型输出长短形式的答案 [34][35] - 通过增加高质量、多样化的指令跟随数据,例如结合GPT-4生成的数据,能显著提升模型的视觉推理、OCR和世界知识能力,LLaVA-NeXT在多个基准上甚至超越了Gemini Pro [40][44][46] - 模型扩展不仅限于参数量,还包括输入图像分辨率的提升,例如Monkey模型将输入分辨率有效提升至896x1344像素,无需从零预训练即可显著提高在文档理解等任务上的性能 [94][96][100] 架构创新与效率提升 - 为降低处理高分辨率图像的计算负担,行业提出多种创新架构,如LLaVA-UHD采用模块化视觉编码策略,将图像分割为可变大小切片,并通过压缩层减少视觉标记数量,在仅使用94%推理计算量的情况下提升性能 [110][113][115] - 稀疏化技术如MoE-LLaVA被引入,通过混合专家(MoE)层,在推理时仅激活排名靠前的专家,使模型在保持约3B稀疏激活参数的情况下,性能达到甚至超过参数更多的密集型模型 [104][106][108] - 深度融合方法受到重视,例如CogVLM在语言模型的每一层引入可训练的视觉专家模块,实现视觉与语言特征的深层对齐,相比浅层对齐方法能有效减少幻觉并提升理解能力 [84][86][91] 多模态理解与应用扩展 - 行业致力于提升模型对文本丰富图像的理解能力,例如LLaVAR通过增强视觉指令调优流程,在基于文本的VQA数据集上准确率提升最高达20% [57] - 模型能力向任意模态输入输出扩展,NExT-GPT系统利用LLM作为核心,通过产生独特的模态信号标记来指示解码层输出图像、视频、音频等内容,构建端到端的任意模态MM-LLM [68][70][71] - 针对长视频理解等复杂任务,LLaMA-VID提出用两个标记(上下文标记和内容标记)表示每一帧,显著减少计算负担,支持长达一小时的视频输入 [102][103]