Workflow
大语言模型
icon
搜索文档
豆包发布语音识别模型2.0 支持多模态视觉识别和13种海外语种识别
每日经济新闻· 2025-12-05 08:10
公司产品发布 - 火山引擎于12月5日正式发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0)[1] - 该模型依托Seed混合专家大语言模型架构构建[1] 模型性能提升 - 2.0版本模型推理能力得到提升[1] - 模型可以通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20%[1] - 模型重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了升级[1] 功能与特性扩展 - 模型支持多模态视觉识别,在听得懂的同时看得懂[1] - 模型可以通过单图和多图等视觉信息输入提升文字识别精准度[1] - 模型支持日语、韩语、德语、法语等13种海外语种的识别[1]
知行科技宋阳:依托庞大工业基础和众多场景,中国能率先在AI领域取得更多突破
新浪财经· 2025-12-05 08:07
行业现状与规模对比 - 中国汽车年产量达3000万辆 而具身智能机器人去年产量仅为50万辆 仅为汽车产量的六十分之一 [3][6] - 自动驾驶汽车本质是轮式机器人 是机器人产业的一个分支 长期看其数量将非常庞大 [3][6] 行业融合与技术挑战 - 汽车与机器人行业在现阶段和长期的融合发展 是一个需要同时考虑长期与短期的问题 [3][6] - 大语言模型作为基座模型 在应用于自动驾驶或机器人时存在“中间跳跃”问题 即场景泛化能力不足 [3][6] - 以多模态VLA和机器人为例 在一个房间学习的动作难以泛化到其他场景 需要高成本采集数据 [3][6] - 为世界模型增加新维度(如重力)会导致模型所需算力和成本急剧上升 并伴随电力与散热等挑战 [3][6] 发展前景与路径 - 行业对发展前景持乐观态度 认为可依托中国庞大的工业基础和丰富的应用场景来推动人工智能发展 [3][6] - 通过利用实际产业场景和数据 以产业带动AI的发展模式 中国有望在人工智能领域率先取得更多突破 [3][6]
AI不是随机鹦鹉,如何应对“有主见”的AI?
观察者网· 2025-12-05 02:12
AI技术的发展历程与突破 - 大语言模型技术经历了三代人60年的研究积累,其近期突飞猛进的根本转变源于神经网络和机器学习领域的革命[4][5] - 技术突破的关键转折点出现在约10年前,通过解决复杂的视觉图像识别问题,证明了神经网络惊人的扩展性[10] - 当前AI革命的基础是40年的研究,例如ChatGPT的成功看似一夜成名,实则背后是长期积累的结果[10] 大语言模型的技术本质与局限 - 大语言模型受人类大脑皮层启发,但仅模拟了编码功能的一小部分,其本质是“云端的大脑”,缺乏身体、感官和长期记忆[10][11][14] - 模型在整合知识的广度上已远超人类专家,但其能力仅限于文本训练,目前正扩展至图像和视频[10][11] - 模型缺乏人类的关键能力,包括情绪体验、终身学习以及现实世界中的自主性[14][15] 对AI潜在风险的看法与类比 - AI技术本身是工具,其风险在于使用方式,与核能、生物技术等所有新技术一样,既可用于造福人类,也可能被滥用[16] - 监管是必要的,但关键在于防止技术被坏人利用,历史上人类已成功管理了核能与生物技术的双重用途[16] - 目前处于AI技术的开端,如同早期会爆炸的蒸汽机,需要通过大规模使用和试错来发现问题并完善解决方案[17][18] AI对就业的影响与技能变革 - AI不会直接导致大规模失业,但会改变工作性质,要求人们学习新技能以利用工具提升生产力[31][32] - 历史表明技术革命会创造新岗位,例如工业革命后农业人口从99%降至2%,互联网催生了网页设计师、内容创作者等新职业[18][32][33] - 未来最重要的技能是学会有效使用AI工具,将人类从重复性工作中解放,从事更具创造性的活动[11][32] AI的“幻觉”与偏见问题 - AI“编造事实”的现象被称为“幻觉”或“虚构”,这反映了人类自身的认知缺陷,该特性在需要创造性的场景下可能有益[21][22] - 模型中的偏见源于其训练数据——人类文本本身带有偏见,纠正AI的偏见比改变人类的偏见更容易[34] - 解决偏见是当前研发重点,未来模型将通过类似人类“强化学习”的持续反馈机制来学习是非判断[22][25] 依赖AI与人类认知能力的关系 - 依赖AI工具不会必然削弱人类基础认知能力,正如计算器普及后,学生仍需学习算术以建立对数字的根本理解[26][29] - 掌握任何技能都需要在现实世界中持续练习,使用AI(如改进语法)可以成为提升自身技能水平的有效工具[29][30] - 关键在于主动使用而非被动依赖,通过实践保持并提升核心能力[29] AI的理解能力与语言科学前沿 - 关于AI是否真正“理解”语言存在学术争论,这反过来促使人类需要发展更精确的语言科学理论[38][39] - 大语言模型运作于数十亿甚至数万亿维的高维空间,这正在催生新的数学理论和理解方式[41][42] - 研究表明,语言的关键在于“语义”而非“句法”,大语言模型擅长通过上下文理解词义,这种能力使其能够回答新问题[44][45] 对年轻一代与科学探索的建议 - 科学进步常由年轻一代推动,当专家断言某事不可能时,不应盲从,历史上有许多突破因此实现[46][47] - 技术进步伴随着世代更迭,固步自封会阻碍发展,开放探索的环境至关重要[47][49] - 鼓励年轻人勇于挑战权威,创造未来[46][49] 对AI监管的看法 - 当前AI大语言模型技术仍处初级阶段,过早、过细的政府监管会限制探索和试错,不利于解决技术本身存在的问题[2][50][51] - 倡导基于行业的自我监管,认为科学家社群有能力在探索中识别并防止技术滥用[50][51] - 以欧盟长达100页的《人工智能法案》为例,认为其中对具体应用场景的微观管理方式“荒谬”且难以执行[51] - 不同国家监管方式各异,中国出台的规则被认为比欧盟的提案更为合理[52]
世界太小,不够世界模型们用了
36氪· 2025-12-04 09:29
文章核心观点 - AI行业对“世界模型”的定义和技术路径存在显著分歧,但普遍认为其是超越大语言模型、通往通用人工智能的必经之路 [1][2] - “世界模型”概念正经历严重的通货膨胀,其外延被无限扩大,成为一个涵盖环境理解与模拟上下游技术的宽泛“筐” [2][3][18][19] - 世界模型的兴起背后交织着资本焦虑、技术瓶颈和对AGI的渴望,并被视为一场“反LLM中心主义”的运动 [20][22] 概念起源与演变 - “世界模型”的思想最早可追溯至1943年认知科学家Kenneth Craik提出的“心智模型”,即大脑通过构建外部世界的微缩模型来进行预测 [4] - 2018年Jürgen Schmidhuber等人的论文《Recurrent World Models Facilitate Policy Evolution》首次系统定义了神经网络世界模型的框架 [4] - 近两年,随着大语言模型的爆发和对AGI的渴望,该概念迅速繁殖,衍生出众多抽象定义,如“自主智能”、“空间智能”、“压缩即智能”等 [5] 主要技术流派:表征派 - 以杨立昆为代表,主张世界模型是一个在潜在空间运作、预测“抽象状态”的“大脑”,而非生成具体画面 [7] - 其定义的世界模型需同时输入四个变量来预测下一时刻的世界状态,追求逻辑上的因果推演,而非视觉逼真 [12] - 提出的I-JEPA和V-JEPA模型摒弃了生成式AI“预测每一个像素”的做法,以避免浪费算力在不可预测的噪音细节上 [12] 主要技术流派:生成派 - 与表征派的核心区别在于旨在重建和模拟视觉世界,认为“我若无法创造,便不能理解” [13] - OpenAI的Sora被视为世界模拟器,其通过在海量视频数据上预测下一帧像素,试图涌现出对物理规律的理解 [13] - 生成派进一步衍生出互动式生成视频,如谷歌DeepMind的Genie 3,支持生成720p分辨率、24fps帧率的实时互动画面,理解动作与环境的因果关系 [14] 主要技术流派:3D空间智能 - 以李飞飞为代表,主张通过构建持久、高精度的3D环境来实现“空间智能” [16] - World Labs发布的Marble采用类似“3D高斯泼溅”的技术,将世界表征为成千上万个高斯体,以生成符合物理规律的3D世界 [16] - 该路线旨在生成可下载、高精度且物理准确的3D空间,区别于Sora的视频流和Genie 3的实时生成 [16] 行业现状与驱动因素 - 当前各技术路线的成果均未达到理想的世界模型状态,但概念已广泛挂钩于具身智能、自动驾驶、游戏视频、多模态模型、3D模型乃至视觉信息压缩等领域 [18] - 热潮背后存在巨大泡沫,部分源于创投圈需要新叙事来突破大语言模型竞争已定的格局,将“视频生成”等工具概念提升至AGI高度以吸引投资 [20] - 科研人员大规模下场创业,使得学术上的“定义之争”蔓延至商业世界,不同定义直接关联数十亿级别的算力投入和产业链方向 [21] - 行业对大语言模型产生集体性技术焦虑,认为其存在“离身”的先天缺陷,且性能提升的边际效益递减,因此转向对物理现实的模拟与交互被视为关键 [23]
南网能源院 | 业务动态(总第53期)
新浪财经· 2025-12-03 13:25
国际合作与技术交流 - 战略所参与中德能源工作组会议,围绕碳捕集利用封存和电力系统灵活性两大专题开展交流,并探讨后续全球能源战略研究合作 [1] - 主网部受邀参加第十三届电力系统控制、运行及管理发展国际会议,主持新型电力系统规划先进技术与实践专家研讨会,并发表适应新能源高渗透率系统的主旨演讲 [10] - 战略所研究员在IEEE能源工程与电力系统国际学术会议向国际学术界阐述大语言模型驱动电碳核算方法论的前沿研究 [9] 新型电力系统技术前沿 - 主网部参与柔性直流电网关键装备技术专题调研,围绕基础稳定理论、规划设计技术、关键装备研发等主题与高校及企业交流 [3][28] - 主网部研究员在全国电网技术交流会介绍南方电网保底电网规划建设历程、保底网架构建思路及防灾减灾差异化设计原则 [2][27] - 战略所研究员在新型电力系统国际论坛展示基于大语言模型的电碳核算认证关键技术,强调AI工具提升核算精准度与效率的潜力 [5][31] 电网规划与建设成果 - 广州电力设计院在全国优秀工程勘察设计奖评选中斩获3个奖项,包括220千伏漱玉变电站二等奖、500千伏楚庭送电线路三等奖等 [7][35] - 2025年标准设计与典型造价体系文件通过评审,为电网十四五末至十五五初期的规划建设提供统一技术依据与成本参考 [13][38] - 主网部研究员在《中国电力》年会介绍南方区域新型电力系统示范区建设的规划布局、示范成效及柔性构网技术展望 [5][32] 智能化与数字化转型 - 配网部调研电鸿物联操作系统实验室,就统一物联网数字化架构、智能终端等交流,支撑配电网十五五规划 [12][37] - 玉林供电局与南网能源院围绕新型配电系统转型,讨论四力提升、三大协同和六大推广技术在十五五规划中的应用 [16][41] - 战略所研究员在多个论坛探讨大语言模型在电碳核算、可持续交通燃料等领域的应用,展示智能化工具在能源行业的潜力 [5][9][21] 新能源与跨领域研究 - 咨询评审中心研究员在氢电协同技术论坛发表氢能在新型电力系统中作用的主旨演讲,探讨多种应用场景和发展趋势 [19][44] - 新能源部调研成都勘探设计研究院,围绕西南水电基地开发建设等议题深入交流 [23][48] - 投资所与北京大学探讨超充技术对电网风险影响、课题合作等,战略所参与可持续交通燃料专委会预备会讨论绿色转型等议题 [19][21][44][46]
腾讯公司副总裁蒋杰:AI让广告每个环节都在提效,腾讯会更多启用AI人才
36氪未来消费· 2025-12-03 12:50
AI对广告业务的提振作用 - 腾讯广告三季度收入增速达21%,为过去六个季度新高,所有主要行业广告主投放均增长,AI驱动的广告定向带动eCPM增长 [2] - 腾讯广告AIM+智能投放产品使广告主每万元投放费用所需操作次数下降80%,创意环节操作次数减少47% [2] - AI优化使部分广告库存点击率提升至3%左右,显著高于横幅广告0.1%和信息流广告1.0%的历史水平 [10] - 腾讯广告妙思通过AIGC使行业商家日产出素材从20条/人/天提升至60条/人/天,人效提升300%,综合素材生产成本降低50% [11] - 妙思实现客户渗透率65%,每日有300万条创意被分发应用,微信小店广告约47%的有效创意来自妙思 [11] AI技术演进方向 - 广告系统未来呈现判别式与生成式双轨发展,生成式能利用大语言模型解决广告冷启动问题 [7] - 在召回、粗排阶段用生成式替代判别式已取得较大效果,并体现在财报营收数据上 [7] - 视频生成延时从5分钟缩短至5-10秒,小模型应用前景广阔,混元8B模型和OCR 1B模型推理成本低 [10] - 未来技术重点包括大语言模型智能上限提升、多模态能力、3D世界模型,这些将应用于广告体系 [12][13] - 未来广告系统将从级联方式转向端对端方式,实现根据用户即时兴趣实时生成互动广告素材 [11] 广告行业变革与竞争格局 - 腾讯视频号广告加载率维持在4%左右,远低于业内10%-15%的水平,体现商业化克制 [6] - AI加剧技术革新和行业竞争,但广告主年度营销费用总额大体不变,只是投放形式发生改变 [11] - 优化师角色将从投放操作转向创意生产,原创内容重要性凸显,广告与内容边界将模糊化 [8] - 生成式AI面临Prompt优化、素材筛选等挑战,这些仍需要优化师的专业能力 [9] AI人才市场现状 - 2025年1-7月AI新发岗位量同比增长超10倍,简历投递量暴涨11倍,算法人才持续紧缺 [3] - 搜索算法人才紧缺度最高,岗位与人才比例达5:2,非技术岗数量同比增长7.7倍 [3] - 企业AI岗位数量排名前五为字节跳动、小红书、阿里巴巴、蚂蚁集团、腾讯 [4] - AI人才市场呈"卖方市场"特征,顶尖学生手握多个offer,更看重实战场景、数据丰富度和导师资源 [19] 腾讯的人才策略 - 腾讯广告算法大赛吸引全球近30个国家8400余人报名,奖金池360万元,20强中约75%为00后 [4] - 大赛选手仅凭脱敏数据做出的方案已不逊于工业界实践,显示学界与工业界知识体系接轨 [16] - 腾讯通过"青云计划"提供优质实战环境、高端薪酬和培养体系,吸引顶尖人才 [17][18] - 当前更看重应聘者的综合能力、项目经验和工程能力,而非单纯学历背景 [21][22] - 现代AI人才具备更强独立工作能力,1-3人团队可完成传统大团队任务 [23][24]
中山大学最新论文登上Cell头条
生物世界· 2025-12-03 10:00
研究概述 - 中山大学中山眼科中心团队在Cell子刊Cell Reports Medicine上发表了一项随机对照试验研究,评估大语言模型在医学人工智能研究中对医生的有效性[2][4] - 研究旨在探索大语言模型能否帮助医生克服技术障碍,协助其开展医疗人工智能研究[4] 研究背景与设计 - 跨学科研究推动了数字医学等领域的发展,但人工智能在生物医学的广泛应用受限于医生的技术障碍,特别是偏远地区或资源有限的年轻医生团队[6] - 研究招募了64名初级眼科医生,进行为期两周的“自动化白内障识别”项目,采用优效性、开放标签的随机对照试验设计[6] - 干预组32人使用ChatGPT-3.5,对照组32人不使用大语言模型,旨在最小化工程辅助的情况下评估效果[6] 核心研究发现 - 干预组项目总完成率显著高于对照组,达到87.5%,而对照组仅为25.0%[7] - 干预组无辅助完成率也远高于对照组,分别为68.7%和3.1%[7] - 干预组展现出更优的项目规划能力和更短的完成时间[7] - 经过两周洗脱期后,41.2%的成功干预组参与者能够在没有大语言模型支持的情况下独立完成新项目[7] - 大语言模型将医疗AI项目的完成率从25%提升至87%,并使41%的成功干预医生在后续能独立完成新项目[11] 潜在风险与影响 - 调查显示,42.6%的参与者担心会不加理解地复述AI信息,40.4%的参与者担忧AI会助长惰性思维,表明存在潜在的依赖性风险[7] - 大语言模型虽能帮助医生克服技术障碍并促进医疗AI研究民主化,但存在幻觉和依赖风险,其长期风险仍需进一步研究[8][11][12] - 研究提出了与大语言模型有效互动的初步提示指南[11]
OpenAI内忧外患拉响“红色警报”:多个项目暂停 神秘模型曝光!
每日经济新闻· 2025-12-03 04:58
公司战略调整 - OpenAI CEO宣布公司进入“红色警报”状态,暂缓非核心项目以集中资源提升ChatGPT能力[1][3] - 被暂停的项目包括商业化前景广阔的广告业务、自动化处理复杂任务的AI Agent项目以及个性化资讯报告功能Pulse[3][4] - 公司首席财务官向投资者承认ChatGPT增长出现放缓,CEO警告谷歌的强势回归可能带来短期经济压力[3] 竞争格局与市场表现 - 谷歌Gemini在桌面和移动端的单次平均使用时长飙升至7.2分钟,首次超越ChatGPT的约6分钟[7] - ChatGPT月度下载量约8700万仍领先,但Gemini从2025年年中每月约1500万下载量一路飙升至10月底的约6600万,追赶速度惊人[10] - Salesforce CEO公开表示在使用Gemini 3两小时后,因其在推理、速度、图像、视频方面的优势而放弃使用三年的ChatGPT[13] 技术发展与产品路线图 - OpenAI计划下周发布一款全新推理模型,内部评估显示其性能比Gemini 3更强[5] - 公司研发新一代代号为“Garlic”的模型,修复了GPT-4.5早期结构中的问题,预计明年初作为GPT-5.2/GPT-5.5发布[5] - 在开发Garlic过程中预训练取得重大突破,能够将大型模型知识打包到更小架构中[5] 财务状况与资本开支 - 据测算,从2025年到2030年,OpenAI在云和算力成本将高达7920亿美元,到2033年算力承诺总额飙升至1.4万亿美元[14] - 到2030年,公司累计自由现金流仍为负,资金缺口高达2070亿美元,必须通过额外融资或更激进创收手段填补[14] - 随着一笔380亿美元贷款方案加入,围绕OpenAI的债务总额逼近1000亿美元大关[15] - 公司未来八年数据中心项目承诺投资总额约为1.4万亿美元,巨额开支让软银、甲骨文、CoreWeave等合作伙伴负债累累[16]
奥特曼发红色警报,大模型走进死胡同了吗 ?
36氪· 2025-12-03 04:31
行业技术瓶颈 - 大语言模型训练成本飙升但性能提升显著放缓,2019-2022年成本增加10倍性能提升25%-35%,2023年后同样成本投入性能提升降至10%-15%,2024年以来成本翻倍性能提升不足5% [2][3] - 头部模型性能表现趋同,在关键基准测试上得分集中在一个狭窄区间,2025年11月排名第一和第十的模型Elo评分差距从2024年6月的超过150分收窄至不足50分 [10] - 曾经被视为黄金定律的Scaling Law正在失效,模型代际更新间隔拉长,例如Meta Llama模型从第三代到计划推出的第四代间隔已超过15个月 [11][12] OpenAI面临的竞争与内部挑战 - 公司宣布进入"Code Red"紧急状态,竞争对手谷歌Gemini 3模型在基准测试上实现超越,其月活跃用户从2025年7月的4.5亿增长至10月的6.5亿,同时Anthropic的Claude周访问量达0.41亿人次,较六周前增长17.1% [1][3] - 自2024年5月GPT-4o发布后,公司顶尖研究人员未能成功完成一次大规模全面预训练,GPT-5相比GPT-4更像是微调优化而非代际升级,其MMLU评分仅比GPT-4提升10%-20% [6][7] - 公司调整策略重心转向优化现有产品ChatGPT,改进个性化功能、速度及可靠性,并推迟广告、健康AI代理等其他项目开发,鼓励员工调岗并每日召开改进会议 [8] 技术困境的根本原因 - 大语言模型面临"不可约误差"限制,当模型足够强不再犯低级错误后,由语言本身歧义和不确定性造成的误差无法通过增加数据、算力或改进算法消除 [14][15][16] - 高质量训练数据面临枯竭,GPT-4几乎已用完互联网上高质量文本,剩余大量低质量内容,使用AI生成数据训练会导致"模型崩溃",使模型输出多样性下降并放大自身错误 [20][21] - 互联网上已充斥大量AI生成内容,未来模型通过爬取网络获取训练数据将不可避免包含这些内容,使模型崩溃从理论问题转变为实际威胁 [22] 行业未来发展方向争议 - 以李飞飞为代表的观点认为大语言模型只是AI系统组件,未来需要发展能理解三维物理世界的"世界模型",使用逻辑规则和符号推理而非统计模式 [23][24] - 杨立昆等学者批评语言模型路径只是学习统计规律而非真正理解世界,实现真正智能需让AI建立对物理世界基本概念的模型 [25][27] - OpenAI和Anthropic坚持"规模假说",认为继续扩大模型规模、投入更多数据和算力,智能会"自动涌现",语言模型路径仍有潜力达到AGI [28][29]
华为、京东、优必选等先后入局,AI玩具成AI硬件新蓝海?
国际金融报· 2025-12-03 04:09
行业热度与市场前景 - AI玩具赛道热度迅速攀升 2025年上半年京东平台销量环比激增六倍 同比增速超200% [1] - 预计到2030年 AI玩具全球市场规模将突破千亿量级 年复合增长率超过50% 国内市场规模有望突破百亿 年复合增长率超70% [5] - 行业毛利率颇具吸引力 定价300-400元的基础款毛利率约50%-65% 1500-3000元的中高端产品毛利率约70%-85% 个别高端产品毛利率达90%以上 [5] 主要参与者与资本动态 - 赛道参与者多元 包括跃然创新 珞博智能等初创公司 奥飞 汤姆猫等传统玩具厂商 以及京东 荣耀 华为等科技大厂 [1] - 2024年以来 AI玩具赛道已有超30起投融资事件 吸引近百家投资机构 超20家相关初创公司获得融资 [4] - 近期巨头密集发布新品 例如优必选推出“优崽” 华为与珞博智能联合开发“智能憨憨”开售即售罄 [3] 驱动因素与增长逻辑 - 社会趋势如“单身经济” “老龄化” “精细化育儿”推动了对情感陪伴的现实需求 AI玩具提供了新的情感解决方案 [5] - 大语言模型在情绪理解与自然对话能力上的持续突破 推动生成式AI技术向情感交互产品加速渗透 [6] - AI芯片 多模态传感器等关键硬件达到量产水平 软硬件双重突破使产品爆发成为可能 [6] 产品现状与核心挑战 - 市场尚未诞生真正的爆款 产品同质化趋势明显 例如“优崽”与“智能憨憨”的核心逻辑高度相似 [2][7] - 用户体验存在不足 包括交互生硬 答非所问 无法敏锐感知情绪变化 缺乏自然连续对话能力等 [7] - 数据安全与隐私问题突出 产品需持续采集用户隐私数据以构建动态记忆 引发消费者对数据泄露与滥用的疑虑 [8] 商业模式与未来展望 - AI玩具的想象空间不止于硬件销售 其本质是触达用户的入口 更大的价值在于通过持续提供内容与交互服务实现长期变现 [8] - 订阅服务是潜在商业模式 例如提供年费一两百元的互动订阅 或与喜马拉雅等内容平台合作拓展收入来源 [9] - 行业仍处于早期发展阶段 距离真正走向成熟或许仍有漫漫长路 [2]