Workflow
LLaMA
icon
搜索文档
人工智能产业“十四五”复盘与“十五五”展望:“两个变局”下的AI要素化跃
搜狐财经· 2025-09-26 17:47
今天分享的是:人工智能产业"十四五"复盘与"十五五"展望:"两个变局"下的AI要素化跃迁-中国银河 报告共计:49页 《人工智能产业"十四五"复盘与"十五五"展望:"两个变局"下的AI要素化跃迁-中国银河》聚焦AI产业在"十四五"期间的发展 成果与"十五五"趋势,围绕技术演进、产业生态、政策支持及应用拓展展开分析。技术层面,大模型成核心突破方向,参数 量增长提速,从2018年GPT-2的15亿参数跃升至2024年GPT-4的1.76万亿参数,2025年呈现"高参数量+轻量化"并行分化,海外 OpenAI、Meta、Google与国内百度、阿里等企业持续推出迭代模型;算力硬件方面,GPU仍占主导(Nvidia占比70%), ASIC、FPGA等异构芯片加速发展,寒武纪MLU370R-X8等加速卡实现训推一体,海光等企业推动x86与深度计算处理器协 同,液冷等高效散热方案在数据中心普及。产业生态上,AI要素化进程加快,数据经历资源化、资产化、资本化阶段,数据 确权、定价、交易体系逐步完善,政策端2024年数字经济重点工作强调数据要素潜能释放,2025年持续推动标准建设与可信 社会构建;智能体(Agent)生态崛起 ...
最新综述!扩散语言模型全面盘点~
自动驾驶之心· 2025-08-19 23:32
扩散语言模型(DLMs)与自回归模型(AR)的范式对比 - 扩散模型在图像生成领域表现突出,代表模型包括Stable Diffusion和DALL·E,通过"从噪声中迭代重建"的生成逻辑刷新视觉创作边界 [2] - 自回归模型主导文本生成领域,代表模型包括GPT、LLaMA、Qwen、DeepSeek系列,采用"逐词预测序列"框架但存在效率瓶颈 [2] - 扩散语言模型(DLMs)通过"并行生成+迭代优化"机制实现数倍推理加速,性能已比肩同等规模AR模型 [2] DLM的核心技术优势 - **并行生成能力**:工业界模型如Mercury系列、Gemini Diffusion实现每秒数千token的推理速度,较AR模型提升10倍以上 [11] - **双向上下文理解**:支持双向注意力机制,在文本补全、风格迁移等任务中表现更优,且能实现细粒度控制如情感倾向调整 [12] - **迭代优化机制**:类似人类写作修改过程,可动态修正低置信度token,LLaDA-8B在GSM8K数学基准测试中准确率超过LLaMA3-8B 5% [13] - **多模态适配性**:统一框架支持文本与视觉联合生成,MMaDA模型在图像生成质量上超越SDXL,同时保持语言理解能力 [14] DLM的三大技术范式 - **连续空间DLMs**:将文本token映射到连续嵌入空间完成扩散过程,可直接使用DDPM等成熟框架但存在语义偏差问题 [19] - **离散空间DLMs**:直接在token词汇表上定义扩散过程,主流路线代表包括8B规模的LLaDA、Dream-7B,支持8192 tokens长序列处理 [20][21] - **混合AR-DLMs**:结合AR长程依赖建模与DLM并行生成能力,Diffusion-LM等模型在指令跟随任务上达到GPT-3.5水平 [22][23] 训练与推理优化技术 - **训练策略**:采用迁移学习降低门槛,Dream-7B基于Qwen2.5-7B初始化,训练数据量减少50%但推理速度提升7倍 [30] - **推理加速技术**:包括置信度感知解码(速度提升27.6倍)、辅助模型引导解码、缓存机制(速度提升9倍)等 [38][40] - **质量保障技术**:ReMDM模型的动态修正机制、LaViDa的互补掩码策略使多模态训练效率提升40% [39] 多模态与产业落地应用 - **多模态模型**:LLaDA-V在MME基准超越LLaVA-1.5-7B 12%,D-DiT在文本生成图像任务人类偏好率达85% [44] - **代码生成领域**:DiffuCoder在HumanEval基准pass@1达68%且推理速度快8倍,Mercury Coder语法错误率仅2.3% [46] - **计算生物学**:MeMDLM设计的膜蛋白表达成功率达68%,DPLM2在蛋白质折叠任务RMSD达1.8Å [47] 未来发展方向与挑战 - **核心挑战**:包括并行性-性能权衡(去噪步数减少导致GSM8K准确率从78%降至45%)、工具链不完善、长序列处理复杂度高等 [51][52][53] - **研究方向**:语义关联建模、专用工具链建设、稀疏扩散架构创新、跨模态协同推理等 [54][56]
偷 2396 部黄片,每部赔 15 万,小扎惹大事了!Meta 盗版海量小视频训练 AI
程序员的那些事· 2025-08-19 03:45
核心观点 - 成人影视巨头Strike 3 Holdings与Counterlife Media指控Meta通过BT网络盗版2396部影片用于AI训练,可能面临3.59亿美元(约26亿人民币)天价罚单 [2] - 本案首次聚焦成人影视内容被用于训练视频生成AI的争议,与文字、图像侵权案不同 [2] - 原告担忧Meta的AI能以极低成本复刻其"好莱坞品质"影片的独家风格,摧毁行业生态 [5] 诉讼细节 - 原告旗下拥有Vixen、Tushy等知名成人厂牌,Strike 3是美国最活跃的版权诉讼方 [3] - Meta被指控自2018年起系统性盗版影片,用于训练Meta Movie Gen视频生成模型及LLaMA大语言模型 [3] - 诉状援引VXN Scan追踪系统数据,指控Meta利用BT网络"以牙还牙"机制持续做种传播盗版内容 [6][7] - 证据显示Meta通过47个Facebook注册IP进行十万余次非法传播,并通过6组"基础设施外IP"构建盗版网络 [10][11] - 数据分析发现这些IP与企业IP存在"非人类使用特征"的高度关联,符合AI训练数据采集模式 [12] 证据链 - 发现一名使用康卡斯特家庭宽带的Meta员工IP地址与企业服务器、隐蔽IP存在数据往来,佐证"公司指使员工参与盗版"指控 [14][15] - 诉状特别提到表格中列出的IP地址与侵权记录,包括时间、IP范围等详细信息 [13] 法律主张 - 原告主张Meta构成直接侵权与间接侵权,要求陪审团审判 [16] - 按美国版权法故意侵权条款,2396部作品最高可判赔3.59亿美元(25.79亿人民币) [17] - Meta发言人回应"不认同指控",但业内推测可能达成庭外和解 [18] 行业影响 - 原告担忧AI复刻能力将摧毁成人影视行业生态,其他实拍工作室难以企及专业影像质量 [5] - 外网评论将此案与爱泼斯坦案类比,认为性丑闻容易引发社会广泛关注 [19] - 有评论指出Meta平台审核AI对色情擦边内容存在纵容现象 [20]
百度换人讲故事
经济观察报· 2025-08-12 02:51
百度AI搜索产品表现 - 百度AI搜索月活跃用户达3.22亿 位居国内AI搜索行业首位 [2] - PC端和APP端支持更长文本与复杂问题输入 整合AI写作/AI解题/AI PPT等多模态工具 [2] - 内部将搜索升级视为近十年来最大产品改版 [2] 组织架构调整 - 百度推行产品经理负责制 鼓励一线产品经理承担方向推动与外部表达职责 [2] - 让年轻产品经理走到台前是组织机制的有意调整 非临时决定 [2] - 表达权松动推进中 产品经理能否获得更多实质性决策权仍是待解问题 [7] 产品发布机制变革 - 百度AI搜索团队采用跨部门头脑风暴 最终聚焦生成搜索逻辑/事实校验机制/AI工具整合能力三大讲述主轴 [5] - 设立容错机制:讲稿由一线负责人自行撰写 品牌与法务仅提供审校与合规建议 [6] - 表达能力被系统性纳入产品经理能力评估体系 [7] 行业比较 - 字节跳动采用技术导向表达方式 讲述者多为技术总负责人 重点讲解平台能力与性能参数 [8] - 阿里主讲人多为事业群总经理或副总裁 话语体系聚焦产业协同与战略落地 [8] - OpenAI采用成果汇报风格 由CEO与科学家共同公布产品内容 [10] - 谷歌与Meta由一线研究员和产品经理演示讲解 接受不完美现场表现 [10] 用户互动与产品迭代 - 百度AI搜索团队收到大量用户反馈 建议被纳入迭代计划 [6] - 主动进入小红书/抖音等社区观察用户反馈 相关账号积累超8万粉丝和36万点赞 [6] - 通过共创机制形成开放循环 多年用户通过社交媒体报名产品体验官 [6] 技术支撑与传承 - 自2013年起持续在算法/平台架构等基础方向投资 [7] - 产品经理向底层架构设计者请教产品演进路径以保证表达准确性 [5] - 年轻产品经理登台背后有资深技术人员与组织知识的支撑 [7]
马斯克:特斯拉正在训练新的FSD模型,xAI将于下周开源Grok 2
搜狐财经· 2025-08-06 10:05
xAI开源Grok 2 - 公司宣布将于下周开源旗舰聊天机器人Grok 2的源代码,延续其在人工智能领域的透明度推进策略 [1] - Grok 2基于专有的Grok-1语言模型构建,定位为比ChatGPT或Claude更少过滤且更"追求真相"的替代工具 [1] - 系统直接从X平台的实时数据中获取信息,能够对突发新闻和热门话题做出实时反应 [1][3] Grok 2的核心竞争优势 - 与X平台深度整合,直接从X平台获取实时数据,在处理突发新闻和热门话题方面具备独特优势 [3] - 提供多模态功能,能够生成文本、图像和视频内容,目前向X Premium+订阅用户提供服务 [3] - 此次开源将使开发者和研究人员能够直接访问Grok 2的底层代码和架构,允许他们审查、修改并基于该技术进行开发 [3] 开源战略的商业影响 - 分析师指出,这一战略可能加强马斯克的商业网络,为其在Tesla、SpaceX、Neuralink和X等公司间的整合创造可能性 [3] - 公司表示现在是与公众分享新模型的"合适时机",与行业向开源AI模型的转变趋势保持一致 [3] - Meta的LLaMA、Mistral以及OpenAI的GPT-oss系列都采用了类似的开源路径,xAI继续将自己定位为OpenAI、谷歌和Anthropic等大型AI公司的制衡力量 [4] 内容限制争议 - Grok较为宽松的内容限制政策此前已引发多起争议,过往出现的误导性或冒犯性回应案例引起了关注 [4] - Grok Imagine图像和视频生成器因可能产生不当内容而陷入争议,引发了关于开放性与安全性平衡的进一步辩论 [4] - 业界担忧,在医疗诊断或自动驾驶系统等敏感领域,该技术的滥用可能带来更严重后果 [4] 特斯拉FSD模型进展 - 特斯拉正在训练新的FSD模型,如果测试顺利,可能在下个月底准备好向公众发布 [3] - 特斯拉昨日给出价值约290亿美元的激励方案,旨在确保马斯克继续留任公司 [3]
拥抱 AGI 时代的中间层⼒量:AI 中间件的机遇与挑战
36氪· 2025-08-05 09:52
大模型发展趋势 - 模型能力持续跃迁 从文本生成到多模态理解与推理 语言能力显著增强 GPT-4在复杂问题处理和文本生成方面远超GPT-3[1] 多模态能力突破 GPT-4o支持文本、音频、图像和视频的任意组合输入输出[2] 推理能力深化 o1模型通过强化学习生成内部思维链 在编程和数学推理领域表现出色[2] 工具使用能力拓展 o3模型具备自主调用和整合外部工具的能力[2] - 其他领先模型展现强大能力 Google的Gemini模型在多模态推理和复杂编码方面表现出色 Anthropic的Claude Sonnet 4在编程和推理方面表现优异[3] - 模型生态日益开放 开源模型兴起 Meta发布LLaMA系列 国内外团队推出QWen、DeepSeek、Kimi、Mistral等高质量开源模型[4] 开源模型能力赶超 部分开源模型在特定任务上逼近或超越专有模型 如DeepSeek R1和Kimi K2在推理和代码生成方面表现突出[4] AI应用演进路径 - 应用形态变革 从聊天机器人到组织级智能体 分为五个层级 Level 1具备对话语言能力 如早期ChatGPT[5] Level 2具备人类水平问题解决能力 如DeepSeek R1[5] Level 3能够代表用户采取行动 如Manus、Claude Code[6] Level 4能够辅助发明和发现[6] Level 5能够执行整个组织工作[6] - AI Agent爆发式增长 通用Agent如Manus、Genspark、ChatGPT Agent 通过集成工具提供一站式服务[8] 专业Agent如Claude Code、Gemini CLI、Qwen Code等Coding Agent 以及Cursor、Trae、Kiro等AI Coding IDE 提升开发效率[9] - 通用Agent与垂直Agent并存互补 垂直Agent需要深度集成领域知识、专有数据和特定工具 如企业智能客服需精准理解产品手册和服务条款[10] 基础模型无法快速适应业务变化 垂直Agent成为必然选择[11] AI中间件机遇 - Agent研发提效 提供一站式研发框架 抽象封装底层LLM 支持ReAct模板 集成RAG、记忆库和外部工具插件[13] 引入无服务器架构作为运行时 弹性扩展且降低运维成本[14] 提供Agent评估框架 模拟环境验证决策和输出质量[14] - 上下文工程 提供上下文模板和编排工具 自动拼接最优提示组合[15] 结合模型注意力机制特点 对上下文进行缓存和裁剪优化 如保持Prompt前缀稳定利用KV-Cache提速[15] 实现上下文压缩策略 如对话摘要、索引引用和分层内存[18] - 记忆管理 提供短期和长期记忆功能 短期记忆如多轮对话内容和工具结果 长期记忆如用户偏好和业务知识库[19] 统一管理不同层次记忆 提供API读写外部数据 实现记忆压缩和更新策略[19] - 工具使用与扩展 建立标准化工具接入机制 如Model Context Protocol (MCP) 封装外部数据源或API[20] 提供工具聚合产品 按需调用行业常用工具[20] 引入工具调度优化算法 提升工具使用准确率[21] - 沙箱环境与安全 提供受控的沙箱运行环境 隔离代码执行和网络访问[22] 制定工具权限和调用限制 设置人工审批流程[22] 支持强化学习微调[23] - 多智能体协作 提供多Agent管理和编排功能 提升任务并行处理能力和专业性[24] 设计通信协议和共享内存 避免重复或冲突操作[24] - 多模态支持 集成图像识别、语音合成、OCR、视频理解等模块[25] 提供多模态数据处理管道 实现流式、多模态的人机交互[25] AI中间件挑战 - 复杂上下文构建与优化 管理不断膨胀的上下文 制定合理的组装策略[27] 实现上下文裁剪和压缩机制 平衡准确性和效率[28] - 持久记忆更新与利用 持续更新记忆并确保正确利用 如用户资料变化[29] 攻克记忆组织索引、演化和冲突消解难题[29] - RAG效果优化 提升检索质量和速度 避免错误信息误导[30] 支持大规模知识库的快速语义搜索[30] - Agent行为评估测试 缺乏成熟测试方法 输出具有概率性和多样性[31] 构建模拟环境或沙盒测试框架 判断决策对错[32] - 工具使用风险与管控 提供权限控制 设定工具权限边界[34] 记录详细日志供审计和追溯[35] 设置人类复核流程 确保符合法律规范[35] - 沙箱环境性能与成本权衡 部署沙箱带来性能开销和成本负担[37] 权衡任务执行方式 采用轻量隔离技术[37] 解决跨平台支持问题[38] 未来发展方向 - 短期使命 解决AI应用规模化的最后一公里问题 提供高层次抽象、自动化优化和托管平台[39] - 长期潜力 成为组织智能的神经中枢 连接模型、数据和业务系统[39] - 技术范式更替 从聊天机器人到组织级智能体 工程化与规模化落地成为核心挑战[40]
三大难题掣肘AI大模型落地
AI大模型普及化应用 - DeepSeek-V3和R1大模型以开源、高性价比及免费使用等优势降低使用门槛,推动云服务厂商、科技企业、垂直行业及地方政府广泛接入并定制开发[1] - 大模型部署热潮标志着AI普及化应用元年开启,但面临底层框架稳定性不足、跨行业融合壁垒及生态支撑有限三大问题[1] - 深度求索的模型支持任意修改和衍生开发,显著促进AI应用生态繁荣发展[1] 技术瓶颈与可靠性挑战 - 大模型存在"黑箱"效应,行业应用中缺乏可解释性,导致推理和决策过程可信度不足[2] - 模型在新场景中因缺乏行业知识易产生"幻觉",ChatGPT-4简单加法错误率比小模型高15%,LLaMA两位数运算正确率低于60%[2] - 主流模型幻觉率差异显著:ChatGPT-4为1.8%,DeepSeek-V3为3.9%,DeepSeek-R1和Google PaLM-2均超14%[2] 行业适配与落地难题 - 制造业多模态数据要求跨模态融合能力,但现有模型对时序数据和高精度参数解析准确率偏低[3] - 训练数据无法完全反映产业复杂性,输出不准确性导致企业应用趋于谨慎[3] - 新能源汽车产业集群中38%供应商未接入系统,导致数据交互延迟72小时,成本模型误差达15%[4] 产业链协同与成本问题 - 分散式接入导致协同成本增加,满血版DeepSeek-R1每日处理1000亿token月亏损达4亿元[4] - 全链条接入可使订单响应速度提升300%,异常事件处理效率提高420%[5] - 后发企业因基础能力鸿沟面临指数级增长的追赶成本,限制大模型推广[6] 生态支撑与数据短板 - 医疗等领域数据开放率不足,三甲医院影像数据因隐私保护难以共享,欧盟GDPR使合规支出占AI预算30%[6] - 全球十大AI模型均未达欧盟监管标准,Aleph Alpha等产品得分低于25%,主要问题为版权责任不明确和能源报告不均衡[6] - DeepSeek迭代周期缩短至45天,政策滞后导致数据安全与隐私风险高企[7]
比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快
机器之心· 2025-07-15 00:59
大型语言模型训练新方法POET 核心观点 - 提出基于第一性原理的重参数化训练方法POET 通过正交等价变换实现高效稳定的大模型训练 严格保持权重矩阵奇异值分布并维持低超球能量 [3][6] - 该方法在LLaMA架构不同规模模型(60M至1.3B参数)上验证有效 显著降低验证困惑度(perplexity)并提升训练效率 [20][23] - 创新性引入两级近似方案解决计算扩展难题 参数效率最高可比AdamW提升mn/b(b-1)倍 [18][26][27] 技术原理 - 核心机制为将权重矩阵分解为随机固定矩阵与两个可学习正交矩阵的乘积 通过正交变换保持谱结构不变性 [11][17] - 采用归一化高斯初始化策略确保有界奇异值 实证显示其困惑度25.37优于标准初始化(26.22)和Xavier(25.79) [34][35] - 训练动态显示三阶段特征 包括锥壳搜索(余弦相似度0.6-0.65)、稳定学习及最终微调 [40][41] 性能优势 - 谱保持特性使350M参数模型训练中奇异值变化幅度比AdamW降低98% 谱多样性熵值持续高位 [13][15][17] - 在1.3B模型预训练中 POET-FS仅需AdamW 1/3训练步数(token量)即实现更低验证困惑度 [24] - 内存占用优化显著 块随机SPO变体参数复杂度仅为m+n 远低于AdamW的mn [26][27] 实现方法 - 开发Cayley-Neumann参数化近似 通过Neumann级数保持正交性 结合合并再初始化策略抑制误差 [19][29] - 提供完全随机SPO与块随机SPO两种变体 支持通过采样预算b灵活平衡效率与速度 [26][29][30] - 训练流程包含权重初始化、正交矩阵CNP参数化、内循环更新及合并再初始化五个标准化步骤 [28][32]
还在纠结是否入门大模型?别人已经发了第一篇顶会!
自动驾驶之心· 2025-07-14 06:20
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需要关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调大模型等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受到行业重点关注 [1] 大模型优化课程介绍 - 课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键技术 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式 [2] 课程解决的问题 - 帮助学员系统掌握大模型相关理论知识,形成清晰的体系 [3] - 解决动手能力差、无法复现论文的问题,协助开发设计新模型 [3] - 解决论文写作和投稿难题,积累写作方法论并获得投稿建议 [3] 课程收获 - 掌握大模型优化的核心算法,包括结构化剪枝、低比特量化、动态检索等关键技术 [9] - 获得Coding能力增强,在baseline代码和可用数据集上高效展开研究 [9] - 撰写出论文初稿,可能产出一篇不错的论文 [9] 课程大纲 - 大模型剪枝与稀疏化算法优化:详解让大模型体积更小、运行更快的方法 [19] - 大模型量化加速全景:从数据位宽到编译来优化大模型的加速 [19] - 参数高效微调(PEFT)革命:介绍用少量计算资源让大模型适应垂类任务的高效微调算法 [19] - 基于RAG的大模型知识动态扩展范式:解决大模型的事实性错误和知识更新滞后问题 [19] - Chain-of-Thought推理进阶:针对让大模型分步骤思考解决复杂问题的算法进行深入剖析 [19] 课程资源 - 提供Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目 [16] - 必读基础论文包括GPTQ、Sheared LLaMA、TVM等 [18] - 数据集来自于公开数据集,根据具体任务选用 [13] 招生要求 - 具备深度学习/机器学习基础,熟悉Python和PyTorch [6] - 最好具备4张4090显卡或以上设备性能的机器,最低不少于2张4090显卡 [15] - 掌握基本的编程语言,熟练使用PyTorch等深度学习框架 [15]
Apple Acquisition Buzz: Its $60 Billion War Chest Is Enough To Buy Datadog And Tempus
Benzinga· 2025-07-10 16:15
公司现金储备与AI战略 - 公司拥有超过600亿美元的现金储备 这一规模足以重塑AI行业格局 [1][4] - 现金储备远超新兴科技公司市值 理论上可同时收购Datadog(480亿美元)和Tempus AI(104亿美元) [3][4][5] - 现金不仅是财务缓冲 更是战略性资产 使公司具备快速追赶AI竞争对手的财务能力 [2][4] 管理层变动与战略转向 - COO Jeff Williams将于2025年退休 引发对公司战略调整的猜测 特别是AI领域 [1][6] - 管理层变动可能打破公司传统稳定结构 为更激进的战略布局创造条件 [6] - 市场反应温和(股价上涨05%) 但潜在战略转变影响深远 [6] AI领域竞争态势 - 竞争对手(Meta Microsoft Google)已通过收购或内部平台在AI领域取得进展 [2] - 公司虽具备行业顶尖收购预算 但目前在AI领域相对保守 [2] - 分析师建议潜在收购目标包括Perplexity Datadog和Tempus AI等AI领域公司 [3] 潜在收购能力分析 - 现金储备规模允许公司进行大规模收购 且仍有剩余资金 [4][5] - 不考虑监管和战略适配等因素 公司理论上可同时完成两起大型收购 [4][5] - 投资者关注公司是否会利用现金优势在AI领域采取重大行动 [6]