Workflow
AGI
icon
搜索文档
昆仑万维进击AI:预计2026年全面盈利
中国经营报· 2025-05-09 06:54
公司战略与布局 - 公司提出"All in AGI 与AIGC"战略,聚焦音乐推理大模型Mureka和短剧大模型SkyReels双轮驱动模式,已取得阶段性成果 [2] - 公司预计2025年仍处于用户获取阶段,2026年实现全面盈利 [2][4] - 视频大模型是长期目标,当前布局围绕音乐和短剧垂直赛道,因公司体量较小需差异化竞争 [7] - 公司放弃AI漫画赛道,因市场上限低且注重IP而非数量 [8] 财务与商业化进展 - 2024年营业收入56.6亿元(同比增长15.2%),净利润亏损15.95亿元 [3] - 2024年研发费用15.4亿元(同比增长59.5%),战略性投入推高短期成本 [4] - 截至2025年3月,AI音乐年化流水收入(ARR)达1200万美元,短剧平台Dramawake ARR达1.2亿美元 [2][6] 产品与技术迭代 - 2025年发布多款大模型:SkyReels-V1(2月)、Mureka O1(3月)、SkyReels-V2(4月) [5] - 开源SkyReels-V1/V2等模型,带动订阅量每日增长10倍,满足B端长尾需求 [5] - SkyReels-V2迭代重点解决生成长度痛点,支持30-40秒视频生成满足广告和短剧需求 [8] 市场与用户表现 - Mureka全球3月访问量333万次(增速86.54%) [5] - 公司海外营收51.52亿元(同比增长21.89%),占总营收比重提升 [9] - 利用10年海外经验优先布局高潜力国家,精准匹配地区需求特性 [10] 行业趋势与成本优势 - AIGC使图像创作成本下降百倍(原500-1000元/张),音乐成本下降千倍(原10万-100万元/首) [3] - 数字化技术迭代速度快,预计AI视频技术1-5年内达到可用状态,未来占据内容创作主要市场份额 [3] - 音乐模型短期贡献显著,视频模型长期空间更大但当前全球技术尚未完全成熟 [7]
顶尖科学家Rob Fergus重掌FAIR,15万引用学者回归Meta,战略转向AGI
量子位· 2025-05-09 05:00
Meta FAIR新负责人上任 - Rob Fergus接替离职的Joelle Pineau成为Meta FAIR新负责人 此前外界猜测Meta重心转向AI商业化产品 FAIR定位不明朗[3] - LeCun宣布FAIR新目标是高级机器智能 即AGI[4] - Rob Fergus是FAIR联合创始人 曾与LeCun共同创立该机构[10] Rob Fergus的职业生涯 - 横跨学术界和工业界顶级机构 硕士毕业于加州理工 2005年牛津电子工程博士 博士论文获英国最佳计算机科学论文奖[7] - 2007年起在纽约大学任教 2009年与LeCun创立CILVR实验室[8] - 2014年共同创办FAIR 2020-2025年在DeepMind领导纽约团队[10][11] - 论文总被引用次数接近15万次 h-index为89 i10-index为143[12][13] 研究领域与代表作 - 研究兴趣包括机器学习(深度学习方法在表示学习和生成模型中的应用) 计算机视觉(物体识别 图像搜索 计算摄影)[13] - 代表作ZFNet提出可视化CNN中间层特征和分类器操作的新技术 被引用24413次[14] - 对抗样本领域开山之作《Intriguing properties of neural networks》被引用19163次 与Ilya Sutskever等合作[16][17] - 大模型时代代表作包括与LeCun等合作的Cambrian-1系列开源多模态模型[19] 回归FAIR后的计划 - 今年4月已回到Meta 在GenAI部门帮助提升Llama的记忆和个性化能力[2] - 表示将致力于构建改变人们与科技互动方式的人性化体验[21]
面壁CEO李大海:物理世界要实现AGI,一定是通过端侧智能 | 中国AIGC产业峰会
量子位· 2025-05-09 05:00
核心观点 - 未来物理世界实现AGI必须通过端侧智能,因为只有将智能部署在终端设备上才能实现最灵敏的感知、最及时的决策和最完美的应对 [1][8][30] - 大模型知识密度是智能的核心指标,知识密度越高智能越强,高知识密度模型在端侧最具价值 [8][18] - 端侧智能具有隐私保护、成本优势和全天候响应等独特优势,是未来智能设备发展的关键方向 [27][29][30] 公司发展历程 - 面壁智能2019年all in大模型,2022年8月正式成立,2023年9月发布首个千亿级GPT-3.5水平模型并获得网信办安全备案 [14] - 2023年底开始聚焦端侧智能,2024年1月发布全球首个端侧全模态8B模型,3月推出纯端侧模型驱动的面壁小钢炮超级助手产品 [19][22] - 目前端侧模型已在汽车、机器人、手机、智能可穿戴设备等多个场景落地 [3][31] 技术突破 - 提出"密度定律",发现大模型知识密度每3.3个月翻一番,知识密度与芯片制程类似,直接影响模型智能水平 [18] - 开发出全球首个端侧全模态8B模型,可在iPad上流畅运行,看听说能力达到GPT-4o水平 [19] - 面壁小钢炮超级助手具备端上不依赖网络的全天候指令响应和主动环境感知能力 [24][25] 行业认知 - DeepSeek成功源于三个"高密度":团队密度(顶尖人才聚集)、组织密度(目标高度一致)、高资源密度(充足研发投入) [10][11][12] - 端侧智能在汽车场景优势显著:不受网络限制、避免隐私泄露、降低带宽成本 [27] - GUI Agent产品通过端侧模型实现屏幕行为理解,保证用户隐私同时具备强泛化能力 [29] 产品布局 - MiniCPM模型已拓展至手机、具身智能、AIPC、智能可穿戴设备等主流场景 [3] - 面壁小钢炮超级助手率先在汽车场景落地,实现感知-决策-执行三位一体 [22][26] - 规划让每个设备都具备智能,包括离线的翻译机等新型智能终端 [32]
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅APP· 2025-05-08 13:13
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕创立于2023年 核心团队包括首席科学家张祥雨和系统负责人朱亦博 形成技术研发与AI基础设施建设的铁三角架构 [5][7] - 公司员工规模达400余人 其中80%为技术研发人员 采用扁平化管理模式 员工可通过私信直接与CEO沟通 内部设有技术协同会和见闻分享群 [5][6] - 商业模式聚焦ToB服务和开发者API接口 2024年下半年多模态API调用量增长超45倍 2024年12月完成B轮数亿美元融资 [5][7] 技术战略 - 核心主张"理解生成一体化架构" 将原生成小组和理解小组整合为统一团队 认为这是实现多模态突破的关键路径 [2][3][4] - 建立Step系列通用大模型矩阵 覆盖语言模型和原生多模态模型 是国内少数坚持预训练路线的公司之一 [14][15] - 2025年1月发布推理模型Step R1-V-Mini 性能超越OpenAI早期版本 计划未来三个月推出满血版Step-R1 [17] 行业趋势判断 - 模型演进遵循三阶段路径:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) 与OpenAI的AGI五级划分逻辑一致 [9][12] - 当前竞争焦点转向"智能上限" OpenAI等五大厂商半年内发布超8款新品 国内月之暗面等公司同步发力 [7][9] - 多模态领域尚未出现"GPT-4时刻" 核心卡点在于缺乏可扩展的理解生成一体化架构 需突破predict next frame技术难题 [2][28] 产品应用 - 推出Step 1X-Edit图片编辑模型 实现初级理解生成一体化 对原图忠实度达90%以上 正在开发更先进版本 [31] - 布局智能终端Agent生态 与手机/汽车/机器人领域头部企业合作 提供云端Agent构建平台和运行环境 [36] - 落地巡店等商业场景 通过规则Prompt实现操作规范检测 准确率超90% 显著提升连锁门店管理效率 [19] 发展路线 - 短期聚焦强化学习在预训练模型的应用 提升长思维链推理能力 解决奖励函数定义等工业界难题 [17] - 中期突破视觉领域理解生成一体化 构建可扩展架构以处理高维连续空间 最终实现世界模型 [24][28] - 长期通过"超级模型+超级应用"双轮驱动 形成从云到端的Agent生态体系 重点布局智能硬件场景 [33][36]
开源AI引爆热潮!GOSIM AI Paris 2025首日直击:80+位技术大咖聊模型、拼算力、秀落地
AI科技大本营· 2025-05-07 14:02
开源AI生态发展 - 开源AI已实现爆发式增长,大模型技术从巨头垄断转向社区协作共享,覆盖基础架构、算法优化和推理部署等多个层面 [1] - GOSIM AI Paris 2025大会汇聚80余位来自阿里巴巴、Hugging Face、MetaGPT等企业的技术专家,围绕AI模型、基础设施等展开60多场技术分享 [2] - 开源模型如Qwen 3已实现对闭源旗舰模型的性能超越,开源生态呈现陡峭增长曲线 [4] 技术突破与架构演进 - AI架构正从中心化转向去中心化,OpenAI通过Responses API构建分布式智能体平台,吸引60万开发者参与 [5] - 智源研究院发布CCI 4.0语料库,其中CCI4.0-M2-CoT V1包含4250亿token的逆向合成数据,规模较Hugging Face的Cosmopedia提升20倍 [18] - MiniMax提出Lightning Attention机制,有望替代Transformer架构;智谱AI探索跳过分词的技术路径以提升模型效率 [15] 基础设施与工具创新 - 华为昇腾CANN架构支持PyTorch与vLLM生态,实现高效训练推理;北京大学SCOW和CraneSched软件已部署于数十家高校企业 [19] - Oxen.ai详解DeepSeek-R1式强化学习训练流程,包括数据集构建和本地训练代码生成 [19] - Dynamia.ai推出HAMi系统优化异构GPU资源管理,提升AI基础设施利用率 [31] 应用落地与行业实践 - 阿里巴巴通义灵码从Coding Copilot升级为Coding Agent;华为仓颉Magic框架提升HarmonyOS应用开发效率 [22] - Makepad利用氛围编码构建Rust UI新范式;博通Spring团队通过MCP实现AI与现有系统的高效集成 [23] - Cegid Pulse多智能体平台重塑商业流程,实现智能化企业决策 [23] 具身智能与前沿探索 - ZettaScale的Zenoh协议打通机器人感知、执行与认知壁垒;Dora项目实现分布式数据流 [26] - 智源研究院RoboBrain提升机器人操作智能化水平;Voyage Robotics利用开源VLA模型支持机器人应用 [27] - 中科大生成对抗性场景提升自动驾驶安全性;Menlo Research开发空间推理LLM增强机器人环境理解 [26][27] 全球协作与开源项目 - OpenWallet基金会推动《全球数字契约》项目,采用联合召集模式促进跨国界、跨行业协作 [8][9] - Bielik.ai发布1 5B至11B参数的开源语言模型及端到端工具链,降低大模型研发门槛 [29][30] - Eclipse Aidge项目支持边缘智能部署;LlamaEdge实现边缘设备轻量化GenAI推理 [29][31]
李想年薪6.39亿?官方澄清:实际为266万元;特斯拉4月份欧洲销量严重下滑丨汽车交通日报
创业邦· 2025-05-07 10:38
理想汽车高管薪酬争议 - 李想2024年实际薪酬为266万元 并非网传的6.39亿元 [1] - 6.39亿为美股会计准则下期权会计费用 需完成销量目标才能解锁1800万股期权奖励 [1] - 当前执行期权需支付29.26美元/ADS成本 按25.68美元市价计算将倒贴3200万美元(约2.3亿人民币) [1] 特斯拉欧洲市场表现 - 4月欧洲销量大幅下滑 瑞典同比降81% 德国降46% 英国销量为两年最低 [2] - 销量下滑原因包括消费者抵制马斯克政治立场及竞争加剧 [2] - 股价周二收跌1.75% 在美股七大科技巨头中表现最差 [2] Rivian交付预期调整 - 下调2025年底交付预期至4-4.6万辆 原预期为4.6-5.1万辆 [3] - 调整原因为特朗普关税政策及监管变化影响 尽管全部在美国生产 [3] 沃尔沃新技术发布 - 推出全新混动架构SMA 将与纯电架构SPA2并行发展 [4] - SMA架构覆盖中型至大型车 支持两驱/四驱动力组合 [4] - 首款车型XC70定位中大型SUV 纯电续航超200公里(CLTC) 预计9月上市 售价40-50万元 [4]
梁文锋和杨植麟再“撞车”
创业家· 2025-05-07 09:57
大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿参数提升近百倍,miniF2F测试通过率88.9%,解决普特南测试49道题 [3] - 月之暗面同期发布Kimina-Prover模型,开源1.5B和7B参数版本,miniF2F通过率80.7%,普特南测试解决10道题,性能低于DeepSeek-Prover-V2 [3] - 两家公司技术报告均强调强化学习应用,DeepSeek通过子目标分解优化数学推理,月之暗面聚焦形式推理模型架构 [4] 公司竞争格局 - DeepSeek面临阿里巴巴开源模型追赶,通义千问Qwen3参数量为R1的1/3但性能全面超越,阿里开源模型全球下载量超3亿次,衍生模型超10万个 [15] - 月之暗面Kimi用户增长受字节跳动豆包和腾讯元宝挤压,QuestMobile数据显示2025年2月AI应用月活排名为DeepSeek(1.94亿)、豆包(1.16亿)、腾讯元宝(4200万),Kimi跌出前三 [14] - 腾讯元宝通过微信引流和14亿元投流费用实现用户快速扩张,超越Kimi的1.5亿元营销投入 [14] 技术路径与产品迭代 - DeepSeek押注数学/代码、多模态、自然语言三大AGI路径,数学与代码被视为封闭可验证的智能试验场 [7] - Prover-V2基于DeepSeek-V3微调,采用子目标分解和思维链技术强化推理能力,与R2/V4版本无直接关联 [9] - 市场传闻R2模型可能采用华为昇腾芯片,但行业人士指出其生态系统和训练鲁棒性存在短板 [10][11] 行业动态与挑战 - 百度发布文心4.5 Turbo和X1 Turbo,成本更低且性能提升,计划6月开源文心大模型系列 [16] - 李彦宏公开批评DeepSeek存在处理单一文本、幻觉率高、响应速度慢等缺陷,但承认其行业影响力 [16] - 头部公司持续面临创新压力,DeepSeek需推出R2/V4巩固优势,月之暗面通过内测社区功能增强用户粘性 [5][14]
“最近看的AI项目,全是一个模子出来的”
投中网· 2025-05-07 06:26
将投中网设为"星标⭐",第一时间收获最新推送 1 个月前,我们在一间咖啡馆里,聊着彼此都是刚学到的知识点。 AI 是当下最大的投资共识,他所 在机构也把 AI 设为主要方向。以朱总为代表,盯着的是现实的商业化,考量的是项目能不能成为即 刻可用的提效工具,或者说,能不能赚钱。这当然是市场的主流。当我把同样的问题抛给 Leo ,他 的回答则让人意外。 Leo 读的是别人嘴里面没用的专业。比起有没有商业模式,他更关心的命题是,当 AI 越来越先进, 除了从纯商业的角度看能带来多少投资收益和效率提升外,是不是还应该同时考虑这种破坏性创新带 来的负面影响,以及这种成本是不是现阶段我们能承受的? 从更广阔的维度,他思考的是新科技和新产品对于生产关系的变革。基于此, Leo 分析了 Agent 大规模落地的挑战——因为人是社会性的动物,这导致 Agent 没有办法去实现更大的想象空间。他 对 AI 应用的投资悲观——因为现有的项目在他眼里都长得差不多,仅仅局限在优化现有流程的层 面。他还在等待一个奇点时刻,"当 AI 从本质上改变了生产关系,能创造出人与人之间、人与物之 间交互的全新模式,在这个模式里真得离开 AI 都玩不 ...
使命与扩张的平衡术:OpenAI平台级AI应用的进化路径
36氪· 2025-05-06 11:44
引言:OpenAI为何在收购与结构调整中双线推进? 2025年5月6日,OpenAI宣布放弃全面营利化重组方案,将营利性子公司转型为公益公司(PBC),由非营利组织继续持有控制权。这一结构调整背后, 实质上是对其快速商业化扩张节奏的制度性回应。过去两年,OpenAI持续通过收购和新业务布局,加速构建平台级AI应用生态,商业化步伐显著加快。 此时宣布结构调整,既是回应监管和社会对其"逐利化"倾向的质疑,也是为下一阶段收购与扩张创造治理前提。 尽管全面盈利化看似更有利于资本进入和商业操作,OpenAI却选择了保留非营利组织控制权的PBC结构。原因在于,PBC制度允许公司在追求利润的同时 将社会使命写入治理框架,而非营利母公司继续控股,则进一步确保公司战略不被短期财务回报所驱动。这一治理安排既回应了外部对其使命偏移的质 疑,也保留了资本融资、员工激励和并购操作所需的灵活性。可以说,OpenAI试图在"制度可信度"与"商业扩张性"之间建立一种长期可持续的平衡机 制。 换句话说,如果说一系列收购是OpenAI打通"从底座到入口"的平台化布局工具,那么组织架构的调整就是对其使命合法性与治理弹性的补强机制。两者 合力,使O ...
腾讯研究院AI速递 20250507
腾讯研究院· 2025-05-06 10:46
生成式AI - OpenAI放弃完全营利性转型,将由非营利组织继续控制,同时营利性机构转为公益公司(PBC)[1] - 公司架构调整后取消利润上限制度,采用常规股权结构,非营利组织将成为PBC主要股东[1] - 承诺继续专注AGI发展造福人类使命,并计划开源部分高性能模型[1] - 英伟达发布Llama-Nemotron开源模型家族,包含8B到253B三种规格,支持动态切换推理模式,遵循开放商业许可[1] - LN-Ultra运用Puzzle框架和FFN融合技术优化部署效率,在推理性能和吞吐量上超越DeepSeek-R1[1] - 通过Qwen和DeepSeek-R1教师模型支持,结合多阶段训练和强化学习,全面提升模型推理与通用对话能力[1] Grok PDF功能 - Grok新增PDF渲染功能,支持一句话指令快速生成格式化PDF文档,免费和付费用户均可使用[2] - 功能基于LaTeX代码实现,支持学术论文、简历、菜单等多种文档类型,可通过对话优化或直接修改代码[2] - 相比ChatGPT依赖第三方库的PDF生成功能,Grok在排版质量和用户体验上有明显优势[2] Suno音乐生成 - V4.5版本支持长达8分钟的音乐生成,并新增punk rock、jazz house等细分风格,支持跨界混搭创作[3] - 人声表现力全面升级,实现从耳语到高音的动态音域,并优化了颤音、呼吸控制等专业级细节[3] - 提升了音乐描述识别能力,可精准理解抽象表达,并支持乐器分层、环境音效等音乐元素的精细解构[3] 英伟达语音识别 - 英伟达开源的Parakeet TDT 0.6B语音识别模型创下纪录,能在1秒内转录60分钟音频,词错误率仅6.05%[3] - 模型采用FastConformer-TDT架构,可一次性处理24分钟音频片段,支持标点符号预测和时间戳[3] - 以CC-BY-4.0许可开源,参数量600M,支持商用,但目前仅支持英语识别[3] ACE-Step音乐生成 - ACE-Step结合深度压缩自编码器、扩散模型和线性Transformer,在A100上20秒可生成4分钟音乐,比基线快15倍[5] - 支持19种语言音乐生成,覆盖流行、摇滚等多种风格,并具备人声克隆、歌词编辑等高级控制功能[5] - 采用Apache License 2.0开源协议,已开放训练代码和LoRA模块,将陆续推出RapMachine、StemGen等专业功能[5] AI考古发现 - 2025年研究人员首次非侵入性读取到赫库兰尼姆古卷PHerc. 172的标题,内容为斐洛德谟的《论恶习》第一卷[5] - 该发现由两个团队同时完成,获奖团队Marcel Roth和Micha Nowak利用AI图像分割和墨迹检测技术,获得6万美元奖金[5] - 这些古卷源自公元79年维苏威火山爆发被掩埋的罗马贵族别墅,AI技术为解读这些碳化的古代智慧开创新途径[5] AI数学工具 - 陶哲轩在ChatGPT协助下,仅用4小时独立开发了一个验证数学估计的开源工具,可自动判断涉及正参数的不等式是否成立[6] - 他与ChatGPT的交互过程从基础类编写开始,逐步完善功能,显示了AI在复杂数学工具开发中的实用价值[6] - 作为早期接受AI的顶级数学家,陶哲轩认为到2026年AI将成为数学研究的可靠合作者,并建议数学家与程序员协作开发此类工具[6] AI版权问题 - 法律主要保护具体的"表达"而非抽象的"风格",单纯模仿吉卜力画风通常不构成侵权,但使用其具体角色和情节可能侵权[6] - AI训练数据未经授权存在法律风险,但传统"先授权后使用"模式已不适用,目前缺乏相关立法和豁免机制[6] - 面对AI挑战,艺术家的核心竞争力在于思想深度和时代洞察,应关注作品的独特视角而非技术层面的复制能力[6]