Workflow
Sora2
icon
搜索文档
永久激活密钥:68PO6-8JK9Y-ET81K-P6K9J-62ZLC
猿大侠· 2025-12-24 01:06
公司产品与服务 - 公司核心产品为“Molica AI”,是一款聚合了全球领先AI模型的平台,集成了包括ChatGPT5.2、Gemini3.0 Pro、Nano Banana Pro、Sora2、Veo3.1、Claude4.5、Grok4.1、Midjourney、SUNO、DeepSeek3.2等超过20个模型 [1][2][11] - 产品提供网页版与APP版,无需使用特殊网络工具即可访问所有集成AI [3] - 公司运营已持续3年,共更新了156个版本,拥有超过500万注册用户及超过100万会员用户 [2] - 公司为知名投资机构所投资,并与人民邮电出版社为合作伙伴 [2] 促销活动与定价 - 公司正在进行年终促销,原价998元的终身会员限时降价至296元,折扣幅度约为原价的3折 [2][4] - 该促销活动限100个名额,时间为12月24日至12月26日,售完后将恢复原价998元 [2][4][5][69] - 购买会员可获赠价值总计超过2000元人民币的AI变现教程,包括《AI搞副业教程》(价值799元)、《AI写作变现实战》(价值599元)和《AI做公众号爆文》(价值699元) [60][61][62] 集成AI模型功能亮点 - **文字与代码模型**:集成了Gemini3.0 Pro、ChatGPT5.2和Claude4.5,分别擅长推理与数学、综合文案与分析、以及代码生成 [6] - **图像生成模型**:接入了Nano Banana Pro(基于Gemini 3.0构建),在中文稳定性和文字渲染能力上表现突出,支持4K输出及自定义图片尺寸 [14] - **视频生成模型**:集成了Sora2和Veo3.1,可根据文字提示生成高质量视频,并实现音画同步 [35][40] - **绘画模型**:接入了Midjourney,在画质、美感和创意想象力方面表现卓越,支持文生图、图生图、扩图等官方全部功能 [43][49] - **音乐生成模型**:集成了SUNO的最新V5版本,可根据歌词和风格提示生成完整歌曲 [52][56] 价值主张与竞争优势 - 平台通过聚合多个顶级AI模型,为用户提供了极高的性价比,避免了用户为每个AI单独付费和切换的麻烦 [2][9] - 根据公司对比,若单独订阅各AI模型官方高级版,每月总费用远超296元,而该平台提供一次性付费终身无限使用 [67] - 平台强调其提供的均为各模型的最新版本和高级功能 [6][49] 市场拓展与生态建设 - 公司正在面向全国招募经销商和代理商,认为AI行业处于政策红利期,市场空间巨大 [64][65] - 公司通过留言抽奖活动赠送5个终身会员,以进行用户互动和产品推广 [71]
信仰与突围:2026人工智能趋势前瞻
36氪· 2025-12-22 09:32
文章核心观点 - 人工智能行业在ChatGPT发布三周年之际,竞争白热化,模型性能差距缩小,发展面临天花板质疑,但产业对AGI的到来仍充满信仰与探索 [1] - 行业展望2026年,将面临智能瓶颈与投资回报焦虑,同时也在规模法则、多模态、研究探索、物理AI仿真数据、AI for Science、模型应用一体化、个性化软件、行业落地ROI验证、AI眼镜及AI安全等多个方向寻求突围 [1] Scaling Law与AGI进化路径 - 行业主流信仰通过增加算力、数据、参数的Scaling Law可驱动智能持续增长直至AGI,但近期模型智能升级放缓及数据枯竭论引发质疑 [2] - 反对观点认为大模型仅是拟合语言相关性,而非真正理解世界,智能需包含抽象、因果推理等,且规模法则正接近极限,未来突破需更好的学习方式而非简单扩展规模 [2] - 在底层架构与训练方法无颠覆性变革背景下,Scaling Law仍是目前最可靠、实用的增长路径,因其能力提升可预测、产业投入可评估、人才与工程体系可延续迭代 [3] - 近期Gemini 3的表现与DeepSeek V3.2研究印证了规模法则现阶段依然有效 [3] - 美国AI新基建规划大型数据中心总装机容量超45吉瓦(GW),预计吸引超2.5万亿美元投资,黄仁勋提出在预训练、后训练强化学习及推理过程中均存在规模法则,支撑算力持续增长 [3] - 数据是当前大模型进化最迫切难题,高质量可用数据稀缺,行业正探索通过合成数据、推理过程数据、强化学习数据、多模态数据等构建可工程化、可规模化的数据生成体系 [4] - 未来将是New Scaling Law时代,不仅堆砌算力,更注重数量与质量扩展,结合算力资源充沛,有望通过算法与架构优化带来底层突破,AGI可能来自规模与结构性创新(如世界模型、具身智能等)的结合 [4] 多模态技术的突破与意义 - 谷歌Gemini、OpenAI Sora等多模态模型实现了对内容的深度理解与生成,迎来了多模态的ChatGPT时刻 [5] - 多模态技术从感知(如视觉)方向探索智能进化,类比生物进化中视觉的出现触发了认知能力的阶段性跃迁,有望推动AI智能出现非线性跃升 [5][7] - 大语言模型仅通过文本学习经过人类加工的“二手世界”,多模态模型通过图像、视频等对世界状态的直接投射,包含空间、时间及物理约束信息,为形成更稳健的世界模型提供可能 [9] - 多模态为人工智能打开了“感知-决策-行动”闭环的可能性,与工具使用、机器人控制结合,可通过环境反馈持续优化,实现智能跃升 [10] 研究探索与创新方向 - 研究驱动是大模型行业核心范式,以小团队多方向并进的赛马机制有效,预计2026年在底层架构、训练范式、评测方法、长期记忆、Agent等领域有望诞生更多突破 [11] - 全球涌现一批非共识的技术实验室:伊利亚的SSI聚焦安全超智能,融资30亿美金 [12];Mira的Thinking Machines Lab推出产品Tinker帮助微调模型 [12];李飞飞的World Labs专注空间智能 [12];杨立昆的AMI目标构建理解物理世界的系统 [12];欧洲的H Company研发能解决复杂现实问题的超级Agent [12] - 底层架构与训练范式出现创新研究:日本的Sakana AI站在Scaling Law对立面,探索演化式模型与群体智能协作以降低算力依赖 [13];Liquid AI开发可连续演化的液体神经网络架构 [14];谷歌提出嵌套学习(Nested Learning)概念,设计快慢系统协同解决灾难性遗忘问题 [14] - 评测牵引成为重要研发范式,行业正探索应对静态刷榜数据污染等挑战的新方法,包括构建面向Agent与长期任务的跨步、跨工具评测体系(如SWE-bench、AgentBench),以及基于游戏、模拟世界的动态交互式仿真环境评测 [15] 仿真数据在物理AI中的应用 - 机器人物理世界数据采集成本高(真机采集一条数据成本1-10美元)、速度慢,仿真生成数据边际成本趋近于零且可并行,在早中期研发中将成为主流,Sim-to-Real鸿沟正被生成式AI填平 [17] - 仿真数据在规模覆盖、可控可复现、跨本体迁移方面具有优势,能低成本覆盖长尾场景,支持多机器人多任务训练统一对齐 [18] - 产学研界已有实践:上海人工智能实验室的合成数据集InternData-A1包含超63万条轨迹、7433小时数据,覆盖4种具身形态、70项任务,基于其预训练的模型在仿真与真实任务上表现与官方模型相当 [18];银河通用发布灵巧手合成数据集DexonomySi,包含超950万条抓取姿态,覆盖超1万个物体,并基于此开发了具身大模型GroceryVila实现机器人双手自主取物 [18];谷歌的Genie 3为机器人训练提供无限可能的模拟环境 [18] - 仿真存在建模误差(如接触、材料、传感器噪声)及难以覆盖真实世界无穷意外组合的局限,尤其在软体物体、长周期可靠性、高风险人机共处等场景 [19][20] - 在物理AI早中期研发中,仿真预计承担90%以上的数据与验证工作,真机数据用于物理锚定与校准,仿真正成为物理AI的数据基础设施 [21] AI for Science (AI4S)的进展 - AI4S最具象征意义的成果是AlphaFold,但普遍质疑其离产业应用仍远,未能根本改变药物研发等领域的周期与成本 [22] - 2026年可能成为转折点,AI4S正从模型驱动的学术突破转向系统工程化的科研生产力 [22] - 核心障碍在于验证太贵太慢且难复制,当前积极变化是AI正被直接嵌入实验系统:谷歌DeepMind计划2026年在英国建立基于AI的自动化科研实验室,形成假设生成、机器人执行、数据回流的闭环,首次让AI4S从建议者变成执行者 [23] - 国家层面推动:美国通过《启动创世纪任务》行政令,将AI4S上升为国家战略,由能源部牵头建立全国性AI科学平台,整合联邦科研数据、超算资源和AI模型,聚焦先进制造、生物技术等关键领域,有望解决高质量科学数据匮乏的痛点 [25] - 2026年可能在某些领域出现研发周期数量级压缩,自动化实验与AI workflow成为头部机构标准配置,科研组织开始围绕AI agents重构分工 [26] 模型应用一体化与网络效应 - 大模型目前能力虽强但平台效应弱,未形成类似移动互联网的网络效应,ChatGPT周活接近10亿,但模型不会因用户增多自动变强,用户间连接弱 [27] - “裸模型”阶段因交互是一次性、私有的,难以直接回流训练与复用,且创造的价值源于对个体能力提升而非用户间关系密度,因此AI更多是生产力工具而非平台 [28] - 模型与应用一体化是破局点,当模型拥有稳定身份、长期记忆并持续参与用户工作流时,AI才具备成为平台的能力 [28] - 一个方向是模型接入更多应用(+AI),如GPT推出智能购物、群聊功能,Sora2推出Cameo个人数字形象功能以建立社交关系链 [29] - 更具颠覆性的方向是构建智联网新形态(AI+),即个人、团队、组织拥有自己的Agent并彼此协作,形成AI原生的网络效应 [31] - 未来Agent网络效应可能出现多种形式:交易型网络(形成服务型Agent与用户Agent的双边市场)[32];知识型网络(用户打磨的隐性技能库使模型越用越聪明)[32];工作流型网络(复杂任务流程被模块化、标准化并广泛复用)[32];社交型网络(AI成为组织内的超级连接器促进协作)[32] - 模型应用一体化的真正意义在于构建以模型为认知核心、应用为关系容器、Agent为基本节点的智能网络 [33] 个性化软件与AI编程 - AI Coding逼近普适生产力,软件正从工业化产品变为高度个性化、情境化、即时化的工具,进入软件3.0时代 [35] - Anthropic首席执行官预测未来3-6个月AI将编写90%的代码,12个月内几乎所有代码可能由AI编写 [35] - 美团内部已有52%的代码由AI生成,90%的工程师频繁使用AI工具,部分团队依赖AI完成90%以上代码编写 [35] - 腾讯月均新增代码3.25亿行,超90%工程师使用AI编程助手CodeBuddy,50%的新增代码由AI辅助生成 [35] - 软件生产核心瓶颈从编码能力转向问题定义能力,自然语言等成为主要编程接口,出现“vibe coder”称谓 [38] - 编程供给充裕将激活需求侧长尾市场,软件可千人千面,实现从人适应软件到软件适应人的范式转移,满足曾因市场规模小而被忽略的个性化需求 [39] - 部分解决通用问题的微软件将被分享复用,形成小规模生态(如Hugging Face Spaces上的小应用、Chrome插件)[39] - 软件平权时代来临,编写软件像写文章一样简单,核心竞争力转向共情、问题定义与想象力 [40] 行业落地与ROI验证 - AI行业落地从早期概念验证(PoC)进入核心业务流程,企业关注点从技术先进性转向可衡量的业务价值,ROI与性价比成为第一性问题 [41] - 麦肯锡报告显示,至少在一个职能中常态化使用AI的企业比例从78%升至88%,但多数仍处探索或试点阶段,企业层面规模化部署稀少,AI高绩效企业仅6% [41] - OpenAI企业调研显示,ChatGPT Enterprise周消息量增约8倍,员工人均消息量提升30%,组织平均推理token消耗增长约320倍,75%员工认为AI提升工作速度或质量,平均每日节省40-60分钟,重度用户每周节省超10小时 [42] - 早期AI应用多以Copilot形态承担边缘任务,对组织整体效率影响有限,当前积极变化是AI开始深入行业流程中后段 [43] - 下一步可验证收益将来自生产效率、客户响应、营销指标、研发生产力提升,未来深度收益将来自流程再造、智能体协同、供应链智能化等领域 [44] - 工作模式向“一个人+N个智能体”转变,企业管理逻辑将重构为以结果交付、质量稳定性和风险控制为中心的新范式 [44] AI眼镜的发展前景 - AI眼镜销量达1000万台是成为大众消费品的临界点,预测Meta Ray-Ban等产品2026年单品牌有望冲击此目标,巴克莱研究预测2035年销量将达6000万副 [45] - 雷朋制造商依视路将提前实施年产能1000万件可穿戴设备计划以满足需求 [45] - 硬件做减法是成功关键,Meta放弃高成本显示模组,将重量控制在50克以内,结合大模型多模态能力,首先成为合格穿戴与拍照设备,降低制造难度与用户门槛 [47] - AI眼镜将改变软件生态,操作逻辑从以应用为中心转向以意图为中心,自然语言交互主导,技能商店(Skill)可能取代应用商店 [48] - 眼镜摄像头产生的第一视角海量数据可为机器人训练提供数据,并可能催生基于视觉关注度的全新推荐与广告模式 [48] - 个人隐私、数据脱敏及相关法律伦理规范在AI眼镜领域尤为重要 [48] AI安全与治理 - AI能力提升与AGI逼近使安全关注度提升,调研显示66%受访者经常使用AI,但超半数(58%)认为其不可信赖,公众信任度呈下降趋势 [50][51] - 安全算力成为重点,预计超10%的算力将投入安全领域(涵盖安全评估、对齐实验、红队测试等)[54] - OpenAI曾承诺将20%算力用于超级智能对齐研究但未兑现,伊利亚成立的SSI公司专注超人工智能安全,融资30亿美金,估值320亿美元 [54] - 美欧法规提案将高风险模型的系统测试、评估、监控列为强制义务,安全算力将形成刚性成本,且随着模型能力增长,安全评估对算力需求指数级放大 [54] - AI治理委员会成为趋势,越来越多企业建立深度嵌入研发全流程的安全伦理机构 [55] - 例如:Google DeepMind有Responsibility & Safety团队参与全过程 [55];微软有Aether委员会其结论纳入工程必选流程 [55];Anthropic设立长期利益信托(LTBT)机制并推动宪法AI(Constitutional AI)将安全嵌入训练 [55] - AI安全与负责任正演变为与算力、算法、数据同等重要的基础性要素,缺乏可信安全机制的模型将难以进入关键行业与主流市场 [56]
信仰与突围:2026人工智能趋势前瞻
腾讯研究院· 2025-12-22 08:33
文章核心观点 文章回顾了人工智能行业自ChatGPT发布三年来的发展历程,指出当前大模型性能差距缩小、发展面临天花板质疑,但同时产业对AGI的信仰与探索依然坚定[2] 展望2026年,行业在焦虑与分歧中,有望在技术路径、多模态、研究范式、数据生成、行业应用及新硬件等多个方向实现突围[2] 1. 规模法则的演进与争议 - **对规模法则的质疑声增大**:随着大模型智能升级放缓及数据枯竭论出现,业界对Scaling Law的质疑增多,认为其可能接近极限,真正的智能需要抽象化、因果建模等能力,而非简单扩展规模[3] - **规模法则现阶段依然有效且演进**:在底层架构无颠覆性创新的背景下,Scaling Law因其能力提升可预测、产业投入可评估、人才工程体系可延续等优势,仍是可靠的工程化增长路径[4] 谷歌Gemini 3和DeepSeek V3.2的表现印证了其现阶段有效性[4] - **向“新规模法则”时代迈进**:未来的发展将不仅是堆砌算力,而是向数据数量扩大与质量提升两个方向扩展,结合世界模型、具身智能等结构性创新,以寻求底层突破[5][7] 2. 多模态技术的突破与意义 - **迎来“多模态的ChatGPT时刻”**:谷歌Gemini、OpenAI Sora等模型已能深度理解并生成多模态内容,标志着关键突破[8] - **多模态是智能非线性跃升的关键**:类比生物进化中视觉的出现触发了认知能力跃迁,多模态技术让AI从学习“二手”文本世界转向感知更接近真实世界的结构性约束,为形成稳健的世界模型提供了可能[8][12] - **开启“感知-决策-行动”闭环**:多模态与工具使用、机器人控制结合,使AI能在环境中通过反馈持续优化,实现智能跃升[13] 3. 研究探索与组织创新 - **研究驱动与赛马机制**:以小团队开展多方向并行实验是OpenAI等机构的有效组织方式,契合技术快速迭代的特点[15] - **涌现多元化的前沿实验室**:包括聚焦安全超智能的SSI(已融资30亿美元)、专注可靠性的Thinking Machines Lab、研究空间智能的World Labs、追求高级机器智能的AMI以及研发超级Agent的H Company等[16] - **底层架构与训练范式创新活跃**:如Sakana AI探索演化式模型与群体智能以降低算力依赖;Liquid AI开发可连续演化的液体神经网络;谷歌提出嵌套学习以解决灾难性遗忘问题[17] - **评测范式向动态与复杂任务演进**:为解决静态刷榜和数据污染问题,行业正构建围绕Agent能力、需要多步规划与长期记忆的评测体系,如SWE-bench、AgentBench等[17] 4. 仿真数据在物理AI中的核心作用 - **仿真数据成本优势显著**:机器人真机采集一条数据成本在1-10美元,而仿真生成边际成本趋近于零,且能并行运行数万实例[19] - **仿真数据覆盖长尾场景并具可复现性**:能以指数级低成本覆盖极端光照、稀有故障等长尾场景,并锁定变量,便于问题诊断与回归测试[20] - **产学研实践验证其有效性**:上海人工智能实验室的InternData-A1数据集包含63万条轨迹,基于其训练的模型在多项仿真与真实任务上表现与官方模型相当;银河通用发布的DexonomySi数据集包含超950万条抓取姿态,并基于此开发了端到端具身大模型[20] - **形成“仿真主供给、真机强纠偏”工业范式**:在物理AI研发中,仿真预计承担90%以上的数据与验证工作,真机数据则用于物理锚定与最终验收,该范式已在NVIDIA、DeepMind等公司实践[23] 5. AI for Science 迈向系统工程化 - **从模型突破转向科研生产力**:AI4S正从AlphaFold式的象征性成果,转向系统工程化的科研生产力提升,这是行业被真正改变的前兆[24] - **AI嵌入自动化实验闭环**:谷歌DeepMind计划2026年建立AI自动化科研实验室,AI将负责假设生成与实验编排,与机器人执行形成可规模化的闭环,首次让AI从建议者变为执行者[25] - **国家战略推动数据与资源整合**:美国通过《启动创世纪任务》行政令,将AI4S上升为国家战略,旨在整合联邦科研数据、超算资源训练科学基础模型,解决高质量数据匮乏的痛点[28] - **2026年可能成为研发模式转折起点**:虽难言全面商业落地,但某些领域研发周期可能出现数量级压缩,自动化实验与AI工作流成为头部机构标准配置[29] 6. 模应一体与智联网雏形 - **大模型缺乏原生网络效应**:ChatGPT周活近10亿,但用户交互是一次性、私有的,难以形成反馈闭环与用户间连接,AI是生产力工具而非平台[31][32] - **模型与应用一体化是破局点**:当模型拥有稳定身份和长期记忆,并深度参与用户工作流时,才具备成为平台的基础[32] 探索方向包括模型接入更多应用(如GPT的智能购物、群聊功能)以及构建以Agent为节点的智联网[32][34] - **智联网可能催生多种网络效应**:包括交易型网络(Agent间形成服务双边市场)、知识型网络(用户打磨的技能经验共享)、工作流型网络(生产范式持续进化)以及社交型网络(AI成为超级连接器)[35][36] 7. 软件生产进入个性化时代 - **AI编程接近普适生产力**:Anthropic CEO预测未来12个月内几乎所有的代码都可能由AI编写;美团内部已有52%的代码由AI生成;腾讯超过90%的工程师使用AI编程助手,50%的新增代码由AI辅助生成[37] - **软件生产核心瓶颈转移**:从编码能力转向问题定义能力,自然语言成为主要编程接口,出现“vibe coder”[40] - **激活长尾需求与实现软件平权**:极低的构建成本使软件能千人千面,满足曾因市场规模小而被忽略的个性化、情景化需求,软件成为人类表达与解决问题的基本媒介[40][41] 8. 行业落地聚焦性价比与ROI - **企业关注点转向可衡量业务价值**:AI行业应用的第一性问题从技术先进性转向投资回报率与性价比[43] - **规模化部署仍存差距但使用量增长**:麦肯锡报告显示,88%的企业至少在一个职能中使用AI,但进入规模化阶段的比例很低,AI高绩效企业仅6%[43] OpenAI调研显示,ChatGPT Enterprise周消息量增约8倍,75%的员工认为AI提升了工作速度或质量,重度用户每周可节省超10小时[44] - **应用深入流程中后段并重构工作范式**:AI正从边缘任务深入核心业务流程,未来收益将来自流程再造、智能体协同等领域[44] 工作最小单元可能变为“一个人+N个智能体”,企业管理逻辑将转向以结果交付为中心[45] 9. AI眼镜迈向千万台临界点 - **出货量有望突破千万台分水岭**:预测Meta Ray-Ban等产品在2026年单品牌销量有望冲击1000万台;巴克莱预测2035年销量达6000万副;制造商依视路计划实施年产能1000万件的生产计划[45] - **“硬件减法”策略成功**:Meta通过放弃高成本显示模组,将眼镜重量控制在50克以内,结合大模型多模态能力,优先作为穿戴拍照设备,降低了制造难度与用户门槛[47] - **重塑交互逻辑与软件生态**:交互从以应用为中心转向以意图为中心,自然语言为主导;技能商店可能取代应用商店;摄像头产生的第一视角数据将赋能空间智能研发并可能催生新的推荐与广告模式[48] 10. AI安全成为研发与应用必选项 - **公众信任度下降凸显安全重要性**:全球调研显示,尽管66%受访者经常使用AI,但超半数(58%)认为其不可信赖,信任度较2022年呈下降趋势[50] - **安全算力投入成为热点**:预计超10%的算力将投入安全评估、对齐实验等领域;伊利亚成立的SSI公司已融资30亿美元,专注超智能安全;欧美法规可能使安全算力成为刚性成本[53] - **企业建立深度嵌入的治理机构**:如Google DeepMind的Responsibility & Safety团队、微软的Aether委员会、Anthropic的长期利益信托与宪法AI机制,将安全深度嵌入研发全流程[54] - **安全演变为基础性要素**:可信安全机制成为进入关键行业的前提,监管框架使安全实践从最佳实践变为准入门槛[55]
用手机就能当导演,硬刚Sora2的万相2.6接入千问APP
新浪财经· 2025-12-17 11:36
产品发布与功能创新 - 12月16日,阿里千问APP上线最新视频生成模型万相2.6,并向所有用户免费开放[2] - 基于万相2.6,千问APP上线“AI小剧场”功能,在国内首次实现“角色合拍”玩法,用户可与朋友或名人同框出演AI短片[2] - 万相2.6是全球功能最全的视频生成模型,支持音画同步、多镜头生成及声音驱动等功能,也是国内首个支持角色扮演功能的视频模型[4] - “AI小剧场”玩法基于角色扮演功能,目前全球仅OpenAI的Sora2大模型有类似功能[4] - 万相2.6的某些功能如音频驱动生视频,Sora2尚未实现[5] 技术实力与行业地位 - 千问APP接入影视级视觉大模型,使AI不仅是专业工具,也能释放普通人的想象力[5] - 公司拥有全栈自研的强大技术底座,今年9月在国内率先发布音画同步的视频生成模型万相2.5[5] - 在权威大模型评测集LMArena上,万相图生视频位居国内第一[5] - 在语言模型领域,阿里千问已具备比肩GPT的实力,英伟达开源的多个模型基座来自千问[6] - 爱彼迎Airbnb CEO表示公司大量依赖阿里千问,认为其比OpenAI更好更便宜[6] - 在大模型赛道,公司已成为实力全面硬刚OpenAI的中国科技公司[6] - 公司已在全球开源300多款模型,在全球主要模型社区的下载量突破7亿,衍生模型突破18万个[6] - 阿里千问超越美国Meta的Llama,成为全球第一的开源模型家族[6] 应用表现与用户增长 - 千问APP公测一个月,迭代速度惊人,共计更新18个版本,在创作、学习、办公三大场景能力持续增强[5] - 用户数量增长破纪录,公测一周下载量即破千万[5] - 公测23天,月活跃用户数(含APP、Web、PC端)突破3000万,成为全球增长最快的AI应用[5]
中国版Sora2来了!阿里千问接入万相2.6
经济观察报· 2025-12-17 04:46
公司产品与技术发布 - 阿里千问APP于12月16日同步上线并免费开放了最新的视频生成模型万相2.6 [3] - 万相2.6是全球功能最全的视频生成模型,同时支持音画同步、多镜头生成、声音驱动及角色扮演功能 [1] - 基于万相2.6的核心能力,千问APP上线了“AI小剧场”功能,在国内首次实现“角色合拍”玩法,用户可与他人同框出演AI短片 [1][3] - 该角色扮演功能目前仅美国OpenAI公司的Sora2大模型有类似能力 [1] - 万相2.6的音频驱动生视频功能,是Sora2尚未实现的 [4] 产品表现与用户增长 - 千问APP公测一个月,迭代速度惊人,共计更新18个版本 [4] - 公测一周下载量即突破千万 [4] - 公测23天,月活跃用户数(含APP、Web、PC端)突破3000万,成为全球增长最快的AI应用 [4] 技术实力与行业地位 - 千问APP的快速迭代基于阿里全栈自研的强大技术底座 [4] - 今年9月,阿里在国内率先发布音画同步的视频生成模型万相2.5,其在权威评测集LMArena的图生视频项目中位居国内第一 [4] - 在语言模型领域,阿里千问已具备比肩GPT的实力 [4] - 英伟达开源的多个模型,其基座都来自于千问 [4] - 爱彼迎Airbnb CEO表示公司大量依赖阿里千问,并认为与OpenAI相比,千问更好更便宜 [4] - 在大模型赛道,阿里已成为实力全面硬刚OpenAI的中国科技公司 [4] 开源生态与全球影响 - 阿里已在全球开源300多款模型 [5] - 阿里模型在全球主要模型社区的下载量突破7亿 [5] - 基于阿里开源模型衍生的模型数量突破18万个 [5] - 阿里千问超越美国Meta的Llama,成为全球第一的开源模型家族 [5]
千问App接入视频生成模型万相2.6
每日经济新闻· 2025-12-17 03:30
公司动态 - 阿里巴巴旗下千问App于12月16日同步上线最新视频生成模型万相2.6,并向所有用户免费开放 [1] - 基于万相2.6模型的核心能力,千问App上线了“AI小剧场”功能,在国内首次实现“角色合拍”玩法,用户可与朋友或名人同框出演AI短片 [1] - 截至12月17日,千问App公测满一个月,在此期间该App迅速迭代,共计更新了18个版本 [1] 行业技术 - 千问App新上线的“AI小剧场”玩法是基于其视频生成模型万相2.6的角色扮演新功能 [1] - 目前,仅美国大模型公司OpenAI旗下的Sora2大模型具备类似的功能 [1]
【人民日报】从人物榜单读懂开放创新
人民日报· 2025-12-17 02:13
不拒众流,方为江海。科技合作是大势所趋,创新突破必须具有国际视野。在安徽合肥,中国科学 家牵头启动聚变领域国际科学计划,以开放姿态引领合作;在巴西贝伦,中国代表为应对气候变化、提 升系统韧性、促进农业可持续发展贡献"中国方案";在宇宙空间,嫦娥五号、六号取回珍贵月壤,推动 全球研究与知识共享……从数据世界到现实生活,中国科学家正在扮演着推进国际科技交流合作的重要 角色。当今世界正在重新定义"科学属于谁"这个根本问题,科学技术不应再是少数国家和企业的专属, 而要逐步实现开放、合作、共享。 科学的成果丈量着人类足迹的尺度,科学的精神决定人类行将何处。期待更多科研工作者用好国内 国际两种科技资源,在开放合作中提升自身创新能力,为人类和平发展的美好愿景作出新的贡献。 近日,国际顶级期刊《自然》杂志公布年度十大人物榜单,深度求索创始人梁文锋和中国科学院深 海科学与工程研究所杜梦然榜上有名。 他们是科学家,也是探索者、实干派。不同于不食烟火、古板孤僻的刻板印象,他们既为科技突破 带来新的灵感,也用研究影响日常生活、持续造福社会。梁文锋通过人工智能,赚到人生"第一桶金", 随后又义无反顾投入更深层次的开发中。业内人士评价他 ...
从人物榜单读懂开放创新(纵横)
人民日报· 2025-12-16 22:30
不拒众流,方为江海。科技合作是大势所趋,创新突破必须具有国际视野。在安徽合肥,中国科学家牵 头启动聚变领域国际科学计划,以开放姿态引领合作;在巴西贝伦,中国代表为应对气候变化、提升系 统韧性、促进农业可持续发展贡献"中国方案";在宇宙空间,嫦娥五号、六号取回珍贵月壤,推动全球 研究与知识共享……从数据世界到现实生活,中国科学家正在扮演着推进国际科技交流合作的重要角 色。当今世界正在重新定义"科学属于谁"这个根本问题,科学技术不应再是少数国家和企业的专属,而 要逐步实现开放、合作、共享。 近日,国际顶级期刊《自然》杂志公布年度十大人物榜单,深度求索创始人梁文锋和中国科学院深海科 学与工程研究所杜梦然榜上有名。 他们是科学家,也是探索者、实干派。不同于不食烟火、古板孤僻的刻板印象,他们既为科技突破带来 新的灵感,也用研究影响日常生活、持续造福社会。梁文锋通过人工智能,赚到人生"第一桶金",随后 又义无反顾投入更深层次的开发中。业内人士评价他"手握流量'金饭碗',却执着于硬核技术"。杜梦然 刚参加工作时,就经常拉同伴进行海况考察,一年中近一半时间漂在海上。她将实验室搬到海底,乘 坐"奋斗者"号于万米深渊探寻生命奇迹 ...
港中深韩晓光:3DGen,人类安全感之战丨GAIR 2025
雷峰网· 2025-12-13 09:13
文章核心观点 文章通过港中深助理教授韩晓光的视角,探讨了在视频生成模型(如Sora)兴起的背景下,三维生成与世界模型构建的必要性及其不可替代的价值 核心观点认为,尽管端到端的“炼丹”式AI在性能上取得突破,但为了满足人类对可解释性、安全感和精细可控的需求,尤其是在构建可交互的虚拟世界、发展具身智能以及实现数字到实体制造等领域,三维生成与显式的、结构化的建模方法是不可或缺的 [2][3][4][58][61][63] 三维生成发展历程与现状 - 三维生成在深度学习兴起前就已存在,早期主要聚焦于“类别限定”的生成,即为椅子、车辆等特定类别分别训练模型 [9] - “开放世界”的三维生成大约从2023年的Dreamfusion工作开始兴起,实现了从文本直接生成3D模型,但基于优化方法,生成速度较慢,通常需要半小时到一小时 [11][12][14] - 当前进入大模型时代,例如Adobe的Large Reconstruction Model和上海科大的Clay工作提出了“原生模型”概念,商业应用如腾讯混元3D的3.0版本已能实现从单张图像生成高质量三维模型 [16] 三维生成的发展趋势 - 趋势一:更精细,追求几何层面的极致细节表现,例如数美万物的Spark 3D [19] - 趋势二:更结构化,生成的三维模型需要能被拆解成独立部件以便编辑,例如混元3D的“X-Part”工作 [19] - 趋势三:更对齐,解决生成模型与输入图像在细节上不对应的问题,例如输入图像栅栏有5条横杠而生成模型变成6条的问题 [20] 视频生成兴起对三维生成的冲击与反思 - 视频生成技术(如Sora)的出现对三维内容创作领域造成冲击,因为它能用文本指令直接输出视频,跳过了传统三维建模、绑定、渲染等复杂流程 [24][28] - 视频生成当前存在核心局限:物理模拟不够真实、3D空间不一致、内容可控性不足(如难以精细修改视频中物体的特定属性) [29][30] - 尽管Sora2和谷歌Veo3已展示出初步的可控能力(如控制视角变化),但真正的危机感促使行业思考视频生成模型是否真的不需要3D [34][37] 视频模型与三维结合的潜在路径 - 路径一:完全不用3D,采用纯2D的端到端范式,依赖海量视频数据训练 [38] - 路径二:利用3D仿真作为“世界模拟器”,先根据条件生成可控但不真实的CG视频,再用神经网络将其转化为真实视频 [39] - 路径三:将3D信息作为控制信号输入,例如基于三维重建的场景模型来生成空间一致的长视频,以解决“长程记忆”问题 [38][39] - 路径四:用3D合成数据辅助训练,利用3D仿真批量生成可控的、带标注的视频数据,以增强端到端视频模型的训练 [39] 世界模型的分类与三维的必要性 - 世界模型的核心是对真实世界进行数字化,以计算方式理解和表达规律,并用于预测 [41] - 第一类:服务于“人类共同体”的宏观世界模型,如气候模拟、社会系统推演 [43] - 第二类:服务于“个人”的体验与探索模型,核心是可交互性,需要数字化物理与交互规律以构建沉浸式虚拟世界 [43] - 第三类:给机器用的世界模型,如用于自动驾驶或具身智能机器人,需要能根据动作预测环境变化 [44] - 为实现可交互的世界模型(如VR体验需要触觉反馈),3D是必要的 [45] 具身智能与三维生成的关系 - 发展具身智能的主流方法是“向人类学习”,这需要首先对人类与物体的交互过程进行精确的、动态的数字化捕捉与还原,3D乃至4D的还原是必要基础 [48] - 为了让机器人安全高效地探索和学习,需要创造可交互的三维仿真环境,因此具身智能同样离不开3D [48] 从数字到实体的制造需求 - 在三维打印、智能制造、CAD模型生成等领域,实现从虚拟设计到实体制造的个性化定制,3D是绝对的基础,例如牙齿生成项目就是为了制造精确的牙齿模型 [50][52] 技术路线之争:显式与隐式 - 隐式(数据驱动)路径:构建端到端神经网络,依赖“潜变量”编码所有信息,是典型的“黑箱”逻辑 [56] - 显式(模型驱动)路径:显式地重建三维模型,并基于明确的几何与物理公式进行计算和判断,依赖对世界的明确建模 [57] - 可解释性与安全感:显式的、可视化的3D/4D信息是人类能够直观理解和信任的维度,能带来安全感,而高维的“潜变量”则让人难以理解其运作原理 [57][58][59] - 当前AI时代过分追求性能而可解释性不足,实现可解释性需要3D作为人类能够直观理解的基石 [61][63]
“连姥姥都问我,你知道DeepSeek吗?”
第一财经· 2025-12-12 01:11
文章核心观点 - MiniMax创始人闫俊杰在访谈中反思了公司在面对DeepSeek等竞争对手时的挑战与应对 核心在于承认自身认知不足与执行不坚决 并强调了坚持技术驱动路线、重视人才激励以及对中国AI人才优势的信心 他认为大模型行业参与者将越来越少 但市场在扩大 未来成功的关键在于想象力与坚持[3][6][8][12][13][14] 创始人反思与竞争认知 - DeepSeek的广泛认知给MiniMax带来巨大触动 创始人闫俊杰反思团队在某些关键节点上降低了要求、思考不够深入、选择不够坚定 而竞争对手DeepSeek则拥有独特的认知和长期技术积累[3][5][6] - 公司经历的大部分挑战最终都转化为如何提升自身能力的问题 团队在受到打击时反而能变得更好是做得比较好的方面[6] 公司治理与人才激励 - 面对士气低迷 公司恢复信心的方式包括:拆解问题并用第一性原理论证可行性以鼓舞士气 以及通过发钱让员工的努力被看见和反馈 发钱被认为是管用的[7] - 2025年9月 MiniMax启动了百万美元期权激励计划 根据贡献程度向员工提供几十万美元到几百万美元不等的激励 覆盖模型算法、产品、市场、增长、职能等多个岗位 并计划对突出贡献者进行即时期权激励[7] 技术路线与产品战略 - DeepSeek的出现可能让MiniMax对技术路线更加坚定 公司经历了约半年的迷茫 纠结于技术驱动与复制移动互联网经典增长路线之间 最终认定在AGI赛道上 公司只能选择技术驱动的方式 尽管风险更高[8] - MiniMax独特的打法是ToC和出海 其角色陪伴类应用Talkie在海外获得了大量用户 目前用户量最大的产品是Talkie 而收入方面最大的是视频和API[8] - 针对外界对公司布局大语言模型、语音、视频等多模态业务的“不聚焦”质疑 创始人认为真正的AGI一定是多模态输入输出 团队计划先将每个模态走通 再在接下来几个月整合到下一代模型中 并援引OpenAI的Sora2作为多模态融合的成功范例[9][10] 行业格局与中外对比 - 国内大模型与海外顶尖模型的技术差距在缩小 但投入成本远低于海外 例如 谷歌、OpenAI、Anthropic和xAI的估值可能是中国公司的100倍 技术或许只领先5% 但投入可能在50至100倍之间[12] - 中国AI人才是重要的优势 推动DeepSeek取得成功以及MiniMax内部起到关键作用的人才基本都来自本土 且往往是他们的第一份工作 创始人认为 如果中国年轻人中出现本土技术天才 可能成为AI领域的突破点[12] - 根据MacroPolo的报告 来自中国的顶尖AI研究人员占比从2019年的29%提升到了2022年的47%[12] 未来展望与行业判断 - 创始人认为 明年做大模型的公司会更少 行业已从“百模大战”演变为仅剩几家公司 在一个越来越大的市场里 参与者越来越少 只要能持续迭代并证明价值 资金就不是最重要的问题[13] - 目前大模型尚未进入存量竞争 也不会出现一两家通吃的局面 不同模型有不同特点 例如OpenAI长于推理对话 Anthropic强于代码和Agent 谷歌在多模态方面领先 而中国模型在效果上或许差5% 但成本可能是海外的1/10[13] - AI行业不是互联网的延续 大模型时代真正的产品是模型本身 未来各岗位边界将变得模糊 最核心的竞争力是想象力 谁拥有最好的想象力、最能坚持、对社会价值大 谁就会成功[14]