Workflow
Skywork UniPic 2.0
icon
搜索文档
AI动态汇总:智元推出机器人世界模型平台genieenvesioner,智谱上线GLM-4.5a视觉推理模型
中邮证券· 2025-08-25 11:47
根据提供的研报内容,这是一份关于AI行业动态的周报,主要汇总了多家科技公司在人工智能领域的最新技术发布和产品动态。经过全面审阅,**该报告未涉及任何量化模型或量化因子的构建、测试与分析内容**。报告的核心是AI技术进展的行业资讯,而非金融工程领域的量化投资研究。 因此,**本次任务无法提取并总结任何量化模型或量化因子的相关信息**。报告内容聚焦于AI模型的技术架构、性能对比和应用场景,与量化投资中的因子挖掘、模型回测等主题无关。
昆仑万维: 2025年半年度报告摘要
证券之星· 2025-08-22 16:36
核心财务表现 - 营业收入37.33亿元,同比增长49.23% [1] - 海外收入34.41亿元,同比增长56.02%,占总收入比重92.17% [3] - 归属于上市公司股东的净利润亏损8.56亿元,同比扩大119.86% [1] - 经营活动产生的现金流量净额为-5.60亿元,同比下降396.40% [1] AI技术研发突破 - 发布Skywork-Reward-V2奖励模型,在七大主流评测中全面领先 [4] - 开源Skywork-R1V多模态视觉推理模型,在MMMU评测达76.0分 [5] - 推出Skywork-OR1数学代码推理模型,具备卓越泛化能力 [6] - 发布Matrix-Zero世界模型,支持3D场景生成与可交互视频生成 [7] - 开发Matrix-Game 2.0模型,实现25 FPS高帧率分钟级连续生成 [7] AI应用产品进展 - 天工超级智能体在GAIA评测中以82.42分位列全球榜首 [8][11] - 构建"5+1"智能体矩阵,涵盖文档、PPT、表格、播客与网页创作 [9] - AI视频平台SkyReels支持30秒长视频生成及LoRA角色定制功能 [17] - AI音乐模型Mureka V7良品率从43.4%提升至57.7%,人声真实度提升44% [18][20] - 推出Mureka TTS V1语音合成模型,支持Voice Design音色定制功能 [22] 业务生态与商业化 - 短剧平台DramaWave年化流水收入ARR突破1亿美元 [25] - StarMaker上线AI歌曲创作功能并推出AI数字人直播解决方案 [27] - Opera浏览器月活跃用户达2.89亿,年化ARPU升至1.97美元 [28] - Opera Neon浏览器集成AI助手群组,支持本地执行网页任务 [30] - Opera GX推出《巫师3》主题浏览器及原创Roblox游戏《Hell's Obby》 [32] 行业发展趋势 - 2025年全球AI市场规模预计突破6380亿美元 [36] - 行业竞争重心从模型规模转向应用效果与系统效率 [36] - 多模态能力成为技术焦点,OpenAI将多模态集成至ChatGPT [38] - AI芯片架构向NPU与ASIC等高能效定制化方向演进 [39] - AI Agent技术从实验走向实用化部署,工业应用加速落地 [38]
一周六连发!昆仑万维将多模态AI卷到了新高度
量子位· 2025-08-17 09:00
技术发布概览 - 一周内连续发布六款多模态AI模型,覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心场景 [2][3] - 绝大部分模型已开源,包括音频驱动视频生成模型SkyReels-A3、交互世界模型Matrix-Game 2.0、3D场景生成模型Matrix-3D等 [3][19][25] - 技术周前公司入选"中国AI开源16强",与腾讯、阿里等并列 [5] 核心模型与技术突破 视频生成领域 - **SkyReels-A3**:支持音频驱动人像视频生成,预设8种运镜参数,可生成60秒单分镜视频,唇形同步指标Sync-C达8.66,超越OmniHuman(8.15)和Hydra(7.70) [8][10][12][14] - 技术原理:基于DiT视频扩散模型+插帧延展+强化学习动作优化,支持文本提示词输入画面变化及商品交互 [14][15] 世界模型领域 - **Matrix-Game 2.0**:国内首个对标谷歌Genie 3的开源模型,支持25 FPS实时生成分钟级交互视频,数据管线基于Unreal Engine和GTA 5构建1350小时高质量交互视频 [19][20][22][24] - **Matrix-3D**:单图像生成全景视频并还原三维空间,对标李飞飞World Labs,适用于游戏引擎、元宇宙等领域 [25][27] 统一多模态领域 - **Skywork UniPic 2.0**:2B参数模型在图像生成/编辑任务中超越7B的BAGEL和12B的Flux-Kontext,联合训练后模型UniPic2-Metaquery刷新多项SOTA [29][31][33] - 训练策略:采用渐进式双任务强化策略优化SD3.5-Medium架构,降低硬件门槛 [30][31] 智能体领域 - **Skywork Deep Research Agent v2**:多模态深度调研智能体整合图片检索与生成,自动插入图文混合文档;浏览器智能体支持社媒多模态分析(如小红书、Instagram) [37][38][44] - 技术手段:端到端强化学习(GRPO算法)、并行推理机制、多智能体协同框架 [48][49][50][51] AI音乐与语音 - **Mureka V7.5**:中文音乐生成模型在音色、情感表现上超越Suno v4.5,优化ASR技术提升人声真实度 [53][54][57] - **MoE-TTS**:基于MoE的语音合成框架,通过自然语言描述精准控制声音特征,域外描述贴合度领先闭源产品 [60][61] 战略与行业布局 - **战略定力**:2023年确立"All in AGI与AIGC"战略,2024年研发费用15.4亿元(同比+59.5%),研发团队占比73.41% [66][67][73] - **垂直领域聚焦**:CEO方汉强调垂直Agent与高频应用场景的价值,如数字人直播(国内市场规模近十万亿)、游戏引擎、具身智能等 [70][76] - **开源生态**:通过开源建立技术话语权,推动"技术-社区-应用"正向循环,强化行业地位 [78]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-08-16 02:33
芯片 - 英伟达和AMD面临出口许可抽成问题 [3] - 美国在芯片领域推进追踪器嵌入技术 [3] 算力 - 特斯拉Dojo团队解散 [3] - 浪潮推出超节点AI服务器 [3] 模型 - OpenAI发布GPT-4o回归和GPT-5 Pro [3] - 智谱推出GLM-4.5和GLM-4.5V开源模型 [3] - 昆仑万维发布SkyReels-A3和Skywork UniPic 2.0 [3] - 腾讯推出Large-Vision模型 [3] - Anthropic推出支持百万上下文的模型 [3] 应用 - xAI开放Grok 4免费使用 [3] - 腾讯混元等接入CubeMe [3] - 阿里推出具身智能组件 [3] - 百川智能发布Baichuan-M2 [3] - OpenAI在IOI竞赛中获金牌 [3] - 昆仑万维推出Matrix-3D [3] - 商汤发布AI剧组工具 [4] - 苹果推出新Siri [4] - Pika推出音频驱动表演技术 [4] - Claude Code推出Opus规划模式 [4] - 昆仑万维发布Deep Research Agent v2 [4] - 腾讯混元推出Hunyuan-GameCraft [4] - 微软提出AI Agent五大模式 [4] - 港大等推出OpenCUA框架 [4] 科技 - 世界机器人大会展示100+机器人 [4] - 灵巧智能推出柔性灵巧手 [4] - Figure展示机器人叠衣服技术 [4] - 苹果推出AI全家桶 [4] - 智元机器人开源世界模型平台 [4] 观点 - 王兴兴探讨具身智能发展 [4] - Product Hunt关注AI产品发布 [4] - 英伟达等讨论物理AI [4] - 毕树超探讨Scaling Law [4] - Artificial Analysis分析大模型应用 [4] - 国外开发者测评编程能力 [4] - DeepMind强调Genie 3重要性 [4] - Notion讨论AI产品标准 [4] - Greg Brockman提出算法瓶颈问题 [4] - 王小川探讨医疗大模型 [4] 资本 - Meta收购WaveForms [4] - Periodic Labs获得AI材料融资 [4] - OpenAI投资脑机接口 [4] - Perplexity收购Chrome [4] 事件 - OpenAI参与AI国际象棋 [4] - GitHub并入CoreAI [4]
昆仑万维SkyWork AI技术发布周正式启动
中证网· 2025-08-14 12:13
公司技术发布活动 - 昆仑万维于8月11日至15日启动SkyWork AI技术发布周 每天发布一款新模型 覆盖多模态AI核心场景的前沿模型 包括SkyReels-A3、Matrix-Game 2.0、Matrix-3D、Skywork UniPic 2.0 [1] - 8月14日正式发布Skywork Deep Research Agent v2 作为天工超级智能体的核心引擎 [1] - 该模型自5月22日上线后大幅重塑大模型在AI Office领域的角色 通过skywork.ai为用户产出大量信息密度极高的优质文档、PPT、表格等交付物 [1] 多模态技术突破 - 团队在四个方面完成技术突破:多模态爬取技术MM-Crawler、长距离多模态信息收集、异步并行Multi-Agent多模态理解架构和多模态结果呈现能力 [2] - 多模态深度浏览器智能体进行多项关键自研技术优化 包括升级DOM+视觉推理方案、主流平台专项适配、并行搜索、多动作规划机制、智能筛选、人机无缝接管与隐私保护 [2] - 智能体能够模拟人类浏览与交互方式 革新传统数据采集与分析模式 可精准完成智能搜索、多模态信息分析与社区内容洞察 [3] 模型性能提升机制 - Skywork Deep Research Agent v2引入多种提升机制:高质量数据合成及训练、端到端强化学习、高效的并行推理 以及多智能体自我学习演进系统 [3] - 在权威搜索评测榜单BrowseComp上 常规模式下性能超越大多数同类产品 正确率达到27.8% [4] - 开启自主研发的"并行思考"模式后 正确率跃升至38.7% 刷新行业SOTA纪录 且正确率随思考时间增加持续攀升 [4] 行业技术地位 - 新版本在多项Agent任务评测上超越现有模型 达到行业SOTA水平 [3] - 多模态深度浏览器智能体有效解决传统浏览器智能体的多项痛点 展示天工智能体在长周期任务与VLA任务中的巨大潜力 [3]
财信证券晨会纪要-20250814
财信证券· 2025-08-13 23:30
市场策略 - 大盘再度放量上攻,沪指突破去年10月8日盘中高点,三大指数收涨并再创年内新高,全市场成交额升至2万亿元以上 [6][7][8] - 创新成长板块风格表现居前,创业板指数涨3.62%,科创50指数涨0.74%,北证50指数涨0.84% [6] - 小盘股板块表现靠前,中证1000指数涨1.45%,中证2000指数涨1.04%,超大盘股板块表现靠后,上证50指数仅涨0.21% [7] - 分行业来看,通信、有色金属、电子表现居前,食品饮料、煤炭、银行表现靠后 [7] - 算力硬件板块继续走强,受AI发展驱动全球算力需求增加,部分企业中报业绩高增 [7] - 券商板块盘中拉升,2025年1-7月A股新开户数达1456万户,同比增长36.9% [8] 基金研究 - 8月13日,万得LOF基金价格指数上涨0.98%,万得ETF基金价格指数上涨1.31% [10] - 华夏上证50ETF上涨0.27%,华泰柏瑞沪深300ETF上涨0.83%,南方中证500ETF上涨1.31% [10] - 博时标普500ETF上涨0.78%,华夏野村日经225ETF上涨1.88%,华安德国(DAX)ETF上涨0.37% [10] - 两市ETF总成交额约4105.2亿元,日内通信、人工智能、5G类ETF品种表现突出 [10] 债券研究 - 8月13日,1年期国债到期收益率下行0.49bp至1.36%,10年期国债到期收益率下行0.09bp至1.73% [12] - 1年期与10年期国债期限利差为36.47BP,1年期国开债到期收益率下行0.47bp至1.52% [12] - 国债期货10年期主力合约涨0.02%,5年期主力合约涨0.05%,2年期主力合约涨0.03% [12] 宏观经济 - 2025年前七个月社会融资规模增量累计为23.99万亿元,比上年同期多5.12万亿元 [14] - 政府债券净融资8.9万亿元,同比多4.88万亿元,企业债券净融资1.43万亿元,同比少1849亿元 [14] - 7月末广义货币(M2)余额329.94万亿元,同比增长8.8%,狭义货币(M1)余额111.06万亿元,同比增长5.6% [16] - 前七个月人民币贷款增加12.87万亿元,企(事)业单位贷款增加11.63万亿元,住户贷款增加6807亿元 [16] 行业动态 - 昆仑万维开源"Skywork UniPic 2.0"模型,由生图编辑、统一模型能力和生图编辑后训练三个核心模块组成 [25] - 苹果智能眼镜引入注视点透镜技术,能根据用户视线进行响应,中央视野保持清晰,周边视野进行微妙调整 [28] - 国家发改委表示2025年超长期特别国债支持设备更新的1880亿元投资补助资金已下达完毕,带动总投资超过1万亿元 [21] 公司跟踪 - 贵州茅台2025H1实现营业收入893.89亿元,同比+9.10%,归母净利润454.03亿元,同比+8.89% [31] - 华锦股份上半年实现总营收201.04亿元,同比下降5.01%,归母净利润-9.89亿元,亏损同比扩大33.15% [34] - 荣昌生物泰它西普治疗原发性干燥综合征Ⅲ期临床研究达到主要研究终点 [35] - 中天科技拟以自有资金出资8000万美元在沙特投资设立一家全资子公司,主营海底电缆、OPGW等业务 [37] - 株冶集团2025年上半年实现归母净利润5.85亿元,同比+57.83%,主要系锌及贵金属产品价格上涨 [38] 湖南经济动态 - 上半年湖南手机数码购新活动核销政府补贴金额9.85亿元,带动总消费金额76.85亿元 [41] - 手机品类表现最为亮眼,订单金额达38.6亿元,消费拉动效果最佳,拉动销售比为7.96 [42] - 品牌总金额排名前三的是华为、OPPO、小米 [42]
腾讯研究院AI速递 20250814
腾讯研究院· 2025-08-13 16:01
一、OpenAI投资脑机接口公司挑战Neuralink - OpenAI及Sam Altman将支持脑机接口新公司Merge Labs,预计估值达8.5亿美元,与Neuralink直接竞争 [1] - Altman参与联合创办Merge Labs但不负责日常管理,实现其2017年人机融合愿景 [1] - Merge Labs处于起步阶段,计划利用AI领域最新进展开发更简单实用的脑机接口技术 [1] 二、Claude Sonnet 4解锁百万上下文 - Claude Sonnet 4支持高达100万Token的上下文窗口,容量是之前的5倍,可处理超过75,000行代码或数十篇研究论文 [2] - 定价调整:200K以内每百万Token输入3美元/输出15美元,超过200K部分每百万Token输入6美元/输出22.5美元 [2] - 功能已在亚马逊Bedrock公测,将登陆Google Cloud Vertex AI,被合作伙伴称为"生产级AI工程"能力 [2] 三、昆仑万维开源Skywork UniPic 2.0 - 开源统一多模态模型Skywork UniPic 2.0,实现理解、生图、编辑一体化框架 [3] - 模型包含三核心模块:生图编辑模块、多模态连接器预训练、Flow-GRPO渐进式双任务强化策略 [3] - UniPic2-SD3.5M-Kontext-2B在生图指标上超越12B参数的Flux.dev,编辑效果优于同参数量竞品 [3] 四、Perplexity拟345亿美元收购Chrome - AI初创公司Perplexity向谷歌发出345亿美元全现金收购Chrome浏览器要约 [4] - 报价是Perplexity自身估值(180亿美元)的两倍,时机选在谷歌面临反垄断诉讼关键节点 [4] - Perplexity承诺维护Chromium开源项目并两年内投资超30亿美元,但谷歌表示无意出售 [4] 五、Pika推出音频驱动表演模型 - 新模型能将静态图片与音频结合生成同步视频,实现精确口型同步和自然表情变化 [5] - 平均仅需6秒生成720p高清视频,长度不限,未来可应用于社交媒体、游戏开发和教育领域 [5] - 目前技术限于iOS端并需邀请码,但带来信息真伪辨别新挑战 [5] 六、Figure人形机器人展示衣物折叠能力 - 在原有物流分拣能力基础上仅增加数据即可掌握叠衣服新技能 [6] - 演示中表现出与人类相似的行为(眼神交流、点头确认等),采用端到端视觉-语言-动作模型控制 [6] - 叠衣服是极具挑战的灵巧操作任务,Figure依靠Helix架构实现无需改变原有架构 [6] 七、DeepMind揭秘Genie 3对AGI意义 - Genie 3不仅能生成虚拟世界,更能让世界真实运转并支持智能体训练 [7] - 已开始将Sima智能体放入Genie 3生成世界测试,实现"AI在另一个AI大脑中运行" [7] - 哈萨比斯认为模型评测是关键,Game Arena将成为重要评测基准 [7] 八、Notion CEO谈AI产品开发理念 - AI时代产品应打造"AI工作空间",将AI从工具转变为提供"工作本身" [8] - AI开发像"酿啤酒"而非"造桥",常只能完成70-80%功能,需大量实验而非传统设计流程 [8] - 成功的AI产品需平衡工艺与实用性,7.5分足够,过度追求完美影响商业价值 [8] 九、OpenAI联合创始人谈AI发展趋势 - AI开发进入"基础研究回归"阶段,算法再次成为决定性瓶颈 [9] - 未来AI基础设施需平衡"长时间重度计算"和"实时响应"两种工作负载 [9] - 预测AI生态将"百花齐放",实现经济"10倍增长"需各领域专家深入思考应用方式 [9]
昆仑万维开源“Skywork UniPic 2.0”模型
证券日报网· 2025-08-13 06:16
公司动态 - 昆仑万维于8月11日至8月15日连续五天每天发布一款新模型,覆盖多模态AI核心场景的前沿模型,目前已发布SkyReels-A3、Matrix-Game2.0、Matrix-3D模型 [1] - 8月13日公司正式开源"Skywork UniPic 2.0"模型,该模型面向统一多模态建模的高效训练和推理框架,具备理解、生图、编辑一体化核心能力 [1] - "Skywork UniPic 2.0"及其系列模型已全面开源,涵盖模型权重、推理代码、强化策略等资源 [1] 技术架构 - 生图编辑模块基于SD3.5-Medium架构改进,支持文本和图像同时输入,通过训练扩展出生图、编辑双能力 [2] - 统一模型能力通过冻结生图编辑模块,连接多模态模型Qwen2.5-VL-7B和Pre-Train连接器,实现理解生成编辑一体化 [2] - 生图编辑后训练采用Flow-GRPO渐进式双任务强化策略,实现生成与编辑任务协同优化而不互相干扰 [2] 产品特性 - "Skywork UniPic 2.0"由生图编辑、统一模型能力、生图编辑后训练三个核心模块组成 [1] - 模型围绕生成和编辑模块轻量化设计,连接多模态理解模型进行联合训练 [1] - 技术目标为实现"高效、高质、统一"的多模态生成模型 [1]
昆仑万维:正式开源「Skywork UniPic 2.0」模型
证券时报网· 2025-08-13 05:06
公司技术发布 - 昆仑万维于8月13日正式开源多模态模型框架"Skywork UniPic 2.0" 包含模型权重、推理代码和强化策略等完整组件 [1] - 该框架结合DiT和自回归范式 实现理解、生图、编辑一体化能力 目标为高效高质统一的多模态生成 [1] - 公司同步开源多个SOTA级别大模型 包括中国首个AI短剧视频生成模型SkyReels-V1和全球首个扩散强迫框架电影生成模型SkyReels-V2 [1] 行业技术突破 - 开源模型涵盖音频驱动人像视频生成技术SkyReels-A3 体现多模态生成领域的持续技术边界突破 [1] - 框架设计围绕生成编辑模块轻量化 支持与多模态理解模型联合训练 提升开发者构建应用效率 [1] - 公司通过系列开源模型推动多模态领域发展 包括视频生成、电影生成及音频驱动生成三大技术方向 [1]