Workflow
SAM Audio
icon
搜索文档
Wedbush Slashes PT on Meta Platforms (META) to $880 From $920
Yahoo Finance· 2025-12-21 14:57
Meta Platforms, Inc. (NASDAQ:META) is one of the most widely held stocks by hedge funds in 2025. On December 19, Wedbush slashed the price target on Meta Platforms, Inc. (NASDAQ:META) to $880 from $920 while maintaining an Outperform rating on the stock. The firm told investors that Meta Platforms, Inc. (NASDAQ:META) is its top advertising pick for 2026, supported by monetization of new channels, solid adoption of Advantage+, and strong digital ad trends. While the firm anticipates margin contraction in 20 ...
传媒行业?AI周度跟踪之四十七:字节大会发布多款模型,谷歌Gemini3Flash速度提升-20251221
广发证券· 2025-12-21 09:32
行业投资评级 - 报告对传媒行业给予“买入”评级 [1] 核心观点 - 报告核心观点为关注AI技术迭代带来的潜在投资机会,并梳理了海内外AI大模型、多模态及应用层面的最新动态 [6] 国内AI动态跟踪 - **大模型产品数据**:根据SimilarWeb数据,上周(2025/12/8-2025/12/14)国内主要AI大模型网页端访问量表现分化,其中DeepSeek以7472.79万次访问量保持领先,环比上升0.26%;豆包访问量为2361.84万次,环比上升6.07%;Kimi访问量为902.95万次,环比下降4.46%;通义千问访问量环比大幅上升51.22%至22.58万次 [6][20] - **大模型产品数据**:在App iPhone端下载量方面,根据七麦数据,上周豆包以209.66万次下载量保持领先,环比微降0.03%;腾讯元宝下载量为124.44万次,环比上升14.17%;通义千问下载量为83.02万次,环比下降18.39% [21][24] - **热门应用数据**:上周国内AI应用数据中,AI搜索产品秘塔AI搜索网页访问量达171.20万次,环比上升25.89%,其App下载量环比上升46.14%至2.94万次;AI设计产品Pixso AI网页访问量环比上升45.10%至16.65万次;AI视频产品PixVerse网页访问量为153.81万次,环比上升6.87% [24][25][30] - **应用买量追踪**:根据APPGrowing数据,上周腾讯元宝在广告投放素材量上以675,911个保持第一,环比上升16.98%;通义千问投放素材量为219,777个,环比下降52.91% [31] - **应用买量追踪**:2025年12月至今的广告投放金额数据显示,腾讯元宝投放金额达86,268.90万元,通义千问为36,772.38万元,豆包为2,594.34万元 [31] - **公司重点事件**:商汤科技发布行业首个创编一体智能体Seko 2.0,旨在赋能短剧创作,将制作周期缩短近九成,平台已汇聚超20万创作者 [37][38] - **公司重点事件**:商汤科技发布AI办公智能体“小浣熊3.0”,具备一键生成高质量PPT等能力,企业场景落地分析精度达95%,已拥有超300万注册用户 [37][38] - **公司重点事件**:MiniMax视频团队开源视觉生成模型关键组件VTP;阶跃星辰升级其GUI Agent模型Step-GUI,支持200多个任务场景 [38] 海外AI动态跟踪 - **大模型产品数据**:根据SimilarWeb数据,上周海外主要AI大模型网页端访问量中,ChatGPT以132,387.06万次访问量稳居第一,环比微降0.99%;Claude访问量为4,126.03万次,环比上升0.71%;Gemini访问量为147.35万次,环比下降11.51% [6][41] - **热门应用数据**:上周海外AI陪伴产品Character AI网页访问量为4,153.97万次,环比下降1.89%,其App全球iPhone端下载量环比上升28.66%至53.61万次;AI搜索产品Perplexity AI网页访问量为4,374.03万次,环比微降0.18% [45][53] - **公司重点事件**:瑞典AI编程初创公司Lovable近日完成新一轮融资,估值飙升至66亿美元,较半年前暴涨超三倍 [55][56] 海内外科技大厂AI动态 - **大模型进展**:谷歌正式发布高效、低成本模型Gemini 3 Flash,其响应速度提升3倍,性能已超越前代Gemini 2.5 Pro并接近GPT-5.2等前沿模型 [6][57][59] - **大模型进展**:字节跳动豆包大模型团队发布通用Agent模型Seed 1.8,集成了搜索、代码与GUI交互能力,在Agentic Coding及多模态推理等指标上处于业界第一梯队 [6][57][58] - **多模态迭代**:OpenAI发布全新旗舰图像生成模型GPT Image 1.5,在细节保留、文本渲染及原图光线保持方面实现突破 [6][57][58] - **多模态迭代**:字节发布新一代音视频联合生成模型Seedance 1.5 pro,实现了精准音画同步与电影级运镜控制 [6][57][58] - **多模态迭代**:Meta推出首个统一多模态音频分离模型SAM Audio,支持通过文本或视觉提示从复杂音频中精准提取目标声音 [6][57][58] - **应用层面**:蚂蚁集团旗下AI健康助手独立App AQ更新版本,正式启用中文名“蚂蚁阿福” [6][57][58] - **其他动态**:腾讯混元世界模型1.5正式发布并开源实时世界模型框架;阿里发布新一代万相2.6系列模型,支持角色扮演等功能;美团开源虚拟人视频生成模型LongCat-Video-Avatar [58] 投资建议 - **云基建方向**:建议关注阿里巴巴、腾讯控股 [6][59] - **AI视频与IP产业链**:若Sora推动AI视频平台跑通商业化闭环,建议关注IP产业链的阅文集团、中文在线、上海电影、奥飞娱乐、华策影视、欢瑞世纪等;AI内容确权关注阜博集团;视频平台关注快手、哔哩哔哩 [6][59] - **AI营销方向**:建议关注汇量科技、易点天下、蓝色光标、天下秀 [6][59] - **AI终端与电商方向**:AI终端关注出门问问;AI电商关注值得买 [6][59] - **AI客服与游戏方向**:AI客服agent关注神州泰岳;AI游戏关注恺英网络 [6][59] - **AI医疗方向**:建议关注京东健康、阿里健康,AI问诊功能完善有望为线上平台导流并实现变现闭环,大厂增加即时零售投入有望带动互联网医疗用户流量和O2O业务单量增长 [6][59] - **细分应用落地**:关注商业化进展较好的快手、美图、粉笔等 [6][59] 重点公司估值 - 报告列出了横店影视、芒果超媒、腾讯控股、阿里巴巴、哔哩哔哩、京东健康等多家公司的估值和财务预测数据,所有提及公司评级均为“买入” [7]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-12-20 02:33
芯片领域动态 - 谷歌推出TorchTPU芯片 [3] - 苹果研发AI服务器芯片 [3] 大模型与算法进展 - 谷歌发布Gemini 3 Flash模型 [3] - 字节跳动发布Seed1.8模型 [3] - 小米发布MiMo-V2-Flash模型 [3] - 英伟达发布Nemotron 3模型 [3] - OpenAI研究Circuit-Sparsity模型稀疏化技术 [3] - Thinking Machines发布Tinker模型 [3] - OpenAI可能正在开发GPT-5.2模型 [3] - OpenAI建立科学能力基准 [4] AI应用与产品发布 - OpenAI计划推出ChatGPT应用商店 [3] - 阶跃星辰发布Step-GUI应用 [3] - xAI为Grok推出Grok Voice功能 [3] - 行业在开发Agent API [3] - 苹果规划AI眼镜产品 [3] - OpenAI推出ChatGPT Images功能 [3] - Meta发布SAM Audio应用 [3] - 腾讯发布混元世界模型1.5 [3] - Vidu发布Vidu Agent应用 [3] - 谷歌推出Super Gems应用 [3] - 腾讯元宝推出写作模式 [3] - 通义万相推出角色扮演功能 [3] - 字节跳动发布Seedance 1.5 pro应用 [3] - 长安汽车与北汽集团推进L3级自动驾驶 [3] - Manus发布Manus 1.6应用 [3] - 谷歌推出NotebookLM应用 [3] - 通义发布Fun语音模型 [4] - Zoom推出Zoom AI功能 [4] - 行业出现医学版ChatGPT应用 [4] - Gemini推出Deep Research Agent [4] - Runway发布GWM-1应用 [4] - 谷歌将翻译功能融合进Gemini [4] - 拓竹科技与混元合作推出「印你」应用 [4] - 宇树科技推出机器人应用商店 [4] 前沿科技与行业观点 - Harmonic研究Erdos1026问题 [4] - 风险投资机构a16z提出AI泡沫判断标准 [4] - OpenAI研究记忆系统 [4] - 谷歌研究递归自我改进技术 [4] - 多款AI模型面临“AI手指”生成难题 [4] - 媒体披露OpenAI的Sora模型开发内幕 [4] - 行业关注AI生成的成人内容市场 [4] - DeepMind对AGI(通用人工智能)到来做出预测 [4] - 数据分析公司Similarweb揭示AI用户趋势 [4] - OpenAI与迪士尼探讨合作 [4]
腾讯研究院AI速递 20251218
腾讯研究院· 2025-12-17 16:01
行业核心动态:AI模型与产品密集迭代升级 - OpenAI推出全新图像生成模型ChatGPT Images,图像生成速度提升4倍,API价格比前代降低20% [1] - Meta开源音频分割模型SAM Audio,支持文本、视觉和时间跨度提示,在超过1亿条视频上训练,运行速度快于实时处理 [2] - 小米开源大模型MiMo-V2-Flash,总参数3090亿,活跃参数150亿,在SWE-bench Verified得分73.4%超越所有开源模型 [3] - 腾讯混元世界模型1.5开源,支持创建实时交互3D世界,以24FPS速度生成720P高清视频 [4] - 谷歌在Gemini中深度整合Opal工作流,推出Super Gems功能和新工作流构建器 [7] - OpenAI发布专家级科学能力评估基准FrontierScience,包含700余道题目,GPT-5.2在奥赛赛道得分77% [8] 模型性能与技术创新 - ChatGPT Images支持添加、删减、组合、融合等多种编辑,文本渲染能力增强,内置数十种预设滤镜和提示词 [1] - SAM Audio核心引擎PE-AV基于Perception Encoder扩展,实现多模态融合,在多种音频分离任务上达到SOTA水平 [2] - MiMo-V2-Flash采用5比1混合滑动窗口注意力机制,使KV缓存减少近6倍,轻量级多Token预测使推理速度提升2-2.6倍 [3] - 腾讯混元世界模型1.5核心创新包括重构记忆机制实现分钟级几何一致性、Context Forcing蒸馏方案和基于3D的自回归扩散模型强化学习 [4] - Vidu Agent具备分镜级可控力,能保持产品人物场景在15-30秒视频中的一致性,并支持精细化编辑 [5][6] - FrontierScience基准的研究赛道采用基于量规的10分制评估,关注推理步骤正确性,揭示模型存在推理逻辑错误等问题 [8] 商业化与成本策略 - ChatGPT Images功能向所有ChatGPT用户推出,API以GPT Image 1.5形式提供 [1] - MiMo-V2-Flash后训练采用多教师在线策略蒸馏,仅需传统方法1/50算力达到教师性能峰值,API限时免费开放,成本为每百万token输入0.1美元输出0.3美元 [3] - Vidu Agent首推多模态Agent API,为企业提供端到端交付结果,支持上传爆款视频和产品图批量产出同类高质量视频 [5][6] - 谷歌Gemini的新工作流可直接生成可分享链接并公开发布,不再依赖Google Drive权限设置 [7] 行业战略与研发投入 - 原DeepSeek成员罗福莉加入小米并发表演讲,强调AI进化的下个起点是能与物理世界交互的模型,认为真正护城河是科学研究文化与将未知问题转化为可用产品的能力 [9] - 罗福莉提出开源是实现AGI普惠化、确保人类智慧共同进化的唯一路径 [9] - 小米未来五年研发投入预计超2000亿元,2026年预计投入约400亿元 [9]
分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音
机器之心· 2025-12-17 09:42
核心观点 - Meta发布并开源了名为SAM Audio的统一多模态提示音频分割模型,该模型能够通过文本、视觉或时间片段提示,从复杂音频混合中分离出任意声音,彻底改变音频处理方式 [1] - 该模型在多项音频分离任务上实现了业界领先的性能,运行速度快于实时处理,并首次支持多种交互方式,为用户提供了更精确、直观的控制能力 [9][35][40] - Meta同时发布了支撑SAM Audio的核心引擎PE-AV、首个真实环境音频分离基准SAM Audio-Bench以及首个用于音频分离的自动评测模型SAM Audio Judge,旨在推动音频AI领域的发展 [10][26][33] 模型与技术架构 - **SAM Audio模型**:采用基于流匹配扩散Transformer的生成式建模框架,接收混合音频及多模态提示,生成目标音轨与剩余音轨 [12] - **核心技术引擎PE-AV**:基于Meta此前开源的Perception Encoder模型构建,通过将视频帧与音频在精确时间点上对齐,提供稳健且语义丰富的特征表示,是支撑SAM Audio效果的核心 [2][20][22] - **数据引擎与训练**:构建了一套完整的数据引擎,融合先进的音频混合技术、自动化多模态提示生成及伪标签流程,生成贴近真实场景的训练数据 [14] - **训练数据规模**:模型基于多样化的数据集训练,内容横跨语音、音乐及各类通用声音事件;PE-AV基于超过1亿条视频进行训练 [15][25] 功能与应用场景 - **三种分割方式**: - 文本提示:输入如“狗叫声”等描述以提取特定声音 [16] - 视觉提示:在视频中点击发声的人或物体以分离对应音频 [16] - 时间跨度提示:业内首创,允许用户标记目标声音出现的时间片段以实现更精确分割 [4][16] - **应用场景**:包括音频清理、背景噪声移除、从乐队演出录像中分离特定乐器声、滤除视频中的交通噪声、去除播客中的持续噪音等,旨在构建下一代创意媒体工具 [4][5] 性能与评估 - **性能表现**:在通用音频分离及语音、音乐、通用声音等所有音频类别上,性能均显著领先于以往工作,并达到了最佳领域专用模型的水平 [35][36] - **处理速度**:运行速度快于实时处理,实时因子约为0.7,在5亿到30亿参数规模下都能高效进行大规模音频处理 [40] - **多模态提示优势**:混合模态提示(如文本结合时间提示)的效果优于单一模态方法 [39] - **评估体系**: - **SAM Audio Judge**:首个用于音频分离的自动评测模型,提供无需参考音频的客观评测方式,从9个感知维度(如召回率、精确度、整体质量)评估分割质量 [10][26] - **SAM Audio-Bench**:首个全面的真实环境音频分离基准,覆盖语音、音乐、通用音效及所有提示类型,并率先引入无参考评估方式 [10][30][33] 发布与生态建设 - **开源与平台**:公司向社区开源了SAM Audio和PE-AV模型,发布了相关研究论文和代码,并将所有成果整合进全新的“Segment Anything Playground”平台供公众体验 [5][7][17][23] - **行业合作**:宣布与美国最大助听器制造商Starkey以及创业加速器2gether-International建立合作,探索模型在推动无障碍技术方面的应用 [43] - **行业意义**:此次发布被视为迈向更易用、更具创造力、更加包容的AI的一步,为理解复杂声学环境和响应多模态自然提示提供了新的可能性 [43] 当前局限性 - 目前不支持以音频本身作为提示 [44] - 无法在没有任何提示的情况下进行完整的音频分离 [44] - 在高度相似的音频事件(如从合唱中分离单一歌手或从交响乐中分离单一乐器)之间进行分离仍具挑战性 [44]