多模态AI

搜索文档
Meta 超级 AGI 团队曝光,50% 是华人
36氪· 2025-07-24 02:09
行业人才竞争态势 - 硅谷AI人才争夺战激烈,OpenAI、苹果和Meta三巨头竞争白热化,Meta通过天价薪资和资源吸引顶尖研究员加入[1][3] - Meta组建超级智能实验室,计划投入数百亿美元打造GW级计算集群,提供无限算力资源和最强GPU支持[3][6] - OpenAI、微软、NVIDIA和亚马逊也在加码抢人,OpenAI部分资深研究员年薪超1000万美元,核心骨干可获得2000万美元以上股票和现金奖励[27][28] Meta的人才战略 - Meta近期从苹果挖走基础模型团队负责人庞若鸣,综合薪酬超2亿美元,接近苹果CEO库克年薪三倍[9][12] - Meta从OpenAI挖走至少8名核心研究员,覆盖多模态、生成式AI等关键领域,40%人才来自OpenAI[13][23][25] - Meta已吸纳近20位华人研究员,多数毕业于清华、北大等中国顶尖高校,形成密集的华人科研团队[29][31] 关键人才流动案例 - Meta斥资143亿美元收购Scale AI并吸纳其创始人Alexandr Wang,后者为24岁白手起家亿万富翁[7][9] - 从苹果挖来的庞若鸣曾主导苹果自研大语言模型和Siri优化,其团队两名关键研究员Mark Lee和Tom Gunter也被Meta挖走[12][13] - OpenAI的GPT-4o图像生成主导者刘璐和多模态专家Allan Jabri加盟Meta,刘璐此前开发的功能上线10天吸引1.3亿用户[14][16][18][20] 技术领域布局 - Meta重点强化多模态视觉领域,挖走OpenAI三位Vision Transformer(ViT)共同作者Lucas Beyer、Alexander Kolesnikov和Xiaohua Zhai[22] - 从OpenAI引入的团队覆盖轻量化模型(赵晟佳)、后训练(任泓宇)、生成技术(毕树超)等方向,精准打击OpenAI技术命脉[23][25] - 微软宣布投入800亿美元打造AI基础设施,亚马逊通过AWS算力和奖学金计划吸引年轻研究者,形成梯队化储备[28][29]
「CV 铁三角」落定Meta,视觉 AI 如何向多模态演进?
机器之心· 2025-07-19 05:49
Meta挖角「CV铁三角」与多模态AI演进 - Meta近期高薪挖走OpenAI苏黎世办公室的「CV铁三角」(Lucas Beyer、Alexander Kolesnikov、Xiaohua Zhai),三人曾在GoogleBrain/DeepMind共事并主导多项视觉AI里程碑研究 [4][5] - 「CV铁三角」的五项核心成果构成多模态AI基础框架: - **S4L(2019年5月)**:通过自监督+半监督学习减少图像分类对人工标注的依赖 [5] - **BiT(2019年12月)**:验证视觉领域大规模预训练→微调范式的可行性,被CLIP/SAM等沿用 [6] - **ViT(2020年10月)**:首次将纯Transformer应用于视觉任务,打破CNN垄断并实现跨模态特征关联 [6][7] - **MLP-Mixer(2021年5月)**:用双层MLP替代卷积/自注意力机制,简化架构同时保持性能 [7] - **PaLI系列(2022年9月起)**:谷歌多模态统一尝试,将图像+语言任务转化为文本生成 [7] - 研究轨迹覆盖从图像分类到多语言对话,为Omni-LLM全模态模型奠定技术路径 [5][7] Multi-Agent协作与RAG技术争议 - 检索增强生成(RAG)被质疑为过渡方案,需与持续状态memory机制互补以支持动态上下文迁移 [2] - 多智能体环境需解决多层级memory架构设计挑战,包括语义漂移、上下文污染及优先级管理 [2] Perplexity挑战谷歌搜索霸权 - Perplexity通过AI原生浏览器突破流量限制型AI瓶颈,创始人Aravind Srinivas构建资源效率型产品护城河 [3] - 谷歌因现有搜索业务模型限制,难以推出非流量受限的AI产品 [3] 行业动态统计 - 本期通讯覆盖30项AI&Robotics要闻,含技术进展10项、国内动态8项、国外动态12项 [3]
A股突发!开盘20%涨停!688585,8连板!
证券时报网· 2025-07-18 03:25
市场整体表现 - A股三大指数集体高开并小幅上涨,脑机接口、医药商业、多模态AI、短剧游戏板块活跃,光伏、多元金融板块走低 [1] - 港股恒生指数和恒生科技指数均涨逾1%,蔚来涨近6%,农夫山泉涨近5%,京东集团涨超4%,阿里巴巴、快手涨逾3% [3] 板块及个股表现 白酒板块 - 白酒股震荡走高,皇台酒业一度涨超5%,泸州老窖、山西汾酒、洋河股份、舍得酒业、酒鬼酒、古井贡酒等涨幅居前 [2] 盐湖提锂板块 - 盐湖提锂板块持续拉升,富淼科技20cm涨停,金圆股份、盛新锂能涨停,天齐锂业、赣锋锂业、亿纬锂能、西藏矿业跟涨 [4] - 广期所碳酸锂主力合约早盘涨超4%,报70700元/吨 [4] - 多晶硅期货主力合约2508大涨7.49%,收盘报45700元/吨,创上市以来新高 [4] 小金属板块 - 小金属板块震荡走高,东方锆业涨停,中矿资源、浩通科技、盛和资源、锡业股份、贵研铂业、西部材料跟涨 [5] AI智能体概念 - AI智能体概念股开盘活跃,南兴股份"一"字涨停,酷特智能、掌阅科技、立方控股、鼎捷数智、延华智能涨幅居前 [5] - OpenAI发布ChatGPT Agent,具备自主思考和行动能力,可完成超复杂任务 [5] 上纬新材 - 上纬新材连续8个交易日20cm涨停 [1][6] - 智元机器人计划以21亿元通过"协议转让+主动要约"方式收购公司控制权,交易完成后控股股东将变更为智元机器人及其管理团队共同持股的主体 [6] - 公司最新市盈率为105.71倍,显著高于行业市盈率23.78倍 [7] - 股份转让交易尚需股东会审议及相关监管批准,存在不确定性 [7] ETF表现 食品饮料ETF (515170) - 跟踪中证细分食品饮料产业主题指数,近五日涨0.70%,市盈率20.01倍,最新份额56.6亿份(减少1050万份),主力资金净流入1722.4万元 [10] 游戏ETF (159869) - 跟踪中证动漫游戏指数,近五日跌3.16%,市盈率43.26倍,最新份额54.6亿份(增加3700万份),主力资金净流出1149.8万元 [10] 科创半导体ETF (588170) - 跟踪上证科创板半导体材料设备主题指数,近五日跌0.49%,最新份额2.4亿份(增加200万份),主力资金净流出676.2万元 [10] 云计算50ETF (516630) - 跟踪中证云计算与大数据主题指数,近五日涨8.58%,市盈率108.74倍,最新份额4.7亿份(减少600万份),主力资金净流出175.8万元 [11]
滚动更新丨A股三大股指集体高开,光伏产业链全线回调
第一财经· 2025-07-18 01:38
市场开盘表现 - 沪指涨0 08%至3519 48点 深成指涨0 27%至10902 72点 创业板指涨0 46%至2279 67点 [3][4] - 恒生指数涨1 06%至24757 83点 恒生科技指数涨1 31%至5520 07点 [5][6] 板块动态 - **活跃板块**:脑机接口 医药商业 多模态AI 短剧游戏 [1][4] - AI智能体概念股领涨:南兴股份涨停 酷特智能 掌阅科技等涨超5% 受OpenAI发布ChatGPT Agent驱动 [2] - 医药商业板块强势:浙江震元 人民同泰涨停 药易购 英特集团跟涨 [2] - **走低板块**:光伏 多元金融 [1][4] 个股及事件驱动 - 华检医疗涨近15% 启动全球首个医疗创新药RWA交易所生态及稳定币计划 [5] - 协鑫科技涨超14% 拟与太保资管香港合作推进RWA全球发行 [5] 资金与汇率 - 央行开展1875亿元7天期逆回购操作 利率1 4% 当日到期847亿元 [6] - 人民币中间价调贬37个基点至7 1498 创2025年5月27日以来最大调贬幅度 [6]
ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI
机器之心· 2025-07-17 09:31
文章核心观点 - 提出AI驱动的视觉生成模型评估新范式Evaluation Agent,可替代人工专家进行定制化、高效、可解释的模型评估[3][4][41] - 该框架通过自然语言交互实现动态评估规划,显著提升评测效率(耗时仅为传统方法10%)[13][25][28] - 支持开放式用户查询,能针对"风格迁移""摄影参数理解"等复杂需求生成专业分析报告[9][31][32] 技术框架设计 核心优势 - **可定制性**:根据用户自然语言描述自动规划评估方案(如古风视频测试)[11][12][21] - **高效率**:多轮交互式评估使样本量减少90%(如SD3.0评测仅需25样本 vs 传统12000样本)[13][25][28] - **可解释性**:输出自然语言报告,包含模型局限性与改进建议[14][41] - **可扩展性**:开放架构支持图像/视频生成任务及新评估工具集成[15][39] 工作流程 1. **提案阶段**:Plan Agent解析用户需求生成评估路径[20][21][26] 2. **执行阶段**:PromptGen Agent生成专属测试提示,视觉模型产出样本[22][27] 3. **动态交互**:多轮反馈优化评估方案(平均3-4轮/任务)[23] 性能验证 效率对比 - **视频模型评估**: - VideoCrafter-2评估耗时24分钟(传统4261分钟)[25] - 样本量减少98%(23样本 vs 4355样本)[25] - **图像模型评估**: - SDXL评估耗时8分钟(传统1543分钟)[28] - 样本量减少99%(26样本 vs 12000样本)[28] 开放式评估能力 - 构建开放式用户评估问题数据集,覆盖风格迁移/摄影概念等复杂维度[33][34] - 可处理"保持原风格生成艺术变体"等抽象查询,生成分步骤验证方案[32][38] 未来发展方向 - 扩展至3D生成/AIGC视频编辑等复杂任务[39] - 增强多模态评估能力(文本/音频/视频跨模态)[39] - 引入强化学习优化评估精准度[39] - 开发基于评估结果的生成模型个性化推荐系统[43]
亚马逊新动作!Kiro 入局,AI 编程赛道谁将笑到最后?
搜狐财经· 2025-07-16 16:35
公司动态 - 亚马逊旗下AWS部门正式推出AI编程工具Kiro,采用"规范驱动开发"理念,聚焦需求澄清、系统设计和任务拆解阶段,而非直接生成代码 [1][3] - Kiro可自动生成数据流示意图和任务清单,降低后期维护成本,减少技术债务 [3] - 与亚马逊此前推出的Q Developer相比,Kiro支持完整软件开发生命周期,且作为独立品牌发布,无需AWS账户即可使用 [4] - Kiro目前仅支持英文,底层模型先用Anthropic,未来将接入其他模型 [4] 行业竞争 - 微软和GitHub是AI编程领域先行者,GitHub Copilot基于GPT-3和GPT-4模型,已升级为"智能编程伙伴" [5] - 创业公司Cognition AI开发的Devin是全球首个AI程序员智能体,估值达40亿美元,高盛正测试并计划大规模部署 [5] - Anysphere成立三年估值达99亿美元,OpenAI曾提出收购但被拒绝 [5] - 2024年全球生成式AI编程助手市场规模为2590万美元,预计2030年达9790万美元,微软、谷歌等企业30%代码已由AI生成 [4] 技术趋势 - AI编程工具正从代码生成转向全生命周期管理,强调需求分析和系统设计 [3][4] - 多模态AI和自主智能体发展将推动编程自然化和自动化,AI编程企业价值持续攀升 [6] - 科技巨头加速布局AI编程市场,收购与投资热潮或刚开始 [6]
中金2025下半年展望 | 消费电子:AI重构创新边界
中金点睛· 2025-07-15 23:49
消费电子行业2025下半年展望 核心观点 - 端侧AI多终端落地及逐步下沉将引领消费电子行业成长,重点关注AI手机硬件升级及加速渗透、AI可穿戴新终端形态创新、光学行业重启升规升配三大投资机会 [1] 手机市场展望 - 2H25手机市场需求平稳,IDC预计2025年全球智能手机出货量增速为0.6%,未来5年CAGR为1.4% [4] - 1Q25全球智能手机出货量同比增长1.5%,但同比增速连续三个季度下滑 [14] - 美国市场1Q25智能手机出货量同比增长12%,主因苹果提前拉货 [19] - 1Q25消费电子板块收入同比增长21%,利润同比增长2% [23] 光学行业 - 2024年全球手机镜头出货量同比增长4%至44.6亿颗,预计2025/2026年分别达到45.6/46.0亿颗,同比增长2.2%/0.9% [27] - 2025年手机光学升级趋势持续,重点关注传感器大像面化、玻塑混合镜头加速应用、模组结构升级等创新趋势 [4] - 2024年港股光学厂商盈利能力明显修复,2025年行业盈利能力或将继续改善 [31] AI手机 - Canalys预计2025年全球AI手机渗透率将达34%,2027年提升至50% [5] - 端侧模型精简和次旗舰SoC加持推动AI手机向中端价格带机型渗透 [37] - iPhone 17系列多个零部件及模组有望实现升级,有望带动超过10个产业链环节迎来升级 [39] - 安卓旗舰AI手机在芯片、导热材料、电池、声学、结构件等领域迎来升级 [40] AI可穿戴设备 - AR/MR产品有望成为多模态AI更优载体,2024年AI眼镜品牌百花齐放,轻量化成为发展趋势 [5] - 苹果Vision Pro树立行业发展标杆,苹果在AR眼镜有较多研发及专利布局 [41] - 全球手持智能影像设备市场规模向600亿元迈进,GoPro/影石/大疆三足鼎立 [45] AI Agent - AI Agent在AI手机及AIPC端有望加速落地,长期将改变人机交互方式 [5] - 中国创业公司Monica推出通用型AI Agent Manus,采用"多代理"模式 [50] - AI Agent有望成为互联网核心,聚合流量并进行内容分发 [52] - 手机及互联网厂商竞相布局AI Agent,竞争格局百花齐放 [54] 创新终端 - 消费级3D打印设备产销量五年内实现4.8倍/14.4倍的高速增长 [42] - 国内消费级3D打印机均价从2017年的0.38万元/台降至2022年的0.22万元/台 [44] - 运动相机中高端市场由GoPro和大疆主导,全景相机市场影石一家独大 [45]
A股收评:创业板指涨1.73% ERP概念领涨大盘
快讯· 2025-07-15 07:10
市场整体表现 - A股三大股指走势分化 沪指跌0.42% 深成指涨0.56% 创业板指涨1.73% [1] - 沪深两市全天成交额1.61万亿元 较上个交易日放量1533亿元 [1] - 个股普跌 两市超4000家个股下跌 [1] 行业板块表现 - ERP概念板块领涨 鼎捷数智 云鼎科技 用友网络涨停封板 [1] - CPO及多模态AI板块涨幅居前 [1] - 房地产板块午后回暖 渝开发涨停 [1] - 光伏硅能源持续低迷 亚玛顿封跌停板 [1] - 煤炭板块持续走低 大有能源跌超9% [1] - 电力板块调整 拓日新能 华银电力封跌停板 [1] 资金流向特征 - 市场热点集中于AI相关板块 [1] - ERP概念板块午后出现明显拉升 [1]
Meta低调收购AI语音克隆初创公司Play AI,加码生成式AI赛道布局
环球网资讯· 2025-07-15 03:23
公司收购动态 - Meta Platforms完成对人工智能语音克隆技术公司Play AI的全资收购 交易条款未披露 [1] - Play AI此前累计融资约2350万美元 远低于Meta 1 8万亿美元的市值 被视为生成式AI领域的"精准补强"战略 [1] - Meta近年大型收购案对比:2022年收购VR健身应用Within Unlimited耗资4亿美元 2014年收购WhatsApp达190亿美元 [3] 被收购方技术能力 - Play AI核心产品为基于深度学习的语音克隆平台 可实现高保真语音合成 多语言实时转换及情感化语音生成 [3] - 该技术仅需3秒音频样本即可复刻人类语音 支持跨平台API调用 [3] - 应用领域包括有声书制作 虚拟客服 游戏角色配音等 [3] - 公司持有17项语音克隆相关专利 [4] 战略整合方向 - Play AI技术将整合至Meta的AI基础设施 重点赋能元宇宙平台Horizon Worlds 智能眼镜Ray-Ban Meta及WhatsApp的语音交互功能 [3] - 收购旨在对抗苹果Siri(支持21种语言实时翻译)和谷歌Gemini(语音生成能力被评为"接近人类水平")的市场优势 [3] - Meta通过收购快速获得专利技术及工程团队 避免自主研发的时间成本 [4] 行业市场数据 - 2024年全球AI语音市场规模达127亿美元 预计2030年突破450亿美元 [4] - Meta已构建覆盖文本(收购Lobster) 图像(收购Scenic) 语音的多模态AI能力 [4]