多模态

搜索文档
谷歌NanoBanana出圈
华福证券· 2025-08-31 05:19
行业投资评级 - 多模态向更高能力突破 看好多模态领域的爆发 [6] 核心观点 - 谷歌 Nano Banana 成为最先进的图像生成与编辑模型 在图像编辑领域模型榜单中以1362分位列第一 大幅领先第二名flux(1191分)和GPT-image-1(1170分)[3] - 谷歌 Veo3 成为视频生成领域排名第一大模型 在lmarena平台图生视频和文生视频排行榜均排名第一 [5] - 海外平台迅速接入Nano Banana 包括Adobe、Poe、WPP、Freepik、Leonardo.ai、Figma等 并验证生产力提升 [4] 技术优势 - Nano Banana具备四大核心能力:跨图一致性、多图融合、对话式/指令式精细编辑、借助Gemini世界知识的更强常识/语义理解 [3] - 定价保持高性价比 每百万token 30美元 折合约0.039美元/张图 [3] - Veo3具备原生音频生成、强提示遵循、创作控制能力 支持API级8秒/720p稳定参数 [5] 应用场景 - 设计类工作生成和编辑:品牌内容、电商营销领域的海报生成与处理、商品图制作、多元素拼贴 [4] - 创意设计与社媒内容:四格漫画生成、真人手办制作、产品内部结构拆图、游戏UI设计 [4] - 图像修复与内容改写:图片打光处理、局部PS处理 [4] - 与外部工具结合:应用于AI视频生成、AI 3D生成 [4] 投资建议 - 关注谷歌Veo3与YouTube的版权产业链:阜博集团 [6] - 关注AI图片应用公司:A股万兴科技、港股美图公司 [8] - 关注AI视频应用公司:快手、哔哩哔哩 [8] - 关注IP平台:阅文集团 [8] - 关注游戏平台:心动公司、吉比特 [8]
消失一年,Kimi杨植麟最新对话:“站在无限的开端”
创业邦· 2025-08-30 03:19
文章核心观点 - 杨植麟将AI研发视为攀登无限雪山的过程 问题不可避免但可解决 技术突破持续拓展知识边界[4][5][9][10][12][13] - Kimi K2模型基于MoE架构 具备开源编程和Agentic能力 被《自然》杂志称为"又一个DeepSeek时刻"[4] - 大模型发展从"缸中之脑"演进为与外部世界交互的系统 Agentic能力成为关键突破点[15][16][43] - 技术发展路径呈现非线性格局 L1-L5能力层级存在并行发展可能[19][20][21][22][23] - Token效率取代计算效率成为新焦点 Muon优化器实现30T token等价60T效果[29][30][32][33] 技术发展路径 - 模型能力从Chatbot经Reasoner、Agent向Innovator、Organizer演进 但层级非严格串行[19][20][23] - Agentic能力突破使模型从封闭思考转向多轮工具使用 实现测试时扩展[16][43][44] - 多智能体系统成为L5级关键特征 可实现任务分工与协作[21][22][53] - 模型自我迭代能力(L4)依赖Agentic能力实现 将参与下一代模型开发[20] Kimi K2技术特性 - 采用MoE架构提升参数规模与token效率[33] - 应用Muon优化器替代Adam优化器 学习效率达2倍提升[29][30] - 通过数据改写策略增强高质量数据利用 解决30T token数据墙限制[32][33] - 专注Base Model与Agentic能力结合 强化泛化性训练[34][35] 研发挑战与突破 - 面临Agent泛化性不足挑战 Benchmark过拟合问题突出[34][35][47] - Muon优化器大规模训练出现max logit爆炸问题 通过clipping技术解决[30][40] - Long Context架构与智商保持存在冲突 需平衡技术方案[51][52][71] - 多模态能力训练需避免损伤文本智商 追求"聪明多模态"[63][71] 行业生态格局 - 开源闭源阵营持续博弈 全球市场将收敛至少数几家[55][57][59] - "一方产品"趋势增强 模型与工具端到端整合提升上限[17][18][62] - 通用Agent与垂直Agent并存发展 长尾工具泛化成关键[44][73][74] - API与一方产品构成主要商业模式 头部公司ARR达数十亿美金[75] 技术演进方向 - Token效率提升成为突破数据墙核心路径[29][33] - 强化学习Scaling效率超越预训练 成为发展重点[28][66] - AI native训练方式加速发展 模型将参与自身训练过程[36][47][72] - 交互方式随模型能力持续演进 新范式逐步形成[64][65] 公司战略定位 - 技术决策决定公司五六成走向 关键bet需提前布局[70] - 研发重心从预训练+SFT转向预训练+RL范式[28] - 长期坚持技术开源分享 推动社区协同发展[55][57] - 动态平衡API服务与一方产品商业模式[75]
谢赛宁回忆七年前OpenAI面试:白板编程、五小时会议,面完天都黑了
机器之心· 2025-08-29 09:53
AI大厂面试特点分析 - Meta研究者Lucas Beyer发起关于AI大厂面试体验的投票 选项包括Google/Meta/MS、OpenAI/Anthropic、xAI和Old DeepMind [1] - 投票结果显示Old DeepMind以32.1%的得票率被评为最佳面试体验 [20] 顶尖研究人员职业轨迹 - Lucas Beyer拥有超过94,000次学术引用 h-index达40 2020年以来引用量达93,147次 [2][4] - 2024年6月与Alexander Kolesnikov和Xiaohua Zhai三位研究者共同从OpenAI转入Meta [2] 各公司面试模式比较 - Old DeepMind采用两小时高强度面试 包含100多个数学统计和机器学习问题 [6] - Meta FAIR面试侧重学术讨论和编码 曾由Piotr Dollar、Ross Girshick和何恺明担任面试官 [6] - Google面试采用"教职面试"模式 包含编程题和研究讨论 知名AI学者Noam Shazeer曾参与面试 [7] - OpenAI面试采用5小时白板编程和研究报告形式 由联合创始人John Schulman亲自设计强化学习问题 [7] 面试过程典型案例 - 谢赛宁在OpenAI面试时讨论强化学习中的方差崩溃问题 尽管当时对该领域了解有限但仍需现场研究解决 [7] - Omar Shams回忆DeepMind面试涵盖代码数学统计和机器学习 面试官Jacob Menick给予满分评价 [12] - Rishabh Agarwal被Christian Szegedy面试时 需解决概率分布相关的飞镖游戏问题 并在餐巾纸上完成数学计算 [18] - Felipe Mello在谷歌面试中被要求编写单元测试并分享最难解决的bug [14] - Ashwinee Panda在xAI联合创始人张国栋的面试中获得研究灵感 最终扩展为正式研究成果 [16] 行业人才流动趋势 - 知名研究人员频繁在顶级AI机构间流动 包括OpenAI、DeepMind、谷歌大脑和Meta等 [2][6] - 行业顶尖人才如Ross Girshick(超过60万引用)和何恺明已从企业转向学术或创业领域 [6]
顶层设计定方向!“人工智能+”锚定发展节奏
国际金融报· 2025-08-27 11:17
政策目标与规划 - 国务院印发《关于深入实施"人工智能+"行动的意见》 提出人工智能发展三步走计划 到2027年实现人工智能与6大重点领域广泛深度融合 应用普及率超70% 到2030年应用普及率超90% 智能经济成为重要增长极 到2035年全面步入智能经济和智能社会发展新阶段 [1] - 政策提出加快实施六大重点行动 涵盖科学技术 产业发展 消费提质 民生福祉 治理能力和全球合作领域 [1] - 政策要求强化8项基础支撑能力 包括提升模型基础能力 加强数据供给创新 强化智能算力统筹 优化应用发展环境 促进开源生态繁荣 加强人才队伍建设 强化政策法规保障和提升安全能力水平 [1] 产业影响与机遇 - 中国应用场景丰富 先进制造等行业数字化基础良好 为人工智能技术可持续发展提供有力支持 [2] - 人工智能正处在从实验室走向大规模产业应用的关键窗口期 政策引导技术 产业 资本 人才同向发力 将塑造高质量发展新质态 [2] - 基础大模型作为底层技术 上游牵引芯片算力层 下游推动应用落地 企业技术路线和产业布局与政策高度同频 [3] - 多模态是通向AGI的必经之路 政策强调跨模态融合和基础理论研究 支持多路径技术探索和模型基础架构创新 [3] 企业战略与布局 - 企业继续深耕基础技术研发 发布多模态推理旗舰大模型 联合国产芯片厂商推动生态建设 率先布局智能终端应用 [3] - 企业探索多模态理解与生成一体化的下一代底层技术架构 将智能终端Agent作为大模型技术落地发力点 重点布局汽车 手机 具身和Iot四大场景 [3] - 企业联合生态伙伴共同打造垂类Agent 落地千行百业的大模型应用 [3] - 人机协作和人智共创成为企业运营新常态 模型成为企业智能底座 企业智能化转型从碎片化改造变为全价值链整体重构 [4] 技术发展趋势 - 智能体和超级智能体让人机关系从人适应机器变为机器服务于人 [4] - 企业需要跳出技术升级局限 充分挖掘大模型潜力价值 认识潜在风险 [4] - 科技企业推动AI创新赋能实体经济 恪守人本底线 实现普及普惠 [4]
杨红霞:跑通大模型“最后一公里”,让AI不再只是“富人的玩具”
搜狐财经· 2025-08-26 19:05
中美AI投资差距 - 2025年美国四大科技巨头AI资本开支达2.5万亿人民币,中国七家头部企业合计仅6300亿人民币,差距近5倍[7][8] - 美国企业估值优势显著,英伟达市值达5万亿美元,资金实力直接影响投入能力[8][9][10] GPT-5技术特性 - GPT-5核心突破聚焦多模态能力,但实际未完全解决多模态数据对齐难题[3][4] - 模型在专业回答能力提升的同时,情感交互和想象力表现弱于GPT-4o,体现多任务学习的性能平衡挑战[3][5] 中国AI发展路径 - 中国选择产业化深度应用路线,在医疗等高精尖领域布局具有场景优势[11][12][16] - DeepSeek、千问、豆包等模型在10到100阶段表现突出,注重算力效率优化[12][13] - 国内推理芯片技术成熟,训练芯片领域预计3-5年可达到国际先进水平[14] 医疗AI应用突破 - 癌症治疗领域数据量达拍字节级别(1拍字节=1024TB),远超通用模型训练数据规模[18] - 采用本地化部署方案解决数据隐私和成本问题,实现数据不出域的低比特预训练[19][20] - 与肿瘤医院合作开发端到端癌症诊断模型,将靶区勾画时间从30-50分钟缩短至10-20分钟[22][23] 技术发展三阶段 - 0到1阶段以深度学习架构突破为标志,1到10阶段由ChatGPT推动技术普及[12] - 10到100阶段聚焦垂直领域深度优化,中国企业在产业化落地方面具备独特优势[11][12]
最高提效8倍,腾讯游戏发布专业游戏AI大模型,美术师做动画不用辣么“肝”了
36氪· 2025-08-26 01:52
行业趋势 - AI在游戏开发中的应用成为国际游戏开发者大会的核心议题 微软 腾讯 谷歌 Meta等公司带来超过20场AI相关演讲[1] - 游戏美术精细度要求呈现指数级增长 导致工作量几何级增加[1] 腾讯VISVISE解决方案 - 公司发布游戏创作AI全链路解决方案VISVISE 包含动画制作 模型制作 数字资产管理和智能NPC四大管线[3] - MotionBlink工具可根据用户输入的关键帧自动补全中间帧 生成200帧动画仅需4秒 实现1.5秒间隔极限优化[3][5] - GoSkinning自动蒙皮工具通过两阶段AI解决蒙皮难题 处理2万顶点模型仅需30秒 效率提升8倍[11][15] - 工具以插件形式嵌入Maya等开发软件 开发者无需重构管线即可调用[23] 技术突破 - 传统动画制作中手动补帧占角色动画总工时的60%-70% 10秒动画需3-7人天完成[3] - 传统蒙皮流程中资深绑定师需花费60%时间处理权重点调整问题[9] - MotionGen大模型基于高精动捕数据 支持攀爬 舞蹈等动作风格 生成质量接近专业动捕[15] - 智能关键帧生成研究已被ACM SIGGRAPH 2025接收[20] 应用成效 - GoSkinning工具已在《和平精英》《PUBG Mobile》等近百款游戏中应用[8][28] - GoSkinning 1.0版本使《和平精英》动画蒙皮效率提升约40% 当前4.2版本效率提升达60%以上[24] - 2025年腾讯财报显示AI对长青游戏产生实质性贡献 头部产品在平台化演进中加大AI应用力度[27] 发展历程 - 公司2016年开始探索AI在游戏中的应用 2018年扩展至美术生产管线领域[24] - 2022年推出GoSkinning 1.0版本 2024年整合分散AI探索为VISVISE系统化产品矩阵[24][26] - 系统围绕模型生成 贴图制作 骨骼绑定 动画制作 场景构建及渲染六大环节构建[26] 行业前景 - 游戏作为AIGC最佳应用场景之一 具有丰富的2D 3D交互场景[29] - 游戏一直是AI技术的试验田和加速器 其"感知环境→决策→反馈→迭代"逻辑与AI训练底层逻辑一致[29] - 智能NPC是重点突破方向 需实现像人一样理解虚拟世界的能力[31][32]
午评:科技冲高回落 白酒逆势走高
搜狐财经· 2025-08-25 07:42
全球市场与美联储政策影响 - 美联储鸽派表态明确9月降息预期 推动全球股市上涨 日本涨0.7% 韩国涨1% 澳洲涨0.3% [1] - 港股大幅上涨 恒生指数涨2%创4年新高 恒生科技指数涨3%突破7月高点 距3月高点差6% [1] - 中概股上周五涨3.8%创4年新高 与亚太市场形成联动走势 [1] A股市场表现 - 上证指数涨0.86%报3879.85点 深证成指涨1.61%报12361.36点 创业板指涨2.22%报2741.98点 [2] - 市场情绪活跃 上涨家数2750家 涨停60家 下跌家数2235家 跌停1家 涨停炸板率36.17% [2] - 全天成交额放大至3.4万亿 但涨停仅70余家 跌停7家 主力资金净流出350亿 [7] 领涨板块分析 - 稀土板块强势上涨 因进口稀土矿纳入管控 中国掌握稀土冶炼核心技术 [3] - 镨钕 稀土磁材 有色钨 液态金属 有色铜等大宗商品板块走强 受美联储降息预期推动 [3] - 芯片产业链持续强势 英伟达推出以太网及B30取代H20消息刺激 CPO 光通信 液冷服务器 制冷剂等细分领域上涨 [3] - 房地产板块走强 万科涨停 上半年营收1053亿 2027年无境外公开债 通过向大股东深圳地铁借债解决债务问题 [4] - 万通发展 荣盛发展 金地集团等多只地产股涨停 [4] - 白酒板块表现强劲 多只个股涨停 与科技股形成跷跷板效应 业绩利空已被超跌股价消化 [10] - 多模态概念异动 中文在线涨停 因AI技术可降低网络文学版权转化成本 [4] 领跌板块分析 - 两轮车 纺织服装 消防化妆品 水产养殖 冰雪产业等板块小幅下跌 [5] - 草铵膦 酚酞尼等概念跌幅较小 影响有限 [5] - 汽车整车板块领跌 行业竞争激烈 [5] - 纺织服装走弱与人民币升值影响出口有关 [5] 市场风格与轮动 - 本轮行情自4月7日启动持续90多天 上证指数从3040点涨至3825点 涨幅近800点 [8] - 行情以指数上涨为主 科技板块涨幅明显 其他板块轮动上涨 非普涨行情 [8] - 市场风格出现切换迹象 从科技股向白酒等低位价值板块轮动 [10] - 白酒消费板块与科技指数呈现明显跷跷板效应 科技股冲高回落时消费股走强 [10] 投资策略观察 - 市场量能放大但赚钱效应集中 需警惕追高风险 [7] - 超跌板块如煤炭 光伏可能存在修复机会 [4] - 房地产中介服务板块有所冲高但涨幅有限 无涨停个股 [4] - 体育产业虽有政策利好但板块未现活跃 [5]
前亚研院谭旭离职月之暗面,加入腾讯混元,AI人才正加速回流大厂
搜狐财经· 2025-08-23 12:10
核心人事变动 - 微软亚洲研究院前首席研究经理谭旭近期正式加入腾讯混元团队 负责多模态方向前沿研究 [2] - 谭旭在微软任职期间研究聚焦生成式人工智能及语音、音频与视频内容生成 论文引用量超过10000次 研究成果应用于Azure、Bing等核心产品 [2] - 该研究者去年8月才加入大模型创业公司月之暗面 负责研发端到端语音模型 其多模态研究在其入职前已展开数月 [2] 行业资源格局变化 - 多模态探索对算力与资金消耗极其庞大 创业公司难以承受 [3] - 对比当下风头正盛的DeepSeek仍以文字与推理能力为主 未在多模态方向实现大规模突破 [3] - 腾讯、字节等大厂在资源、生态与算力上优势明显 能为多模态研究提供长期稳定支持 [3] 产业发展阶段特征 - 中国大模型赛道正经历由野蛮生长到资源集中的转折 [3] - 早期创业公司依靠故事、融资与速度抢占叙事高地 但先发优势在竞争进入数据、算力、落地生态比拼阶段后迅速消退 [3] - 大厂凭借资本实力、算力基础设施和应用场景 正逐步收拢最顶尖人才与技术方向 [3] 人才流动象征意义 - 谭旭从创业公司转向腾讯混元 是中国大模型版图中具象征意义的信号 [3] - 当赛道进入淘汰赛阶段 个人要在多模态领域持续产出成果需依附大厂以确保研究持续性与产业化可能 [3]
拾象 AGI 观察:LLM 路线分化,AI 产品的非技术壁垒,Agent“保鲜窗口期”
海外独角兽· 2025-08-22 04:06
大模型行业分化趋势 - 大模型公司正从通用模型向垂直领域分化 Google Gemini和OpenAI继续专注通用模型 Anthropic聚焦Coding和Agentic领域 Thinking Machines Lab探索多模态和下一代交互[6][7] - 行业呈现横向全家桶与纵向垂直整合两大路线 ChatGPT代表横向全家桶模式 Gemini代表纵向垂直整合模式[6][37] - 模型能力趋同导致前三名格局稳定 OpenAI、Gemini和Anthropic形成第一梯队 其他公司难以突破前三名壁垒[24][26] 头部公司战略与表现 - Anthropic通过聚焦Coding实现爆发式增长 2024年底ARR达9.5亿美元 预计2025年收入超120亿美元 月复合增速达20-30%[8][11] - OpenAI在C端建立强大壁垒 ChatGPT成为10亿用户最快增长产品 ARR达120亿美元 与Anthropic合计占AI产品营收70-80%[29][30] - Thinking Machines Lab获史上最贵天使轮融资 估值100亿美元融资20亿美元 团队来自OpenAI核心infra部门[13][18] - xAI面临战略定位困境 超大算力投入未带来相应回报 可能在未来半年并入Tesla[22] 产品与技术创新 - L4级别体验产品已出现 ChatGPT Deep Research和Claude Code分别实现信息搜索和软件开发的端到端体验[49] - Coding领域成为当前最大红利 Claude Code仅用3-4个月ARR反超Cursor 预计年底达15-20亿美元[33][50] - 模型保鲜窗口持续缩短 Perplexity窗口期近2年 Cursor窗口期9个月 Manus窗口期仅3个月[45] - Context能力成为关键差异点 Claude在long context领域具有独特优势 最新实现百万context能力[52] 市场竞争格局 - 头部效应加剧 OpenAI和Anthropic增速持续陡峭 其他公司出现明显断层[30] - 成本优势成为核心竞争力 不做模型的Coding公司将失去优势 未来竞争重点转向成本优化[3][53] - 谷歌规模效应开始显现 端到端整合TPU芯片、Gemini模型和安卓系统 后劲可能最强[37][60] - 产品形态趋向融合 ChatGPT计划推出广告平台 谷歌整合Gemini功能推出AI mode[55][58] 投资与创业环境 - 投资策略需要高度集中 头部公司拿走最大价值 错过头部项目意味着错过整个周期[65][66] - 创业窗口期缩小 科技巨头既看得懂又跟得动 留给创业公司的空间有限[37][39] - 华人团队全球影响力提升 在AGI领域扮演重要角色 需要积极开拓北美高价值市场[62][63] - 优秀AI产品经理画像变化 下一代PM需要算法或模型背景 才能更好利用模型红利[47] 技术发展前景 - 语言和代码仍是当前最大红利 多模态和机器人发展还需突破多个GPT-4级别技术[49][64] - 产品形态持续演进 可能打破APP端到端优势 介于手机屏幕和APP之间的新形态[60] - 世界模型与Coding可能本质相同 都是实现AGI的"虚拟子宫" 只是路径不同[12] - 智能与产品需要平衡 OpenAI在智能探索和产品转化方面做得最好[40][43]
字节突然开源Seed-OSS,512K上下文碾压主流4倍长度!推理能力刷新纪录
量子位· 2025-08-21 02:36
模型发布概况 - 字节跳动开源360亿参数大模型Seed-OSS-36B 采用Apache-2.0协议 支持免费学术研究与商业部署 [1][4] - 模型命名呼应OpenAI的GPT-OSS系列 基于内部技术专为开源社区打造 未直接开源商业模型豆包(Doubao) [3][4] 核心技术特性 - 原生支持512K上下文窗口 是主流开源模型DeepSeek V3.1(128K)的4倍 预训练阶段直接构建非后期插值实现 [5][6][7] - 引入思考预算(Thinking Budget)机制 通过设定token数量(建议512整数倍)控制模型思考深度 适应简单任务快速响应或复杂任务深度推理 [9][10][12] - 采用成熟架构设计:360亿参数稠密模型(非MoE) 64层网络 隐藏层维度5120 词汇表155K 集成RoPE/GQA/RMSNorm/SwiGLU技术 [13] 性能表现 - 知识理解:MMLU-Pro达65.1分(超越Qwen2.5-32B-Base的58.5分) TriviaQA获82.1分 [16] - 推理能力:BBH基准87.7分刷新开源记录 数学能力GSM8K达90.8分 MATH达81.7分 [17] - 代码能力:HumanEval得分76.8 MBPP达80.6 指令微调版在AIME24数学竞赛获91.7分仅次于OpenAI OSS-20B [18][19] - 训练效率:仅用12T token达成性能 低于同规模模型15T+数据量 [20] 团队技术布局 - Seed团队成立于2023年 定位"打造最先进AI基础模型" 覆盖大语言模型/多模态/AI基础设施领域 [21] - 已开源项目包括:8B代码生成模型Seed-Coder(自主管理训练数据) 多模态模型BAGEL(处理文本/图像/视频) 实验性语言模型Seed Diffusion(离散状态扩散技术) 训练框架VeOmni(PyTorch原生全模态分布式) 同声传译模型Seed LiveInterpret(低延迟音色复刻) [22][23][24][25] 生态影响 - 模型发布于Hugging Face与GitHub平台 强化国产开源基座模型阵营 [4][26] - 提供含合成指令数据(高性能)与无合成数据(高纯净度)双版本 满足研究社区差异化需求 [14]