Workflow
Gemini Pro
icon
搜索文档
腾讯研究院AI速递 20251223
腾讯研究院· 2025-12-22 16:08
生成式AI模型性能与架构创新 - 谷歌Gemini 3 Flash模型在SWE-Bench Verified测试中获得78%的分数,超越了Pro版的76.2%,其速度是Gemini 2.5 Pro的3倍,且Token消耗量减少30% [1] - Gemini Flash集成了大量Agentic RL研究成果,通过后训练算法实现小模型“降维打击”,而Pro版的主要作用是蒸馏Flash [1] - 帕累托前沿反转现象表明,参数规模不再是衡量模型性能的唯一标准,更便宜、更快的模型现在也可以是更聪明的模型 [1] - MiniMax开源其海螺视频底层技术VTP(视觉分词器预训练框架),在AI视觉生成领域发现了Scaling Law,破解了“第一阶段训练越好第二阶段反而变差”的悖论 [3] - VTP通过重建、CLIP图文对比和自监督学习三管齐下的训练方案,使视觉分词器学会理解而非只会重建,算力扩大10倍性能提升65.8% [3] - 通义千问推出Qwen-Image-Layered图像生成模型,采用自研架构将图片拆解成多个RGBA图层,每层可独立操作而不影响其他内容 [4] - 该模型核心技术包括RGBA-VAE和VLD-MMDiT,支持重新着色、物体替换、缩放移动、干净删除等操作,分层结构天然支持高保真编辑 [4] 自动驾驶技术路线与挑战 - 旧金山一场大停电导致红绿灯熄灭,Waymo无人驾驶出租车因系统无法确认安全边界而集体停摆,秒变路障 [2] - 事件凸显了Waymo与特斯拉技术路线的差异:Waymo依赖多传感器融合和高精地图,而特斯拉FSD依赖视觉和AI,后者在此次事件中完全未受影响 [2] - 该事件暴露了L4级无人驾驶在突发城市基础设施异常状况下的脆弱性 [2] AI公司发展与资本市场动态 - AI公司MiniMax正式冲刺港股“大模型第一股”,公司成立于2022年初,拥有385人团队,平均年龄29岁 [5] - 公司累计消耗5亿美元,约为OpenAI开销的不到1% [5] - 2025年前9个月,MiniMax营收达5344万美元,同比增长超170%,海外收入占比超70% [6] - MiniMax拥有超2.12亿个人用户和13万家企业客户 [6] - 公司股东阵容包括米哈游、阿里、腾讯、小红书、高瓴、红杉等,董事会平均年龄32岁 [6] - MiniMax是全球唯四全模态进入第一梯队的大模型公司 [6] 前沿硬件与计算技术突破 - 上海交大陈一彤团队推出全光生成式AI芯片LightGen,首次将光子计算拓展至大模型语义媒体生成领域,研究登上《Science》 [7] - LightGen由光子编码器、光学潜在空间和光子生成器构成,能实现512×512高分辨率图像生成、3D生成、高清视频生成及语义调控 [7] - 该系统速度达3.57×10^4 TOPS,能效达6.64×10^2 TOPS/W,计算密度达2.62×10^2 TOPS/mm²,整体性能比英伟达A100高出两个数量级以上 [7] AGI发展路径与安全框架 - DeepMind发布研究提出,AGI极可能通过多个次级AGI智能体协作与拼凑率先涌现,而非单一庞大模型 [8] - 论文提出了包含市场设计、基线智能体安全、监控与监督、监管机制的四层深度防御框架 [8] - 研究强调“拼凑型AGI”假设此前受关注甚少,建议构建虚拟智能体沙盒经济以解决智能体共谋等分布式风险 [8] 创业经验与团队管理 - ElevenLabs和Lovable的CEO建议创业前积累7-8年工作经验,包括在优秀公司的任职经历和对用户痛点的深刻理解 [9] - 高速扩张的关键在于保持“创始人模式”与“管理模式”的平衡,团队构成建议一半内部培养一半外部资深人士,并采用高强度工作模式 [9] - 欧洲创业虽缺乏成熟创业网络和资深高管,但人才优秀且忠诚度高,时区优势可同时对接全球市场 [9]
Gemini 3 发布后的几点思考
傅里叶的猫· 2025-11-21 10:52
Gemini 3模型能力提升 - 推理能力显著增强,推理链明显比2.5时代长,复杂任务拆解更自然,幻觉减少[5] - 编程能力夸张,可从手绘草图在十几秒内生成完整的响应式页面,细节基本无需修改[5] - 多模态进步巨大,视频理解、3D空间感和动态交互等能力已能落地到实际产品中[5] 对行业竞争格局的影响 - Cursor等代码工具面临巨大短期压力,Gemini 3在前端能力上形成降维打击,生成质量和速度拉开距离[6] - Manas、JinSpark等通用Agent厂商优势被削弱,大模型自身能力提升降低了包装工具的价值[6] - 垂直Agent在金融风控、政务、军工等有强行业壁垒和数据安全要求的场景中相对安全[6] 定价策略与成本分析 - 定价不降反升,原因在于长链推理和多模态能力消耗大量算力,MOE模型激活路径增多导致推理成本客观上浮[7] - 公司倾向于将顶级能力卖出溢价,与OpenAI的降价策略形成对比[7] - 长期看,能力提升带来的效率提升可抵消部分成本,且后续将推出精简版、蒸馏版使价格逐步下降[8] 国内外技术差距与客户选择 - 纯文本能力差距已不大,国内模型如DeepSeek再迭代几个月可在许多场景基本持平[9] - 多模态领域差距明显,尤其在动态交互、3D认知和具身智能方面,差距约6-12个月,主要受算力和训练经验限制[9] - 客户选型趋于务实:写文档、客服、简单数据分析等场景国内模型够用;实时UI、复杂视频理解、3D设计等场景仍需Gemini或Claude;金融、政务等数据安全要求高的场景选择离线部署国产模型或自建垂类小模型[11] 公司商业模式与收入来源 - 广告仍是基本盘,AI搜索和动态交互页中的场景化广告变现效率将显著提升[10] - ToC订阅日益重要,如Gemini Pro、anti-gravity等生产力工具通过谷歌账号体系实现月付几十美元[10] - ToB业务通过云API、TPU及垂类解决方案捆绑销售,企业客户愿为稳定性和定制化付费[10]
印度迎来 AI调工具“0元购”时代,OpenAI、谷歌等巨头内心 os:别急,先让他们上瘾,我们再来收费
36氪· 2025-11-17 05:24
科技巨头在印度的免费AI服务策略 - Perplexity AI与Airtel合作,免费提供12个月的Perplexity Pro服务,价值约17000卢比(约合人民币1365元)[1] - 谷歌与Jio合作,向18至25岁用户免费提供18个月的Gemini Pro服务,价值约35000卢比(约合人民币2810元)[1] - OpenAI向数百万印度用户开放ChatGPT "Go"版一年免费使用权,包含GPT-5等高级功能,12个月促销期后月费为399卢比(约合人民币32元)[3][5] 印度市场的用户增长与竞争态势 - Perplexity在印度第二季度下载量同比增长600%,达到280万次[6] - OpenAI的ChatGPT同期下载量增幅为587%,达到4670万次[6] - 印度互联网用户总数从2014年3月的2.5159亿增至2024年3月的9.544亿,95.15%的村庄已接入3G/4G移动网络[9] 科技巨头的战略意图与市场机遇 - 策略是先让印度用户对生成式AI上瘾,之后再推出付费服务,是对印度数字未来的长期押注[8] - 印度拥有超过9亿互联网用户,且以年轻人为主,大多数用户年龄在24岁以下[9] - 印度庞大的用户规模和年轻受众,以及开放且具竞争力的数字市场,为科技企业提供了吸引数百万新用户参与AI模型训练的机遇[8][9] 印度AI人才与产业发展前景 - 到2027年,印度的AI从业人员预计将从约65万名增长到超过127万名,复合年增长率为15%[9] - 截至2025年8月,约有86.5万名学员报名或接受了各类新兴技术课程的培训,其中包括32万名接受人工智能和大数据分析培训的学员[10] - 印度正在成为世界机器人训练之都和全球重要的数据清洗中心,其多样性的AI应用场景将成为全球其他地区的宝贵案例[10] 用户反馈与市场观点 - 有观点认为免费服务是建立用户依赖性,待圈地完成后会收取高额费用以收回初始投资[17][18] - 有用户试用后表示免费版功能有限,例如上传附件后会提示需要付费,或认为某些版本是用于收集改进建议而非提供出色体验[18][19] - 免费AI工具与流量套餐捆绑销售的模式,因印度流量资费位居全球最低行列而创造了巨大机遇[5][9]
印度迎来 AI调工具“0元购”时代!OpenAI、谷歌等巨头内心 os:别急,先让他们上瘾,我们再来收费
AI前线· 2025-11-15 05:32
科技巨头在印度的免费AI工具推广策略 - Perplexity AI与Airtel合作免费提供12个月Pro版本服务价值17000卢比约合人民币1365元[4] - 谷歌与Jio合作向18至25岁用户免费提供18个月Gemini Pro服务价值35000卢比约合人民币2810元[4] - OpenAI向印度用户开放12个月ChatGPT Go免费使用权促销后月费为399卢比约合人民币32元[6][9] 印度市场的用户增长与下载数据 - Perplexity在印度第二季度下载量同比增长600%达280万次[11] - ChatGPT同期下载量增长587%达4670万次[11] - 印度互联网用户从2014年3月的2.5159亿增至2024年3月的9.544亿[16] 印度市场的战略价值与基础设施 - 印度95.15%村庄已接入3G/4G移动网络流量资费位居全球最低[16] - 大多数互联网用户年龄在24岁以下属于高度依赖智能手机的年轻群体[16] - 印度AI从业人员预计从65万增长至127万复合年增长率15%[16] 免费策略背后的商业逻辑 - 科技巨头通过免费服务培养用户对生成式AI的依赖性为后续付费转化铺垫[14] - 印度开放的监管环境与庞大用户基数为AI模型训练提供独特数据优势[14][18] - 即使5%免费用户转化为付费订阅者也可形成可观收入规模[30] 行业竞争与用户反馈 - 免费AI工具与电信套餐捆绑降低使用门槛最低月消费不到50卢比约合4.3元人民币[9] - 用户质疑免费服务存在功能限制且可能为数据收集和模型测试手段[33][34] - 印度缺乏专门AI法律当前宽松监管环境便于科技公司推广策略[23][25]
Everywhere all at once makes India a safe AI bet
The Economic Times· 2025-11-04 03:47
印度在人工智能时代的战略定位 - 印度可能并非AI模型的建造者,但将成为其使用者,这使其成为AI时代最重大、最安全的赌注 [1][16] - 尽管在芯片制造和数据中心建设方面存在局限,但其核心优势在于大规模应用AI的潜力 [1][16] 主要AI公司的市场进入策略 - 近期有三家公司专门在印度推出了其付费AI服务的免费访问权限 [16] - OpenAI向印度用户免费提供轻量级ChatGPT Go计划一年,Alphabet通过Reliance Jio向其5.05亿用户免费提供Gemini Pro服务18个月,Perplexity AI向Bharti Airtel的3.5亿用户提供其Pro版本 [16] - 其中两家选择与电信提供商合作,旨在利用其庞大的用户规模快速扩张 [5][16] AI对印度生产力的潜在影响 - 印度政府智库NITI Aayog预测,AI可使印度非正规部门工人的生产率在未来十年内增长两倍,从每小时5美元提升至15美元 [7] - 据估算,AI的广泛采用到2035年可为印度经济额外增加5000亿至6000亿美元的产出 [7] - AI被视为帮助印度突破长期存在的低技能、低生产率均衡状态的关键工具 [6][16] 印度市场的独特优势 - 印度拥有庞大的年轻人口,他们是技术的积极采用者 [5][16] - 印度年轻人不仅是技术爱好者,更是高度依赖语言交流的用户,这种特性非常适合以语言模型为主导的AI时代 [9][10] - 大型语言模型能拉平技能曲线,使缺乏特定技能(如编程或应对复杂法规)的人也能快速获得能力,这对印度大量技能不足的劳动者意义重大 [10][12] AI在印度的应用现状与前景 - AI应用的效果已在线上显现,例如在社交平台X上可识别出大量印度账户使用ChatGPT的典型语法并获得了高互动率 [11] - 预计类似动态将在现实世界中重现,帮助印度人克服教育和技能体系的缺陷,逐步自学新系统,并跨越语言和文化障碍提供新服务 [12] - AI基础设施的关键要素不仅是数据中心和芯片厂,更重要的是人才,而印度恰好拥有这一优势 [13][16]
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
量子位· 2025-08-01 07:19
视频大型语言模型(Video LLMs)研究进展 - 视频大型语言模型展现出精准描述视频内容、回答相关问题的能力,接近人类级理解力[1] - 核心争议在于模型是否真正"理解"视频内容,还是仅进行高级"模式匹配"[2] - 南洋理工大学S-Lab团队提出Video Thinking Test(Video-TT)基准测试,旨在分离"看"与"想"的能力,精准测量AI的真实理解和推理水平[3] Video-TT测试设计原理 - 现有视频理解基准测试存在根本缺陷:无法区分模型因"没看清"或"没想明白"而犯错[9] - 传统长视频评测存在"帧采样悖论":模型因计算资源限制只能稀疏采样,性能下降可能反映采样策略失败而非理解能力不足[12][13] - 传统短视频评测存在"天花板幻觉":模型因能看完所有帧表现接近人类,但实际仍缺乏深度推理能力[15][16] - Video-TT创新点:选用1000条YouTube短视频,统一80帧采样,确保评测焦点从"采样效率"转向"理解深度"[16] 测试维度与问题设计 - 构建视觉复杂度(Visual Complexity)和叙事复杂度(Narrative Complexity)两大核心维度[18] - 视觉复杂度包含:模糊与非常规内容、运动速度、时空布局、视错觉四个子维度[19] - 叙事复杂度包含:复杂情节、叙事剪辑、技术性剪辑、世界知识四个子维度[19] - 问题设计强调激发"思考",需依赖上下文、原因和场景进行推理,例如需要世界知识回答"视频中的女士在模仿什么行为"[17][22] 模型性能评测结果 - 人类基准表现:正确性84.3%,鲁棒性64.4%,显著领先所有AI模型[29] - GPT-4o作为SOTA模型,正确率仅36.6%(不足人类一半),鲁棒性36.0%[30] - 开源模型在开放式问题上与GPT-4o差距显著,显示现有基准测试可能因侧重选择题高估模型能力[31] - 主要错误集中在复杂情节(Complex Plot)和世界知识(World Knowledge)相关任务[34] AI模型核心弱点分析 - 时空混淆:难以处理物体计数(如动态相框追踪)和序列定位(如多事件场景排序)[36][37] - 常识缺失:无法理解角色动机与情感(如银牌得主的失望情绪)等社会心理知识[38][39] - 复杂情节理解失败:难以建立跨场景因果关系(如棒球破坏房屋导致押金扣除的推理)[40][41] 研究团队与数据资源 - 主要作者包括南洋理工大学博士生张元瀚、董宇昊,通讯作者为助理教授刘子纬[6] - 论文与数据集已公开:论文链接(arXiv:2507.15028)、Hugging Face数据集、项目主页[42]
ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑
机器之心· 2025-07-16 04:21
多模态理解与生成技术进展 - 当前文本到图像生成技术如Stable Diffusion和Flux缺乏真正的多模态推理能力,难以理解图像与文本的复杂逻辑关系[1] - OpenAI的GPT-4o和Google的Gemini Pro展示了强大能力,但依赖超大规模参数和算力资源[2] - 香港科技大学与Snap Research提出的ThinkDiff方法,仅需少量数据和数小时训练即可实现多模态推理式生成[3] ThinkDiff核心技术 - 核心创新在于将视觉语言模型(VLM)的推理能力迁移至扩散模型,结合两者优势实现高质量生成[7] - 利用LLM与Diffusion共享特征空间的特性,通过代理任务将VLM与LLM解码器对齐[9][11] - 采用掩码训练策略强制对齐网络深度理解多模态信息,避免特征对齐走捷径[15] 模型架构与变体 - ThinkDiff-LVLM版本继承大型视觉语言模型的多模态理解能力[16] - ThinkDiff-CLIP版本强化文本图像组合能力,可扩展至视频生成领域[16][34] - 网络设计关键:对齐VLM自回归生成的tokens特征而非输入tokens,实现真正的推理能力传递[15] 性能表现 - 在CoBSAT基准测试中全面领先:Color-I准确率0.638(较SEED-LLaMA提升32.4%),Action-II准确率0.664(提升220.8%)[19] - 训练效率显著:仅用4块A100训练5小时即达0.463平均准确率,远优于需64块A100训练216小时的SEED-LLaMA[21] - 定性测试显示其生成质量与商业模型Gemini相当,且具备视频生成扩展能力[25][34] 行业影响 - 突破性解决低资源环境下的多模态推理难题,为学术研究和工业应用提供新路径[3][36] - 开创扩散模型理解复杂图文组合的新范式,显著提升生成式AI的语义理解深度[7][15] - 技术方案具备高度可扩展性,可适配不同VLM架构并延伸至视频生成领域[16][34]
谷歌挖人,Cognition收产品:Windsurf被“一拆二卖”
36氪· 2025-07-15 10:38
收购交易核心信息 - Cognition公司正式签署协议收购AI开发编程公司Windsurf 具体金额和条款未公开[2] - 收购内容包括Windsurf核心产品 品牌以及剩余团队 此前Windsurf CEO及共同创始人已通过24亿美元技术与许可交易加入谷歌[2][5] - 谷歌支付24亿美元薪酬与许可费用获得部分Windsurf技术的非独占许可 该交易不涉及股权投资或全面收购[5] 产品整合与战略方向 - 重点整合Cognition自主AI工程师Devin与Windsurf的IDE 新产品支持单一界面内任务规划 AI智能体代码生成及拉取请求审核[2] - Devin具备自动修复bug 部署应用等能力 将深度嵌入Windsurf IDE 实现从任务规划到代码审查的完整工作流[8] - 整合平台将重复性任务交由AI智能体执行 保留开发者对核心架构决策的控制 构建人类与AI协同系统[8] 市场竞争格局 - 合并后实体直接对标GitHub Copilot Replit Cursor等AI编程平台 面临谷歌Gemini和微软VS Code"智能体模式"的竞争[8] - OpenAI曾于5月与Windsurf进行30亿美元收购的独家谈判 但谈判最终破裂[5] 公司运营与财务表现 - Windsurf保持季度收入翻倍增长趋势 拥有数十万日活跃用户[4] - Cognition凭借3亿美元融资和40亿美元估值 营收增速已超过Windsurf[10] - Windsurf大部分核心成员将留任 继续推动产品在企业市场落地[9] 合作关系变动 - Anthropic于6月撤销Windsurf对Claude 3系列模型的API访问权限 导致Windsurf转向第三方推理模型提供商并限制免费用户访问[6] - 此次交易意外修复Windsurf与Anthropic的合作关系[8]
特朗普AI计划在GitHub上泄露,网友怒喷用AI代码“治国”!
AI前线· 2025-06-16 07:37
AI.gov项目泄露事件 - 特朗普政府AI发展计划的核心代码库"AI.gov"在GitHub上意外泄露,后被移至归档项目[1] - 项目由美国总务管理局(GSA)与技术转型服务局(TTS)合作开发,负责人为马斯克盟友Thomas Shedd[1] - 泄露信息显示项目计划于7月4日美国独立日正式上线[2] AI.gov技术架构 - 包含三大核心组件:聊天机器人、一体化API(支持OpenAI/谷歌/Anthropic模型接入)、CONSOLE监控工具[4] - 通过Amazon Bedrock提供AI模型,部分模型已获FedRAMP认证,但Cohere模型未获认证[5] - 计划发布大模型排名,但排序标准未明确[5] 政府AI应用争议 - DOGE部门使用AI工具错误标记2000多份退伍军人事务部合同,错误率显著(3400万美元误判为3.5万美元)[9] - AI工具仅依据合同前2500词做判断,专家认为代码存在严重缺陷[9] - 开发者承认工具存在缺陷,称代码不应直接用于决策[10] 数据安全风险 - 政府整合敏感数据引发安全担忧,包括医疗记录、社会安全号等[12] - 国防部长办公室存在未加密设备连接私人网络的安全隐患[11] - Palantir构建的美国人隐私数据库被质疑采用"反向瑞士奶酪模型"[12] 行业AI应用现状 - 企业推广Copilot遭遇工程师抵制,CEO与开发者对AI认知存在断层[17] - AI代码维护性问题突出,修改时易导致系统崩溃[20] - 实际工作中AI仅减少部分编程时间(案例显示C转Java节省90%时间),但高管过度乐观[21] AI使用副作用 - 开发者出现"编程肌肉退化"现象,过度依赖Gemini导致基础能力下降[23][24] - AI生成代码存在脆弱性,需多次调试但管理层仅关注"成功"案例[19] - 非编程工作场景中AI效用有限,但企业决策层忽视这一现实[22]
文旅新玩法!藏师傅教你做食物微缩景观宣传海报&视频
歸藏的AI工具箱· 2025-05-28 08:06
AI生成内容创新应用 - GPT-4o的图片生成功能被用于创造超现实风格的食品键盘 键盘按键采用微缩甜点设计 包括马卡龙 迷你蛋糕 水果挞等 色彩鲜亮 质感逼真 场景设定为烘焙坊灯光环境 [1][2] - 该技术进一步拓展至城市主题微缩场景 将城市代表性食物与景观结合 例如成都主题中 辣椒和青花椒排列成"成都"汉字 火锅红油形成河流 食材化作山峦 糍粑熊猫在香菜竹林嬉戏 [5][8] 多模态AI工具协同 - 豆包和GPT-4o均可实现类似场景生成 但GPT-4o输出的场景更简洁 [3] - Veo3视频生成技术可扩展应用 通过延时摄影风格动态展现微缩景观的组装过程 支持从无到有的渐进式构建 但需注意其对中文支持有限 城市名称需用拼音表示 [6][7] 文旅产业应用潜力 - 该技术特别适合制作文旅宣传素材 可诱导用户生成代表各自城市的特色食物微缩场景 具有较强视觉吸引力和传播性 [4] - 成都案例展示完整技术路径 包含3D等距渲染 Q版设计 元素符号化处理(如豆腐皮乌篷船)等手法 形成热辣安逸的整体氛围 [5][8] 技术实现优化方向 - 可通过Flow功能实现一镜到底的连贯视频效果 但需考虑抽卡机制带来的成本问题 [6] - 建议结合《Veo3和FLOW一手实测》中的技巧 利用20美元Gemini Pro会员在Gemini App和FLOW中使用Veo3功能 [9]