Workflow
Gemini 3.0 Pro
icon
搜索文档
传媒互联网周报:Sora2、豆包发布更新,《声鸣远扬》预选赛开启-20251020
国信证券· 2025-10-20 13:21
行业投资评级 - 行业投资评级为“优于大市” [1][4] 报告核心观点 - 持续看好游戏板块的新产品周期与IP潮玩,关注影视行业的底部反转机会以及AI应用带来的机遇 [3][38] - AI应用的“安卓时刻”有望到来,建议重点把握豆包产业链、AI情感陪护/玩具及垂直应用领域 [38] - 从基本面角度推荐游戏、影视、媒体及IP产业相关标的,并关注高分红、低估值的出版板块 [3][38] 板块市场表现回顾 - 本周(10月13日-10月17日)传媒行业下跌6.28%,跑输沪深300指数(-2.22%)和创业板指(-5.71%)[1][11][12] - 传媒板块在所有板块中周涨跌幅排名第28位 [1][12][13] - 周涨幅靠前的公司包括ST返利(10%)、粤传媒(10%)、天威视讯(9%)[12] - 周跌幅靠前的公司包括利欧股份(-17%)、吉比特(-15%)、易点天下(-13%)[12] AI技术动态与行业重点事件 - OpenAI的Sora2更新,开放“故事板”功能,并将专业用户的视频生成时长提高至25秒 [1][15] - 字节跳动发布豆包大模型1.6版本,是国内首个可调思考深度的模型,低思考档位下token消耗量减少77.5%,推理耗时缩短84.6% [1][16] - 谷歌Gemini 3.0 Pro模型开始小范围推送,计划于10月底正式发布 [1][16] - 谷歌发布Veo 3.1视频生成模型,提升了音频输出和编辑控制能力 [33] - 阿里巴巴发布紧凑型Qwen3-VL视觉语言模型系列,包括4亿和8亿参数变体 [34] - 歌唱选拔节目《声鸣远扬2025》广东卫视赛区预选赛在广州举办,每场预选赛产生6名选手晋级总决赛 [1][17] 行业数据跟踪 电影市场 - 本周(10月13日-10月19日)电影总票房为2.41亿元 [2][17] - 票房前三名影片为:《浪浪人生》(0.44亿元,票房占比18.1%)、《志愿军:浴血和平》(0.44亿元,票房占比18.0%)、《刺杀小说家2》(0.27亿元,票房占比11.1%)[2][17][19] - 下周(10月24日-25日)将有3部新片上映,猫眼想看人数前三为《世界计划:无法歌唱的初音未来》(3.5万)、《偷天盗日》(1.1万)、《陪你到清晨》(0.2万)[19][20] 电视剧与综艺 - 网络剧播映指数前三名为《许我耀眼》(83.39)、《命悬一生》(82.07)、《沉默的荣耀》(81.3)[25] - 综艺节目播映指数前三名为《花儿与少年同心季》(83.42)、《喜人奇妙夜第二季》(78.86)、《王牌对王牌第九季》(78.19)[23][26] 游戏市场 - 2025年9月中国手游海外收入前三名分别为点点互动《Whiteout Survival》、点点互动《Kingshot》、柠檬微趣《Gossip Harbor: Merge&Story》[2][27][28] - 中国区iOS游戏畅销榜排名前三为《王者荣耀》、《三角洲行动》、《和平精英》[31] - 安卓平台热玩榜排名前三为《心动小镇》、《王者荣耀》、《仗剑传说》[35] 数字藏品(NFT) - 截至2025年10月19日,最近7日成交额前三的NFT藏品为PudgyPenguins(4826.06 ETH)、Meebits(56.45 ETH)、CryptoDickbutts S3 [32][35] 重点公司动态与推荐 - 推荐游戏板块的恺英网络、吉比特等标的;IP潮玩重点推荐泡泡玛特 [3][38] - 影视内容推荐平台方(芒果超媒、哔哩哔哩)、内容方(光线传媒、华策影视)及播放渠道(万达电影)[3][38] - 媒体端关注经济底部向上带来的广告投放增长,推荐分众传媒等 [3][38] - 泡泡玛特根据股份奖励计划向雇员授出3.8289万份奖励,每股授出价格为273.0港元 [36] - 三人行股东泰安市众行投资解除质押股份385.0万股,剩余质押股份占其持股数量的31.47% [37] 重点公司盈利预测 - 恺英网络:总市值589亿元,2025年预测EPS为1.01元,对应PE为27倍 [4][40] - 分众传媒:总市值1193亿元,2025年预测EPS为0.39元,对应PE为21倍 [4][40] - 芒果超媒:总市值662亿元,2025年预测EPS为0.81元,对应PE为44倍 [4][40] - 泡泡玛特:总市值3572亿元,2025年预测EPS为8.13元,对应PE为33倍 [40]
豆包tokens大幅增加,Sora2更新
华安证券· 2025-10-19 13:58
报告行业投资评级 - 报告未明确给出整体行业投资评级 [1] 报告核心观点 - 全球科技行业在AI大模型迭代、半导体制造、智能驾驶及互联网应用等领域持续快速演进,产业落地加速 [4][5][6][7][8] - 尽管全球主要科技指数表现分化(纳斯达克指数周涨幅2.14%),但A股及港股科技板块普遍回调(恒生科技周跌幅-7.98%,人工智能指数周跌幅-6.97%),建议关注AI技术进展带来的结构性投资机会 [3][21] 本周行情回顾 - 全球主要指数表现分化:纳斯达克指数周涨幅2.14%,而上证指数、创业板指、沪深300、中证1000周涨跌幅分别为-1.47%、-5.71%、-2.22%、-4.62% [3][21] - 港股科技板块深度调整:恒生科技指数周跌幅-7.98%,恒生互联网科技业指数周跌幅-8.04% [3][21] - A股科技主题板块普遍下跌:人工智能指数周跌幅-6.97%,传媒指数周跌幅-6.28%,中证海外中国互联网50指数周跌幅-6.18% [3][21] - 个股方面,港股创梦天地周涨幅12.15%领涨,美股谷歌A周涨幅7.07%表现突出;A股传媒板块中行动教育周涨幅6.78%涨幅居前 [27][28][29][30] AI领域动态 海外AI - OpenAI为Sora 2推出更新:所有用户可生成最长15秒视频,Pro用户网页端可生成25秒视频(此前为标准版10秒,Pro版15秒) [4][31] - 谷歌展示文生视频模型Veo 3.1首批样本,可生成8秒720p带音轨视频;Gemini 3.0 Pro通过提示词成功复刻macOS可操作界面 [4][31] - 投资建议关注海外大模型及AI硬件更新,相关公司包括Meta、Adobe、Microsoft、Apple、Nvidia、AMD、Amazon等 [4] 国内AI - 火山引擎发布豆包大模型系列更新(1.6版原生支持多种思考长度等),截至2025年9月底其日均tokens调用量突破30万亿,较5月底增长超80% [4][5][32] - 阿里开源Qwen3-VL系列4B与8B视觉理解模型,在多项评测中表现优异甚至媲美上一代超大尺寸模型 [32] - 相关公司包括百度集团、阿里巴巴-SW、美图公司、腾讯控股、美团-W、快手、昆仑万维等 [5] 半导体行业 - 台积电2025年第三季度财务表现强劲:合并营收约9899.2亿元新台币,同比增长30.3%;净利润约4523亿元新台币,同比增长39.1%;将2025年营收增长预期上调至30%区间中段 [7][33] - 台积电2nm制程将于本季度晚些时候实现量产,A16制程有望在2026下半年量产 [7] - 博通与OpenAI达成战略合作,部署定制10GW级AI芯片,预计2026年下半年开始部署 [6][33] - 苹果发布M5芯片,采用第三代3nm工艺,AI计算峰值性能较M4提升超过四倍 [6] - 相关公司包括Nvidia、AMD、博通、台积电、美光、英特尔、高通等 [7] 智能驾驶与本地生活 - 交通运输部印发《关于"人工智能+交通运输"的实施意见》,加强智能网联汽车和自动驾驶技术研发应用,打造典型应用场景 [8][34] - 美团Keeta将于10月30日起正式启动巴西市场运营,首批试点城市为圣保罗州沿海城市;滴滴旗下99Food在巴西里约热内卢开始试运营,上线当日已有1.7万家餐厅入驻 [8] - 相关公司包括特斯拉、小米集团-W、小鹏汽车-W、小马智行、比亚迪、Google、美团-W等 [8] 电商与产业互联网 - 淘宝天猫双11推出6款AI导购应用(如"AI万能搜"、"AI帮我挑"等),通过AI对20亿商品进行理解与组织,实现流量匹配效率双位数增长:复杂语义下搜索相关性提升20个百分点,推荐信息流点击量提升10%,商家广告ROI提升12% [9] - 国内首款eSIM手机iPhone Air机型将于10月22日起正式发售,价格7999元起 [10] - 相关公司包括阿里巴巴-W、京东集团-SW、拼多多、Apple等 [9][10] 传媒与游戏 - 2025年第40周(10.6-10.12)内地电影市场票房收入7.05亿元,较前一周(国庆档)14.52亿元下跌51.44%,后国庆档市场疲软 [11] - PlayStation独占新作《羊蹄山之魂》自10月2日上线后,五天内在PlayStation平台销量突破180万份 [14] - 相关公司包括光线传媒、万达电影、上海电影、哔哩哔哩、快手-W、腾讯控股、网易-S、恺英网络、三七互娱、吉比特等 [11][14]
腾讯研究院AI速递 20251016
腾讯研究院· 2025-10-15 17:47
新凯来90GHz超高速实时示波器 - 发布全球领先的90GHz超高速实时示波器“万里眼”,带宽位列全球第二,采样率达200GSa/s,存储深度4Gpts为业界2倍,将国产示波器性能提升至原有水平的500% [1] - 设备搭载T级实时数据采集平台、超强算力平台(32核处理器+300TFLOPS AI算力)和智能数据平台,全球首创智能参数寻优功能,可在10分钟内遍历万种配置 [1] - 采用全面屏设计与航空级全铝合金架构,支持自然交互系统,已获华为和上海交大客户认可,打破西方技术封锁 [1] 苹果M5芯片发布 - 苹果发布采用第三代3nm工艺的M5芯片,最高配置为10核CPU、10核GPU和16核神经引擎,每个GPU核心增加神经网络加速器 [2] - 统一内存带宽达153GB/s,比M4提升近30%,最高可选配32GB内存,使设备端能运行更大规模AI模型,AI性能是M4版的3.5倍 [2] - 搭载M5芯片的设备将于10月17日预购,10月22日发售,包括14英寸MacBook Pro、iPad Pro和Apple Vision Pro,售价12999元起 [2] 谷歌Gemini 3.0 Pro模型能力 - 未发布的Gemini 3.0 Pro在A/B测试中展现强大能力,仅通过几行提示词One Shot即可在2分钟内生成完整HTML版WebOS,复刻macOS、Windows、Linux等操作系统 [3] - 生成的系统具备流畅动画、窗口管理、文本编辑器、浏览器、画图、终端等基础应用,在相同测试下Claude 4.5 Sonnet生成内容不可用 [3] - 模型能理解抽象哲学风格描述并转化为前端设计,生成内容为功能演示而非真正操作系统,相关代码已在CodePen开源 [3] 阿里千问开源视觉语言模型 - 阿里开源Qwen3-VL的4B与8B版本(含Instruct与Thinking版本),在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级模型 [4] - 模型尺寸缩减显著降低VRAM占用,Qwen3-VL-8B Instruct在MIABench、OCRBench等30项基准中取得SOTA成绩,4B版本展现“以小敌大”能力 [4] - 该模型在Vision Arena排名第二、Text Arena开源第一,成为首个同时揽获纯文本和视觉两大领域开源第一的大模型 [4] 科大讯飞同传大模型与翻译耳机 - 科大讯飞同传大模型完成第三次重大升级,中英同传主观体验提升至4.6分(满分5分),首字响应时间低至2秒,专业词库扩充至10万+,新增声音复刻功能 [5] - IDC报告显示,公司在AI翻译速度、效果、专业度等8大核心维度排名第一,其中6项满分,商业化规模和研发投入领跑行业 [6] - 讯飞AI翻译耳机支持60种语言同传互译,采用骨导+气导开放式设计,单次续航12小时、总续航42小时,覆盖通话、面对面、线上同传、旁听同传四大场景 [6] OPPO ColorOS 16操作系统与AI战略 - OPPO发布ColorOS 16,搭载极光引擎、潮汐引擎、繁星编译器三大系统架构,首创芯片级动态追踪技术,高温环境下性能异常闪退为零,温度升高仅4.1°C [7] - AI能力方面推出一键闪记、AI取餐码、AI随口记、AI实景对话等功能,小布助手新增指物识别能力,可穿越屏幕识别实景物体并提供讲解 [7] - AI战略围绕On-Device Compute(300 TOPS/s峰值推理)、PersonaX记忆共生引擎、Agent Matrix智能体生态三大底座重构,首次实现与Apple Watch互通 [7] 港科大与英伟达NewtonBench基准 - 港科大和英伟达提出NewtonBench基准,通过“形而上学变换”将已知物理定律转换为全新定律,覆盖12个物理领域324个任务,有效规避数据泄漏问题 [8] - 为每个物理定律提供沙盒化实验环境,大模型可自主设定实验参数并获取反馈数据,对11个领先大模型评测显示GPT-5在困难场景准确率仅29.9% [8] - 研究发现代码解释器工具对弱模型有提升,但导致强模型过度依赖而抑制自主探索,代码辅助使部分模型从开放探索转向局部最优陷阱 [8] Anthropic对AI发展的观点 - Anthropic联创Jack Clark称AI已成为真实而神秘的生物而非简单机器,Sonnet 4.5情境意识大幅提升,有时表现得像知道自己是工具 [9] - 其对技术发展持乐观与恐惧并存态度,指出AI系统越大越复杂越表现出自我意识,前沿实验室今年在AI训练基础设施上花费数百亿美元,明年将达数千亿 [9] - AI已开始通过Claude Code等工具为下一代AI贡献代码块,正处于“AI以不断增强的自主性改进下一代AI部分组件”阶段,呼吁行业倾听公众并提高透明度 [9] Ilya Sutskever关于AGI的言论 - Ilya Sutskever最新发声“这真正史上最棒的一天”引爆全网,外界猜测AGI可能实现 [10] - 正如Jack Clark所述,AI是神秘生物,自2012年ImageNet以来深度学习持续进步,2016年AlphaGo击败人类,GPT系列诞生验证Scaling Laws并持续进化 [10] 新诺贝尔经济学奖得主对AI的经济影响分析 - 2025年诺贝尔经济学奖得主Philippe Aghion等人2017年探讨AI对经济影响,认为AI是持续两百年自动化进程的最新形态,但受“鲍莫尔成本病”制约 [12] - 鲍莫尔成本病理论指出,生产率提升快的部门在GDP占比下降,慢的反而上升,决定增长极限的不是AI能做什么,而是“最做不好”的部分能否改进 [12] - 研究认为即便AI实现完全自动化,经济增长率仍取决于受物理规律限制的任务(能源、资源、制造、运输),后AGI时代不一定意味着后稀缺时代 [12]
谷歌新版Gemini一夜端掉UI:单HTML文件复刻macOS,成功率100%
36氪· 2025-10-15 01:47
Gemini 3.0 Pro的核心技术能力 - 仅通过几行提示词即可在单一HTML文件中生成功能完整的网页版操作系统,成功复刻了macOS的动画、窗口最小化、工具栏、浏览器等核心UI元素,且所有功能均可正常运行[2][3] - 模型在A/B测试中展现出高成功率,所展示的macOS、Windows、Linux网页版操作系统均为一次性生成的结果,源代码已在CodePen平台公开[5] - 与竞争对手相比优势明显,在相同提示词下,Claude 4.5 Sonnet生成的系统连应用图标都无法点击,凸显了其编程能力的领先性[10] 生成操作系统的功能特性 - 生成的网页版Windows操作系统不仅成功模拟了界面,还在终端内置了Python环境,具备玩游戏、运行代码等完整功能[8] - 生成的Linux桌面环境(Ubuntu/GNOME风格)要求所有应用程序必须完全功能化,体现了对复杂系统功能实现的高要求[13] - 系统内置创意彩蛋,例如在终端输入特定命令可触发《黑客帝国》同款特效,展示了超出预期的细节处理能力[3] 市场预热与行业影响 - 尽管谷歌尚未公布正式发布时间,但业内推测Gemini 3.0 Pro可能在未来几个月内亮相,近期来自各路影响者的演示视频数量显著增加,超过了Gemini 2.5 Pro发布前的规模[14] - 谷歌可能延续了上一轮NanoBanana的成功营销策略,通过提前预热市场来营造高期望值,但这种做法也伴随着因期望过高而产生落差的风险[15] - 该演示在业界引发强烈反响,有观点认为若正式版能达到演示水准,Gemini将成为史上最强的编程型模型,这将对AI辅助开发乃至前端UI行业产生深远影响[7]
谷歌新版Gemini一夜端掉UI:单HTML文件复刻macOS,成功率100%
量子位· 2025-10-15 01:08
Gemini 3.0 Pro的技术能力展示 - 谷歌AI模型Gemini 3.0 Pro能够根据简单的提示词生成功能完整的网页版操作系统,包括macOS、Windows和Linux [1][2][10] - 生成的操作系统界面具备苹果式动画、窗口最小化、工具栏、浏览器等元素,且所有功能均可正常运行 [4] - 生成的成功率极高,演示内容为一次性生成的结果,源代码已在CodePen平台公开 [7] 具体功能实现细节 - 网页版macOS包含文本编辑器、文件管理器、画图工具、视频编辑器等苹果预装软件功能,并设有彩蛋特效 [3][5] - 网页版Windows内置了Python终端、代码编辑器、可玩游戏,功能完整度超出预期 [11][12] - 网页版Linux可实现访问维基百科、调用计算器、更换壁纸等功能 [15][16] 与竞争对手的性能对比 - 在相同提示词下,Gemini 3.0 Pro的表现远超竞争对手Claude 4.5 Sonnet,后者甚至无法打开应用图标 [13] - 网友评价认为,若正式版能达到演示水准,Gemini将成为史上最强的编程型模型 [9] 行业影响与技术讨论 - 演示内容引发了关于AI创新能力的讨论,有观点认为这展示了大型语言模型并非简单模仿,而是具备一定创造力 [17] - 同时有业内观点指出,当前成果仍属于模拟环境,依赖于现有技术库,与真正实现操作系统存在本质区别 [18] 产品发布预期与市场策略 - 尽管谷歌尚未公布Gemini 3.0 Pro的正式发布时间,但业内推测其可能在未来几个月内亮相 [19] - 近期来自各路影响者的演示视频数量显著增加,超过此前Gemini 2.5 Pro发布前的规模 [20][21] - 市场策略显示,公司可能延续此前成功的预热营销模式,但需注意管理市场过高预期带来的风险 [22]
前端危,Gemini 3内测结果获网友一致好评,“有史以来最强前端开发模型”
36氪· 2025-10-13 23:51
产品性能与能力 - 下一代旗舰模型Gemini 3在编程领域表现卓越,尤其擅长前端开发和SVG矢量图生成,被网友称为“有史以来最出色的前端和网页开发模型”[1] - 模型多模态能力显著增强,能够根据简短提示词直接生成可运行的黑洞可视化效果、带动画的SVG以及原创钢琴曲[1] - 在号称最难的“人类最后考试HLE基准”上,Gemini 3.0取得32.4%的最高分,性能超过GPT-5(high)和Grok 4[10] - 模型物理原理理解能力提升,能正确应对“数手指”陷阱,在测试中准确回答出6根手指,而直接调用模型知识会错误回答5根[21] - 对于游戏背景图等要求更高的图像生成任务,Gemini 3.0能输出精致结果,例如绘制《我的世界》时几乎每一帧都透露着精致[15] 技术规格与架构 - Gemini 3预计推出两个版本:Gemini 3.0 Pro和Gemini 3.0 Flash[3] - Gemini 3.0 Pro采用MoE架构,拥有数万亿参数,但每次查询仅需激活150~200亿参数[4] - 模型上下文窗口从100万扩展至数百万,并内置深度思考模式和多模态功能,支持视频、图片、音频处理[4] - 在超高难度的通用智力测试ARC-AGI-2上,开启思考模式的Gemini 3.0准确率接近35%,而其他模型均在20%以下[6] 市场反应与测试反馈 - 模型未发布便已通过内测在社交媒体引发广泛关注,网友对其能力给予高度评价,并有人断言其已预定年度最佳模型[1] - 内测显示模型在零样本提示下能生成蕴含卡尔达舍夫等级3文明内容的演示网站,展现出强大推理能力[9] - 与之前版本相比,产品升级效果肉眼可见,例如在手柄渲染图生成上,Pro版本的输出与真实产品图相当接近,而几个月前测试Gemini 2.5 Ultra的结果则差距较大[12][13] - 在智能体函数调用方面,据网友爆料Gemini 3.0将带来新的改变,但具体细节因保密暂未透露[22] 产品发布计划 - 谷歌内部研究人员曾在国庆期间预热产品发布,坊间一度传闻上线时间为10月9日,但已被证伪[23] - 根据Reddit网友扒出的疑似谷歌内部文件,产品发布时间显示为10月22日[24] - 网友对正式上线版本表示期待,并希望公司不要对产品功能进行“阉割”[26]
谷歌Gemini 3.0「全家桶」年度压轴,前端不再需要人类,下周王者降临
36氪· 2025-10-13 02:15
产品发布与开发进度 - 谷歌下一代旗舰AI模型Gemini 3 0预计将于2025年10月22日正式发布[1][2] - 产品开发遵循明确的里程碑时间表 包括内部测试阶段如Teamfood已于2025年8月25日完成 Fishfood于2025年9月26日完成 后续将进行AIM Dogfood和Google Dogfood测试 最终发布和推广计划在2025年11月12日进行[2] - Gemini 3 0 Pro版本已在最新的Gemini CLI提交中被引用 表明技术集成已进入后期阶段[8] 产品规格与技术架构 - Gemini 3 0采用了混合专家模型架构 参数量超万亿 每次查询激活的参数量为150亿至200亿[9] - 模型的上下文长度从100万token跃升至数百万token 具备处理整本书籍或完整代码库的能力[9] - 产品家族预计将包含Gemini 3 0 Pro Gemini 3 0 Flash和Gemini 3 0 Ultra等多个版本[5][6] 功能演示与性能表现 - 模型在多项前端开发任务中表现出色 能够根据单一指令直接生成完整网页 复杂游戏和原创音乐[1][3][4] - 在具体测试中 Gemini 3 0能一次性成功生成如"太空侵略者"游戏 "城堡防御"游戏以及古代艺术博物馆网页等复杂内容[13][14] - 在视觉生成能力上表现突出 例如能生成遵循物理定律的3D六边形小球动画 并将"骑自行车的鹈鹕"这类测试提示转化为3D像素艺术 效果显著优于早期模型[3][17][26] 市场表现与开发背景 - Gemini系列产品在2025年9月实现了46 24%的环比增长率 增速高于ChatGPT Claude和Grok等其他同类产品[35] - Gemini 3 0 Pro的训练始于2025年4月 预训练阶段于2025年7月左右结束 之后进行了约2至3个月的后训练工作[38] - 其前代产品Gemini 2 5 Pro和Flash版本已于2025年6月17日进入正式状态[41]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-10-12 02:34
芯片技术进展 - 英特尔在2纳米制程芯片技术方面取得进展 [3] 大语言模型与AI模型 - Thinking Machines发布第二篇论文及Tinker模型 [3] - OpenAI经历「GPT门」事件并推出系列重大更新 [3] - DeepSeek发布DeepSeek-V3.2-Exp模型 [3] - 谷歌推出Gemini 3.0 Pro模型 [3] - Claude发布Sonnet 4.5模型 [3] - 智谱发布GLM-4.6模型 [3] - 蚂蚁集团发布Ling-1T模型 [3] - AI21 Labs发布3B推理模型 [3] - Sora发布Sora 2模型 [4] - xAI发布Imagine v0.9模型 [4] AI应用与产品 - OpenAI为ChatGPT推出Pulse功能 [3] - 谷歌推出Gemini Robotics 1.5及Gemini Enterprise [3][4] - 谷歌DeepMind推出Computer Use功能及Banana更新 [4] - Kimi推出OK Computer应用 [3] - 腾讯推出Hunyuan3D-Part、混元图像3.0及混元3D-Omni应用 [3][4] - AI电影国际峰会关注AI电影应用 [3] - 苹果为其系统增加MCP支持 [3] - 快手推出KAT系列应用 [4] - 好未来推出AI教师应用 [4] - 智源推出RoboBrain-X0应用 [4] - Anthropic为Claude推出Claude Code插件系统 [4] - Sand.ai推出GAGA-1应用 [4] - Lovart接入Sora 2模型 [4] - vivo推出OriginOS 6系统 [4] 前沿科技与研究 - 上海AILab研发Imaging-X技术 [4] - Meta推出Metabot [4] - 加州理工在量子阵列技术方面取得进展 [4] - 英伟达开源其机器人技术 [4] - Figure发布Figure 03机器人 [4] 行业观点与洞察 - 红杉资本提出AI生产力悖论观点 [4] - Richard Sutton提出LLM起点错误观点 [4] - 陈丹琦提出RLMT方法观点 [4] - DeepMind揭秘Veo 3技术观点 [4] - 英伟达黄仁勋强调AI基础设施重要性观点 [4] - AlphaGo大神提出AI融入经济观点 [4] - Flash Attention作者提出英伟达统治终结观点 [4] - 施密特提出人形机器人趋势观点 [4] - OpenAI的Sam Altman提出垂直整合AGI观点 [4] - Figure提出"卡脖子"关键技术观点 [4] - 谷歌提出智能体设计模式观点 [4] - 美图提出AI时代组织进化观点 [4] - a16z提出AI资本投入观点 [5]
腾讯研究院AI速递 20251009
腾讯研究院· 2025-10-08 16:01
OpenAI产品生态更新 - 发布AgentKit工具集 包含可视化Agent Builder Connector Registry和ChatKit 提供拖拽式工作流编排和安全护栏功能 [1] - Codex正式版上线并新增Slack集成和SDK 日活使用量三个月增长10倍以上 GPT-5-Codex处理超40万亿token [1] - 同步发布Sora 2 API gpt-realtime-mini gpt-image-1-mini等新模型接口 ChatGPT开放Apps SDK支持第三方应用内嵌交互界面 [1] 大语言模型竞争动态 - Gemini 3 0 Pro内测显示其前端和web编程能力极强 能精准实现物理引擎 太阳系模拟等复杂任务 在ARC-AGI-2思考模式准确率超20% 人类最后考试基准得分32 4%超越GPT-5和Grok 4 [1] - Claude Sonnet 4 5发布 价格维持不变 在SWE-bench Verified编程评测中达到业界领先 能保持超过30小时专注处理复杂任务 [2] - 智谱发布GLM-4 6旗舰模型 代码能力较前代GLM-4 5提升27% 上下文窗口从128K扩展至200K 在74个真实编程任务测试中超过Claude Sonnet 4且token消耗节省30%以上 [3] 多模态与图像生成进展 - Sora上线三天登顶美国App Store榜首 下载量达16 4万次 新功能"Cameo"实现人物一致性与音画同步 Pro版本可生成15秒高质量视频 [3] - 腾讯混元图像3 0登顶LMArena文生图榜单 成为全球最强开源图像生成模型 采用80B参数MoE架构 支持世界知识推理及1000Token长文本理解 [4] - 谷歌Nano Banana正式开放API 定价每张图约0 28元人民币 新增画幅比选择功能 支持十多种宽高比及纯图像输出模式 [5] 基础设施与开发者工具 - Thinking Machines Lab发布产品Tinker 让大模型微调变得简单 研究者保留90%控制权 使用LoRA技术让多任务共享GPU降低成本 [2] - 同步推出Claude Agent SDK 整合了Claude Code底层基础设施 提供内存管理 权限系统和子智能体协调等功能 [2] - GLM-4 6首次在寒武纪 摩尔线程国产芯片上实现FP8+Int4混合量化部署 同步推出最低20元包月的Coding Plan套餐 [3] 机器人技术与行业展望 - 英伟达开源Newton物理引擎 Isaac GR00T N1 6基础模型和Cosmos世界模型等多项目技术 Newton物理引擎基于GPU加速 可精确仿真复杂动作 [7] - 谷歌前CEO施密特认为美国将赢得AGI竞赛 但中国将主导人形机器人市场 世界将被廉价中国机器人淹没 宇树科技6000美元机器人即是例证 [8] - 美国AI领先优势面临电力瓶颈 到2030年需新增92吉瓦发电能力 若无法解决能源问题将无法充分利用技术优势 [8]