Workflow
dots.vlm1
icon
搜索文档
计算机行业周报:OpenAI发布GPT-5,AI创新不断加速-20250811
国元证券· 2025-08-11 03:45
行业投资评级 - 推荐|维持 [5] 市场回顾 - 本周(2025 8 4-2025 8 8)计算机(申万)指数下跌0 41%,位居涨跌幅榜尾部区域 [1][10] - 上证指数上涨2 11%,深证成指上涨1 25%,创业板指上涨0 49% [1][10] - 细分板块表现:计算机设备(+1 63%)、IT服务Ⅱ(+0 06%)、软件开发(-1 95%),硬件板块表现较好 [1][12] - 个股方面,计算机板块上涨、回调和走平的个股数量分别为158、134和44,佳缘科技(63 29%)、航天智装(40 07%)、淳中科技(35 28%)涨幅分列前三 [12] 重大事件 - OpenAI发布GPT-5系列模型,包含GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四个版本,输入/输出价格分别为每百万token 1 25美元/10美元 [3][21] - GPT-5在数学、编码、视觉感知和健康方面表现突出,支持"按需思考"功能,拥有4种人格模式 [3][21] - 小红书开源多模态大模型dots vlm1,视觉理解推理能力接近闭源领先模型 [15] - 通义千问发布Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507两款小尺寸模型,支持256K上下文长度 [15] - Anthropic发布Claude Opus 4 1,在SWE-bench Verified基准测试中达到74 5%,相比Opus 4提升2个百分点 [15] - OpenAI重新开源模型,发布gpt-oss-120b和gpt-oss-20b两款推理模型,采用Apache 2 0许可证 [15][16] - 谷歌DeepMind发布通用世界模型Genie 3,支持实时交互生成720p画面 [18] - 华为开源三款盘古模型,规模分别为1B、7B和718B,其中Ultra MoE达7180亿参数 [18] 重点公告 - 智明达参与配套的互联网低轨06组卫星成功发射,预计下半年卫星领域项目加速推进,涉及AI的研发项目已有50余个 [2][18] - 迪普科技2025年上半年营业收入5 51亿元,同比增长9 59%,第二季度净利润同比增长40 20% [2][18] - 万兴科技筹划发行H股股票并在香港联合交易所上市 [2][18] - 数字认证控股股东将变更为北京数据集团,后者直接及间接合计持有其52 48%股份 [19] 投资观点 - 大模型产业创新持续加速,商业落地前景广阔 [3][21] - 建议关注在大模型、Agent等领域具备核心技术、拥有广泛付费客户、并在财务报表中逐步体现经营成绩的上市公司 [3][21]
AI周报|OpenAI发布大模型GPT-5;谷歌推出可交互的世界模型Genie 3
第一财经· 2025-08-10 04:13
OpenAI发布GPT-5 - OpenAI推出GPT-5,强调其幻觉率下降且减少对人类的"阿谀奉承" [1][2] - GPT-5在编程、数学、写作、健康、视觉智能等领域具备最先进性能,内置思维能力可提供专家级智能 [2] - 模型知道何时快速响应或长时间思考,免费用户需等待几天才能使用完整推理功能 [2] - 基准测试显示GPT-5得分超过o3和o4-mini,但与前代差距不大 [2] - 特斯拉CEO马斯克称Grok 4在ARC-AGI基准测试中击败GPT-5 [2] OpenAI开源策略转变 - 公司时隔六年再次开源gpt-oss-120b(1170亿参数)和gpt-oss-20b(210亿参数)两款MoE架构模型 [3] - gpt-oss-120b可在单张80GB GPU运行,gpt-oss-20b适配16GB内存消费级设备 [3] - 公司倾向于旗舰模型闭源策略,但承认强大开源模型的重要性 [3] Anthropic更新Claude模型 - Claude Opus 4.1在代理任务、现实世界编码和推理方面升级,擅长处理复杂多步骤问题 [4] - 公司转向渐进式更新策略,未来几周将推出更多迭代 [4] - 新版本在代码编写和代理能力方面有实用改进 [4] 谷歌发布Genie 3世界模型 - Genie 3支持实时交互,可模拟水、光等自然现象及生态系统 [5] - 能以24帧/秒速度生成720p动态世界,视觉记忆追溯达1分钟 [5] - 模型存在动作空间有限、多智能体交互模拟困难等局限性 [5] 小红书开源多模态模型 - dots.vlm1基于DeepSeek V3打造,配备自研12亿参数视觉编码器NaViT [7] - 在视觉评测集表现接近Gemini 2.5 Pro等领先模型 [7] - 具备图文图表理解、表情包解析、产品配料表分析等能力 [7] xAI将开源Grok 2模型 - 马斯克宣布下周开源Grok 2,该模型以复杂问题处理和逻辑推理见长 [8] - 相比第一代在多个方面实现显著提升 [8] - X平台同步为订阅用户推出图片生成新功能 [8] AI应用市场格局 - 2025上半年AI搜索引擎(MAU 6.85亿)和AI综合助手(6.12亿)构成第一梯队 [9] - AI社交互动(1.26亿)和AI专业顾问(1.11亿)组成第二梯队 [9] - 近七成原生APP月活负增长,手机厂商预装助手和中长尾玩家增长乏力 [9] - DeepSeek月活从1.93亿降至1.62亿,流失用户主要转向百度(56%)和QQ浏览器(42.1%) [9] AMD季度财报 - Q2营收76.85亿美元(同比+32%),净利润8.72亿美元 [10] - 数据中心收入32亿美元(同比+14%)未达预期 [10] - 贸易政策导致8亿美元库存及相关费用损失 [10] - 剔除影响后非GAAP毛利率为54%,AI收入预计将同比增长 [10] 谷歌AI搜索影响 - 公司否认AI搜索导致网站流量下滑,称总体点击量保持相对稳定 [11][12] - 反驳第三方报告关于流量急剧下降的结论,认为其方法存在缺陷 [12]
OpenAI发布最强AI模型GPT-5;英特尔CEO发全员信:回应辞职要求;微信员工回应“改手机日期可恢复过期文件” | Q资讯
搜狐财经· 2025-08-10 02:43
OpenAI发布GPT-5模型 - OpenAI发布新一代AI模型GPT-5,具备智能切换模型版本、更低幻觉率、更强代码能力和支持个性化设定等功能 [1] - GPT-5在SWE-bench Verified测试中得分74.9%,在Aider polyglot测试中得分88%,成为真正的编码协作伙伴 [3] - 该模型在前端Web开发任务中70%的表现优于OpenAI o3,能够生成高质量代码并处理修复漏洞、修改代码等复杂任务 [3] 英特尔CEO回应辞职传闻 - 英特尔CEO陈立武发表员工信,澄清关于他的不实传闻,暗示不会辞职 [4] - 陈立武强调拥有40多年行业经验,遵循最高法律和道德标准,将继续领导英特尔 [4] - 英特尔表示将在美国半导体研发和制造领域投资数十亿美元,包括在亚利桑那州新建晶圆厂 [4] - 知情人士透露,陈立武与部分董事会成员在公司战略和收购计划上存在分歧 [5] 微软裁员动态 - 微软在华盛顿州启动新一轮裁员,裁减约40个岗位,使该州自五月以来的裁员总数达到3160人 [6] - 此次裁员是微软全球裁员超过15000人计划的一部分,此前5月和7月分别裁减1985个和830个岗位 [6] 苹果iPhone17系列发布会 - 苹果iPhone17系列发布会预计于9月9日举行,将推出iPhone17、iPhone17 Air、iPhone17 Pro和iPhone17 ProMax [7] - 同期可能发布Apple Watch SE3、Apple Watch Series11、Apple Watch Ultra3和AirPods Pro 3 [7] 网易游戏服务器故障 - 网易旗下多款游戏突发登录异常,"网易游戏崩了"话题冲上微博热搜 [8] - 故障持续超过2小时,内部人士称宕机面积大导致排查难度大,服务器重启需要较长时间 [8] - 网易内部公告证实故障由机房网络问题引起,影响POPO部分服务 [8] 字节跳动校招计划 - 字节跳动启动2026校园招聘,计划发放超5000个offer,较2025年校招4000+规模显著扩招 [10] - 研发类岗位招聘数量同比增长23%,算法、前端、客户端增幅最大,非研发岗位计划招募1500余人 [10] - 招聘覆盖抖音、电商、火山引擎、飞书、剪映等业务团队,产品经理、数据分析等方向机会更多 [10] AI行业动态 - OpenAI发布两个开放权重AI模型GPT-oss-120b和GPT-oss-20b,支持文本生成和代码编写等任务 [13] - 谷歌DeepMind推出世界模型Genie 3,能根据文本提示生成可互动的3D环境,以720p分辨率24帧/秒实时渲染 [14] - 小红书开源多模态大模型dots.vlm1,基于DeepSeek V3打造,配备自研12亿参数视觉编码器NaViT [17] - dots.vlm1在MMMU、MathVision、OCR Reasoning等基准测试中表现接近Gemini 2.5 Pro等领先模型 [17] IT业界观点 - 英伟达否认其产品含有后门和关闭开关,强调30多年设计经验表明这类功能会带来安全隐患 [19] - GitHub CEO警告开发者必须拥抱AI否则改行,称AI工具已成为编程工作流程中不可或缺的合作伙伴 [20] - Stack Overflow调查显示80%开发者使用AI编程工具,但对准确性的信任度从40%降至29% [22]
萝卜快跑无人网约车被曝载客坠入施工沟槽;特斯拉餐厅开业12天:排长队、机器人故障、居民抗议三件套齐发丨AI周报
创业邦· 2025-08-09 10:08
全球AI产业动态 - 2025世界机器人大会在北京开幕,吸引200余家国内外企业参展,其中50家人形机器人整机企业创同类展会之最,首发新品100余款 [4] - 北京人形机器人产业规模占全国1/3,上半年营收增长近40%,专精特新小巨人企业数量全国首位 [5] - 全球首家具身智能机器人4S店Robot Mall在北京营业,展示7大类50多款机器人,计划11月升级2.0版本 [5] 国内AI技术进展 - 傅利叶发布全尺寸人形机器人GR-3,身高165cm,体重71kg,配备55个自由度,支持热插拔电池续航3小时 [10] - 阿里通义千问开源Qwen3-4B模型,在非推理领域超越GPT4.1-Nano,推理领域媲美Qwen3-30B-A3B [12] - 小米开源声音理解大模型MiDashengLM-7B,在22个评测集刷新SOTA,推理延迟仅为业界先进模型的1/4 [19] 企业战略与调整 - 阿里巴巴启动2026届秋招,计划发放超7000个offer,AI类岗位占比超60% [14] - 吉利汽车整合智驾团队,极氪1500人、吉利研究院1000人及迈驰智行500人并入重庆千里智驾,总规模达3000人 [14] - MiniMax副总裁魏瀚曈离职,将入职投资机构,其在职仅2个月 [15][16] 海外AI发展 - GPT-5正式发布,在文本、编程、数学等领域评分居首,采用集成模型无需切换,将免费向用户开放 [27][28] - OpenAI员工股票出售计划显示公司估值达5000亿美元,较上一轮3000亿美元增长66.7% [33] - ChatGPT周活跃用户将达7亿,同比增长4倍,付费商业用户从6月300万增至500万 [36][37] 投融资概况 - 本周全球AI融资事件29起,总融资规模670.66亿元人民币,平均融资金额33.53亿元人民币 [51] - 国内AI融资总额11.74亿元,灵心巧手完成数亿人民币天使轮融资 [60] - 海外AI融资总额658.92亿元,OpenAI完成83亿美元D+轮融资 [68][69]
特朗普:英特尔CEO必须立即辞职;GPT-5将免费提供给用户;宗馥莉公司投资10亿建新基地;微信重申不做“已读”功能丨邦早报
创业邦· 2025-08-08 00:08
AI模型与技术进展 - GPT-5正式发布,在文本、网页开发、视觉、高难度提示词、编程、数学、创意创作、长查询等领域均排名第一,Arena评分为1,481±11分,领先第二名Gemini 2.5 Pro(1,460分)[3][4] - GPT-5采用集成模型,无需手动切换模型,可自主决定深入思考时机,将免费向所有用户开放,并逐步向企业及教育用户推出[4] - 阿里通义千问发布小尺寸模型Qwen3-4B,在非推理领域超越GPT4.1-Nano,推理能力接近Qwen3-30B-A3B,已开源[18] - 小红书开源多模态大模型dots.vlm1,基于12亿参数视觉编码器和DeepSeek V3 LLM,视觉感知与推理达准SOTA水平[18] 企业动态与战略调整 - 宗馥莉旗下宏胜饮料投资10亿元建西安饮品新基地,新增多条产线生产纯净水、茶饮等,娃哈哈年初以来已关停18家分厂[5] - 盒马辟谣闭店传闻,称仅调整2%探索型业务门店,计划年内新开100家店,总门店数将超500家[11] - 广汽本田中方一把手换帅,高洪祥接替李进任执行副总经理,目前正交接[14] - 特斯拉解散Dojo超级计算机团队,约20名员工转至新公司DensityAI,剩余成员分配至其他项目[14] 自动驾驶与机器人 - 萝卜快跑无人网约车在重庆坠入施工沟槽,官方未回应事故原因[5] - 东风纳米06车型L2智能驾驶辅助被曝向右跑偏,公司称因端到端模型训练偏差,计划10月OTA更新优化[13][14] - 全球首家人形机器人4S店Robot Mall在北京开业,展示7大类50多款机器人,涵盖医疗、工业等场景,2.0版本预计11月推出[14] - 傅利叶发布全尺寸人形机器人GR-3,配备55个自由度,续航3小时,主打交互陪伴[16] 投融资与创业 - 陈天桥联手清华副教授代季峰筹备AI公司,聚焦商业决策、内容分发及老龄化服务,承诺半数利润分给团队[11] - 具身智能公司维他动力完成天使轮融资,首款伴随机器人年底上市[15] - 芝诺科技获数千万元Pre-A轮融资,专注合成生物学[15] - 灵心巧手完成数亿元天使轮融资,蚂蚁集团领投[15] 互联网与科技 - 微信官方重申不做"已读"功能,称避免增加社交压力[7] - 马斯克宣布Grok Imagine视频生成功能将免费向美国用户开放,未来几周持续优化[16] - 亚马逊广告报告显示2025年全球PC与主机游戏玩家达14.3亿,同比增长19%,日本PC/主机玩家增速为手游4倍[18] 行业数据与趋势 - 2025年中国电影总票房突破350亿元[19] - 美团揭露卖惨视频套路化现象,虚构故事引流私域卖课,已对违规账号固定证据并追责[11] - 本田4-6月净利润同比下滑50.2%至1966亿日元,受美国关税政策影响[15]
腾讯研究院AI速递 20250808
腾讯研究院· 2025-08-07 16:01
GPT-5系列模型 - OpenAI提前披露GPT-5四个版本:标准版gpt-5、轻量版gpt-5-mini、低延迟版gpt-5-nano和多模态复杂对话版gpt-5-chat [1] - 模型将分层开放:免费用户用基础版,Plus用户用更强推理版,Pro用户独享"研究级智能"的GPT-5 Pro [1] - 实测显示SimpleBench推理测试准确率达90%,需特定提示激活复杂思考,编程和视觉表现有提升但未达惊艳水平 [1] MiniMax语音模型 - 新一代Speech 2.5模型支持40种语言真人级生成,实现跨语种音色保留和口音复刻 [2] - 相比5月版本在多语种自然表达、音色复刻和语种覆盖三方面突破 [2] - 已被Vapi、Pipecat等海外平台及高途教育、喜马拉雅、网易等国内头部平台接入 [2] 小红书多模态模型 - 开源首个多模态大模型dots.vlm1,基于12亿参数NaViT视觉编码器和DeepSeek V3构建 [3] - 视觉理解能力接近Gemini 2.5 Pro和Seed-VL1.5 Thinking,能解数独、破解高考数学题等 [3] - 两个月内连续开源dots.llm1、dots.ocr、dots.vlm1三款模型,反映技术自研力度加大 [3] 面壁小钢多模态模型 - MiniCPM-V 4.0仅用4B参数在OpenCompass等榜单取得SOTA成绩,支持手机端稳定运行 [4] - 显存占用仅3.33GB,256并发下吞吐量达13856 tokens/s,远超Qwen2.5-VL和Gemma 3 [4] - 开源推理部署工具MiniCPM-V CookBook便于开发者简易部署 [4] 通义千问新模型 - 发布Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507两款小尺寸模型,支持256K上下文 [5][6] - Qwen3-4B-Thinking在AIME25测评得81.3分,Agent能力超越Qwen3-30B-Thinking [6] - Qwen3-4B-Instruct全面超越GPT-4.1-nano,性能接近Qwen3-30B-A3B [6] 大模型对抗赛 - OpenAI的o3以4比0完胜o4-mini,展现100%准确率 [7] - Grok 4与Gemini 2.5 Pro常规赛2比2平,加赛逼和对手晋级 [7] - 决赛由Grok 4对阵o3,国际象棋冠军Magnus Carlsen等将解说 [7] Gemini教育功能 - 推出"引导式学习"模式,通过问题分解、视觉辅助和互动测验构建知识 [8] - 为美日等国大学生提供一年免费AI Pro计划(价值200美元) [8] - 承诺三年内向美国教育投入10亿美元 [8] 具身智能技术 - Skild AI推出端到端视觉感知控制方案,实现机器人稳定爬楼梯和复杂障碍通过 [9] - 采用纯视觉输入方法,通过单一神经网络实现"本能级"动作控制 [9] - 优势在于连贯运动切换和环境适应能力,可实时调整动作应对地形 [9] 理想汽车智驾 - 推出国内首个量产VLA模型,在视觉和行为间加入语言环节使决策更拟人 [10][11] - 系统每天通过"世界模型仿真系统"行驶30万公里迭代,4B模型实现10Hz帧率 [11] - 预计辅助驾驶明年达1000MPI里程碑 [11] AI应用平台趋势 - a16z认为AI应用平台将走向专业化而非赢者通吃,形成互补共存 [12] - 市场分化为原型制作、个人软件和生产级应用三类,70%用户仅活跃于单一平台 [12] - 未来三至五年每类别将出现2-3家主导企业 [12]
小红书开源多模态大模型dots.vlm1:解锁图文理解与数学解题新能力
搜狐财经· 2025-08-07 10:31
模型开源与性能表现 - 小红书开源多模态大模型dots.vlm1 基于DeepSeek V3架构并配备自研12亿参数视觉编码器NaViT [1] - 模型在MMMU测试中得分80.11 接近Gemini 2.5 Pro的84.22和Seed-VL1.5 thinking的79.89 [5] - 在MathVision测试中达69.64分 超越Qwen2.5VL-72B的39.4分 接近Gemini 2.5 Pro的72.34分 [5] - OCR推理能力达66.23分 显著优于Qwen2.5VL-72B的38.02分 接近Seed-VL1.5的63.42分 [5] - 文本推理能力与DeepSeek-R1-0528相当 但在GPQA测试中72.78分低于Qwen3-235B-A22B-think-2507的81.1分 [4][5] 技术架构与训练 - 模型包含三大组件:12亿参数NaViT视觉编码器 轻量级MLP适配器 DeepSeek V3 MoE大语言模型 [5] - 训练分三阶段:视觉编码器预训练使用图文对和纯图像数据 VLM预训练使用大规模多模态数据集 VLM后训练通过有监督微调增强泛化能力 [5] 应用场景与能力 - 能解析复杂英文图表并计算数据 理解景区价目表规划购票方案 [6] - 可解读几何题图形颜色信息 对emoji等视觉信息进行推理 [6] - 具备文物画作背景识别能力 能分析产品配料表差异和表情包含义 [1] 开源战略与后续计划 - 模型已上传Hugging Face平台免费开放使用 [6] - 公司自6月6日起陆续开源OCR专用模型 视觉模型及奖励模型等研究成果 [6] - 后续将扩大跨模态互译数据规模 改进视觉编码器结构 探索新神经网络架构 [6] - 计划采用强化学习方法缩小文本与多模态提示的推理能力差距 [6]