可验证奖励强化学习(RLVR)

搜索文档
腾讯研究院AI速递 20250526
腾讯研究院· 2025-05-25 15:57
英伟达Blackwell GPU - 英伟达因美国出口管制在中国AI芯片市场份额从95%暴跌至50% [1] - 推出新款阉割版Blackwell GPU售价6500-8000美元远低于H20的1-1.2万美元 [1] - 新芯片采用GDDR7内存技术内存带宽约1.7TB/秒以符合出口管制限制要求 [1] Claude 4技术进展 - Claude 4采用可验证奖励强化学习(RLVR)范式在编程和数学等有清晰反馈信号的领域取得突破 [2] - 预计明年将出现能独立完成实际工作的软件工程Agent [2] - 预测到2026年底AI将具备足够的"自我意识"能执行复杂任务并判断自身能力边界 [2] Google Veo3视频生成模型 - Veo3视频生成模型实现流畅真实的动画效果和同步音效解决物理逻辑问题 [3] - 能精确呈现复杂场景细节包括流体动态、质感表现和人物动作支持多种镜头风格和特效 [3] - 已达近电影级画质支持非语言音效和多语言旁白 [3] OpenAI o3模型漏洞发现能力 - o3模型在Linux内核SMB实现中发现远程0-day漏洞CVE-2025-37899表现优于Claude Sonnet 3.7 [4] - 在3.3k行代码测试中100次运行8次成功识别已知漏洞误报率约1:4.5 [4][5] - 独立发现新UAF漏洞且洞察力超越人类专家能指出修复方案不足 [5] 字节BAGEL多模态模型 - BAGEL具备GPT-4o级图像生成能力整合图像理解、生成、编辑和3D生成于单一7B参数模型 [6] - 采用MoT架构包含两个专家模型和独立视觉编码器展现出能力涌现过程 [6] - 在多项基准测试中超越多数开源和闭源模型支持带图推理、复杂图像编辑和视角合成 [6] 腾讯"野朋友计划" - 推出AI物种识别与智能体问答交互功能可识别用户拍摄的生物并提供专业知识 [7] - 通过自然语言对话解答生物习性、迁徙规律等深度信息将专业术语转化为生活化表达 [7] - 用户上传的图片和互动内容将用于模型训练同时为科研提供数据 [7] OpenAI首款AI硬件 - 开发脖挂式设备形似iPod Shuffle无屏幕但配备摄像头和麦克风 [8] - 旨在突破屏幕界限提供更自然交互可连接手机和PC预计2027年量产 [8] - 市场上已有类似AI穿戴设备但网友对隐私安全和实用性存疑 [8] AI科学家团队新药发现 - AI科学家团队在2.5个月内发现治疗干性老年性黄斑变性的新药Ripasudil [10] - Robin多智能体系统自动化了科学发现全过程结合多个智能体完成研究流程 [10] - AI发现了人类未曾想到的治疗路径完全主导研究框架 [10] Anthropic产品开发逻辑 - 最好的AI产品往往"自下而上"生长而非计划出来从底层实验中发现潜力 [11] - 未来核心问题将从"是否AI生成"转向内容溯源、可信度与可验证性 [11] - Anthropic内部70%代码由Claude生成组织面临"非工程环节"效率瓶颈 [11] Character.AI发展观点 - 最佳AI应用尚未被发明现阶段AI领域状态类似炼金术 [12] - 通用性与易用性应并行发展Character.AI选择构建既可用又极度通用的产品 [12] - 大语言模型的价值在于利用有限训练转化为广泛应用关键挑战是计算能力 [12]