腾讯研究院

搜索文档
腾讯研究院AI速递 20250606
腾讯研究院· 2025-06-05 15:26
ChatGPT更新 - 新增连接器功能,可访问企业和个人数据源如Outlook、Teams、Google Drive等 [1] - 推出录音模式,支持自动转录、提取关键点、带时间戳查询,首先向macOS的Team用户开放 [1] - 调整定价策略,为Enterprise和Team工作区增加信用点,现有用户将能完全访问最新模型功能 [1] Cursor 1.0发布 - 推出BugBot自动代码审查工具,可自动找出潜在bug并提供修复建议 [2] - 后台智能体功能向所有用户开放,支持Jupyter Notebook深度集成,提升科研和数据科学任务效率 [2] - 新增记忆功能可记住对话关键信息,一键安装MCP服务器,优化聊天体验支持直接渲染Mermaid图表和Markdown表格 [2] Luma推出Modify Video - 推出"Modify Video"功能,能在保留原视频动作和运镜的同时,完全改变场景、角色和环境 [3] - 支持视频动捕、风格迁移和单元素编辑三种操作,可精确控制只编辑想要的元素而不篡改原动作 [3] - 官方测评显示Luma在观看愉悦度、结构相似度、运动轨迹跟随等多个维度上均超越同行Runway V2V [3] Bland TTS声音克隆技术 - 推出突破性声音克隆技术,仅需3-6个语音样本即可完美复制说话风格,并能根据文本内容自动调整情感表达 [4] - 采用大语言模型直接预测"音频Token",实现语音风格控制、音效生成、语音混合和情绪理解四大核心功能 [5] - 已广泛应用于创作者配音、开发者API集成和企业客户服务,未来将开启超个性化语音助手、语言学习革命等可能性 [5] Firecrawl推出search API - 发布v1.10.0版本,推出Search MCP,实现一键网页搜索与内容抓取功能 [6] - 支持多种输出格式和搜索参数自定义,Python/Node.js SDK全面支持这些新功能 [6] - 增强功能包括自动代理抓取、Redis分离、并发日志接口、元数据提取增强,并修复了子域名处理等问题提升稳定性 [6] 上海AILab推出VeBrain框架 - 提出VeBrain通用具身智能大脑框架,集成视觉感知、空间推理和机器人控制能力 [7] - 将机器人控制转化为MLLM常规2D空间文本任务,并通过"机器人适配器"实现从文本决策到真实动作的精准映射 [7] - 在13个多模态基准测试中超越GPT-4o和Qwen2.5-VL,在机器人控制任务上比现有模型提升50%成功率,构建了60万条指令的VeBrain-600k高质量数据集 [7] DeepMind研究观点 - 揭示智能体策略中包含准确模拟环境的全部信息,且可通过算法从策略中提取世界模型 [8] - 研究表明实现AGI不存在无模型捷径,提升性能和通用性必须学习更精确的世界模型 [9] Karpathy新观点 - 提出基于复杂UI界面、缺乏脚本支持、使用不透明二进制格式的软件产品将面临被淘汰风险 [10] - 将软件按风险等级分类:Adobe产品、DAWs等专业软件处于高风险区,Blender、Unity位于中高风险区,Excel居中低风险区,VS Code、Figma等基于文本的工具处于低风险区 [10] 李飞飞对话a16z - 认为LLM只是"有损压缩"的认知方式,世界模型才是AI真正重要的发展方向 [11] - 创办World Labs旨在开发具备"空间智能"的AI系统,认为技术已达临界点,如NeRF等三维视觉建模技术的突破让世界模型构建成为可能 [11] - 世界模型的应用远超机器人,将使AI不仅能"看懂"三维世界,还能"生成"并"操作"虚拟空间,为设计、创作与模拟实验开辟全新维度 [11]
重视你人生的复利效应
腾讯研究院· 2025-06-05 08:37
复利效应的核心原理 - 通过一系列明智的小选择长期坚持可获得巨大回报,初期变化细微但后期效果显著[10][11] - 复利效应公式:明智的小选择+持之以恒+时间=翻天覆地的变化[12] - 典型案例:31天内每天翻倍的一分钱最终超过300万美元[13][14] 复利效应的应用案例 - 三个朋友对比:斯科特通过每日减少125卡路里和阅读10页书,31个月后减重15公斤并获得职业晋升,布拉德因微小不良习惯累积增重15公斤且婚姻危机[17][19][20] - 消极复利:布拉德的油腻饮食引发睡眠质量下降、工作效率降低、夫妻关系恶化等连锁反应[22][23] - 积极复利:斯科特的行为带来健康、职业和家庭关系的全面提升[19][24] 复利效应的历史与社会背景 - 祖辈的成功依赖于勤奋、自律和良好习惯,而非捷径[29] - 过度富足导致后代缺乏自律,财富传承断层[29][30] - 历史教训:埃及、希腊等帝国因自满而衰败,成功易引发懈怠[30][31] 实施复利效应的关键行动 - 列出每日可执行的6项微小积极行动(如阅读10页书、减少125卡路里)[38] - 识别并停止看似无关紧要的负面行为(如过度看电视、不健康饮食)[38] - 避免"微波心态",放弃对速成成功的幻想[33][34] 复利效应的可预测性 - 长期坚持的微小行为结果可精确计算(如940天×125卡路里=减重15公斤)[19] - 消极复利同样遵循可预测的累积规律[22][23] - 成功需通过单调重复的日常修炼实现,非一蹴而就[34][36]
腾讯研究院AI速递 20250605
腾讯研究院· 2025-06-04 14:24
OpenAI产品更新 - 免费版ChatGPT新增轻量级记忆功能,支持短期对话连续性和基础用户偏好记忆,适用于写作、金融分析、医疗跟踪等领域 [1] - ChatGPT Plus会员开放Codex编程工具,新增联网访问(70个安全白名单网站)、PR更新及语音输入功能,两周内已更新三次 [1] 行业并购与竞争动态 - OpenAI拟以30亿美元收购AI编程平台Windsurf,随后Anthropic切断Claude模型供应,Windsurf采取应急方案包括降价Gemini模型并停止免费用户访问Claude [2] - 业内认为断供源于OpenAI收购引发的竞争关系变化,Anthropic转型IDE和插件业务与Windsurf直接竞争 [2] 视频生成技术突破 - Manus上线智能视频生成功能,通过拼接5秒片段突破时长限制,支持分阶段规划、参考图生成及剪辑,会员专属功能消耗166积分/5秒视频 [3][4] 语音合成技术进展 - 开源模型MoonCast实现中英双语自然播客生成,利用LLM提炼摘要并添加口语化细节,采用25亿参数模型及三阶段训练支持10分钟以上音频生成 [5] AI安全与治理 - 图灵奖得主Bengio创立非营利机构LawZero,融资3000万美元开发非自主型"Scientist AI"系统,专注防止AI欺骗行为 [6] - 深度学习三巨头均下场应对AI风险:Hinton离职谷歌警示风险,LeCun批评LLM路径局限性 [6] AI与数学研究协作 - AlphaEvolve联合数学家一个月内三度破解18年未解的和差集指数θ难题(1.14465→1.173077),陶哲轩评价为AI与人类"共舞"新范式 [7] 医疗AI应用创新 - 华人科学家研发AI诊断笔,通过磁弹性笔尖和铁磁流体墨水检测帕金森病手写特征,准确率超95%,成本低且适用于资源有限地区 [9] 企业AI战略展望 - Altman预测18个月内AI将从工具转变为"执行者",企业需立即实践积累数据闭环优势,OpenAI内部Codex已展示多步骤任务执行能力 [10]
腾讯研究院AI速递 20250604
腾讯研究院· 2025-06-03 14:49
微软Bing Video Creator - 微软发布由OpenAI Sora技术支持的Bing Video Creator,可通过自然语言生成多种类型视频 [1] - 该服务免费提供快速和标准两种生成模式,初始有10次快速生成机会,生成视频长度为5秒 [1] - 系统内置安全保障措施并为视频添加内容凭证和溯源信息,目前国区未开放 [1] Manus幻灯片功能 - Manus新幻灯片功能可在10分钟内生成8页专业PPT,支持导出为Google Slides [2] - 实测显示功能支持自动搜索资料、规划结构、生成内容,但存在页面显示不完全问题 [2] - 与Genspark对比速度更快(10分钟vs20分钟),被网友评为当前PPT制作最佳工具 [2] Character.ai AvatarFX - Character.ai推出AvatarFX功能,使静态图片人物能说话唱歌并支持多轮对话 [3] - 基于DiT架构实现高保真度和强时间一致性,复杂场景中表现稳定 [3] - 同步推出沉浸式叙事体验Scenes、动画聊天Imagine Animated Chat等新功能 [3] Fellou 2.0智能体 - Fellou 2.0作为Agentic Browser实现AI任务7x24小时批量化生产 [4] - 新版本速度提升1.2-1.5倍,成功率从31%升至80%,支持多任务并行处理 [5] - 基于Eko 2.0架构,未来将推出Windows版本并取消邀请码 [5] YouWare氛围编程平台 - YouWare让非程序员通过AI将创意转化为网页并一键上线分享 [6] - 平台实现"所想即所见"体验,由自研AI Agent和Sandbox技术支撑 [6] - 建立类似Instagram的创作社区,设计"Knot"奖励机制鼓励优质内容 [6] 智源Video-XL-2模型 - 智源开源轻量级Video-XL-2模型,单卡可处理长达万帧视频 [7] - 模型采用四阶段渐进式训练方法,编码2048帧视频仅需12秒 [7] - 在主流评测中超越所有轻量级开源模型,适用于影视分析和异常监测 [7] Salesforce收购Moonhub - Salesforce收购AI Agent平台Moonhub,团队将开发Agentforce平台 [8] - 目标2025年底通过Agentforce开发十亿个智能体,现有3000家企业客户 [8] - Moonhub招聘智能体功能将与Salesforce HR智能体形成互补 [8] 李飞飞Forge渲染器 - World Labs开源Forge渲染器,可在普通设备流畅渲染AI生成3D世界 [10] - 作为Web端3D高斯泼溅渲染器,支持多摄像头及实时动画编辑 [10] - 关键技术包括高效画家算法和可编程数据流水线 [10] ChatGPT模型选择 - 卡帕西建议简单问题用GPT-4o,复杂任务用o3,代码完善用GPT-4.1 [11] - 使用场景分配:40%日常问题用4o,40%重要问题用o3 [11] - 选择原则基于任务重要性和响应速度需求 [11] ChatGPT记忆机制 - 记忆系统由保存记忆和聊天历史(含会话历史/对话历史/用户洞察)构成 [12] - 技术实现涉及向量空间索引和聚类优化算法,用户洞察贡献占比或超80% [12] - 机制使模型从被动应答转向主动理解,显著提升智能感 [12]
探元计划郑州站|AI助力太极焕活,解锁非遗传承新范式
腾讯研究院· 2025-06-03 08:15
探元计划2024太极拳场景共创项目 - 项目聚焦数字科技与太极拳融合,通过AI解锁非遗传承新路径,推动技术效能优化和文化价值挖掘[1] - 由中国文物信息咨询中心、腾讯SSV数字文化实验室等联合发起,旨在深化文化遗产数字化保护[2] - 采用深度学习姿态识别实现3D重建,智能分析连续动作完成多维评估,助力传承年轻化与数字化[2][10] 技术实施方案 - 华邮数字文化研究院推动基于三维人体姿态智能评估的数字化解决方案[10] - 通过深度学习实现精细动作捕捉,提升连续动作处理的完整性与稳定性[10] - 创新集成软硬件技术,打造数字文化体验空间,延伸至健康服务与文旅场景[10] 项目进展与成果 - 已在太极拳发源地陈家沟开展实地调研,专家体验AI身体评估和智能太极运动一体机等设备[4] - 项目成果将于6月底在陈家沟和河南非遗美学馆亮相,展示数字化太极拳场景[16] - 计划利用互联网优势推动太极拳国际化传播[6] 行业专家观点 - 太极拳专委会主任强调数字化让传承走得更远,鼓励传承人主动拥抱新技术[6] - 腾讯高管指出智能化手段成为太极拳传播重要推手,该项目对非遗传承具重要意义[7] - 专家建议通过故事化呈现和IP塑造推动太极文化年轻化与国际化[14] 项目创新价值 - 作为探元计划2024唯一入选非遗项目,入选六大文化共创场景[10] - 突破传统技艺边界,创新健康服务与文旅融合场景[10] - 聚集数十家机构专家共同研讨技术创新、文化展示和持续运营策略[12][14]
全球AI原生企业:基本格局、生态特点与核心策略
腾讯研究院· 2025-06-03 08:15
全球AI原生企业生态全景概览 - 全球生成式人工智能领域形成以OpenAI、Anthropic和谷歌为核心的三大基础模型生态阵营,分别以开放多元、安全企业级应用和技术赋能垂直创新为特点 [3] - OpenAI生态规模最大,聚集81家初创企业,总估值634.6亿美元,覆盖AI搜索、内容生成、法律服务等广泛领域 [3] - Anthropic生态聚焦企业级市场,聚集32家企业估值501.1亿美元,典型应用包括知识管理、合规审查等高安全需求场景 [4] - 谷歌生态规模最小但增速快,18家企业总估值127.5亿美元,依托全栈技术底座在创意生成、营销优化等细分赛道表现突出 [4][5] 多模型接入与自研模型策略 - 部分AI原生企业采用多模型接入策略,如Hebbia同时使用Anthropic和OpenAI模型,以兼享安全性和市场拓展优势 [6] - 多模型接入企业普遍采用B2B2B模式,聚焦数据、营销、金融等B端场景,典型企业包括Glean、Kindo、Clay等 [7] - 自研模型企业分为两类:通用大模型开发商(如xAI、Cohere)和垂直领域专家(如Midjourney专注内容生成、Physical Intelligence探索具身智能) [8] 三大生态阵营的差异化布局 核心定位 - OpenAI定位"通用AI工具平台",通过插件与API生态构建超级入口 [12] - Anthropic定位"安全导向的企业级AI服务商",强调模型稳定性与合规性 [12] - Google通过Gemini实现全栈一体化,深度整合搜索、办公套件等原生生态 [13] 开发者策略 - OpenAI提供API、SDK及收益分成机制,依赖微软完成行业定制 [14] - Anthropic以安全协议为核心,推出MCP协议支持企业深度集成 [15] - Google构建全栈开发环境,通过Agents服务和A2A协议支持多智能体协作 [16] 渠道策略 - OpenAI采用联盟+自有入口双轨制,ChatGPT周活跃用户达5亿 [17][18] - Anthropic依托AWS、Google Cloud等云平台分发,通过Slack等第三方工具集成 [19] - Google将Gemini预装至Gmail、Android等核心产品,形成全渠道闭环 [20] 行业渗透 - OpenAI覆盖医疗、法律、金融等多行业,但依赖合作伙伴完成落地 [21] - Anthropic在法律、金融、安防等高合规领域建立口碑 [22] - Google通过Med-PaLM等专用模型深耕医疗、安全等优势领域,同时全面覆盖制造业、教育等行业 [23] 价格策略 - OpenAI采用API计费+订阅模式,逐步降价转向生态规模优先 [24] - Anthropic采取价值导向定价,通过服务质量和定制支持绑定高价值客户 [25][26] - Google依托自研芯片成本优势实施低价捆绑,Gemini API价格仅为GPT-4的1/13 [27] 行业发展趋势 - 当前生态壁垒和用户粘性仍处初步形成阶段,技术更迭与产品体验演进将持续影响格局 [28]
腾讯研究院AI速递 20250603
腾讯研究院· 2025-06-02 15:08
注意力机制优化 - Mamba核心作者提出GTA和GLA两种推理定制注意力机制,解码速度和吞吐量最高提升2倍 [1] - GTA可减少50% KV缓存使用,GLA比DeepSeek的MLA解码更快,优化内存和计算逻辑同时保持生成质量 [1] AI Agent技术突破 - Flowith的Agent Neo支持无限执行和产出,具备百万级token上下文能力,解决AI记忆问题 [2] - Agent Neo集成3D、语音、视频等多模态生成管理功能 [2] - Fairies通用AI Agent支持1000种操作,兼容GPT 4.1等主流模型,专业版每月20美元 [4][5] 多模态与图像处理 - FLUX.1 Kontext实现角色一致性保持,生成速度约10秒,支持物体修改和背景替换 [3] - 当前局限包括多轮编辑质量退化、无法参考多图像,需遵循明确保留内容的提示原则 [3] 语音交互与边缘计算 - ElevenLabs Conversational AI 2.0识别语气词意图,集成多语言和RAG技术,支持企业级应用 [6] - Google AI Edge Gallery开源手机本地AI运行器,支持离线图像生成和代码编写,性能依赖设备配置 [7] 机器人硬件与成本趋势 - Hugging Face发布250美元开源人形机器人Reachy Mini,全尺寸HopeJR含66个驱动自由度 [8] - AI推理成本两年内下降99.7%,中国模型成本或为GPT-4.5的0.2%,DeepSee等快速崛起 [9] 行业生态与战略布局 - OpenAI企业服务付费席位超300万(增长50%),推进国家级AI架构"Stargate" [9] - 下一代AI入口将转向全能智能体,OpenAI与Jony Ive合作开发环境化交互硬件 [9] 认知研究与技术瓶颈 - LeCun团队揭示LLM在精细语义任务中失效,与人类认知存在本质差异 [10] - 研究质疑单纯扩大模型规模实现AGI的路径,需重新设计优化目标 [10]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-05-30 18:51
芯片与算力 - 英伟达推出「阉割版」GPU [2] - 海光信息并购中科曙光以增强算力 [2] 模型发展 - DeepSeek开源新版R1模型 [2] - Odyssey发布世界模型 [2] - Claude Opus攻破30年历史的bug [2] - 阿里推出QwenLong-L1-32B模型 [2] - Google发布Gemma变体模型 [2] - Claude采用RLVR范式 [2] - 字节推出BAGEL模型 [2] - 红杉中国推出xbench基准测试 [2] 应用创新 - 可灵更新至2.1版本 [2] - 腾讯多产品接入R1模型 [2] - Opera推出Neon浏览器 [2] - VAST升级Tripo Studio [2] - Zochi推出AI Scientist [2] - Claude新增语音模式 [2] - AKOOL推出实时摄像头功能 [2] - 腾讯混元发布HunyuanVideo-Avatar [2] - 扣子空间推出文本生成播客功能 [2] - 腾讯元宝整合读书app功能 [2] - 阿联酋提供ChatGPT Plus免费服务 [2] - OpenAI推出GPT-4o唱歌功能 [3] - Kyutai开发模块化语音AI [3] - 秘塔AI搜索推出极速模型 [3] - 雷鸟发布AI眼镜X3 Pro [3] - VideoTutor推出AI老师功能 [3] - 企业微信推出智能机器人 [3] - Google发布Veo3实测功能 [3] - OpenAI发现o3l漏洞 [3] - 腾讯启动野朋友计划 [3] - OpenAI爆料AI项链 [3] 科技进展 - 优理奇推出Wanda 2.0 [3] - 波士顿动力升级Atlas机器人 [3] - SpaceX完成星舰九飞 [3] - 北航开发UAV-FlowColosseo [3] - 杭州举办机器人格斗比赛 [3] - 苹果更新iOS 19系统 [3] - AI科学家团队研发治盲新药 [3] 行业观点 - Google讨论AI平台变革 [3] - Claude4核心成员探讨长程任务能力 [3] - NVIDIA提供AI就业建议 [3] - Anthropic预测白领工作自动化 [3] - Anthropic分析AI产品生长逻辑 [3] - Character.AI被评为最佳AI应用 [3] 资本动态 - Salesforce收购Informatica [3] - SpAItial获得3D生成融资 [3] - Lilian Weng投资Thinking Machines [3] 行业事件 - Meta面临人才流失问题 [3]
腾讯司晓:大模型时代,内容产业智变新浪潮
腾讯研究院· 2025-05-30 06:36
大模型技术对文化内容产业的变革 - 大模型技术从"工具赋能"跃升为"生态重构",推动文化内容产业从"专业主导"向"全民共创"跨越,加速文化传承与创新的深度融合 [1] - 生成式人工智能发展迅猛,2022年底ChatGPT面世后,Midjourney、Gemini、Deepseek R1、Grok3等主流大模型密集发布,技术以"天"为单位进化 [2] - 文化内容行业成为智能实践的先锋领域,传媒、游戏等板块对大模型的应用程度在十多个不同行业中处于中上游位置 [2] 多模态技术突破 - 腾讯混元文生图能力实现跨越式升级,混元图像2.0支持边输入文字边实时生成图像,大幅优化用户体验 [5] - 文生视频领域进步明显,主流模型如混元、可灵、谷歌Veo3逐步解决手部穿模等画面缺陷,生成视频的连贯性与物理模拟能力显著增强 [5] - 腾讯混元3D生成模型2.5版本总参数量提升10倍,能够实现超高清的几何细节建模,结合家用3D打印机可制作原创玩具模型 [5] 大模型的理解与交互能力 - GPT-4o大模型具备基于视觉与推理能力的实现方式,能够准确识别物体类型和数量 [7] - 谷歌Project Astra可通过眼镜或手机指导日常操作,与现实世界实现更自然交互 [7] 内容生产范式革命 - 大模型降低表达能力门槛,用户无需专业学习即可创作复杂形态内容,创意变得易得 [11] - 阅文等平台可能形成"千人千面"的创作模式,读者可主动"许愿"剧情发展 [11] - AI平权时代推动生产效率大幅提升,创意与表达供给量趋于无穷大,催生"超级创作个体" [11] 行业应用案例 - 上海民族乐团与腾讯音乐合作打造全国首台国乐AI音乐会《零·壹 |中国色》,实现生成内容从形似到神似的跨越 [12] - 中国传媒大学师生制作AI短片《电火花之舞》获麻省理工学院AI电影节最佳叙事奖 [12] 技术可信与普惠 - 腾讯与出版机构合作构建出版智能体,如人民卫生出版社"人卫知识服务"智能体提供权威医学解答 [16] - 微信读书升级"AI问书"功能,快速定位生僻古语出处并展示相关图书链接 [16] - 腾讯开展"云游敦煌""云游长城""数字藏经洞"等项目,推动科技活化传统文化 [16] 文旅创新实践 - "探元计划"推动前沿技术与文旅应用场景匹配,如香港九龙城数字化项目融入专家级智能体,提供游戏化交互体验 [17] 知识管理与服务 - 腾讯研究院搭建AGI知识库,通过"人工+AI"方式每日整理全球AI资讯,生成内容更具可信度 [20]
腾讯研究院AI速递 20250530
腾讯研究院· 2025-05-29 15:55
开源AI模型 - DeepSeek-R1新版本开源,编程能力超越Claude 4 Sonnet,与o4-mini性能相当 [1] - 新模型具备深度推理能力、自然文本生成、支持30-60分钟长时思考,能完美执行复杂代码 [1] - 实测在3D动画、网站设计和复杂推理问题上表现优异,思考过程更稳定,能处理长链条推理 [1] AI视频创作 - 可灵2.1上线,价格降低65%,效果和速度均有提升,形成标准版、高品质版、大师版三档分层 [2] - 高品质版效果媲美旧版大师版,支持1080P画质,运动效果出色,但仅支持图生视频 [2] - 新版本性价比显著提升,普通用户适合选择高品质版,商业级制作可搭配大师版 [2] 腾讯产品AI升级 - 腾讯元宝、ima、搜狗输入法、QQ浏览器等产品接入DeepSeek R1最新版,从开源到上线仅用不到1天 [3] - 用户可在腾讯多款产品中选择DeepSeek模型R1深度思考,实现免费不限量使用 [3] - 腾讯坚持双模型驱动,选择更先进的模型并第一时间部署上线 [3] AI浏览器创新 - Opera发布首款"AI Agent"浏览器Opera Neon,重新定义浏览器在代理网络中的角色 [4] - Opera Neon由Neon Chat(聊天)、Neon Do(执行网页任务)和Neon Make(复杂创作)三大功能组成 [4] - Neon Make利用云技术执行复杂任务如生成报告、设计游戏原型和构建Web应用,离线时也能工作 [4] 3D大模型升级 - VAST升级Tripo Studio,推出智能部件分割、贴图魔法笔刷、智能低模生成和万物自动绑骨四大功能 [5] - 智能部件分割实现一键拆建,智能低模生成在保留细节前提下大幅减少面数 [5] - 万物自动绑骨功能能快速完成骨骼权重分配,非专业人士也能完成全流程3D创作,效率提升10倍以上 [5] 自动驾驶与实时视频生成 - 自动驾驶大牛创立Odyssey,推出世界模型实现视频实时生成,速度达40毫秒/帧,支持实时交互 [6] - 该技术通过真实生活视频学习像素和动作,采用窄分布模型架构解决自回归建模挑战 [6] - Odyssey已获2700万美元融资,预览版由H100 GPU集群支持,输出30FPS的5分钟连贯交互视频 [6] AI科学研究 - AI科学家Zochi的论文被顶会ACL主会录用,成为首个独立通过A*级别会议同行评审的AI系统 [7] - Zochi的论文展示了多轮攻击方法,在GPT-3.5上成功率达100%,GPT-4上达97% [7] - Zochi能自主完成从文献分析到同行评审的科学研究过程,论文质量高 [7] 具身机器人商业化 - 优理奇推出轮式双臂机器人Wanda 2.0,售价8.8万元起,已量产交付,具备自主完成复杂长序列任务的能力 [8] - Wanda 2.0搭载融合触觉的预训练多模态大模型UniTouch和长序列任务规划模型UniCortex [8] - 优理奇通过全栈自研降低70%成本,面向类C端小B客户市场,已完成数亿元融资 [8] 机器人技术升级 - 波士顿动力Atlas机器人升级,具备3D空间感知和实时物体追踪能力,可360°旋转头部和腰部 [9] - 技术核心包括2D物体检测系统、基于关键点的3D空间定位以及SuperTracker物体位姿跟踪系统 [9] - 系统融合运动学数据、视觉数据和力反馈,实现精确手眼协调,团队正致力于构建统一基础模型 [9] AI行业趋势 - Google CEO Pichai认为AI是比互联网更大的平台级变革,未来将走向多终端并行 [10] - AI进入构建可用产品的第二阶段,搜索正转变为能代表用户执行任务的Agent [10] - AI带来的关键变革在于交互方式转变和创作门槛降低,第三阶段将是AI与物理世界结合 [10]