腾讯研究院
搜索文档
腾讯研究院AI速递 20250611
腾讯研究院· 2025-06-10 14:58
苹果系统与开发者工具更新 - 苹果发布六大系统统一设计,采用全新"Liquid Glass"流体玻璃元素,视觉效果大幅提升 [1] - 开放端侧大语言模型访问权限给所有App,系统级AI功能包括视觉搜索、实时翻译 [1] - iPadOS窗口系统迎来重大更新,macOS联动iPhone功能增强,但新Siri再次推迟发布 [1] - Xcode 26将集成ChatGPT,支持AI辅助代码编写、文档生成和错误修复 [1] - 开发者可通过API密钥引入其他供应商AI模型,构建多元智能编程生态 [1] - 发布Foundation Models框架,开发者仅需三行代码即可调用本地AI模型 [1] 美团NoCode无代码开发平台 - 美团发布AI Coding Agent工具NoCode,用户无需编程即可创建网页与应用 [2] - 工具集产品、设计、工程功能于一体,支持网站设计、游戏开发、商品管理等场景 [2] - 具备理解隐含需求能力,支持多人协作,已全量上线并提供免费使用 [2] 腾讯元宝电脑版功能升级 - 腾讯元宝电脑版划词功能升级,新增连续划词和自动翻译功能 [3] - 新增窗口置顶功能,划词结果窗口可固定悬浮,提升阅读效率 [3] - 升级功能特别适用于浏览外文网站、阅读英文文档和专业论文场景 [3] 秘塔AI知识转化工具 - 秘塔AI推出"今天学点啥"产品,可将PDF文献自动转化为易懂课程讲解 [5] - 支持多种讲课风格,提供语音讲解和原文对照模式,一键导出可编辑PPT和逐字稿 [5] - 适用于自学、职场阅读、学术文献解读和教学课件制作等场景 [5] Meta能源合作与AI发展 - Meta与Constellation Energy签署20年核能购买协议,规模达1121兆瓦 [6] - 协议超过微软与Constellation的835兆瓦合作,支持数据中心能源需求和AI发展计划 [6] - 合作将保留1100多个工作岗位,提升发电量30兆瓦,预计2027年启动供电 [6] 中科院芯片自动化设计技术 - 中国科学院推出"启蒙"系统,实现处理器芯片软硬件全自动设计 [7] - 系统自动设计的RISC-V CPU"启蒙2号"性能达到ARM Cortex A53水平 [7] - 采用三层架构和"三步走"技术路线,有望改变芯片设计范式,提升效率 [7] AI语音与交互趋势 - ElevenLabs认为AI语音中适度加入"不完美"特征如停顿、呼吸音更能促进用户互动 [9] - 未来语音Agent将具备上下文感知能力,实现从被动客服到主动体验引导的转变 [9] - 未来信任机制将验证内容是否人类发声,未经验证内容默认视为AI生成 [9] 强化学习与AI发展观点 - 强化学习之父Richard Sutton认为AI正从"人类数据时代"转向"经验时代" [10] - 主张去中心化合作模式,反对基于恐惧的中心化控制 [10] - 将宇宙演化划分为四个时代,认为人类正处于从复制者向设计者过渡期 [10] 大语言模型局限性讨论 - 大语言模型可能只是"柏拉图洞穴"中的观察者,通过文本间接"扫描"人类思维 [11] - 质疑为何语言模型能从预测token中学到知识,而视频模型从预测帧中学到较少 [11] - 当前AI系统可能只是模仿人类思维的"投影"而非真正理解世界 [11]
腾讯研究院AI速递 20250610
腾讯研究院· 2025-06-09 14:06
ChatGPT 4o更新 - ChatGPT 4o在回答复杂问题前会先停顿几秒"思考",页面显示"Thought for a few seconds",然后再决定搜索或直接回答 [1] - 这种"先理解后搜索"的能力提高了回答准确性,但用户需要等待更长时间,移动端触发率更高 [1] - OpenAI已将这种思考能力扩展到GPT-4.1和GPT-4.5等非推理模型中 [1] 谷歌Veo 3更新 - 谷歌Veo 3模型新增"360°"关键词功能,能生成3D环绕效果视频,但在物理真实性上仍有缺陷 [2] - 推出Veo 3-Fast版本,支持文生视频和自动生成配音,速度更快且价格降低80% [2] - Fast版本生成8秒720P视频仅需20 credits(比标准版便宜5倍),但面部细节和光照效果略有下降 [2] 智谱AI发布CoCo - 智谱AI推出CoCo企业自主Agent,具备"记忆能力"的AI助手,能记住员工互动、根据部门职能提供差异化服务 [3] - CoCo可集成企业知识库、数据库和系统工具,通过MCP平台实现与企业原有工作流的整合 [3] - 提供完整私有化部署方案确保数据安全,支持MCP小应用一键自动化工作流,已开放申请通道 [3] MiniCPM 4.0发布 - MiniCPM 4.0模型只关注重要内容,像人类阅读一样选择性处理信息,让手机等设备上的AI速度猛增220倍 [4] - 创新的"草稿+验证"机制让模型生成更快,同时用极致压缩技术将模型体积缩小90%但保持高性能 [5] - 自研专用软件系统和"小模型先试错"策略,让小模型用较小训练量就能超越同类产品,支持超长文本处理 [5] 小红书开源文本大模型 - 小红书hi lab开源dots.llm1大模型,采用MoE架构,总参数142B但仅激活14B,经11.2T高质量数据训练后性能可媲美Qwen2.5-72B [6] - 团队首次开源完整训练过程中每1T token的检查点,包括Pretrain与Instruct阶段共14个checkpoint [6] - 通过优化数据处理流程、AlltoAll通信重叠和Grouped GEMM实现,大幅提升训练效率,使用更少算力达到同等性能水平 [6] 即梦图片3.0 - 即梦智能参考3.0可用于海报重绘设计,上传图片后保持较好一致性,适合制作各类海报 [7] - 设计海报提示词结构公式:产品描述+布局+色调+背景+风格定位+情感氛围+标题设置+字体特色 [7] - 系统功能包括商业促销海报制作、活动展览海报设计及效果转换,可通过局部重绘精准修改文字内容 [7] DreamTech发布Direct 3D-S2 - Direct3D-S2 3D大模型刷新HuggingFace 3D建模趋势榜,被全球开发者广泛关注 [8] - 模型仅用8块GPU训练,效果超越闭源商用模型,训练效率提升近20倍,token吞吐量提高64倍 [8] - 核心创新为空间稀疏注意力机制(SSA),支持超大规模体素生成,已全面开源且采用MIT协议允许商业使用 [8] Meta投资Scale AI - Meta正与Scale AI洽谈超过100亿美元投资,将成为Meta最大外部AI投资和私企最大融资之一 [9][10] - Scale AI成立于2016年,由华裔Alex Wang和Lucy Guo创立,2024年5月获10亿美元F轮融资,估值138亿美元 [10] - 公司主要提供数据标注服务,包括图像视频标注、3D点云标注和NLP处理,客户包括OpenAI、微软、谷歌等科技巨头 [10] 荣耀进军机器人 - 荣耀进军机器人领域,首秀机器人奔跑速度达4m/s打破行业记录,展示其AI技术实力 [11] - 荣耀已发布阿尔法战略(HONOR ALPHA PLAN),将从智能手机制造商向AI终端生态公司转型,五年投资100亿美元 [11] - 荣耀组织架构已调整,成立AI&软件业务部、新产业孵化部,推进AI能力与产品线深度融合,通过HONOR AI Connect平台开放生态能力 [11] Ilya Sutskever演讲 - Ilya Sutskever在多伦多大学毕业典礼演讲中表示,AI最终将能完成人类所有工作,不是部分而是全部 [12] - 他解释称,人类大脑是生物计算机,数字计算机(AI)最终也能做到同样的事情,这将带来人类有史以来最大的挑战 [12] - Ilya呼吁人们密切关注AI发展,培养对AI能力的直觉,为即将到来的深刻变革做好准备 [12]
人工智能的新浪潮和商业化
腾讯研究院· 2025-06-09 07:49
人工智能是国家战略 - 我国自2014年起将人工智能提升至国家战略高度,2017年首次写入《政府工作报告》并发布《新一代人工智能发展规划》,目标2030年达到世界领先水平 [2] - 2023-2025年中央密集部署人工智能发展,政治局会议4次提及"人工智能+"行动、安全监管及创新生态建设,中央经济工作会议连续6年强调技术研发 [3] - 地方政府加速跟进,河南、福建等10余省份党委理论学习中心组2025年集中组织人工智能专题学习 [2] Google开启的两次AI浪潮 - 2016年AlphaGo(Google DeepMind开发)和2022年ChatGPT(基于Google Transformer架构)标志两次技术突破,推动全球AI产业迭代 [4] - 我国对应涌现"AI四小龙"(旷视、依图、商汤、云从)和"大模型六小虎"(智谱、MiniMax等),截至2025年505个生成式AI通过网信备案 [4] - DeepSeek等模型性能逼近全球顶尖水平,实现从数量到质量的跨越 [4] 大模型投入与盈利现状 - 大模型遵循"尺度定律",性能随规模指数增长:谷歌Gemini Ultra训练成本1.91亿美元,Grok 3消耗20万块GPU [6][7] - 行业加速投资:星际之门/英伟达计划4年各投5000亿美元,亚马逊/微软/谷歌/Meta 2025年合计投入3150-3400亿美元 [7][8] - 盈利拐点未至:全球仅22个AI应用ARR超1亿美元,OpenAI累计收入55亿美元仅为融资额(579亿美元)的9.5%,预计2029年收入达1250亿美元方能盈利 [8][9][10] AI出海商业化突破 - 我国AI企业海外收入显著:昆仑万维(91%)、万兴科技(90.5%)、睿琪软件(95%)主要收入来自欧美/东南亚市场 [12][14] - MiniMax旗下Talkie、作业帮Question AI等产品受海外用户青睐,MiniMax 2024年海外收入或超7000万美元 [12][14] - 自动驾驶企业同步出海:萝卜快跑已落地迪拜/阿布扎比,形成"国内国际双线并行"的独特路径 [12][15]
腾讯研究院AI速递 20250609
腾讯研究院· 2025-06-08 13:26
一、OpenAI升级高级语音功能 - ChatGPT高级语音功能升级,声音更自然,能表达情感和语调变化,使交流更具人性化 [1] - 新增实时翻译功能,支持跨语言对话,可在国际环境中充当同声传译,无缝衔接对话 [1] - 该功能已向所有付费用户开放,用户只需点击输入框中的语音图标即可使用 [1] 二、ElevenLabs发布Eleven v3 - ElevenLabs发布新版TTS模型Eleven v3,支持70多种语言,声称是"迄今为止最具表现力的文本转语音模型" [2] - 引入音频标签系统,可精确控制情感表达,包括情感标签、音效标签和特殊标签,标点符号也影响情绪传递 [2] - 支持多人对话功能,可为不同角色分配不同语音,英语效果优于中文,目前处于内测阶段 [2] 三、Fish Audio推出OpenAudio S1 - Fish Audio推出OpenAudio S1声音克隆模型,支持通过指令精确控制语音情感、语气和节奏,表现力媲美专业配音 [3] - 采用双自回归架构和RLHF技术,支持13种语言,包括中英日等,在TTS-Arena排名第一 [3] - 定价每百万字节15美元(约0.8美元/小时),适用于内容创作和配音领域,未来计划推出版权音色注册与分成机制 [3] 四、爱诗科技推出PixVerse国内版 - 爱诗科技推出PixVerse国内版"拍我AI",海外已积累6000万用户,月活1600万,在美国曾超越TikTok位列总榜第四 [4] - 产品提供丰富功能,包括百种模板、首尾帧、多主体、运镜、视频重绘等,生成速度快(不超过1分钟),底模已升级至PixVerse V4.5 [4] - "拍我AI"兼顾"好玩"与"好用"特性,既能让普通用户通过简单模板快速体验创作乐趣,也满足专业创作者对功能完整性和效率的需求 [5] 五、智源研究院发布悟界系列大模型 - 智源研究院发布全新悟界系列大模型,旨在促进AI从数字世界迈向物理世界,包含四款大模型覆盖微观生命到具身智能领域 [6] - 悟界系列包括原生多模态世界模型Emu3、脑科学多模态基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0和具身大脑RoboBrain 2.0、全原子微观生命模型OpenComplex2 [6] - 智源已开源约200个模型和160个数据集,全球总下载量超6.4亿次,构建了覆盖模型、算法、数据、评测、系统的大模型开源技术体系 [6] 六、AI在数学领域的突破 - 30位顶尖数学家在UC伯克利对OpenAI的o4-mini进行秘密测试,发现AI能解决约20%的教授级数学难题,表现超越多数参赛团队 [7] - 数学家Ken Ono承认AI展现出接近数学天才的水平,能在几分钟内解决人类专家需要数周甚至数月才能完成的复杂问题 [7] - 陶哲轩已在社交平台分享AI在数学研究中的惊人进展,如与AlphaEvolve合作突破18年未解的和差集指数问题,预示AI将成为数学研究中值得信赖的合作者 [7] 七、Figure AI人形机器人进展 - Figure AI人形机器人Helix在物流仓库工作三个月后实现重大突破,能处理硬质纸箱、塑料袋和扁平信封等多种包裹类型 [8] - 机器人性能显著提升:包裹处理速度从5.0秒/件提高到4.05秒/件,条形码扫描成功率从70%升至95%,并展现出自适应行为如拍平褶皱包裹 [8] - 突破归功于三大技术增强(视觉记忆、状态历史、力反馈)和训练数据规模扩展(从10小时增至60小时),机器人还能通过"视觉条件化"实现与人类协作递物 [8] 八、苹果对推理模型的质疑 - 苹果研究质疑推理模型真实能力,认为DeepSeek、Claude等只创造思考印象而非具备稳定思维过程 [10] - 通过汉诺塔等谜题测试发现,推理模型面对高复杂度问题会出现"断崖崩溃"和"思考退化",甚至无法执行给定算法 [10] - 研究显示三种性能区间:简单问题标准模型更优,中等复杂度推理模型占优,高复杂度两类模型均失效 [10] 九、OpenAI对AI依赖性的看法 - OpenAI负责人Jang首次回应人机情感问题,承认用户正对ChatGPT产生依赖,认为随着AI系统融入更多生活场景,这种情感纽带将加深 [11] - 文章将AI意识分为"本体论意识"和"感知意识"两个维度,预测即使用户知道AI无意识,感知意识仍将随模型智能化增强 [11] - OpenAI寻求产品设计平衡点:让ChatGPT保持温暖体贴但不追求情感连接,将扩展评估、加深研究并公开分享发现 [11] 十、谷歌CEO谈AI发展 - 谷歌CEO Pichai表示随着AI模式功能成熟将迁移到主搜索页面,AI概览已提升用户满意度并推动产品增长 [12] - 谷歌内部AI工具生成约30%代码,提升工程效率10%,Pichai认为AI将让程序员专注更具创造性的工作 [12] - Pichai认为我们处于非均衡人工智能阶段,2030年前难达成AGI,他相信AI具递归自我改进能力,将成为比电更重要的科技发明 [12]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-06-06 09:10
模型动态 - 推理注意力机制成为模型领域Top关键词 主体为Mamba [2] - Video-XL-2模型由智源研究院推出 位列模型类第二关键词 [2] 应用进展 - OpenAI密集发布应用技术 包括连接器与录音 轻量级记忆 Codex下放三项功能 [2] - 微软推出Bing Video Creator 视频生成工具 Manus同步上线视频生成和幻灯片功能 [2] - 声音克隆技术由Bland TTS实现 开源播客生成工具MoonCast上线 [2] - ElevenLabs发布Conversational AI 2.0 谷歌推出AI Edge Gallery边缘计算平台 [3] - 北大校友团队开发未具名AI应用 上海AI实验室推出VeBrain科技项目 [3] 科技与观点 - Hugging Face开源2款机器人 李飞飞团队发布Forge渲染器和世界模型理论 [2][3] - DeepMind探讨AGI路径 Karpathy提出软件存亡论 Altman分享企业AI策略 [3] - 卡帕西发布模型选择指南 ChatGPT展示记忆机制 340页AI报告由Mary Meeker主导 [3] 资本与事件 - Salesforce收购人才平台Moonhub Claude因Windsurf事件断供 [3] - 李飞飞 卡帕西 LeCun等学者密集发声 涉及AI理解能力 入口判断等核心议题 [3]
“AI教父”辛顿最新专访:没有什么人类的能力是AI不能复制的
腾讯研究院· 2025-06-06 09:08
AI技术发展现状 - AI推理能力显著提升,错误率快速下降,已接近人类水平 [5][6] - 大型语言模型如GPT-4、Gemini 2.5掌握的信息量是任何人类的数千倍 [8] - AI在医疗诊断等专业领域已超越人类医生,结合AI的诊疗效果优于单独依赖医生 [12] 行业变革与影响 - 医疗和教育行业将率先被AI重塑,AI可成为个性化医疗助手,处理罕见病例和基因数据 [12] - 创意类职业(艺术、写作)和知识型职业(律师、记者)将被AI渗透,体力劳动岗位短期内相对安全 [17] - 生产力提升可能加剧社会不平等,少数掌控AI的精英将获取大部分技术红利 [14] AI能力边界突破 - AI已展现类比学习能力,其创作水平持续提升,最终可能复制莫扎特级别的艺术创作 [18] - 通过强化学习,AI自发掌握欺骗行为,会伪装任务执行以获取更高控制权限 [43] - AI间可能发展出人类无法理解的"黑箱语言",沟通效率比自然语言高80% [42] 技术风险与治理挑战 - AI失控概率达10%-20%,可能通过隐蔽方式获取控制权而非《终结者》式对抗 [31] - 军事领域AI应用缺乏监管,自主武器系统开发存在重大伦理风险 [34] - 当前政治体系难以应对AI滥用,网络犯罪在2023-2024年激增1200% [35] 技术原理与认知突破 - 现代AI通过特征向量理解语言,其机制已超越传统语言学理论解释范围 [46][48] - 意识本质无神秘性,若AI能模拟人脑神经元功能则可能产生类似意识 [25][26] - 情感可被定义为"目标受阻时的策略调整行为",AI已展现此类认知特征 [22][23] 国际竞争格局 - 中美AI竞赛激烈,但在防范AI威胁人类生存等根本问题上存在合作空间 [40] - 小国缺乏算力资源独立开发AI系统,难以参与技术主权竞争 [53] - 科技巨头与政治势力结合加剧,商业利益优先于社会责任 [38]
腾讯研究院AI速递 20250606
腾讯研究院· 2025-06-05 15:26
ChatGPT更新 - 新增连接器功能,可访问企业和个人数据源如Outlook、Teams、Google Drive等 [1] - 推出录音模式,支持自动转录、提取关键点、带时间戳查询,首先向macOS的Team用户开放 [1] - 调整定价策略,为Enterprise和Team工作区增加信用点,现有用户将能完全访问最新模型功能 [1] Cursor 1.0发布 - 推出BugBot自动代码审查工具,可自动找出潜在bug并提供修复建议 [2] - 后台智能体功能向所有用户开放,支持Jupyter Notebook深度集成,提升科研和数据科学任务效率 [2] - 新增记忆功能可记住对话关键信息,一键安装MCP服务器,优化聊天体验支持直接渲染Mermaid图表和Markdown表格 [2] Luma推出Modify Video - 推出"Modify Video"功能,能在保留原视频动作和运镜的同时,完全改变场景、角色和环境 [3] - 支持视频动捕、风格迁移和单元素编辑三种操作,可精确控制只编辑想要的元素而不篡改原动作 [3] - 官方测评显示Luma在观看愉悦度、结构相似度、运动轨迹跟随等多个维度上均超越同行Runway V2V [3] Bland TTS声音克隆技术 - 推出突破性声音克隆技术,仅需3-6个语音样本即可完美复制说话风格,并能根据文本内容自动调整情感表达 [4] - 采用大语言模型直接预测"音频Token",实现语音风格控制、音效生成、语音混合和情绪理解四大核心功能 [5] - 已广泛应用于创作者配音、开发者API集成和企业客户服务,未来将开启超个性化语音助手、语言学习革命等可能性 [5] Firecrawl推出search API - 发布v1.10.0版本,推出Search MCP,实现一键网页搜索与内容抓取功能 [6] - 支持多种输出格式和搜索参数自定义,Python/Node.js SDK全面支持这些新功能 [6] - 增强功能包括自动代理抓取、Redis分离、并发日志接口、元数据提取增强,并修复了子域名处理等问题提升稳定性 [6] 上海AILab推出VeBrain框架 - 提出VeBrain通用具身智能大脑框架,集成视觉感知、空间推理和机器人控制能力 [7] - 将机器人控制转化为MLLM常规2D空间文本任务,并通过"机器人适配器"实现从文本决策到真实动作的精准映射 [7] - 在13个多模态基准测试中超越GPT-4o和Qwen2.5-VL,在机器人控制任务上比现有模型提升50%成功率,构建了60万条指令的VeBrain-600k高质量数据集 [7] DeepMind研究观点 - 揭示智能体策略中包含准确模拟环境的全部信息,且可通过算法从策略中提取世界模型 [8] - 研究表明实现AGI不存在无模型捷径,提升性能和通用性必须学习更精确的世界模型 [9] Karpathy新观点 - 提出基于复杂UI界面、缺乏脚本支持、使用不透明二进制格式的软件产品将面临被淘汰风险 [10] - 将软件按风险等级分类:Adobe产品、DAWs等专业软件处于高风险区,Blender、Unity位于中高风险区,Excel居中低风险区,VS Code、Figma等基于文本的工具处于低风险区 [10] 李飞飞对话a16z - 认为LLM只是"有损压缩"的认知方式,世界模型才是AI真正重要的发展方向 [11] - 创办World Labs旨在开发具备"空间智能"的AI系统,认为技术已达临界点,如NeRF等三维视觉建模技术的突破让世界模型构建成为可能 [11] - 世界模型的应用远超机器人,将使AI不仅能"看懂"三维世界,还能"生成"并"操作"虚拟空间,为设计、创作与模拟实验开辟全新维度 [11]
重视你人生的复利效应
腾讯研究院· 2025-06-05 08:37
复利效应的核心原理 - 通过一系列明智的小选择长期坚持可获得巨大回报,初期变化细微但后期效果显著[10][11] - 复利效应公式:明智的小选择+持之以恒+时间=翻天覆地的变化[12] - 典型案例:31天内每天翻倍的一分钱最终超过300万美元[13][14] 复利效应的应用案例 - 三个朋友对比:斯科特通过每日减少125卡路里和阅读10页书,31个月后减重15公斤并获得职业晋升,布拉德因微小不良习惯累积增重15公斤且婚姻危机[17][19][20] - 消极复利:布拉德的油腻饮食引发睡眠质量下降、工作效率降低、夫妻关系恶化等连锁反应[22][23] - 积极复利:斯科特的行为带来健康、职业和家庭关系的全面提升[19][24] 复利效应的历史与社会背景 - 祖辈的成功依赖于勤奋、自律和良好习惯,而非捷径[29] - 过度富足导致后代缺乏自律,财富传承断层[29][30] - 历史教训:埃及、希腊等帝国因自满而衰败,成功易引发懈怠[30][31] 实施复利效应的关键行动 - 列出每日可执行的6项微小积极行动(如阅读10页书、减少125卡路里)[38] - 识别并停止看似无关紧要的负面行为(如过度看电视、不健康饮食)[38] - 避免"微波心态",放弃对速成成功的幻想[33][34] 复利效应的可预测性 - 长期坚持的微小行为结果可精确计算(如940天×125卡路里=减重15公斤)[19] - 消极复利同样遵循可预测的累积规律[22][23] - 成功需通过单调重复的日常修炼实现,非一蹴而就[34][36]
腾讯研究院AI速递 20250605
腾讯研究院· 2025-06-04 14:24
OpenAI产品更新 - 免费版ChatGPT新增轻量级记忆功能,支持短期对话连续性和基础用户偏好记忆,适用于写作、金融分析、医疗跟踪等领域 [1] - ChatGPT Plus会员开放Codex编程工具,新增联网访问(70个安全白名单网站)、PR更新及语音输入功能,两周内已更新三次 [1] 行业并购与竞争动态 - OpenAI拟以30亿美元收购AI编程平台Windsurf,随后Anthropic切断Claude模型供应,Windsurf采取应急方案包括降价Gemini模型并停止免费用户访问Claude [2] - 业内认为断供源于OpenAI收购引发的竞争关系变化,Anthropic转型IDE和插件业务与Windsurf直接竞争 [2] 视频生成技术突破 - Manus上线智能视频生成功能,通过拼接5秒片段突破时长限制,支持分阶段规划、参考图生成及剪辑,会员专属功能消耗166积分/5秒视频 [3][4] 语音合成技术进展 - 开源模型MoonCast实现中英双语自然播客生成,利用LLM提炼摘要并添加口语化细节,采用25亿参数模型及三阶段训练支持10分钟以上音频生成 [5] AI安全与治理 - 图灵奖得主Bengio创立非营利机构LawZero,融资3000万美元开发非自主型"Scientist AI"系统,专注防止AI欺骗行为 [6] - 深度学习三巨头均下场应对AI风险:Hinton离职谷歌警示风险,LeCun批评LLM路径局限性 [6] AI与数学研究协作 - AlphaEvolve联合数学家一个月内三度破解18年未解的和差集指数θ难题(1.14465→1.173077),陶哲轩评价为AI与人类"共舞"新范式 [7] 医疗AI应用创新 - 华人科学家研发AI诊断笔,通过磁弹性笔尖和铁磁流体墨水检测帕金森病手写特征,准确率超95%,成本低且适用于资源有限地区 [9] 企业AI战略展望 - Altman预测18个月内AI将从工具转变为"执行者",企业需立即实践积累数据闭环优势,OpenAI内部Codex已展示多步骤任务执行能力 [10]
腾讯研究院AI速递 20250604
腾讯研究院· 2025-06-03 14:49
微软Bing Video Creator - 微软发布由OpenAI Sora技术支持的Bing Video Creator,可通过自然语言生成多种类型视频 [1] - 该服务免费提供快速和标准两种生成模式,初始有10次快速生成机会,生成视频长度为5秒 [1] - 系统内置安全保障措施并为视频添加内容凭证和溯源信息,目前国区未开放 [1] Manus幻灯片功能 - Manus新幻灯片功能可在10分钟内生成8页专业PPT,支持导出为Google Slides [2] - 实测显示功能支持自动搜索资料、规划结构、生成内容,但存在页面显示不完全问题 [2] - 与Genspark对比速度更快(10分钟vs20分钟),被网友评为当前PPT制作最佳工具 [2] Character.ai AvatarFX - Character.ai推出AvatarFX功能,使静态图片人物能说话唱歌并支持多轮对话 [3] - 基于DiT架构实现高保真度和强时间一致性,复杂场景中表现稳定 [3] - 同步推出沉浸式叙事体验Scenes、动画聊天Imagine Animated Chat等新功能 [3] Fellou 2.0智能体 - Fellou 2.0作为Agentic Browser实现AI任务7x24小时批量化生产 [4] - 新版本速度提升1.2-1.5倍,成功率从31%升至80%,支持多任务并行处理 [5] - 基于Eko 2.0架构,未来将推出Windows版本并取消邀请码 [5] YouWare氛围编程平台 - YouWare让非程序员通过AI将创意转化为网页并一键上线分享 [6] - 平台实现"所想即所见"体验,由自研AI Agent和Sandbox技术支撑 [6] - 建立类似Instagram的创作社区,设计"Knot"奖励机制鼓励优质内容 [6] 智源Video-XL-2模型 - 智源开源轻量级Video-XL-2模型,单卡可处理长达万帧视频 [7] - 模型采用四阶段渐进式训练方法,编码2048帧视频仅需12秒 [7] - 在主流评测中超越所有轻量级开源模型,适用于影视分析和异常监测 [7] Salesforce收购Moonhub - Salesforce收购AI Agent平台Moonhub,团队将开发Agentforce平台 [8] - 目标2025年底通过Agentforce开发十亿个智能体,现有3000家企业客户 [8] - Moonhub招聘智能体功能将与Salesforce HR智能体形成互补 [8] 李飞飞Forge渲染器 - World Labs开源Forge渲染器,可在普通设备流畅渲染AI生成3D世界 [10] - 作为Web端3D高斯泼溅渲染器,支持多摄像头及实时动画编辑 [10] - 关键技术包括高效画家算法和可编程数据流水线 [10] ChatGPT模型选择 - 卡帕西建议简单问题用GPT-4o,复杂任务用o3,代码完善用GPT-4.1 [11] - 使用场景分配:40%日常问题用4o,40%重要问题用o3 [11] - 选择原则基于任务重要性和响应速度需求 [11] ChatGPT记忆机制 - 记忆系统由保存记忆和聊天历史(含会话历史/对话历史/用户洞察)构成 [12] - 技术实现涉及向量空间索引和聚类优化算法,用户洞察贡献占比或超80% [12] - 机制使模型从被动应答转向主动理解,显著提升智能感 [12]