量子位
搜索文档
文献、报告、合同翻译的老大难被国产工具治了?三大翻译神器横评后,这家稳得离谱
量子位· 2025-11-19 06:20
核心观点 - 百度文档翻译在翻译准确性、AI辅助功能和排版还原度方面表现优于Google翻译和DeepL,尤其在处理学术论文等专业文档时优势明显 [59] 通用场景翻译能力 - 百度文档翻译将功能细分为通用场景、AI论文精翻、AI译后编辑、arXiv在线翻译四个专区,并内置覆盖10+专业领域的翻译模型 [8] - 产品支持200+种语言互译,专业翻译准确率高达90% [17] - 在学术论文翻译测试中,百度文档翻译对"examples"等术语的翻译更贴合学术语境,译为"样本"而非"示例" [17] - 产品支持图片内文字识别与翻译,以及表格内容翻译,能处理图文混排的复杂文档 [18][20] - 支持直接输入arXiv论文链接进行一键全文翻译,省去下载和格式转换步骤 [21] AI辅助功能 - 百度文档翻译在翻译界面右侧提供AI助手,支持快速回答、专业回答、深度思考三种模式 [26] - AI助手能总结论文的创新点、研究方法和结论,并支持逐句提问解答具体内容 [28][30] - 具备一键润色功能,可优化翻译文本的语句表达,减少机翻痕迹 [32] - 能够对论文中的专业术语进行详细解释 [34] - 相比之下,Google翻译不支持AI功能,DeepL的Write功能仅提供基础润色,智能程度有限 [24] 排版还原与编辑能力 - 百度文档翻译在公式、图表、字体样式、段落间距等方面几乎实现1:1原文格式还原 [43] - 支持上传最大200M的文件,并支持Word、PDF、PPT等多种格式的导入和导出 [44] - 提供"AI译后编辑"功能,支持在保留原文格式的基础上逐句对照修改,可进行加粗、倾斜、划线等操作 [52][54] - 提供表格视图模式,便于逐段审阅和编辑,并自动核查术语准确性 [55] - Google翻译仅支持标记原文,DeepL不支持翻译后编辑 [49]
Gemini 3打服奥特曼马斯克,谷歌CEO却在担心AI泡沫
量子位· 2025-11-19 05:02
谷歌CEO对AI行业的观点 - 谷歌CEO皮猜认为当前万亿美元AI投资热潮存在“非理性因素”,并警告AI泡沫一旦破裂将无人幸免 [3][29] - 其将当前AI热潮与2000年的“互联网泡沫”相提并论,但同时也承认AI技术具有深远意义,如同互联网一样将产生巨大影响 [29][30][31] - 皮猜建议对AI信息保持审慎,不要盲目相信AI提供的信息,并应借助搜索等其他工具进行验证 [33][34] 科技巨头AI投资动态 - Meta将其2025年资本支出预期从660-720亿美元上调至700-720亿美元,并预计2026年支出增长将“显著高于”今年 [10][11] - 微软截至9月30日的资本支出总额为349亿美元,高于分析师预期及上一季度的240亿美元 [15] - 谷歌和YouTube的母公司Alphabet将今年营收预期从850亿美元上调至910-930亿美元,几乎是其2024年资本支出的两倍 [18][19] AI行业估值与市场表现 - 英伟达成为首家市值突破5万亿美元大关的公司,其市值约等于A股总市值的近三分之一 [20][21] - OpenAI通过员工股份二级转售估值达5000亿美元,较今年3月的3000亿美元估值增长近67% [23] - 尽管估值高企,OpenAI最新季度亏损达115亿美元,并对主要投资者微软的净利润造成31亿美元的负面影响 [24][25][26] 行业竞争与战略方向 - Meta首席执行官扎克伯格表示看到AI带来的巨大机遇,并指出当前应用程序和广告业务处于计算资源匮乏状态,需要加快AI进程 [12][13] - 微软CEO纳德拉强调公司将继续加大对AI的资金和人才投入以抓住未来机遇 [16] - 谷歌将Gemini模型与搜索能力整合,以降低AI回答错误率,并视此为“AI平台转型”的新阶段 [35][36]
周靖人署名,通义实验室开源智能体自进化系统:让模型学会“自我反思”,14B也能越级打怪
量子位· 2025-11-19 05:02
核心观点 - 公司开源了名为AgentEvolver的智能体自进化系统,该系统通过自我提问、自我导航、自我归因三大模块,使智能体能在开放环境中自主演化行为能力 [2] - 该系统在14B模型上将任务平均完成率从29.8%大幅提升至57.6%,性能近乎翻倍,并展现出卓越的跨域泛化能力和高效学习特性 [2][4] 性能表现 - 在14B模型上,AgentEvolver将基准模型的任务平均完成率(avg@8)从29.8%提升至57.6%,最佳尝试(best@8)指标达到76.7% [4] - 在7B模型上,平均完成率从15.8%跃升至45.2%,证明该框架对不同规模模型具有普适性增强能力 [5] - 强化后的14B模型在特定任务上表现已超越未优化的32B乃至更大参数模型,实现越级挑战 [5] - 学习效率极速收敛,达到基线模型90%性能水平时,训练步数在AppWorld任务中减少55.6%,在BFCL任务中减少66.7% [7][8] 技术架构与机制 - 系统本质是利用大语言模型自身理解力,构建数据-探索-反馈的自动化流程,由Master节点统一调度任务生成、轨迹采样、经验总结和模型优化四个阶段 [13][15] - 采用服务化解耦设计,将环境服务、模型服务和执行层拆分为独立服务以支持大规模训练 [16] - 引入上下文管理器应对长程任务挑战,支持基础因果、推理增强、滑动窗口及自主上下文管理四种范式 [18] - 通过自我提问机制主动合成候选任务构建训练课程,打破对外部数据的依赖 [21][23] - 通过自我导航机制将历史探索轨迹抽象为结构化文本经验,使智能体具备举一反三能力,提高探索成功率 [24][25][26][28] - 通过自我归因机制引入基于大语言模型的过程奖励模型,对每个动作步骤进行细粒度因果分析和打分,提升策略优化样本效率 [30][31][33] 泛化能力 - 仅使用合成数据训练的模型迁移到全新领域时性能衰减微乎其微,例如在AppWorld上训练的模型直接用于解决BFCL任务时表现良好 [9][10] - 跨域泛化性极强,表明系统真正掌握了通用的工具使用与推理逻辑能力,而非记忆特定环境题库 [11]
谷歌抢跑L3级AI,Gemini连续工作40分钟,Agent自动生成评审百条创意
量子位· 2025-11-19 01:37
文章核心观点 - 谷歌Gemini企业版通过多智能体竞赛系统和长时思考能力,在单一任务上实现连续40分钟自主运行,标志着公司在L3级代理型AI的实践上取得领先突破 [1][2][3][4][6][7][10][11][12][19][20][21][26][27][29][30][31][32][33][35][36][37] 多智能体竞赛系统技术架构 - 系统整合多智能体工作流、长时思考与对抗式生成三大要素,通过"时间换质量"策略提升输出内容的结构化程度与洞察力 [10][11][12] - 具体流程包括:接收主题与评估标准后大规模生成100+初始创意,再由多个智能体以竞赛方式评分排序,最终产出附带概述、细节、评论及完整评审记录的结构化报告 [13][14][15] - 系统在正式运行前会先提供"计划评估项目和创意维度"概要,需用户确认后才执行任务,以优化需求确认与算力使用效率 [21] 应用场景与产品化进展 - 当前预览版推出创意生成与合作科研两大场景:前者针对主题生成排序创意,后者侧重科研任务的数据驱动评估 [17][18] - 同步测试的文档对话智能体支持上传最大30MB的PDF文件,将长文档内容整合至模型上下文,提升信息提取质量 [23][25][26] - 功能均集成于Gemini企业版,虽处开发阶段,但已展现通过企业级算力支撑复杂任务执行与迭代优化的能力 [26][32] L3级AI行业意义与发展趋势 - L3级AI核心定义为"代理能力",要求AI在用户授权下自主执行任务并持续运行多天,Gemini的40分钟连续运行为行业向L3迈进提供实践范本 [27][29][30][31][32] - 行业预测显示技术迭代加速:网友推测明年可能出现连续工作3小时的智能体,Anthropic则给出2026年实现8小时连续运行的时间线 [33][35] - 长期展望认为人类角色将逐步聚焦于问题设计与标准制定,Agent有望通过持续进化触及L4级创新者门槛 [36][37]
谷歌Gemini 3把GPT-5.1打成计量单位!马斯克奥特曼都服了
量子位· 2025-11-19 01:37
模型性能突破 - 谷歌Gemini 3 Pro在几乎所有基准测试中超越GPT-5.1和Claude4.5,包括专为AGI准备的测试[1] - 新模型在Humanity's Last Exam测试中,无工具条件下得分37.5%,使用搜索和代码执行后提升至45.8%,显著高于GPT-5.1的26.5%[2] - 在视觉推理ARC-AGI-2测试中得分31.1%,远超Gemini 2.5 Pro的4.9%和GPT-5.1的17.6%[2] - 数学能力表现突出,AIME 2025测试无工具条件下得分95.0%,使用代码执行后达到满分100%[2] - 在极具挑战性的MathArena Apex数学竞赛问题测试中得分23.4%,而Gemini 2.5 Pro仅0.5%,GPT-5.1为1.0%[2] - 多模态理解能力显著提升,MMMU-Pro测试得分81.0%,高于GPT-5.1的76.0%[2] - 编程能力卓越,LiveCodeBench Pro测试Elo评分达到2,439,高于GPT-5.1的2,243和Gemini 2.5 Pro的1,775[2] 智能体与工具使用能力 - 终端编码任务Terminal-Bench 2.0测试得分54.2%,高于GPT-5.1的47.6%和Claude4.5的42.8%[2] - 智能体编码SWE-Bench Verified测试单次尝试通过率76.2%,与Claude4.5的77.2%和GPT-5.1的76.3%相当[2] - 工具使用τ2-bench测试得分85.4%,优于GPT-5.1的80.2%和Claude4.5的84.7%[2] - 长周期智能体任务Vending-Bench 2模拟管理自动售货机一年净收益达5,478.16美元,为所有模型中最高,远超GPT-5.1的1,473.43美元[2][10] 用户评价与市场地位 - 在大模型竞技场Text Arena中,Gemini 3 Pro以1501分排名第一,超越Grok-4.1-thinking的1484分[3] - 总投票数达4,553,123票,涵盖269个模型,Gemini 3 Pro获得3,089票[3] - 行业领袖奥特曼和马斯克先后公开点赞祝贺新模型发布[4] 实际应用演示 - 能够模拟Windows、Mac、Linux三大操作系统界面并实际运行设计出的程序[6] - 设计乐高编辑器时一次尝试即完成界面及所有编辑器功能[7] - 谷歌官方使用Gemini 3 Pro设计的游戏已发布在YouTube可直接游玩[9] - 在搜索场景中能组织即时查询信息生成可交互内容,而非简单提供链接[27] 技术演进路径 - Gemini 1代奠定多模态能力和超长上下文处理基础,成为首个能处理百万级tokens上下文的模型[16] - Gemini 2代增强信息记忆与决策规划能力,为智能体能力铺路[17] - Gemini 2.5代引入思考引擎,强化推理和链式思考能力[18] - Gemini 3代为集大成者,实现多模态、推理、智能体能力的深度融合进化[19] 产品特性改进 - 自然语言理解显著提升,能准确理解长提示词并给出简洁直接答案[20][21] - 多模态能力开挂,可无缝理解文本、图像、视频、音频和代码[23] - 具备深度视频分析能力,例如分析球赛视频后可总结打法、整理技巧并教学复现[24][25] 开发生态布局 - 同步推出Google Antigravity实验性智能体开发平台,构建"智能体优先"开发环境[29] - 平台演示1分钟内开发航班追踪程序的能力[30] - 智能体可访问编辑器、终端和浏览器,自主规划执行复杂软件任务[31] - 支持管理器视图同时控制多个智能体,提升工作自主性[32] - 平台支持Gemini系列及GPT-OSS、Claude等第三方模型,目前以公共预览版免费提供[33] 行业竞争态势 - AI编程工具成为下一个必争之地,Claude Code收入占Anthropic总营收约21%[34] - 谷歌以"整个公司的体量"发布Gemini 3系列,首次在发布当天即整合进搜索并上线独立APP[12] - 更强的Gemini 3 Deep Think深度思考模式正在开发中[13]
30秒,我用蚂蚁灵光复刻了个支付宝(doge)
量子位· 2025-11-18 09:00
灵光APP核心功能与特点 - 蚂蚁集团推出业界首个全模态通用AI助手“灵光”,支持3D、音视频、图表、动画、地图等多种模态内容的一站式生成[1][3] - 应用生成功能强大,最快仅需30秒即可生成一个可编辑、可交互、可分享的私人定制小APP[3] - 答案呈现形式结构化且可互动,排版美观并采用卡片设计突出重点,不同于传统的文字包轰炸[10][11][32] 主要功能模块实测 - 灵光对话功能能够化繁为简,对复杂问题提供一目了然的答案,指令遵循能力强且生成速度快[7][8][10] - 灵光闪应用功能支持低门槛AI Coding,实测可生成功能完整的应用如电子猫咪捕获器和仿支付宝应用[17][19][20][22] - 灵光开眼功能搭载AGI相机技术,通过摄像头识别万物,并可对识别内容进行延展知识查询和再创作[24][25][27][29] 技术架构与实现原理 - 背后采用多智能体协作的Agentic架构,主模型理解需求,后台专用Agent动态协作完成全模态内容生成[35][36] - 实现了基于全代码生成的多模态输出能力,不仅是文本回答,更是AI生成能力的整体提升[33][35] - 灵光开眼功能通过实时视频流解析实现对物理世界的观察和理解,支持文生图/视频、图生图/视频等多种创作模式[39] 产品定位与竞品差异 - 与阿里系千问APP定位不同,灵光底层模型预估为自研百灵大模型,主打全模态生成和轻量化应用[40][42] - 千问更聚焦传统对话场景并强调深度思考能力,而灵光侧重表现形式多样和交互丰富性,前者偏工作后者偏生活[42][43] - 二者核心架构均为“对话+搜索”,但灵光在可视化方面做足功夫,对用户更友好[32][42] 公司AGI战略布局 - 蚂蚁集团战略方向明确,依托金融场景优势转型为AI驱动型科技公司,并从大模型、多模态、具身智能全方面发力[44][50] - 公司AGI布局关键词为低门槛、多模态、重C端、落场景和全链路,今年已推出AI医疗管家AQ和成立灵波科技涉足具身智能[44][46][47][50] - 百灵大模型已进入万亿参数模型阵营并以开源形式发布,在推理、代码生成等核心能力上表现亮眼[50]
2025年度AI落地案例征集|量子位智库
量子位· 2025-11-18 09:00
报告背景与目标 - 量子位智库每年末发布“十大趋势系列报告”,与阿里达摩院、百度研究院、腾讯研究院的报告并列为科技产业内的四大科技趋势参考[3] - 自2024年起,报告聚焦于提名正在释放巨大潜力的AI十大趋势[3] - 报告旨在帮助关注者洞察科技变革、提早参与科技创新并驾驭变革[3] - 2025年报告将继续锚定AI这一科技发展的主旋律,面向产学研界征集年度AI十大趋势、代表机构和最佳案例[3] 过往趋势与验证 - 2024年报告关注的新型架构与推理能力变化、世界模型和空间智能发展、多模态和Agent在应用领域的表现等趋势,在2025年均得到了印证[3] 合作与参与方 - 报告撰写邀请了近百家深耕科技领域的伙伴参与,包括前沿研究院、创投机构、硬科技创企、科研机构等[3] - 2025年期待更多科技伙伴从科研、投资、创业、转化等不同角度参与报告撰写,共同传递对AI领域的洞察与预测[7] - 寻求的合作伙伴类型包括:科技研究院、高校及其实验室、专注科技的创投机构、科技产业内的优秀创企、科技成果转化中心、科技创企孵化器等[10] 合作伙伴权益 - 参与的伙伴将成为“2025年度AI十大趋势报告”官方合作伙伴,获得AI十大趋势全媒体传播中的各项权益[8] - 合作伙伴团队的产品及案例有可能在报告中得到优先露出和鸣谢[8] 报告发布与征集 - “2025年度AI十大趋势报告”将于2026年MEET智能未来大会上重磅发布[9] - 趋势观点及案例征集截止时间为2025年11月20日[12]
AI视频进入“加速度”时代:30%加速+细节随手P,等等党和抽卡党都有救了!
量子位· 2025-11-18 06:00
产品核心升级 - 拍我AI(PixVerse)上线V5 Fast模型,视频生成速度提升超30%,5秒高清视频生成时间从1-2分钟缩短至1分钟以内[7][49] - 同步推出Modify精修功能,支持端到端视频编辑,实现视频生成后的在线修改,解决了AI视频“一次生成定生死”的行业痛点[7][9] - 新功能组合使AI视频创作首次具备“快+可控”的完整体验[7] 技术能力与创新 - Modify精修功能实现跨帧推理、统一风格和主体稳态,其底层架构的精修方式在业内极为稀缺,属于公司的独特能力[9][10] - 元素替换能力覆盖物品、人物、背景,能在移动背景中自动补足每帧场景一致性,实现实物级别的可控编辑[12][14][20][22] - 支持对非实体细节进行修改,包括风格、材质、光线、色调等,并能保持动作一致性,例如将实拍视频转换为美式漫画风格或将车身材质从亮面替换为哑光[23][26][30][33] - 人物编辑功能支持通过提示词直接调整年龄、服装、气质、皮肤状态等,例如使人物眼睛放大、皮肤磨皮,或将老奶奶形象年轻三十岁[35][36][38][40][42][44] - V5 Fast模型通过轻量化推理结构和缩短帧间计算依赖实现提速,高分辨率视频生成不再是瓶颈环节[49] 市场定位与行业影响 - AI视频正从创作者工具转变为商业化生产力,广泛应用于品牌活动、自媒体内容、商家素材及大众化生活记录场景[8] - 可修改性成为当前AI视频市场最真实且迫切的需求,公司产品通过Modify功能让视频创作工作流真正闭环,降低了专业门槛[8][9][10][11] - 公司完成1亿元人民币B+轮融资,两年内完成五次模型迭代和八个版本更新,在DiT架构、准实时生成等关键技术上实现突破[50] - 旗下产品拍我AI(PixVerse)全球累计服务超一亿用户,月活突破1600万,自启动商业化以来收入增长超10倍[51] 性能表现 - 拍我AI V5 Fast生成1080P的5秒视频仅需约40秒,360P和720P格式生成速度更快,仅需数秒[50] - 公司在去年12月V3.5模型突破10秒生成大关,今年1月V4模型进入5秒准实时生成时代,成为全球已具规模的视频生成平台中速度最快的之一[50]
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
量子位· 2025-11-18 05:02
文章核心观点 - 微博发布的自研开源大模型VibeThinker以15亿参数的小规模,在关键性能测试中击败了参数量大数百倍的巨型模型,实现了技术突破 [1][7] - 该模型的单次后训练成本仅为7800美元,成本效益比达到30到60倍,有望重塑行业成本结构并推动AI技术普惠化 [2][9][13] - 此次突破标志着行业可能从“参数竞赛”转向“效率革命”,为AI产业发展开辟了新路径 [3][7] 技术突破与性能表现 - VibeThinker模型参数量为15亿,通过优化模型结构和训练范式,创新性地采用“频谱到信号原理”(SSP)方法进行训练 [7] - 在AIME24、AIME25、HMMT25等高难度数学测试集上,其表现超越了参数量达6710亿的DeepSeek-R1模型,并与4560亿参数的MiniMax-M1效果接近或相当 [7] - 在LiveCodeBench v6编程算法题测试集中,VibeThinker成功追平参数量超其数十倍的模型,如Minstral.AI的Magistral-Medium-2506版本 [8] - 该模型目前专注于数学和代码等高智能应用场景,其研发重点集中于强化小模型的复杂推理能力,尚未对日常聊天能力进行优化 [8] 成本效益与行业影响 - 行业主流大模型单次后训练成本普遍在数十万美元级别,例如MiniMax M1模型成本约53.5万美元,DeepSeek R1后训练成本为29.4万美元 [10] - VibeThinker整个后训练过程仅消耗3900个GPU小时,总计算成本为7800美元,成本效益比达到惊人的30到60倍 [10][11][13] - 极低的成本门槛使强大的AI推理能力不再是大公司的专利,有望让更多中小型公司、研究机构和大学参与前沿AI创新,促进技术普惠化 [13] 微博AI战略与应用前景 - 微博已构建基于自研“知微”大模型的AI应用生态,并推出了微博智搜(月活跃用户突破5000万)和评论罗伯特(全网粉丝近200万)两大顶流AI产品 [15][16][21] - 公司计划深度融合其在心理等垂直领域积累的独特数据资产,旨在打造更洞悉公众情绪、服务社会化需求的专属模型 [17][18] - VibeThinker的技术突破有望大幅降低微博AI应用成本,优化智能搜索和实时互动场景的算力损耗,进一步释放生态创新能力 [19][20]
教育行业首个AI Agent落地!斑马口语「超人类外教」诞生
量子位· 2025-11-18 05:02
产品核心特点 - 专为儿童打造的AI外教产品,具备超人类教学能力,能够实现个性化互动教学[1][2][3] - AI外教在25分钟学习单元中可引导孩子完成100多次完整英语表达,互动频率极高[32] - 产品具备高度"人"味,能够根据孩子回答灵活调整话题走向,实现开放式RPG闯关学习体验[6][7][10] 技术能力优势 - 响应速度极快,即时反馈压缩至1.5秒,复杂问题也能在2.5秒内给出答案[14] - 语音识别准确度高,能识别连用户自身都未注意到的单词发音问题[15] - 内置超大话题知识库,能轻松接住动画、电视剧、游戏等各类儿童兴趣话题[29] - 具备记忆功能,在学习中进行上千次数据分析,形成短期、长期、终身三级记忆体系[69][70] 教学差异化特色 - 能够理解孩子说出的中文并顺势引导英文表达,解决语言障碍问题[31] - 具备共情能力,能察觉孩子情绪变化并给予情感支持,如赠送虚拟礼物安抚情绪[12][13] - 教学能力标准化,不受时间、心情等随机因素影响,保证稳定的教学质量[33][34] - 实现千人千面教学,根据学习记录、兴趣偏好和英语水平动态调整内容[37][38] 商业模式与性价比 - 价格优势明显,25分钟课程仅需37.5元,比收费160元的北美真人外教便宜77%[41] - 无需排课、请假、交通奔波,随时随地可通过手机进行学习,便捷性高[44] - 将高水平教学从"奢侈品"转变为人人触手可及的"基础设施"[97] 行业影响与前景 - 语言学习成为教育行业首个真正实现AI Agent落地的场景[86] - 推动优质口语教育普及化,改变教育资源的生产方式和分配逻辑[88][96][97] - 有望实现孔子"有教无类"与"因材施教"的教育理念,重塑教育生态[99][100]