量子位
搜索文档
30秒,我用蚂蚁灵光复刻了个支付宝(doge)
量子位· 2025-11-18 09:00
灵光APP核心功能与特点 - 蚂蚁集团推出业界首个全模态通用AI助手“灵光”,支持3D、音视频、图表、动画、地图等多种模态内容的一站式生成[1][3] - 应用生成功能强大,最快仅需30秒即可生成一个可编辑、可交互、可分享的私人定制小APP[3] - 答案呈现形式结构化且可互动,排版美观并采用卡片设计突出重点,不同于传统的文字包轰炸[10][11][32] 主要功能模块实测 - 灵光对话功能能够化繁为简,对复杂问题提供一目了然的答案,指令遵循能力强且生成速度快[7][8][10] - 灵光闪应用功能支持低门槛AI Coding,实测可生成功能完整的应用如电子猫咪捕获器和仿支付宝应用[17][19][20][22] - 灵光开眼功能搭载AGI相机技术,通过摄像头识别万物,并可对识别内容进行延展知识查询和再创作[24][25][27][29] 技术架构与实现原理 - 背后采用多智能体协作的Agentic架构,主模型理解需求,后台专用Agent动态协作完成全模态内容生成[35][36] - 实现了基于全代码生成的多模态输出能力,不仅是文本回答,更是AI生成能力的整体提升[33][35] - 灵光开眼功能通过实时视频流解析实现对物理世界的观察和理解,支持文生图/视频、图生图/视频等多种创作模式[39] 产品定位与竞品差异 - 与阿里系千问APP定位不同,灵光底层模型预估为自研百灵大模型,主打全模态生成和轻量化应用[40][42] - 千问更聚焦传统对话场景并强调深度思考能力,而灵光侧重表现形式多样和交互丰富性,前者偏工作后者偏生活[42][43] - 二者核心架构均为“对话+搜索”,但灵光在可视化方面做足功夫,对用户更友好[32][42] 公司AGI战略布局 - 蚂蚁集团战略方向明确,依托金融场景优势转型为AI驱动型科技公司,并从大模型、多模态、具身智能全方面发力[44][50] - 公司AGI布局关键词为低门槛、多模态、重C端、落场景和全链路,今年已推出AI医疗管家AQ和成立灵波科技涉足具身智能[44][46][47][50] - 百灵大模型已进入万亿参数模型阵营并以开源形式发布,在推理、代码生成等核心能力上表现亮眼[50]
2025年度AI落地案例征集|量子位智库
量子位· 2025-11-18 09:00
报告背景与目标 - 量子位智库每年末发布“十大趋势系列报告”,与阿里达摩院、百度研究院、腾讯研究院的报告并列为科技产业内的四大科技趋势参考[3] - 自2024年起,报告聚焦于提名正在释放巨大潜力的AI十大趋势[3] - 报告旨在帮助关注者洞察科技变革、提早参与科技创新并驾驭变革[3] - 2025年报告将继续锚定AI这一科技发展的主旋律,面向产学研界征集年度AI十大趋势、代表机构和最佳案例[3] 过往趋势与验证 - 2024年报告关注的新型架构与推理能力变化、世界模型和空间智能发展、多模态和Agent在应用领域的表现等趋势,在2025年均得到了印证[3] 合作与参与方 - 报告撰写邀请了近百家深耕科技领域的伙伴参与,包括前沿研究院、创投机构、硬科技创企、科研机构等[3] - 2025年期待更多科技伙伴从科研、投资、创业、转化等不同角度参与报告撰写,共同传递对AI领域的洞察与预测[7] - 寻求的合作伙伴类型包括:科技研究院、高校及其实验室、专注科技的创投机构、科技产业内的优秀创企、科技成果转化中心、科技创企孵化器等[10] 合作伙伴权益 - 参与的伙伴将成为“2025年度AI十大趋势报告”官方合作伙伴,获得AI十大趋势全媒体传播中的各项权益[8] - 合作伙伴团队的产品及案例有可能在报告中得到优先露出和鸣谢[8] 报告发布与征集 - “2025年度AI十大趋势报告”将于2026年MEET智能未来大会上重磅发布[9] - 趋势观点及案例征集截止时间为2025年11月20日[12]
AI视频进入“加速度”时代:30%加速+细节随手P,等等党和抽卡党都有救了!
量子位· 2025-11-18 06:00
产品核心升级 - 拍我AI(PixVerse)上线V5 Fast模型,视频生成速度提升超30%,5秒高清视频生成时间从1-2分钟缩短至1分钟以内[7][49] - 同步推出Modify精修功能,支持端到端视频编辑,实现视频生成后的在线修改,解决了AI视频“一次生成定生死”的行业痛点[7][9] - 新功能组合使AI视频创作首次具备“快+可控”的完整体验[7] 技术能力与创新 - Modify精修功能实现跨帧推理、统一风格和主体稳态,其底层架构的精修方式在业内极为稀缺,属于公司的独特能力[9][10] - 元素替换能力覆盖物品、人物、背景,能在移动背景中自动补足每帧场景一致性,实现实物级别的可控编辑[12][14][20][22] - 支持对非实体细节进行修改,包括风格、材质、光线、色调等,并能保持动作一致性,例如将实拍视频转换为美式漫画风格或将车身材质从亮面替换为哑光[23][26][30][33] - 人物编辑功能支持通过提示词直接调整年龄、服装、气质、皮肤状态等,例如使人物眼睛放大、皮肤磨皮,或将老奶奶形象年轻三十岁[35][36][38][40][42][44] - V5 Fast模型通过轻量化推理结构和缩短帧间计算依赖实现提速,高分辨率视频生成不再是瓶颈环节[49] 市场定位与行业影响 - AI视频正从创作者工具转变为商业化生产力,广泛应用于品牌活动、自媒体内容、商家素材及大众化生活记录场景[8] - 可修改性成为当前AI视频市场最真实且迫切的需求,公司产品通过Modify功能让视频创作工作流真正闭环,降低了专业门槛[8][9][10][11] - 公司完成1亿元人民币B+轮融资,两年内完成五次模型迭代和八个版本更新,在DiT架构、准实时生成等关键技术上实现突破[50] - 旗下产品拍我AI(PixVerse)全球累计服务超一亿用户,月活突破1600万,自启动商业化以来收入增长超10倍[51] 性能表现 - 拍我AI V5 Fast生成1080P的5秒视频仅需约40秒,360P和720P格式生成速度更快,仅需数秒[50] - 公司在去年12月V3.5模型突破10秒生成大关,今年1月V4模型进入5秒准实时生成时代,成为全球已具规模的视频生成平台中速度最快的之一[50]
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
量子位· 2025-11-18 05:02
文章核心观点 - 微博发布的自研开源大模型VibeThinker以15亿参数的小规模,在关键性能测试中击败了参数量大数百倍的巨型模型,实现了技术突破 [1][7] - 该模型的单次后训练成本仅为7800美元,成本效益比达到30到60倍,有望重塑行业成本结构并推动AI技术普惠化 [2][9][13] - 此次突破标志着行业可能从“参数竞赛”转向“效率革命”,为AI产业发展开辟了新路径 [3][7] 技术突破与性能表现 - VibeThinker模型参数量为15亿,通过优化模型结构和训练范式,创新性地采用“频谱到信号原理”(SSP)方法进行训练 [7] - 在AIME24、AIME25、HMMT25等高难度数学测试集上,其表现超越了参数量达6710亿的DeepSeek-R1模型,并与4560亿参数的MiniMax-M1效果接近或相当 [7] - 在LiveCodeBench v6编程算法题测试集中,VibeThinker成功追平参数量超其数十倍的模型,如Minstral.AI的Magistral-Medium-2506版本 [8] - 该模型目前专注于数学和代码等高智能应用场景,其研发重点集中于强化小模型的复杂推理能力,尚未对日常聊天能力进行优化 [8] 成本效益与行业影响 - 行业主流大模型单次后训练成本普遍在数十万美元级别,例如MiniMax M1模型成本约53.5万美元,DeepSeek R1后训练成本为29.4万美元 [10] - VibeThinker整个后训练过程仅消耗3900个GPU小时,总计算成本为7800美元,成本效益比达到惊人的30到60倍 [10][11][13] - 极低的成本门槛使强大的AI推理能力不再是大公司的专利,有望让更多中小型公司、研究机构和大学参与前沿AI创新,促进技术普惠化 [13] 微博AI战略与应用前景 - 微博已构建基于自研“知微”大模型的AI应用生态,并推出了微博智搜(月活跃用户突破5000万)和评论罗伯特(全网粉丝近200万)两大顶流AI产品 [15][16][21] - 公司计划深度融合其在心理等垂直领域积累的独特数据资产,旨在打造更洞悉公众情绪、服务社会化需求的专属模型 [17][18] - VibeThinker的技术突破有望大幅降低微博AI应用成本,优化智能搜索和实时互动场景的算力损耗,进一步释放生态创新能力 [19][20]
教育行业首个AI Agent落地!斑马口语「超人类外教」诞生
量子位· 2025-11-18 05:02
产品核心特点 - 专为儿童打造的AI外教产品,具备超人类教学能力,能够实现个性化互动教学[1][2][3] - AI外教在25分钟学习单元中可引导孩子完成100多次完整英语表达,互动频率极高[32] - 产品具备高度"人"味,能够根据孩子回答灵活调整话题走向,实现开放式RPG闯关学习体验[6][7][10] 技术能力优势 - 响应速度极快,即时反馈压缩至1.5秒,复杂问题也能在2.5秒内给出答案[14] - 语音识别准确度高,能识别连用户自身都未注意到的单词发音问题[15] - 内置超大话题知识库,能轻松接住动画、电视剧、游戏等各类儿童兴趣话题[29] - 具备记忆功能,在学习中进行上千次数据分析,形成短期、长期、终身三级记忆体系[69][70] 教学差异化特色 - 能够理解孩子说出的中文并顺势引导英文表达,解决语言障碍问题[31] - 具备共情能力,能察觉孩子情绪变化并给予情感支持,如赠送虚拟礼物安抚情绪[12][13] - 教学能力标准化,不受时间、心情等随机因素影响,保证稳定的教学质量[33][34] - 实现千人千面教学,根据学习记录、兴趣偏好和英语水平动态调整内容[37][38] 商业模式与性价比 - 价格优势明显,25分钟课程仅需37.5元,比收费160元的北美真人外教便宜77%[41] - 无需排课、请假、交通奔波,随时随地可通过手机进行学习,便捷性高[44] - 将高水平教学从"奢侈品"转变为人人触手可及的"基础设施"[97] 行业影响与前景 - 语言学习成为教育行业首个真正实现AI Agent落地的场景[86] - 推动优质口语教育普及化,改变教育资源的生产方式和分配逻辑[88][96][97] - 有望实现孔子"有教无类"与"因材施教"的教育理念,重塑教育生态[99][100]
聊AI,当然得来量子位MEET大会!
量子位· 2025-11-18 05:02
大会概况 - 大会主题为“共生无界,智启未来”,关注AI技术穿透产业、学科与场景边界,成为社会演进核心动能 [3] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术与产业落地进展 [4] - 内容涵盖学术前沿与商业落地碰撞,以及来自Infra、模型、产品产业的领先技术成果 [5] - 预计吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [64] 核心发布 - 大会将权威发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项 [6][60] - 将重磅发布年度AI趋势报告,提名释放巨大潜力的十大AI趋势并进行深入分析 [61] 嘉宾阵容(部分) - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,数字视频和AI领域世界级科学家,曾任百度总裁、微软全球资深副总裁 [12][13] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,曾主持国家973项目等20余项国家级项目 [17] - 王仲远:北京智源人工智能研究院院长,曾任职于快手、美团、Facebook,发表顶级学术论文100余篇,获得ICDE 2015最佳论文奖 [21][22][23] - 赵俊博:浙江大学百人计划研究员、蚂蚁集团资深技术专家,聚焦大模型与合成数据技术,首创数据库大模型TableGPT [27] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,中文Linux奠基人之一 [30] - 尤洋:潞晨科技创始人、新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜(亚洲)等荣誉 [35][36] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,著名开源语音识别工具Kaldi的提出者和主要维护者 [40] - 朱宁:上海交通大学上海高级金融学院金融学教授,研究涵盖行为金融学、中国宏观经济等领域 [44][45] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型,首倡“群体智能”理念 [48][49] - 喻友平:中关村科金总裁,前百度智能云副总裁,提出“平台+应用+服务”大模型落地三级引擎战略 [53][54] - 乔梁:太初元碁联合创始人兼首席运营官,清华大学计算机系博士,长期从事高性能计算技术研究 [57][58]
32个随机数字,1分钟推演地球未来15天丨谷歌DeepMind
量子位· 2025-11-18 05:02
产品核心能力 - 谷歌DeepMind发布WeatherNext 2,实现天气预报的小时级、实时化更新[1][2] - 模型运行速度比上一代快8倍,在1个TPU上生成一次15天的全球预报仅需不到1分钟[6][21] - 模型分辨率达到小时级,可提供如“明天2-3点有小雨”的精细化预测[2] - 能够从相同输入生成几十至上百个可能的天气演化情景,提供概率化预测[4] - 99.9%的预测变量和时效性能超过上一代WeatherNext[7] 技术创新与性能 - 核心技术为新提出的功能生成网络(FGN),通过输入32维随机向量生成全球一致的天气变化模式[13][15][16] - FGN将低维噪声扩散成高维空间相关性,用32个数字生成高达8700万维的全球天气变化[18][19] - 模型整体表现全面超越之前最强的GenCast,预测误差更低、概率表现更好、空间结构更自然[19] - 在极端天气预测上能力显著,例如台风路径预测能比GenCast提前约24小时达到相同精度[19] 行业应用价值 - 精细化天气预报对能源系统协调负荷、城市管理安排人力、农业制定节奏至关重要[8][9] - 物流和航班等行业每天依赖天气预报进行决策,小时级预测提升决策效率与准确性[9] - 将大气系统视为混沌机器,微小扰动会影响未来天气,高精度模型有助于更早洞察极端天气影响范围[10][7]
金山与华科发布多模态模型MonkeyOCR v1.5:文档解析能力超越PaddleOCR-VL,复杂表格解析首次突破90%
量子位· 2025-11-18 05:02
行业背景与需求 - 多模态文档解析领域在2025年6月以来迎来新一轮研究热潮,成为多模态理解及大模型数据来源的重要前沿课题[2] - 文档智能解析技术是信息抽取、检索增强生成和自动化文档分析的核心基石,但现实世界中的复杂文档(布局复杂、表格嵌套、内含图片公式、跨页分布)对现有OCR系统构成挑战[2] - 传统OCR系统采用串联式流水线容易导致错误累积,而端到端模型则因文档图像高分辨率面临巨大计算瓶颈[5] 技术核心突破 - MonkeyOCR v1.5采用高效的两阶段解析管道:第一阶段进行布局分析与阅读顺序预测,第二阶段进行区域级内容识别,实现全局结构理解与细粒度内容识别的解耦[7][8][9] - 针对复杂表格推出三大创新方案:基于视觉一致性的强化学习方案通过奖励模型自我优化提升解析保真性;图像解耦表格解析通过先遮住图片再解析结构完美解决图片干扰问题;类型引导的表格合并采用规则匹配+BERT语义判别混合决策流程精准合并跨页表格[11][13][14][16] - 新框架在嵌入式图像恢复、跨页表格重建以及多列表格合并等关键功能上展现出更强应用潜力[5] 性能表现数据 - 在OmniDocBench v1.5基准测试中以93.01%的整体得分登顶榜首,超越前最佳模型PPOCR-VL(92.86%)和MinerU 2.5(90.7%)[18] - 在专门测试复杂表格的OCRFlux-complex数据集上取得90.9%的得分,领先PPOCR-VL(81.7%)达9.2个百分点[19] - 在OCRFlux-Total数据集上取得91.8%的得分,显著高于Nanonets-OCR(82.8%)、OCRFlux(86.1%)和PaddleOCR-VL(86.3%)[20] 应用场景优势 - 布局分析能准确识别所有图像和表格区域,大幅避免将表格误判为孤立文本和图片的错误[21] - 嵌入图像恢复功能能完美还原表格结构和其中所有嵌入图像,解决其他模型常见的图像丢失、表头丢失或结构错乱问题[25] - 跨页表格合并功能能完整重建跨页表格,消除因页眉/页脚造成的结构中断,而其他方法易被中途"截断"[27]
谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
量子位· 2025-11-18 05:02
技术突破与核心优势 - 采用单一视觉Transformer架构实现从单张图像、多视角照片到视频的任意视图3D重建,极大简化了模型设计[1][2][7] - 模型核心预测目标仅聚焦于深度和光线两个关键参数,通过双任务头输出深度图和光线参数[7][10] - 在全新视觉几何基准测试中,相机定位精度平均提升35.7%,几何重建准确率提高23.6%,单目深度估计超越前代DA2[3] 模型架构与工作流程 - 输入处理环节将多视角图像转化为特征块,相机参数通过编码器或可学习token处理,最终与图像特征融合[9] - 核心Transformer基于预训练的DINO,通过单视角自注意力和跨视角自注意力机制适应不同输入形式[9] - 除了深度和光线预测,模型还能从特征中提取相机姿态信息,确保相机运动轨迹精准[11] 训练策略与性能表现 - 采用师生蒸馏训练策略,利用教师模型从海量数据生成高质量伪标签,降低对精确标注数据的依赖[13][14] - 在整合了5个室内外数据集的基准上,模型能生成密度更高、噪声更低的3D点云,质量明显优于传统方法[14][16][17] - 支持从少量场景图片进行视角补全,生成未拍摄角度的图像,在虚拟漫游和数字孪生领域应用潜力巨大[19] 团队背景与行业影响 - 项目由字节跳动研究科学家康炳易带队,其领导的Depth Anything系列此前已被苹果CoreML库收录[20][25] - 核心研究人员拥有加州伯克利和新加坡国立大学人工智能专业背景,并与谢赛宁等业内专家有过合作[23][24]
马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜
量子位· 2025-11-18 00:59
大模型竞技场排名表现 - Grok 4.1思考模式以1483的Elo分数位居大模型竞技场榜首,领先非xAI模型最高分31分[2] - Grok 4.1非思考模式以1465分排名第二,超越公开排行榜上所有其他模型的完整推理模式[3] - 相比之前Grok 4仅排第33位,xAI在不到半年时间实现巨大飞跃[4] - 在大模型竞技场新推出的专家榜上,Grok 4.1思考模式以1510分排名第一[5][6] - 在职业榜八个细分领域中,Grok 4.1在文学榜输给Gemini 2.5,数学榜输给Claude 4.5和o3,其他六个榜单均拿下第一[6] 技术性能提升 - 在EQ-Bench情商测试中,Grok 4.1表现超过刚发布不久的Kimi K2(非Thinking版本)[9] - 从11月1日起新版模型逐步推送用户,盲测对比评估显示64.78%的用户更喜欢新版[13] - 关闭推理功能后,输出标记数从约2300个减少到850个,实现快速回复模式特别加强[23] - 在后训练阶段专注于减少信息检索提示中的事实性幻觉,幻觉发生率显著降低[25] - 在包含500个个人传记问题的FActScore测试中,非推理模式成绩比前一代有明显改善[26] 功能特性改进 - 在创造性、情感性和协作性互动方面带来显著改进,模型更善于捕捉细微意图,对话更有吸引力[18] - 响应情感问题时表现出更强同理心,回答更加细腻和人性化[18] - 创意写作能力明显提升,回答更具文学性和思想深度[18] - 可以输出图文并茂的回答,展示多模态能力[26] - 团队使用大规模强化学习基础设施,将RLHF推向前所未有的高度,RL规模扩大一个数量级[19][20][22] 市场推广情况 - Grok 4.1已在grok.com、X平台以及iOS和Android应用上向所有用户开放[27] - 模型默认以自动模式推出,用户也可在模型选择器中明确选择Grok 4.1[27] - 由于模型刚发布,投票数还很少,等"Preliminary"标记消失后的成绩更有参考价值[8]