量子位
搜索文档
陶哲轩亲测:我用Gemini十分钟搞定了困扰学界多年的难题
量子位· 2025-11-24 07:30
文章核心观点 - 著名数学家陶哲轩借助Gemini 2.5 Deep Think模型,仅用十分钟便成功补全并验证了一个前人未完成的数学难题的证明[1][2][3] - 该事件是AI辅助解决数学问题的典型案例,并非孤例,近期已有6个困扰数学界多年的Erdős难题通过AI辅助得以解决[6] - AI在数学研究中的应用正变得日益普遍和系统化,许多研究者使用AI工具进行文献查询和解题思路探索[7] - AI被视为数学家的重要辅助工具而非替代者,其角色是充当证明的“中介”并帮助发现新的研究路径[35][37] AI模型性能表现 - Gemini 2.5 Deep Think模型在十分钟内完成了从论证分析到结论确认的全过程[3][20] - 该模型由IMO金牌得主参与开发,在最新的FrontierMath测试中,其数学能力远超GPT-5(high)等模型[10] - 在后续的文献查询任务中,Gemini DeepResearch和ChatGPT DeepResearch均能识别出问题所属范畴,但在细节上仍存在混淆[27] 具体问题与解决过程 - 解决的数学问题是由Paul Erdős提出的367号问题,涉及连续整数结构的乘法数论[12] - 数学家Wouter van Doorn基于一个未验证的同余恒等式提出了反证,陶哲轩将此交给Gemini进行完整证明[16][19] - 在Gemini完成p-adic代数数论证明后,陶哲轩手动花费半小时将其转换为更基础的论证方式[21] - Boris Alexeev使用Harmonic的Aristotle工具,花费两到三小时完成了该证明的Lean形式化验证[24] AI在数学领域的应用趋势 - 陶哲轩自三年前ChatGPT发布起就开始系统性探索AI在数学证明中的应用[29][30] - AI的进步使得数学研究未来将拥有更多的实验性方法,而不仅仅是理论推演[30] - 对于缺乏专业知识但怀有热忱的学习者,AI将帮助他们达到难以想象的学习深度[32] - 需要警惕AI可能产生的“幻觉错误”,数学家的细心纠正仍是不可或缺的环节[34]
奥特曼承认谷歌威胁到OpenAI!即将推出新模型“Shallotpeat”
量子位· 2025-11-24 07:30
行业竞争格局转变 - AI行业竞争格局发生显著变化,谷歌凭借Gemini 3 Pro和Nano Banana Pro等模型重新成为焦点,而OpenAI作为昔日的AI风向标正受到冷落 [2][25] - OpenAI首席执行官在内部备忘录中承认,谷歌最近的AI进展给公司带来了暂时的经济阻力,并表明公司需要快速追赶 [4][5][7] - 舆论风向转变,OpenAI与谷歌的攻守之势已经逆转,OpenAI的模型甚至被用作衡量谷歌模型进步的计量单位 [14][25] OpenAI面临的挑战 - OpenAI在关键技术上面临挑战,特别是在模型预训练领域,其调整方法在模型规模较小时有效,但在规模扩大后失效,导致必须解决此问题才能追上谷歌 [30][31] - 公司面临巨大的财务压力,尽管预计2025年收入将达130亿美元,但为追求人类水平AI,未来几年需消耗超过1000亿美元,并可能需再筹集同等数额资金 [18] - 公司的核心收入来源之一——编程能力,正受到谷歌Gemini 3模型的直接挑战,其技术领先优势已缩小甚至被超越 [16][17] 谷歌的竞争优势 - 谷歌拥有完整的全栈优势,包括自研TPU芯片、Google Cloud云服务等底层基础设施,形成“你烧钱,我赚钱”的独特商业模式 [35] - 公司掌握强大的产品与分发渠道,通过Android系统、谷歌搜索及Workspace套件等触达全球超过20亿用户,具备近乎无限的分发优势 [37] - 谷歌过去四个季度产生超过700亿美元的自由现金流,市值达3.6万亿美元,财务实力远超OpenAI [19] 技术发展路径与行业趋势 - AI竞赛重心从“单一模型突破”转向“全栈体系对抗”,谷歌通过“模型+基础设施+产品生态”三位一体体系形成良性循环 [34][39][41] - 谷歌在模型预训练方面的成功让许多AI研究员感到意外,这成为其实现弯道超车的关键技术根基 [27][33] - OpenAI计划在未来几个月内推出代号为“Shallotpeat”的新模型,旨在修复其在预训练过程中遇到的错误 [32]
上线4天下载破百万,蚂蚁CTO:灵光要做AGI时代的“支付宝”
量子位· 2025-11-24 05:30
产品市场表现 - 产品上线仅4天下载量突破百万,2天后再次突破两百万 [1] - 增速超越ChatGPT、Sora2、DeepSeek等全球主流AI产品,最高冲上App Store中国区免费榜第六、工具榜第一 [2] 产品定位与战略 - 灵光被定位为AGI时代的“支付宝”,旨在成为一款普惠产品 [4][12] - 产品本质是让大众直观感受AI便利,专注Save Time(效率)而非Kill Time(娱乐) [5] - 团队希望灵光被别人对标,而不是主动对标别人 [5] - 产品核心理念是“让复杂变简单”,主张“多、快、好、新”四个维度 [14][16][20] 组织架构与研发背景 - 蚂蚁集团在DeepSeek出现后更加笃定All in AGI,并于三月份成立Inclusion AI部门立项灵光 [6][8] - Inclusion AI是项目制组织,集合Research、Engineering、Producting三位一体,向蚂蚁全线业务输出AI能力 [10][11] - 部门采用类似谷歌DeepMind的模式,“拉个群先把活干起来” [10] 产品核心功能 - 核心能力包括灵光对话、闪应用、灵光开眼,通过全模态形式提取展示关键信息 [15] - 技术创新从原先Markdown形式转向全代码生成,通过自然语言快速生成包括前端、后端的功能完善应用 [15][16] - 灵光开眼作为视觉原生入口,因团队认识到物理世界本质连续,AI需通过视频流理解场景,是未来向具身智能延伸的重要一步 [18] 发展策略与路径 - 采用“长板思维”发展:先把长板做得足够长再补齐短板,先用核心能力留住用户而非简单堆叠功能 [18] - 发展路径是先存活,再谈长线运营,然后模型与应用齐头并进 [19] - 把有限资源聚焦在大愿景上,强调帮用户解决更多需求而非关注竞争 [28][29] 行业竞争格局 - 团队认为AGI赛道足够宽广,增长曲线远未封顶,现在推出AI助手应用为时尚不晚 [25][26] - 蚂蚁与千问不是竞争对手而是战友兄弟,AGI技术和市场潜力巨大,所有探索团队都是盲人摸象,需要互帮互助跟上世界先进水平 [21][28] 公司愿景与生态布局 - 蚂蚁最终愿景是在AGI时代拥有自己的代表产品,可能是AQ、蚂小财或灵光 [30] - Inclusion AI技术将持续反哺蚂蚁其它App包括蚂小财、AQ等,未来蚂蚁系应用都将呈现“灵光味” [27] - 蚂蚁生态链接包括灵光成为全能助手、AQ成为健康管家、蚂小财让每个人有数字巴菲特 [33]
田渊栋卡帕西力荐Nano Banana新玩法:论文变漫画、手写解题以假乱真,谷歌这波赢麻了
量子位· 2025-11-24 05:30
Nano Banana Pro的技术能力与应用场景 - AI大牛田渊栋使用整合Nano Banana Pro生图能力的NotebookLM将论文转化为漫画,效果获得本人认可,认为宣传海报质量优于自制[1][6] - 特斯拉前AI总监Andrej Karpathy展示Nano Banana Pro精准识别手写草稿和示意图的能力,解题输出字迹高度模仿真人手写[8][9] - Nano Banana Pro能够根据起始图片和指令"解决这道数学题,然后用我的手写字体生成更新后的图片",模仿真人笔迹并还原笔记本版式质感[17][21] - ChatGPT核验确认Nano Banana手写解法基本正确,仅存在二硒化二磷未标注规范命名和"硫氰酸"拼写错误两处小瑕疵[11] 交互方式演进与行业影响 - Andrej Karpathy提出当前文本与大模型对话类似敲DOS命令行,认为"智能画布"这种可视化、可操作交互方式代表大模型未来的图形界面方向[11] - 谷歌凭借Gemini和Nano Banana的升级实现技术突破,股价创历史新高,市值超越微软,标志着公司在AI赛道重新夺回领先地位[24][33] - 谷歌CEO通过Nano Banana Pro拆解汉堡结构示意图回应2017年emoji争议,展示AI已能理解物理世界逻辑,精准处理物体相对位置和空间定位[27][29][32] 用户反馈与产品优化 - 网友积极求取提示词,NotebookLM产品负责人回应将优化分享和导出功能以提升用户体验[8] - 用户肯定Nano Banana Pro生成内容的有趣性和易理解性,部分输出结果逼真到难以区分是否为AI生成[7][19][20]
谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?
量子位· 2025-11-24 03:39
寒武纪-S模型核心突破 - 专注于解决AI核心问题,让人工智能真正学会感知世界,而非制造硅基芯片[2] - 推出主打空间感知的多模态视频大模型,兼顾通用视频和图像理解能力,在短视频空间推理中取得SOTA成果[6] - 通过预测感知模块处理超长视频空间任务,这是许多主流模型的软肋,且能控制GPU内存消耗,不依赖堆硬件[7][42] 技术理念与研究方向 - 提出“超感知”概念,让AI不仅能识别物体,还能记忆位置、理解关系、预判变化,这是构建超级智能的前提[20][23][24] - 聚焦视频空间超感知,使AI能从连续视频片段中读懂空间关系,如物体位置距离和动态变化[25] - 团队反思“真正的多模态智能”,认为当前模型仅将图像转文字处理,未真正理解场景[19] 模型开发与基准测试 - 开发VSI-SUPER基准测试,包含长时程空间记忆和持续计数任务,主流商业模型在10分钟视频平均准确率不足15%,120分钟视频基本失效[26][27][30][31] - 构建VSI-590K数据集,包含59万条训练样本,标注物体位置和动态变化等关键信息,作为空间感知教材[33] - 采用预测下一帧训练机制,通过意外度识别关键信息,实现超长视频空间理解[38] 性能表现与竞争优势 - 在VSI-SUPER基准测试中,比开源模型空间记忆准确率提升30%以上,部分任务超过商业模型[41] - 参数规模从0.5B到7B,针对性极强,在多项评测中表现亮眼,如7B模型在SI-Bench Debias任务达67.5[35][42] - 对比主流模型如GPT-40、Gemini系列,在空间感知任务上展现优势,尤其在长视频处理能力上领先[31][42] 研发背景与团队基础 - 项目由谢赛宁牵头,李飞飞和Yann LeCun站台,核心团队包括纽约大学博士生等多名研究人员[2][44][45][46][47][48] - 基于前期Cambrian-1图像多模态模型的开放性探索,从视觉编码器测评、数据优化到训练方案总结五方面突破[9][10][11][13][15][17] - 团队未盲目扩大规模,而是聚焦空间智能本质问题,从“考倒AI”转向“做好示范”的开发思路[18][26]
抢先报名!MEET2026最新嘉宾阵容官宣,一起热聊AI
量子位· 2025-11-24 03:39
大会核心信息 - 大会主题为“共生无界,智启未来”,关注AI技术穿透产业、学科与场景边界,成为社会演进核心动能[1][3] - 将于2025年12月10日在北京金茂万丽酒店举行,预计吸引上千名科技从业者参与,百万观众线上围观[2][105][107] - 会议将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题[4] 学术与研究机构代表 - 张亚勤:清华大学智能产业研究院院长、中国工程院院士,数字视频和AI领域世界级科学家,曾任职百度与微软[12][13] - 孙茂松:清华大学人工智能研究院常务副院长、欧洲人文和自然科学院外籍院士,主持多项国家级科研项目[17] - 王仲远:北京智源人工智能研究院院长,曾任职快手、美团、Facebook,发表论文100余篇,获美国专利5项、中国专利50余项[21][22][23] - 尤洋:潞晨科技创始人、新加坡国立大学校长青年教授,高性能计算领域谷歌学术引用最高的博士毕业生之一[48] 科技企业代表 - 王颖:百度集团副总裁,负责文库、网盘等业务,2021年加入后引领产品创新[26] - 何晓冬:京东集团高级副总裁、IEEE Fellow,领导团队打造JoyAI大模型,发表论文200余篇,被引用6万余次[30] - 韩旭:文远知行创始人兼CEO,带领公司在全球11国超30城开展自动驾驶业务,2024年登陆纳斯达克[35][36] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,是中文Linux奠基人之一[44][45] 基础设施与硬件技术 - 杨帆:商汤科技联合创始人、大装置事业群总裁,主导AI专用计算中心建设及AI芯片产业化[53][54] - 万卫星:高通公司AI产品技术中国区负责人,负责终端侧AI引擎软硬件规划[58][59] - 乔梁:太初元碁联合创始人兼COO,曾任国家超算无锡中心副主任,参与国产AI处理器国家重大专项[86][87] 应用与产品创新 - 喻友平:中关村科金总裁,提出“平台+应用+服务”大模型落地三级引擎战略,推动垂类大模型应用[75][76] - 王潜:自变量机器人创始人兼CEO,致力于研发端到端大模型驱动的通用机器人,团队是国内最早发布VLA大模型的团队之一[90][91] - 徐达峰:蚂蚁集团平台体验技术部负责人,负责AntV等社区产品,推动AI驱动的前端研发范式革新[99][100] 行业洞察与发布 - 大会将权威发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项[103] - 同时发布年度AI十大趋势报告,深入分析具有巨大潜力的技术趋势及代表案例[104]
顶流设计Agent能用Nano Banana Pro了!一句话BlackPink变东北翠花
量子位· 2025-11-24 03:39
产品整合与合作 - Lovart设计Agent正式接入Nano Banana Pro模型,实现两大AI产品的结合[1] - 用户可通过简单的@操作或模型选项勾选来调用Nano Banana Pro[6][10] - 该整合支持多任务并行处理,可同时勾选视频、3D等其他模型[11] 核心功能与用户体验 - 产品支持“无边画布+二次编辑”模式,提供所见即所得的多模态上下文处理,体感优于谷歌的“直出结果”[8] - 支持一次性处理多达14张图片元素,例如将12张生肖图与2张背景图合成为一张完整的玩具展示效果图[12][13][14][16] - 生成速度快,例如高清十二生肖玩具陈列图在不到1分钟内即可完成[18] 独家编辑功能 - 推出Touch Edit功能,用户通过简单的点击(如command+单击)即可精准修改细节,无需复杂Prompt描述[24][26][27] - 提供“编辑元素”功能,可将图片中的背景、文字等元素分层“炸开”,实现逐层可编辑[37][38][40] - 这些功能使细节修改不再“牵一发而动全身”,提升了设计的可控性和效率[35][36] 实际应用场景 - 产品能快速生成实用成品,如根据一句Prompt在1分钟内生成风格一致的连续PPT页面[47][48][49] - 支持复杂内容可视化,并具备联动玩法,可结合图片生成和视频生成模型创作新闻播报等内容[62][65][66][70] - 最终效果达到“效果逼真 + 细节可控 = 可直接商用”的水平,提升了生成内容的实用价值[72] 市场表现与用户增长 - Lovart作为全球首个设计Agent,在测试阶段曾创下5天排队10万人的记录[8] - 正式上线两个多月后,其年度经常性收入在9月份已突破3000万美元,日活跃用户数达到20万[8] - 在产品接入Nano Banana Pro后,用户体验获得进一步改善,市场反响积极[34]
杭州蚂蚁投了家腾讯系具身智能公司
量子位· 2025-11-23 10:33
融资情况 - 星尘智能完成数亿元A++轮融资,由国科投资与蚂蚁集团联合领投,老股东锦秋基金跟投[2][5] - 本轮融资后公司估值进入20亿元俱乐部[4] - 2024年以来已完成四轮融资,包括4月由锦秋基金和蚂蚁集团领投的数亿元A轮及A+轮融资,以及去年7月由经纬创投领投的数千万美元Pre-A轮融资[7][8][9] 技术路线与产品 - 公司核心技术路线为绳驱AI机器人,采用“柔性绳索+卷扬电机”设计,实现低摩擦、高跟随、连续力域的控制[13][17][22] - 绳驱技术具备高拟人表现力、高动态响应和高交互安全特性,尤其适合家庭、商业等需要灵巧操作与人机协作的场景[23] - 公司打造集顶尖本体、领先遥操、高效模型于一体的具身智能全栈平台,并推出Astribot S1等机器人产品,能完成叠衣服、打咏春、颠勺做菜等复杂任务[24][25] - 2024年10月发布半身商用机器人Astribot S1-U、超远程数字分身遥操作系统及面向商业服务的DuoCore全身VLA模型[27] 商业化进展 - 公司与金马游乐达成战略合作,推出文旅文娱机器人系列产品[31] - 全球首个由绳驱AI机器人全自主运营的零售服务店“机器人MART”在中山落地,能全自主为游客制作小吃、调饮料[32][33] - 与仙工智能、字节跳动、腾讯、百度、央视、京东等头部企业达成合作,业务覆盖科研、文旅、服务、物流等领域,累计获得数千台订单[35] - 2024年6月攻克绳驱量产难关,实现多个月批量稳定交付[37] 团队背景 - 创始人兼CEO来杰拥有16年机器人研发经验,曾为腾讯Robotics X实验室一号员工,主导研发轮腿式机器人Ollie等多款产品[40][41][44] - 联合创始人戴媛拥有加州大学洛杉矶分校博士学位,同样出身于腾讯Robotics X实验室[46][47][48] - 核心团队成员背景横跨腾讯、谷歌、优必选、百度和华为等前沿科技公司[48]
「创业初期全靠人工」,AI笔记独角兽自曝了
量子位· 2025-11-23 10:33
公司早期运营模式 - Fireflies公司在2017年之前并未使用人工智能技术,其会议纪要服务完全由两位创始人手动完成,他们以“Fred”的身份接入客户会议并手动记录[1][2][7] - 该人工服务模式每月收费100美元,创始人在会议结束后10分钟内发送会议纪要,早期共手动处理了100多次会议[13][16][18][19] - 公司联合创始人兼CTO公开承认,采用此模式是为了在资金匮乏的创业初期验证产品市场需求并节省开发成本,当时公司经历第六次创业失败后经济拮据[9][10][11][12][14] 公司当前市场地位与业务规模 - Fireflies目前估值达到10亿美元,服务覆盖全球超过50万家机构和2000万名用户,财富500强企业中有75%使用其服务[5][36] - 公司用户数量在过去18个月内暴涨8倍,成为全球增长最快的AI应用之一,自2023年起已实现全面盈利且毛利率水平堪比SaaS企业[35][44] - 公司核心服务包括支持100多种语言的语音录制与转录,以及将语音数据集成至其他应用以自动化完成数据录入等任务[37] 事件引发的行业争议 - 创始人公开早期运营模式后引发广泛批评,焦点集中于客户隐私安全风险,因为早期有真人而非AI旁听涉及商业机密的客户会议[23][24][25][27] - 有行业观点认为此行为足以重创公司品牌形象并破坏客户信任,涉及未经许可参会可能引发法律诉讼[26][27] - 部分业内人士支持该做法,认为“先人工、后智能”是初创公司在低成本下验证产品价值与真实需求的聪明策略,关键在于先跑通市场再构建产品[31] 公司现有产品生态与技术能力 - Fireflies已形成独特生态护城河,包括构建可搜索知识库、超过200款AI应用以及无缝集成60多款工具如CRM和企业沟通平台[42] - 公司与Perplexity达成战略合作,推出“Talk to Fireflies”功能,允许用户在会议中通过语音激活实时网络搜索[38] - 尽管早期与AI无关,但经过数年演化,公司AI能力已获业内广泛认可,目前所有笔记记录已完全实现自动化[28][39]
抢先报名!MEET2026最新嘉宾阵容官宣,一起热聊AI
量子位· 2025-11-23 04:09
大会核心信息 - 大会主题为“共生无界,智启未来”,关注AI技术穿透产业、学科与场景边界,成为驱动社会演进的核心动能 [3] - 大会将于2025年12月10日在北京金茂万丽酒店举行 [105] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术与产业落地进展 [4] - 预计将吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [107] 嘉宾阵容与背景 - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,曾任百度公司总裁,在微软工作16年,是数字视频和AI领域世界级科学家 [12][13] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,曾主持国家973项目等20余项科研项目 [17] - 王仲远:北京智源人工智能研究院院长,曾在快手、美团、Facebook、微软亚洲研究院任职,发表顶级学术会议及期刊论文100余篇 [21][22][23] - 王颖:百度集团副总裁,负责文库事业部、网盘事业部,2021年加入百度后全面负责百度互娱和垂类业务 [26] - 何晓冬:IEEE Fellow,京东集团高级副总裁、探索研究院副院长,发表论文200余篇,被引用6万余次,带领团队打造JoyAI大模型 [30] - 韩旭:文远知行WeRide创始人兼CEO,带领公司在全球11国超30城开展自动驾驶,公司于2024年登陆纳斯达克,2025年登陆港交所 [35][36] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,著名开源语音识别工具Kaldi的提出者和主要维护者,谷歌学术引用近52000次 [40] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,是中文Linux奠基人之一,国内最早的网络安全专家之一 [44][45] - 尤洋:潞晨科技创始人兼董事长,新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜(亚洲),高性能计算领域谷歌学术引用最高的博士毕业生 [48] - 杨帆:商汤科技联合创始人、执行董事、大装置事业群总裁,主导推动商汤多个核心业务实现规模化商业落地,并前瞻性布局AI专用计算中心 [53][54] - 万卫星:高通公司AI产品技术中国区负责人,领导团队参与多个高通移动平台多媒体项目,负责终端侧AI引擎软硬件规划及生态建设 [58][59] - 陈晓建:亚马逊云科技大中华区产品部总经理,负责云服务在大中华区的落地、产品管理及业务拓展,是企业级业务领域资深专家 [63][64] - 朱宁:上海交通大学上海高级金融学院金融学教授,曾任雷曼兄弟与野村证券高管,研究涵盖行为金融学、中国宏观经济等领域 [67][68] - 赵俊博:浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家,聚焦大模型、世界模型技术攻坚,参与过PyTorch早期研发 [72] - 喻友平:中关村科金总裁,曾任百度智能云副总裁,主导构建百度智能云ToB商业体系,带领团队打造“得助”大模型平台及系列智能产品 [75][76] - 刘凡平:RockAI CEO,主导并实现国内首个非Transformer架构大模型,在大模型领域首倡“群体智能”理念 [80][81] - 乔梁:太初元碁联合创始人兼首席运营官,清华大学计算机系博士,长期从事高性能计算技术与计算机体系结构研究 [86][87] - 王潜:自变量机器人创始人兼CEO,致力于研发由端到端大模型驱动的通用机器人,是国内最早发布VLA统一大模型的团队之一 [90][91] - 杜知恒:小宿科技联合创始人兼CEO,曾任家办CIO、红杉中国对冲基金创始成员,并在高瓴资本、百度等企业从事投资、战略岗位 [95][96] - 徐达峰:蚂蚁集团平台体验技术部负责人,资深前端技术专家,负责AntV/Galacean等社区产品,致力于AI驱动的前端研发范式革新 [99][100] 大会亮点与发布 - 大会将权威发布人工智能年度榜单与年度AI趋势报告 [6][102] - 人工智能年度榜单将从公司、产品、人物三大维度评选五类奖项,是AI行业最具影响力榜单之一 [103] - 年度AI趋势报告将提名正在释放巨大潜力的十大AI趋势,并进行深入分析,提名代表机构及最佳案例 [104]