Workflow
量子位
icon
搜索文档
首位“80后”院士,来自北大数院
量子位· 2025-11-22 03:07
文章核心观点 - 北京大学数学科学学院1980年出生的刘若川教授当选中国科学院院士,成为首位“80后”院士,标志着北大数院“黄金一代”数学家群体中产生了首位院士代表 [1][2][4] 人物背景与学术成就 - 刘若川于1999年获得第40届国际数学奥林匹克竞赛金牌并保送北大,2008年从麻省理工学院获得博士学位,2012年回归北大任教 [6][7] - 其主要研究领域为算术几何与代数数论,在p进霍奇理论、p进自守形式及代数K理论等前沿方向取得杰出成果,并对非交换p进霍奇理论作出开创性工作 [8] - 其与合作者开展了算术几何与代数拓扑的交叉研究,给出了拓扑循环同调全新的计算方法,开辟了新的研究方向 [9] - 2017年,37岁的刘若川获得国家杰出青年科学基金项目资助 [10] - 2020年,其独立完成的“p进霍奇理论及其应用”项目荣获国家自然科学奖二等奖 [11] - 2024年,刘若川获得拉马努金奖,该奖授予未满45周岁、做出杰出科研工作的发展中国家青年数学家 [12][13] “北大数学黄金一代”群体 - “北大数学黄金一代”指2000年前后进入北京大学、踏上数学研究道路的数学新星群体,包括1999级的刘若川、2000级的袁新意、李驰等多位学者 [14][17] - 著名数学家张寿武曾评价该群体“他们合在一起,应该是中国数学的未来” [18] - 该群体成员之间至今仍保持紧密合作关系,刘若川的最新研究论文中就有同属“黄金一代”的肖梁教授参与 [19][21] - 目前,除刘若川外,肖梁、袁新意等“黄金一代”成员也已在北京大学北京国际数学研究中心任教 [26] 科研理念与学术环境 - 刘若川认为,科学研究需要好的场域,这由好的科研理念、风气以及多元优秀的科学家组成 [24] - 他强调与同行讨论、探索尝试对于产生想法和火花的重要性 [20] - 他认为,优秀的科学家达到一定“密度”,有利于增进交流和相互启发 [25]
抢先报名!MEET2026最新嘉宾阵容官宣,一起热聊AI
量子位· 2025-11-22 03:07
大会核心信息 - 大会主题为“共生无界,智启未来”,聚焦AI技术穿透产业、学科与场景边界,成为社会演进核心动能 [3] - 将于2025年12月10日在北京金茂万丽酒店举行,预计吸引上千名科技从业者参与,百万观众线上围观 [2][105][107] - 关注前沿技术与产业落地进展,涵盖强化学习、多模态、芯片算力、AI+行业、AI出海等热议话题 [4][5] 大会核心议程与发布 - 议程结合学术前沿与商业落地的最新碰撞,展示来自Infra、模型、产品产业的领先技术成果 [5] - 将权威发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项 [6][103] - 将发布年度AI十大趋势报告,结合技术成熟度与落地现状,提名并分析十大AI趋势及代表案例 [104] 参会嘉宾阵容(学术界与产业界领袖) - 张亚勤:清华大学智能产业研究院院长、中国工程院院士,数字视频和AI领域世界级科学家,曾任百度总裁、微软全球资深副总裁 [12][13] - 孙茂松:清华大学人工智能研究院常务副院长、欧洲人文和自然科学院外籍院士,主持国家973项目等20余项科研项目 [17] - 王仲远:北京智源人工智能研究院院长,曾任职于快手、美团、Facebook,发表论文100余篇,获ICDE 2015最佳论文奖 [21][22][23] - 何晓冬:IEEE Fellow、京东集团高级副总裁,发表论文200余篇被引用6万余次,带领团队打造JoyAI大模型并应用于零售、物流等行业 [30] - 韩旭:文远知行创始人兼CEO,带领公司在全球11国超30城开展自动驾驶业务,2024年登陆纳斯达克,2025年登陆港交所 [35][36] - Daniel Povey:小米集团首席语音科学家、IEEE Fellow,著名开源语音识别工具Kaldi的提出者,谷歌学术引用近52000次 [40] 参会嘉宾阵容(企业技术与业务负责人) - 王颖:百度集团副总裁,负责文库事业部、网盘事业部,2021年加入后全面领导百度互娱和垂类业务创新 [26] - 杨帆:商汤科技联合创始人、大装置事业群总裁,主导AI基础设施建设,推动身份验证、安防等业务规模化落地 [53][54] - 万卫星:高通公司AI产品技术中国区负责人,负责终端侧AI引擎软硬件规划及生态系统建设 [58][59] - 陈晓建:亚马逊云科技大中华区产品部总经理,负责云服务落地及产品管理,拥有超过20年企业级业务经验 [63][64] - 喻友平:中关村科金总裁,前百度智能云副总裁,提出“平台+应用+服务”大模型落地三级引擎战略 [75][76] - 赵俊博:浙江大学研究员、蚂蚁集团资深技术专家,首创数据库大模型TableGPT,参与PyTorch早期研发 [72] 参会嘉宾阵容(创业公司及前沿技术探索者) - 尤洋:潞晨科技创始人、新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜,任职于谷歌、英伟达等公司 [48] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型,首倡“群体智能”理念推动AGI发展 [80][81] - 王潜:自变量机器人创始人兼CEO,其硕士工作成为Transformer注意力机制最早基础之一,致力于端到端大模型驱动通用机器人 [90][91] - 乔梁:太初元碁联合创始人兼COO,曾任国家超算无锡中心AI研发中心副主任,主导国产异构众核平台超大规模并行深度学习框架研发 [86][87]
对话范浩强:10亿融资之前,我们手搓了5000元“丐版硬件”
量子位· 2025-11-21 09:00
公司成立与融资进展 - 公司于2025年3月正式成立,创始团队来自旷视等AI企业,具备AI 1.0时代的实战经验[5][6][18] - 成立9个月内完成3轮融资,近期获得阿里巴巴独家投资的A+轮融资,金额达数亿元[4] - 公司目前规模为百余人,融资节奏快但强调执行不因资本而变形[59][60] 技术方向与产品定位 - 公司聚焦具身智能领域,从To B工业场景切入,优先落地物流行业的拣选分发等高频环节[20][21] - 核心产品基于自研端到端多模态具身智能大模型MMLA,搭配双抓夹机械臂,实现非结构化物品的抓取与分类[21][22] - 产品已在上海等地仓库完成POC(概念验证),具备基础交付能力[22][23] 硬件研发标准 - 工业级执行体需满足三大指标:无故障时间1万小时、按年为单位升级、主力型号每年迭代一代[27][31] - 因科研机无故障时间仅百小时或千小时,无法满足生产要求,公司选择自研硬件[28] - 专业硬件团队已组建,计划明年发布新一代配合移动平台的具身版本[28] 开源战略与生态建设 - 公司开源具身智能链条三件套:Dexbotic(脚本化实验流程)、DOS-W1(模块化数据采集机器人)、Robochallenge(真机评测平台)[38][39][41][44] - Robochallenge平台联合抱抱脸等机构,吸引智源研究院、清华大学等数十家高校及企业参与,并于11月20日成立组委会[44][47] - 开源目的包括降低行业门槛、展示技术实力、促进合作,并计划明年开源具身智能基座模型[49][50][55][58] 行业认知与发展策略 - 公司认为具身智能技术成熟需十年长周期,参考AI 1.0时代人脸识别从实验室到城市级应用的经验[63][65] - 当前市场处于早期阶段,客户多为观望态度,公司强调长期信心与短期耐心,拒绝追求短期上市或收购的节奏[60][65][68] - 团队注重系统工程能力,主张在核心环节追求可控性,并通过开源构建行业基础设施[32][37][50]
ChatGPT开始搞社交了
量子位· 2025-11-21 09:00
产品功能更新 - OpenAI在所有套餐(Free、Go、Plus和Pro)上推出免费的群聊功能,最多支持20人通过分享链接加入[8][10] - 群聊功能支持管理群组、设置昵称、屏蔽消息、拉人和踢人等操作,用户需主动接受邀请才能加入并可自由退出[11][12] - 系统根据用户套餐选择相应模型进行回复,支持搜索、图像与文件上传、图像生成及语音输入等功能[13] - 仅当GPT发言时触发计费,费用计入GPT所回复的用户名下,群成员间聊天不计费[15] - GPT具备自主判断能力,可决定在群聊中发言或保持沉默,用户也可直接强制GPT发言[16][19] 公司战略与市场定位 - 此次群聊功能更新被视为ChatGPT向“共享协作空间”迈出的第一步,公司将根据用户反馈完善体验[24] - 此次更新与公司首席执行官一个多月前“绝不做美国微信,不做社交”的公开表态相悖[6][25][27] - 公司首席执行官曾明确表示,ChatGPT应定位为“真正优秀的AI超级助手”,而非社交平台,认为加入社交体验会显得奇怪[27][28] 市场反应与竞争态势 - 此次功能更新被外界解读为在谷歌发布Nano Banana Pro等产品后,公司仓促应对竞争压力的举措[2][8][32] - 与谷歌Gemini系列“火爆出圈”相比,公司近期的更新(包括GPT-5.1和群聊)被指缺乏直击用户痛点的革新和亮眼技术突破,更像为“刷存在感”的补充项[32] - 市场关注的核心问题在于,当出现更好更新的模型时,用户为OpenAI付费的意愿将受到考验[32] - 部分用户质疑公司在推出新功能的同时,未能充分关注主平台反馈、修复核心产品及保护现有用户[31]
抢先报名!MEET2026最新嘉宾阵容官宣,一起热聊AI
量子位· 2025-11-21 06:29
大会概况 - 大会主题为"共生无界,智启未来",聚焦AI技术穿透产业、学科与场景边界的趋势[3] - 会议涵盖强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术话题[4] - 活动将呈现学术前沿与商业落地的最新碰撞,展示Infra、模型、产品产业领域的技术成果[5] - 大会预计吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[107] 嘉宾阵容 - 张亚勤院士为数字视频和AI领域世界级科学家,拥有图像视频压缩传输技术专利,曾任百度总裁和微软全球资深副总裁[12][13] - 孙茂松主持国家973项目、国家社科基金重大项目等20余项科研项目[17] - 王仲远发表国际顶级学术会议及期刊论文100余篇,获得ICDE 2015最佳论文奖,拥有美国专利5项和中国专利50余项[22][23] - 何晓冬发表论文200余篇,被引用6万余次,带领团队打造JoyAI大模型并应用于零售、物流、金融、健康等行业[30] - 韩旭带领文远知行在11国超30城开展自动驾驶业务,公司2024年登陆纳斯达克,2025年登陆港交所[35][36] - Daniel Povey为Kaldi语音识别工具创始人,其LF-MMI建模方法成为商用语音识别系统标准技术,论文引用近52000次[40] - 尤洋获ACM-IEEE CS George Michael Memorial HPC Fellowship,为高性能计算领域谷歌学术引用最高的博士毕业生[48] - 赵俊博首创数据库大模型TableGPT,突破通用模型局限,参与PyTorch早期研发[72] - 刘凡平主导实现国内首个非Transformer架构大模型,提出"群体智能"理念推动AGI发展[81] - 王潜团队为国内最早发布端到端视觉-语言-动作统一大模型的团队之一[91] 发布内容 - 大会将权威发布人工智能年度榜单和年度AI趋势报告[6][102] - 人工智能年度榜单从公司、产品、人物三大维度评选五类奖项[103] - 年度AI趋势报告将提名十大AI趋势并分析代表机构和最佳案例[104] 会议信息 - 大会时间为2025年12月10日,地点为北京金茂万丽酒店[2][105] - 观众报名通道已正式开启[8][105]
太炸裂了!全网实测Nano Banana Pro,网友:这模型里到底装了什么鬼东西!
量子位· 2025-11-21 06:29
产品核心特点 - 谷歌推出最新最强文生图模型Nano Banana Pro,又名Gemini 3 Pro Image,整合了Gemini 3 Pro的多模态理解能力以及谷歌搜索的知识库,能理解现实语义与物理逻辑[11][12] - 主要升级包括支持2K、4K高清分辨率及多种宽高比,文字渲染能力大幅提升支持多语言直接渲染或翻译,支持最多14张图像融合生成,基于Gemini 3 Pro的多模态理解能力支持生成复杂专业图表[13][15] - 产品拥有最先进的图像生成和编辑功能,具备更高级的世界知识、文本渲染、精度和控制能力,基于Gemini 3构建,非常擅长制作复杂的图表[46] 功能性能演示 - 模型能够秒秒钟将英伟达最新财报PDF文件生成重点突出、内容精致的图表,一次性将未加工的Graphviz图表代码生成带logo的可视化效果图,直接生成论文流程图和核心概念解释图如Transformer架构图[2][4][6] - 生成自行车车架及组件的爆炸视图技术蓝图,拥有已拆卸的齿轮和链条,以毫米为单位进行尺寸标注,经过ChatGPT逐项打分认定完成度很高[14][17] - 实现14只娃娃坐在一起看电视的图像融合,整体氛围感符合要求,细节如落地灯光影和玩偶在窗户里的背影都考虑到,但娃娃数量未完全达到14只[18][20][21] 用户应用案例 - 用户将谷歌博客照搬进杂志,配图排版均由模型自动搞定,将灵魂草图转化为撕漫感插画并能拿捏人物神态,根据人物参考图1分钟生成带故事情节的条漫[29][32][34] - 通过口头描述直接生成世界杯对决海报,轻松制作各种结构分解图,用于生成精美的手册和指南如奥地利州狩猎参考指南[37][39][42] - 模型对物理世界理解增强,生成的透明物体能够经受住光影考验,展现更强的现实语义理解能力[44] 市场反响 - 模型出世后短短几小时即掀起全网疯玩热潮,硅谷VC大佬Deedy率先分享实测案例引发广泛关注[1][10] - 网友脑洞大开利用模型进行各种奇思妙想的创作,谷歌CEO皮猜亲自贡献生成图像并为产品站台[28][46] - 普通用户可在Gemini应用中免费体验但有限额,Google AI Plus、Pro和Ultra订阅用户享有更高配额[13]
4K超分Agent修图师来了!一键救活所有模糊照片
量子位· 2025-11-21 06:29
技术背景与市场需求 - 图像清晰度提升是计算机视觉领域的经典问题,传统单一模型在处理噪声、模糊、压缩损伤等复合退化,以及AI合成、遥感、生物医学等专业图像时表现不佳[2][3] - 真实世界中的复杂模糊、AI生成图的伪影,以及遥感、医学等专业图像对放大技术提出更高要求,用户需要一个既通用又可控的框架来解决各式图像提升分辨率的需求[5][6] - 将分辨率放大到4K对细节重建和纹理真实度提出极高要求,4KAgent正是在这些现实挑战与需求下诞生的[6] 4KAgent核心技术框架 - 基于多智能体的设计,4KAgent可以为每张图像设计出一条通往4K分辨率的道路[7] - 感知智能体分析图像内容及退化信息,通过图像分析器评估质量指标,退化推理利用视觉语言模型得到退化信息和复原任务列表,任务规划利用大语言模型制定复原计划[11] - 复原智能体采用"执行-反思-回滚"机制,在执行阶段调用九种不同复原任务的state-of-the-art模型,在反思阶段基于质量评分评估候选图像,当质量低于阈值时触发回滚机制[13][16] - 系统集成人脸修复模块,检测并裁剪人脸后应用不同修复方法,基于人脸质量评分选择最优结果贴回原始图像[18] - 设置Fast4K模式控制运行时间,当图像尺寸超过预设阈值时去除推理时间较长的方法来加速推理[18] 技术优势与工具配置 - 4KAgent的工具栏包含九大类复原任务,涵盖亮度调整、去模糊、去雾、超分辨率、去噪、人脸修复等,集成了ConvIR、DehazeFormer、DiffBIR、GFPGAN等先进模型[14] - 设计配置模块提供可配置的使用偏好,如优先感知质量还是保真度、是否激活人脸修复模块等,能适配不同图像复原场景且无需额外训练[20] - 质量评分综合无参考图像质量指标和人类偏好分数,整体流程可视为质量驱动的专家混合系统[16] 性能测试与实际效果 - 在11种不同图像超分辨率任务的26个基准测试集进行广泛测试,涵盖经典图像超分、真实世界图像超分、多重退化图像复原、大尺度图像超分等[21] - 在经典图像超分和真实世界图像超分任务中,生成的图像展现出更丰富、更精准的细节,如树皮条纹、鹿角结构、羽绒服纹理和数字清晰度[21] - 在16倍放大任务中生成高细节度且逼真的纹理,包括岩石与草丛纹理、人脸图片中的发丝、眉毛纹理和眼睛细节[25] - 在DIV4K-50测试集上检验从256×256到4096×4096的复原能力,始终能重建更精细、更自然的细节,如人脸细节和毛发纹理[27] 应用前景与行业价值 - 该系统在多个领域提升图像复原质量,涵盖自然场景、人像、AI生成内容,以及遥感、显微镜和医学影像等专业科学模态[28] - 在无需特定领域再训练的情况下,在各个场景下均能达到优秀复原表现,彰显优秀泛化能力,为消费级、商业级及科研级应用中的通用部署提供实践价值[28]
振臂一挥,大半个具身机器人圈都来了!智源研究院:别藏了,谁贡献数据多,谁的大脑就更好用
量子位· 2025-11-21 06:29
智源研究院的战略定位与行业角色 - 智源研究院作为非营利性中立机构,旨在成为具身智能时代的“安卓”操作系统提供者,而非直接制造机器人[5][6] - 通过建立互惠契约解决行业数据孤岛问题,承诺数据贡献越多,其训练的“具身大脑”在该厂商机器人上表现越好[4][6] - 以“不争利”的生态共建者姿态聚拢行业,吸引包括银河通用、智元、优必选等主要机器人公司CEO参与[2][6][31] 行业核心痛点与智源的解决方案 - 行业存在严重数据孤岛问题,轮式、足式机器人及机械臂、灵巧手之间的数据无法通用,导致重复开发[7][8] - 智源开源百万级高质量真机具身数据,并提供全流程开发平台RoboXstudio与数据软件框架CoRobot,降低创业公司底层工具开发成本[15][16][17] - 联合10家合作伙伴推出真机评测标准RoboChallenge,解决行业缺乏统一、可量化评测标准的问题[18][20] 技术平台与基础设施布局 - 发布RoboBrain 2.0 Pro通用大脑升级版,引入多巴胺模型使机器人能通过奖励机制学习,并提升空间理解能力[23] - 推出世界模型Emu 3.5,基于海量视频学习物理世界规律,减少对真机采集数据的依赖[23] - 提供FlagOS-Robo多芯片训练与推理一体化框架,解决异构芯片适配难题,目标是让机器人开发像搭积木一样简单[23][24] 生态影响与行业信号 - 智源通过提供标准接口和基准评测,正成为具身智能时代的基础设施“水电煤”[26] - 其做法标志着中国具身智能产业从单打独斗转向抱团作战、集体突围的发展阶段[31]
周志华,院士!
量子位· 2025-11-21 02:23
2025年两院院士增选总体情况 - 2025年中国科学院和中国工程院共增选144位院士,其中中国科学院院士73人,中国工程院院士71人[1] - 两院同时新增外籍院士51人,包括中国科学院外籍院士27人,中国工程院外籍院士24人[2] - 增选后中国科学院院士总数达到908人,外籍院士173人;中国工程院院士总数增至1002人,外籍院士148人[55] 人工智能领域院士亮点 - 南京大学周志华教授因其在人工智能、机器学习和数据挖掘领域的贡献当选中国科学院院士[3][7] - 周志华教授论文被引数量超过11万次,h-index为133,i10指数为497[21][23] - 其著作《机器学习》(西瓜书)被译为英、日、韩文出版,被全球500多所院校用作教材[24][25] - 周志华教授是少数获得人工智能相关重要会议Fellow“大满贯”的学者,并于2023年当选国际人工智能联合会议(IJCAI)理事会主席,是54年来首位担任此职的大陆学者[17][18] 信息技术科学领域院士分布 - 中国科学院信息技术科学部新当选院士11人,研究方向涵盖星载合成孔径雷达、卫星通信、脑认知模式识别、机器学习等[36][37] - 中国工程院信息与电子工程学部新当选院士9人,来自北京邮电大学、中国科学院大学、中国移动、中国科学技术大学等单位[43][44] - 南京大学在信息技术科学部有两位教授当选,包括周志华(机器学习)和施毅(微电子学与固体电子学)[37] 企业界院士代表 - 宁德时代新能源科技股份有限公司吴凯当选中国工程院院士,属于能源与矿业工程学部[46] - 比亚迪股份有限公司廉玉波当选中国工程院院士,属于机械与运载工程学部[42] - 金发科技股份有限公司黄险波当选中国工程院院士,属于化工、冶金与材料工程学部[47] - 中国移动通信集团有限公司王晓云当选中国工程院院士,属于信息与电子工程学部[44]
Nano Banana Pro上线!集成Gemini 3与Veo 3,谷歌不给竞争对手喘息机会
量子位· 2025-11-20 16:01
产品核心升级 - 模型整合了Gemini 3 Pro的多模态理解能力以及谷歌搜索的知识库,能理解现实语义与物理逻辑[4] - 图像生成质量提升,最多支持14张输入图片进行混合,并能保持角色和场景的一致性[7] - 强化文本渲染能力,可将图片中的英文文字翻译成中文、韩文等语言,同时保持原有设计风格[9][13] 技术功能与性能 - 支持2K、4K高清分辨率及多种宽高比,从社交媒体方形图片到电影级2.76:1超宽画幅均可应对[32] - 支持自由调整图像的光线、镜头、对焦、色彩调校等物理属性和构图[33] - 与Google Search深度集成,可基于庞大知识库和实时信息生成准确的图表、地图和信息图[19][20] 应用场景与工作流 - 可实现从创意到生产的完整工作流,营销团队可快速设计生成营销素材,实现创意快速迭代[12][16] - 在Gemini 3高级推理加持下,能生成针对性强、专业的信息图,帮助用户快速将复杂知识可视化,如生成胰岛素-葡萄糖反馈回路解释图或生态系统营养级信息图[25][27][28][30] - 可指定角色生成主题定制化图片,并与Veo 3视频生成模型整合,可将生成的图像作为关键帧继续生成视频[37][39][40] 市场发布与集成策略 - 发布策略覆盖从开发者到普通用户,普通用户可通过Gemini应用使用,免费用户有配额限制,订阅用户享有更高配额[42] - 开发者可通过Gemini API在Google AI Studio和Vertex AI使用,企业用户可享受预配置吞吐量、按需付费及高级安全过滤器[42] - 模型将集成至第三方设计工具如Adobe Photoshop和Figma,并在新的AI开发平台Google Antigravity中集成[43][44] 定价与可用性 - Gemini 3 Pro Image预览版定价为每张图像0.139美元(1K/2K分辨率)和0.24美元(4K分辨率)[43] - Gemini 2.5 Flash Image通用版定价为每张图像0.039美元(1024x1024像素)[43] 内容安全与验证 - 在Gemini app中推出AI图像验证功能,依托SynthID数字水印技术,用户可查询图像是否由谷歌AI生成或编辑[46] - 在Gemini app、Vertex AI、Google Ads、Flow等平台生成的图像中将嵌入C2PA元数据,提供可追溯来源和创作信息的数字档案[48][49]