Workflow
量子位
icon
搜索文档
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
量子位· 2025-08-29 04:21
文章核心观点 - 谷歌Gemini 2.5 Flash Image模型(匿名代号nano-banana)因卓越的图像生成能力爆火 尤其在手办生成领域引发社交媒体创作热潮 [5][7][9] - 该模型通过原生多模态架构和交错式生成技术实现复杂图像编辑 其文本渲染能力成为核心性能评估指标 [57][64][66] - 模型改进基于对前代产品Imagen 2.0用户反馈的系统性收集与测试 解决了像素级编辑 角色一致性和图像质感三大痛点 [68][71][73] 技术特性 - 采用文本渲染作为核心评估指标:提供客观可量化的性能衡量标准 解决传统人类偏好评估的主观性与高成本问题 [58][59][61] - 原生多模态架构实现深度整合:图像理解与生成能力协同工作 支持视觉信号与世界知识的正向迁移 [64][65] - 交错式生成技术支持多轮复杂编辑:可分解包含6-50个编辑要求的提示词 通过连续对话历史理解实现精细化输出 [66][67] 应用场景实测 - 手办生成效果显著:使用英文提示词生成1/7比例实体模型 支持动漫角色 宠物及真人全身像转换 需搭配圆形透明亚克力底座等细节描述 [10][13][25] - 多图结合控制姿态:支持同时参考3张图片进行创作 包括控制角色战斗姿势和双人互动动作 [34][47][49] - 跨次元转换能力:将二次元插画转换为真人cosplay照片 背景可设置为漫展等特定场景 [43][51][54] 生态发展计划 - 举办Nano Banana Hackathon黑客马拉松:提供2天免费API额度 获奖者可获得开发者积分及Gemini相关奖品 [75][76] - 开放多平台体验通道:用户可通过AI Studio Gemini API或直接集成至Gemini使用该模型 [76][78][80]
蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录
量子位· 2025-08-29 04:21
MedResearcher-R1团队 投稿 量子位 | 公众号 QbitAI 不卷参数的专业模型,会不会被通用大模型取代? 在 医疗领域 ,这个疑问正在被打破。 蚂蚁集团联合研究团队发布的《MedResearcher-R1: Expert-Level Medical Deep Researcher》技术报告,证明了一条关键路径:专业 开 源 模型只要做好领域化设计,有机会在垂直赛道上"以小博大",反超通用大模型。 团队发布的医学AI智能体 MedResearcher-R1 ,靠2100条(约2K规模)训练样本,在权威医疗基准测试MedBrowseComp上,将复杂医疗 研究任务的准确回答数量提升至 27.5 。 刷新该榜单纪录的同时,超过o3、Gemini 2.5 Pro等领先通用大模型,突破了此前 25.5 的业界准确回答"卡点"。 让AI学会像医学专家那样思考 1. 缺"专业储备":通用模型没有密集的医疗知识,面对罕见病、多病症关联等场景,支撑不了临床推理; 2. 缺"精准工具":依赖公开网页搜索的通用工具,要么找不到权威医疗数据,要么被错误信息干扰,无法保障推理严谨性。 据此,蚂蚁团队提出了 知识指引下 ...
马斯克入局AI编程!xAI新模型限时免费用:256K上下文,主打一个速度快
量子位· 2025-08-29 00:54
产品发布与定位 - 马斯克旗下xAI公司推出智能编程模型Grok Code Fast 1 主打快速和经济性 支持256K上下文 并限时7天免费[1] - 新模型适用于多步骤和工具调用密集的复杂自动化任务 定位为轻量级智能编码助手[24] - 与GitHub Copilot、Cursor、Cline、Kilo Code、Roo Code、opencode和Windsurf等平台深度合作 优化IDE内指令理解能力[16] 性能表现 - 在ToyBench基准测试中整体排名第5 综合得分62.67% 仅次于GPT-5(93.67%)、Claude Opus 4(84.94%)、Gemini 2.5 Pro(65.00%)和DeepSeek Reasoner(73.83%)[4][5] - 在内部基准SWE-Bench-Verified子集测试中达到70.8%的成绩 处于编程模型领先水平[18] - 支持TypeScript、Python、Java、Rust、C++和Go等多语言 具备从项目创建到点对点bug修复的全流程能力[18] 技术特性 - 采用全新架构设计 使用专用代码语料库预训练 并通过真实世界拉取请求与编码任务数据微调[16] - 实现超过90%的指令缓存命中率 结合推理加速和提示缓存优化 使工具调用响应时间缩短至数秒内[17][18][7] - 通过开发者主观评估与自动化行为监控双重验证 确保模型可靠性和任务执行效率[20] 商业化与定价 - 输入tokens定价为每百万0.2美元(约1.4元人民币) 输出tokens为每百万1.5美元(约10.7元人民币) 缓存调用tokens仅需0.02美元(约0.14元人民币)[25] - 价格仅为Claude Sonnet 4(约10.05美元)和GPT-5(约18.77美元)的十分之一 性价比显著优于市场主流产品[5][26] - 速率限制为每分钟480请求和每分钟200万tokens 与同系列产品Grok-4保持相同水平[22] 应用案例 - 用户实测显示可快速生成pygame多媒体效果 实现丝滑的交互体验[9][10] - 成功构建模拟战斗小游戏 支持持续交互功能[2] - 在多指令环境下准确展示时间晶体细节 并具备UI设计能力[12][14]
腾讯混元最新开源:一键生成电影级音效,性能表现全面SOTA
量子位· 2025-08-29 00:54
腾讯混元视频音效生成模型开源 - 腾讯混元正式开源端到端视频音效生成模型HunyuanVideo-Foley,专为视频内容创作者打造专业级音频生成工具 [1][2] - 该模型支持多场景音效生成,包括人物互动、动物活动、自然景观、卡通动画及科幻场景,实现音画同步与语义对齐 [10][11] - 模型完全开源,提供官网、GitHub及Hugging Face等访问渠道 [6][31] 技术突破与性能表现 - 解决视频转音频三大挑战:多模态数据集匮乏、语义响应不均衡及音质粗糙问题 [8] - 在VGGSound-Test基准测试中,关键指标全面领先:FDPaNNs为6.07(优于其他模型9.01-33.15),FDPaSST为202.12(优于其他模型205.85-474.56) [22] - 在MovieGen-Audio-Bench主观评测中,音频质量(MOS-Q)、语义对齐(MOS-S)和时间对齐(MOS-T)均超4.1分(满分5分),达到接近专业水准 [23] 核心技术创新 - 构建约10万小时级高质量TV2A数据集,通过自动化标注与数据过滤管线支撑模型泛化能力 [26] - 创新设计双流多模态扩散变换器(MMDiT)架构,实现视频与音频帧级别对齐及文本信息注入 [29] - 采用表征对齐(REPA)损失函数与改进型DAC-VAE技术,提升音频质量至48kHz采样率及128维连续表征 [30] 行业应用场景 - 为短视频创作者提供一键生成背景音效功能,适配搞笑段子、生活vlog及AI视频等内容 [31] - 助力电影制作团队突破传统音效制作周期与成本瓶颈,快速构建环境音与拟音场景 [31] - 为广告公司提供专业级音效定制服务,增强产品宣传片的视觉冲击力与品牌记忆点 [31] - 面向游戏开发者实时生成沉浸式环境音与角色动作音效,提升游戏互动体验 [31]
小米新系统和iPhone联动了
量子位· 2025-08-28 10:40
核心观点 - 小米发布第三代操作系统澎湃OS 3 重点聚焦系统流畅性、设计更新、AI功能强化及跨生态互联 旨在提升用户体验并推进"人车家全生态"战略 [1][10][110] - 系统通过底层技术优化实现性能显著提升 包括游戏帧率稳定、功耗降低及多设备协同流畅度改进 [15][17][29] - 引入多岛方案、跨品牌互联(支持iPhone)及AI驱动的小爱助手升级 强化功能多样性与生态开放性 [12][62][74] - 操作系统已启动Beta测试 覆盖8款机型 无门槛招募用户参与 首批推送时间为8月29日 [112][115][117] 系统性能优化 - 应用响应时延和完成时延优于行业竞品 游戏场景中《王者荣耀》和《原神》的1% low帧率提升且帧功耗下降 [15][17] - 短视频浏览功耗显著降低 5000mAh电池设备续航延长超1小时 [19] - 内核层通过指令编译优化降低CPU总指令数 图形技术将动画绘制下沉至系统层提升渲染效率 [23][24] - 重载多任务场景下响应时延与异常次数表现优秀 全系统超100个动效细节优化 [26][27] 设计与功能更新 - 推出多岛方案替代单岛/双岛流派 支持超载字体显示多任务信息(如打车、航班)并支持拖拽分享 [35][36][40] - 锁屏设计引入电影感风格与居中大时间布局 桌面采用均匀网格与高清图标 状态栏支持自定义 [39][44][46] - 相册功能强化自定义排序与搜索 优化3万多个关键词(如证件、宠物照片) 宠物识别基于全身特征算法 [52][56][57] 跨生态互联 - 支持小米设备与Mac/iPad互联 实现Face ID解锁、手机应用大屏运行及多窗口协同 [61] - 小米与iPhone跨设备通知同步 支持镜像回复微信消息及云相册互通 [62][64][65] - 平板功能升级 手写笔时延降低 新增分屏模式及20款大屏适配应用 [67] AI功能升级 - 超级小爱响应速度全面提升 支持语音输入、深度思考及应用搜索 拍照功能集成翻译与识别 [76][78][81] - 新增圈屏功能 支持用户圈选内容获取场景化建议(如习题解答、WiFi连接) [84][85][86] - 基于大模型实现一步直达操作 自动执行多步骤任务(如美食榜单查询) [90][92][93] - 预计9月底覆盖80个常用应用及超1000个功能 [96] 安全与隐私 - 通过MiTEE协议保障跨端互联安全 云端数据采用双重认证登录及后量子密码算法加密 [99][101] - 相册、日历等权限管理精细化 应用仅可访问用户指定内容而非全部数据 [103][104][106] - 新增关机/离线查找功能 设备丢失后可通过附近小米设备广播定位 [101] 测试与推广计划 - 首批Beta测试支持8款机型 包括Xiaomi 15系列、Redmi K80系列及两款平板 [114] - 测试分两批次推送 首批用户8月29日接收更新 无名额限制且无需门槛 [117][120][121]
AI人才争夺战加大薪资差距,OpenAI前副总裁:能留住人才是最重要的
量子位· 2025-08-28 07:29
时令 发自 凹非寺 量子位 | 公众号 QbitAI 小扎挖人如探囊取物,留人却像竹篮打水。 随着这场AI人才争夺战进入白热化, 大模型公司员工们的薪酬差距也在不断扩大 。 因为技术、市场和资本竞争加剧,每个大型实验室都在抢夺研究人才,但这也带来了一些二 阶效应,即研究人员与非研究人员的薪资差距越来越明显。 不得不承认,有些人虽然并非研究人员,却为产品或公司做出了很大贡献、带来了巨大价 值。然而,他们与那些天价群体之间的差距却在不断拉大。 如今,他之前的雇主都在抢人,但他看到了企业界日益扩大的差距,所以选择跳出此局,成 为风险投资公司Felicis的合伙人。 前几天,他看到一则招聘信息,上面写着"我们需要一名研究工程师",并且公开了薪资水 平。 此公司甚至在x上非常公开地分享了这一信息,引发了不少讨论。有人会说,"哇,你们付这 么高的薪水?" 但他认为这是理所应当的,因为现在这些人才需求就是很大。 如何在这种巨大薪资差距中留住人才 ,才是最关键的问题,毕竟这种薪资差距可能会导致人 才流失。 谁又能说,Meta部分老员工的离职与薪资差距无关呢? 不止我们这么认为,前OpenAI副总裁Peter Deng也对此表 ...
AI搜索MCP服务来了,Agent直接链接实时信息!刚刚,百度智能云打出了张“王牌”
量子位· 2025-08-28 07:29
Agent发展瓶颈与解决方案 - Agent虽已从处理简单任务转向复杂交付 但仍受限于训练数据截止日期 难以及时获取实时动态信息 企业级场景落地存在信息断层瓶颈[1] - 百度智能云千帆平台开放百度AI搜索能力 通过组件及MCP Server形式为Agent提供实时信息补全[2] - Agent调用搜索能力后可实时更新数据 覆盖多元信息来源 通过整合推理与交叉验证提升输出权威性 减少模型幻觉[3] 百度智能云千帆4.0平台升级 - 平台定位为"迄今功能最完备的企业级AI平台" 在数据服务 Agent服务 模型服务等核心能力实现多维升级[4] - 聚合150+精选模型服务 包括业界前沿SOTA模型 百度蒸汽机2.0视频生成大模型 以及10+行业专精模型[5] - 平台已孕育超130万个智能体 服务制造 能源 金融 汽车 教育等领域的超46万家企业[41] 搜索能力与多模态RAG技术 - 百度AI搜索MCP Server依托20多年搜索技术积累与多元内容生态 每日服务上亿用户的高并发架构 提供快速稳定的搜索增强体验[11] - 多模态RAG采用多维度解析策略 深度解析文档 图表等企业内部复杂数据 提供场景化解析模板提升效率[15] - 独家引入图谱增强RAG 通过知识图谱强化实体关系查询 应用于风控 营销等场景可扩大召回范围 提升检索精度[16] 智能体编排与生态建设 - 采用多智能体协作方案 "规划者"智能体拆解任务 "执行者"智能体并行执行 通过协作逻辑最大化工具价值[18] - 支持A2A协议 可与市面上其他支持该协议的Agent平台 独立Agent企业等进行相互调用 构建开放协作生态[18] - 已接入支付宝支付 同程旅行等第三方优质服务 开发者还可自建MCP Server 经百度搜索索引与分发形成生态正循环[22][24] 模型服务优化与性能提升 - 通过分布式部署盘活MoE架构模型闲置"专家"资源 显著提升调用效率[28] - 对领先开源模型提供Function calling能力增强 新增思维链精细化控制 通过"思考策略"和"思考预算"平衡效果效率[29][30] - 全新发布RFT强化精调工具链 提供训推一体引擎 训练效率比未加负载均衡器情况提升43%[33][34] 数据服务与成本优化 - 数据智能服务平台覆盖多模态数据采集 转换 处理 检索 服务等全生命周期 构建AI时代数据智能基础设施[38] - 实现文心大模型端到端数据吞吐效率提升6倍 整体计算成本降低30% 百度文库检索存储成本降低80% 一站式数据开发提效30%[40] - 从全维度安全合规 高可用架构 可观测运维体系三方面构建全套保障能力 满足平台稳定运行 故障规避 弹性扩容等需求[40] 市场竞争与平台战略 - 2024年中国大模型平台市场规模达16.9亿元 百度智能云以14.9%市场份额连续两年居行业首位[42] - 平台战略聚焦搭建智能平台与强化基础设施 实现模型自由切换 工具MCP标准化 数据统一表达 运行可观测与高可用托底[42] - 每接入一个MCP Server即接入其背后数字生态 企业可基于千帆底座连接业务 快速运行并持续迭代[42]
ChatGPT后遗症来了!人类日常聊天越来越AI化
量子位· 2025-08-28 07:29
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 和AI聊了两年多,人类说话ChatGPT味越来越重了? 最新研究结果显示,还真是。 佛罗里达州立大学的研究团队花了两年时间,分析了ChatGPT发布前后的非脚本化口语录音, 在 2210万 个词的数据集中发现像 "delve"、"intricate"这些 学术写作词 高频出现在人们日常说话中。 话不多说,咱还是先来看看研究是怎么做的。 学术写作词在日常说话中高频出现 这是一项关于"AI是否在悄悄改变人类说话方式"的研究。 首先,研究背景很实在:现在,不管是写论文还是写作业,像"delve"、"intricate"这些偏学术的词用得越来越多了,很多人觉得这是因为大模 型总爱用这些词。 也就是说,口语化的"总之,咱这方案还有点问题。"说出来可能变成了—— "综上所述,该方案存在优化空间。" 还有调皮的网友给出了一个要素过多的典型案例。 这就说明人类聊天时的用词,确实在慢慢向AI的用词习惯靠拢,越来越学术了…… 那么问题来了: 这些变化到底是因为人们直接抄AI写的内容,还是因为AI真的影响了人类自己的语言习惯,让大家不自觉就说起了这些词? 为了找到答案,佛罗里达 ...
啊?猫猫也会老年痴呆
量子位· 2025-08-28 07:29
猫认知功能障碍综合征(CDS)的病理机制 - 老年猫大脑中淀粉样蛋白β含量显著高于年轻猫 无论是否患病均存在此现象[9] - 淀粉样蛋白β斑块在突触周围积聚 可能导致突触功能异常[10][11] - 免疫细胞小胶质细胞和星形胶质细胞处于过度活跃状态 在斑块附近潜伏并攻击突触[13][14][15][18] CDS与人类阿尔茨海默病的相似性 - CDS病理变化包括脑萎缩 神经元丢失 淀粉样蛋白β斑块等 与人类阿尔茨海默病高度相似[21][22] - 猫成为人类阿尔茨海默病的天然模拟对象 无需基因改造即可自发发展痴呆症[23][24] - 研究支持将CDS作为自然发生的可转化阿尔茨海默病模型[25] 研究样本与实验方法 - 研究团队分析25只猫的死后大脑样本 包括7只年轻猫和18只老年猫[7] - 老年猫组中包含8只表现出痴呆症状的CDS患病猫[7] - 采用免疫染色技术标记小胶质细胞和星形胶质细胞进行观察[16] 未来研究方向与应用价值 - 计划研究更多大脑样本以揭示CDS患病与非患病猫的区别模式[26] - 将进一步探索tau蛋白等阿尔茨海默病相关标志物在猫脑中的表现[27] - 研究成果可能为猫痴呆症开发治疗方法 同时为人类阿尔茨海默症提供新见解[4][5][28]
一帮人All in AI,让搞体育的先赚到钱了
量子位· 2025-08-28 07:29
核心观点 - 公司通过全面AI转型实现扭亏为盈 经调整净利润达1035万元 体现AI战略对财务和业务模式的结构性重塑作用 [2][3][4][12][21] 财务表现 - 上半年总营业收入8.2亿元 毛利率52.2% 同比提升6.2个百分点 [5] - 每名月活跃用户每月平均收入从5.8元增至6.1元 同比增长4.5% [32] - 盈利改善主要源于AI投入见效带来的经营效率提升及业务结构优化 [9][20] AI产品落地成果 - AI教练卡卡覆盖个性化训练计划生成、语音导练及饮食记录分析等功能 [13] - AI核心日活跃用户超15万 饮食记录功能第二天留存率达50% 对APP DAU留存率攀升至79% [14] - 通过AIGC内容扩展多品类运动场景 智能穿戴产品完成5轮OTA升级并新增羽毛球模式 [16][17] 基础设施与竞争优势 - 拥有2249万月活用户和280万月度订阅会员 覆盖25个运动垂类内容体系 [30] - 自研模型Kinetic.AI实现多智能体系统建设 具备人设、记忆和意图为核心的Agent底层基础 [32][33] - 十年积累的用户数据、场景和服务闭环为AI转型提供先发优势 [25][26][27] 商业模式变革 - 收入逻辑从"内容订阅"转向"服务订阅" 用户为结果和体验付费 [31] - AI服务推动更高ARPU值 业务形态重构为"运动科学"与"运动美学"双驱动 [17][32][34] - 战略主动调整包括精简低效品类和关停线下业务 为长期盈利铺垫 [20] 行业定位与估值逻辑 - 从工具型APP转型为以生活陪伴为核心的AI应用平台 估值逻辑转向AI SaaS模式 [35][44] - 具备技术表现力与业务自洽性 符合AI时代对闭环数据、高频场景和持续训练能力的评估标准 [36][43] - 路径类似美图和多邻国 通过AI改造释放超出原产品边界的价值 [37]