Workflow
AGI
icon
搜索文档
CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
机器之心· 2025-06-12 00:53
多模态大模型学习新范式 - 提出Crab统一学习框架,通过数据和模型两个角度实现多模态场景理解任务的高效统一,超越垂类专家模型 [2][3][13] - 当前主流的多任务指令微调范式忽视多模态数据异质性和任务间复杂关系,联合训练可能导致任务相互干扰 [2][13] - 新范式明确任务间互助关系,在时序定位、空间定位、像素级理解和时空推理等任务上实现通用理解能力 [3][13][26] 数据集构建与特征 - 构建AV-UIE数据集,包含200K训练样本,涵盖九种任务,其中时序定位任务占比6.8%,空间定位任务占比25.8%,像素级理解任务占比41.6%,时空理解任务占比25.8% [20] - 数据集通过细化现有标签增加显示推理过程,包含具体时空信息,明确任务间互助关系 [16][18] - 采用in-context learning方式利用多模态大模型标注,辅以人工检查纠正,保证数据质量 [18] 模型架构与技术创新 - 设计Interaction-aware LoRA结构,采用共享A矩阵和多个不同LoRA Head B矩阵,每个Head学习数据交互的不同层面 [23] - 通过Router为不同任务分配权重,解耦模型能力,增强特定能力并建立任务间协助桥梁 [23] - 模型包含三个统一多模态接口,处理audio、visual和segmentation mask数据 [21] 实验性能对比 - 在AVE任务上准确率达到80.15%,超过AVT(75.80)、PSP(77.80)和MM-Pyramid(77.80)等专有模型 [27][28] - 在ARIG任务上cloU达到41.78,AUC达到0.42,超过LVS(23.69 cloU)、EZ-VSL(26.43 cloU)和FNAC(27.15 cloU)等专有模型 [28] - 在AVQA任务上平均准确率达到78.94%,超过ST-AVQA(71.59)、COCA(72.33)和PSTP-Net(73.52)等专有模型 [27][29] 任务类型与能力展示 - 时序定位任务要求模型输入音视频并定位时序片段,如找到发生的音视频事件 [5] - 空间定位任务要求模型输入音频和图像并定位发声物体位置 [7] - 像素级理解任务要求模型输入音频和图片并分割发声物体,包含S4、MS3、AVSS和Ref-AVS等多种分割任务 [9] - 时空推理任务要求模型输入乐器演奏音视频并回答相关问题,涉及时序和空间信息理解与推理 [8]
该翻篇就翻篇吧,搞 AI 一定要向前看
Founder Park· 2025-06-11 12:36
Founder Park /AGI Playground 2025 动意以 Agenda 6.20 PM lec 特别单元 22822882 Founder Show x se np 新锐与成熟创业者的 28 深度探讨 30 6.21 AM 主题分享: Why Chapter 2 ? 6.21 PM Al 硬件 垂直 Agent 全球化 50 6.22 AM al Al Cloud 100 China x AGI Playground 6.22 PM 创业新范式 | 出海新方法 | After Party 6.21 22 PM 露天 Social Playground 喝点东西, 坐下唠! Founder Park /AGI Playground (2025 Buy Tickets Now 15 16 17 18 19 20 21 23 Founder Park Founder Park 2 % % 2 % % % /AGI Playground /AGI Plavaround /2025 '2025 /早鸟单日票 早的印度 /6月22日 /6月21日 31 32 33 x751 × 751 34 35 36 ...
他本是浙大医学4+4,现在带队上海机器人冲刺IPO
36氪· 2025-06-11 10:35
公司概况 - 上海仙工智能是一家以"机器人大脑"(控制系统)为核心的智能机器人公司,成立仅5年已成为全球机器人控制器出货量第一的企业[1][4] - 公司采用"控制器+软件+机器人"一站式解决方案,控制器适配超过300种零部件,支持客户模块化搭建机器人[4][6] - 业务覆盖全球30+国家和地区,客户数量从2022年380家增长至2024年832家,年复合增长率48%[4][14] 产品与技术 - SRC系列控制器集成SLAM、自然环境导航等算法,适配20+行业上千场景,2024年单独销售4055台(年复合增长率54.5%)[6][14] - 自研云端软件系统实现全流程数字化管理,支持多类型机器人统一调度,2024年软件收入2029万元(占6%)[8][20] - 提供1000+款预装控制器机器人产品,2024年出货2576台(年复合增长率84.6%),收入占比提升至69.5%[10][20] 财务表现 - 营收从2022年1.84亿元增长至2024年3.39亿元(年复合增长率35.7%),毛利率稳定在45%-49%[18][26] - 机器人业务收入占比持续提升(2024年2.36亿元),但控制器业务毛利率高达81%[20][26] - 经调整净亏损率从2022年-16.7%收窄至2024年-3.1%,主要因股份支付等非现金支出影响[29][32] 研发与团队 - 研发费用占比超20%,154人团队由5位核心成员带领,包括3位浙大校友联合创始人[22][33] - CEO赵越曾获RoboCup机器人世界杯冠军,持股52.89%投票权,核心团队含多位算法专家[35][37][39] - 科沃斯等机构参与四轮融资,IPO前估值32.7亿元(较首轮增长10倍)[43][44][45] 行业趋势 - 全球智能机器人销量从2020年40.66万台增至2024年108.26万台(年复合增长率27.7%),预计2029年达325万台[49][51] - 近期5家机器人公司集中赴港上市,反映AI进步与自动化需求推动行业进入黄金发展期[47][48][53]
36氪冯大刚:努力伴随AGI一代人共同成长|WAVES新浪潮2025
36氪· 2025-06-11 07:25
中国创投市场新纪元 - 中国创投市场处于周期筑底转折点与结构性转型深化期,政策主导、国资与资本高度集中的新生态正在形成 [1] - 36氪WAVES 2025大会聚焦AI技术革新、全球化浪潮与价值重估等前沿议题,汇聚顶级投资人、创业者及跨领域专家 [1] AI技术发展与行业动态 - AGI(通用人工智能)成为新生产力范式,Deepseek、Manus等案例标志技术加速发展 [3][4] - 2023-2024年创投行业活跃度显著提升,融资事件与产品发布频率达每周级别 [5] - 杭州余杭区(良渚)成为AI创业聚集地,涌现"杭州六小龙"等新兴团队 [5][6] 36氪WAVES大会亮点 - 大会设置投资人会场与创业者平行会场,汇集国内AI领域最具话语权的投资人与创业者 [7] - 特别环节"Let's WAVES"聚焦00后创业者,展示其对未来的独特见解 [7] - 36氪成立15周年,定位为伴随AGI时代成长的新一代创投服务平台 [8] 行业代际变迁 - 移动互联网时代成就中国商业科技最伟大公司,当前进入以AGI为核心的新周期 [3][9] - 新一代创业者展现差异化风貌,通过独立演讲形式输出对技术、产品的原创思考 [7]
智擎全球·链算未来:AGI分布式智算网络扬帆出海,重塑全球算力文明新秩序
分布式AI算力国际出海战略 - 香港智擎集团正式启动"分布式AI算力国际出海战略",核心为AGI分布式智算网络区块链,旨在突破集中式垄断并实现社会协同 [1] - 该战略标志着中国技术方案在重塑全球算力秩序中迈出关键一步,以破界之势进入全球市场 [1] 算力资源与行业变革 - 算力资源已成为驱动数字文明的"新石油",但硬件垄断、高昂成本和僵化调度机制制约全球创新活力 [2] - AGI分布式智算网络通过区块链技术重构算力生产关系,构建去中心化、全球共享的算力神经网络 [2] - 智能合约的不可篡改性降低协作成本,跨链交互协议释放算力资产流动性,使算力成为可自由交易的基础性生产资源 [2] 技术创新与多维赋能 - AGI分布式智算网络采用"使用即增值"经济模型,每笔算力交易自动触发部分Token销毁,形成稀缺性与生态价值增长的动态平衡 [3] - 初创团队可接近边际成本获取海量算力资源,使3D实时渲染、量子模拟、大模型训练等高算力应用走向普惠化 [3] - 催生"算力产消者"新物种,企业可将闲置设备接入网络转化为收益来源,个体可将消费电子产品转变为生息资产 [3] 社会与国家战略意义 - 打破技术话语权垄断,使全球技术边缘群体获得平等参与智能革命的入场券 [3] - 致力于将算力从资本垄断中释放,重塑为支撑人类集体智慧进化的公共基础设施 [3] - 填平国家、区域间的技术鸿沟,实现"算力即民主"的理想 [3] 法治化与国际化路径 - 依托《民营经济促进法》构建企业安全发展空间,借鉴杭州、深圳等地方政府的前沿天使投资模式 [4] - 战略路径包括参与长三角算力枢纽建设、与浙江大学展开前沿合作、打造标杆应用 [4] - 最终目标是携手"一带一路"沿线及全球各国,建设分布式算力网络枢纽节点 [4] 行业范式升级 - AGI分布式智算网络代表对人类协作文明范式的深刻升级,追求算力资源分配正义和全球算力民主化 [5] - 通过算法共识机制缔造个人利益与集体福祉深度融合的协作范式 [5] - 推动构建更平等、高效、可持续的数字文明新秩序 [6]
13410亿,字节跳动的万亿野心
投中网· 2025-06-11 02:36
字节跳动AI战略布局 - 字节跳动在2024年显著加强AI领域投入,将原AI Lab并入大模型部门Seed,强化研产一体化和AGI研究,并取消季度考核以保障长期创新 [5] - 公司启动"2026届Top Seed校招计划",面向全球招募30名顶尖博士,提供80万-220万年薪及独立算力资源 [5] - 2024年第一季度推出超过20款AI应用,布局10个赛道,产品线整合包括将"猫箱"和"星绘"并入豆包App,发布Agent产品"扣子" [5][6] 人才战略与组织调整 - 字节跳动延续"抢人"策略,招聘数百个AI相关职位,同时重用资深高管如朱骏(原TikTok负责人)和陆游(原抖音社交负责人)主导新项目 [8][9][10] - 内部采用"先外后内"策略,海外版Coze率先上线测试市场,国内版扣子空间上线首日用户突破50万 [12][14] - 公司向创投圈输送大量人才,包括高管和产品经理,其中字节系产品经理成为VC争抢对象 [6][26] 产品与商业化进展 - 豆包大模型成为战略核心,2024年5月正式发布并升级视频通话功能,为AI眼镜上线铺路 [15][20] - AI硬件布局涵盖耳机、眼镜等设备,2024年收购Oladance后推出AI无线耳机,中秋推出AI玩具"显眼包" [15] - 2024年AI资本开支达800亿元,超过BAT总和,2025年计划支出1600亿元(后被公司否认) [18] 市场竞争与行业影响 - 字节采用"多点开花"策略,与阿里(侧重B端)、腾讯(聚焦微信生态)形成差异化竞争 [19][20] - 字节系创业者2023年以来成立至少30个项目,覆盖硬件、基础设施、应用等方向,获红杉、高瓴等机构投资 [23][24][25] - 公司净利润率从2023年26%降至2024年21%,但预计2025年营收将达1860亿美元(约13410亿人民币),接近Meta水平 [19]
Report: Meta taps Scale AI's Alexandr Wang to join new ‘superintelligence' lab
TechCrunch· 2025-06-10 15:22
Meta AI战略布局 - 公司计划成立专注于"超级智能"的新AI研究实验室 以增强在AI领域的竞争力 [1] - 已聘请Scale AI创始人兼CEO Alexandr Wang加入新实验室 同时考虑对Scale AI进行数十亿美元投资 并吸纳其员工 [1] - 从OpenAI和谷歌挖角多名首席研究人员 强化团队实力 [1] 管理层动态与战略目标 - CEO Mark Zuckerberg对公司AI进展不足感到不满 亲自在Lake Tahoe和Palo Alto住所面试研究人员 计划组建约50人团队 包括新任AI研究负责人 [2] - 管理层认为公司有能力且应当超越其他科技企业 率先实现通用人工智能(AGI) [2] 用户规模里程碑 - Meta AI上月月活跃用户突破10亿 [3]
快手股价五日累计上涨超23%,券商一致看好可灵AI变现前景
格隆汇· 2025-06-10 01:41
股价表现与机构观点 - 快手股价近五个交易日(6月4日至6月10日)累计涨幅超23%,跑赢同期恒生指数表现 [1] - 摩根大通将快手列为中国数字娱乐行业首选股,目标价定为71港元 [1] - 摩根大通、摩根士丹利、高盛及中信证券等机构密集发布报告,聚焦快手广告业务加速与可灵AI商业化突破 [1] 广告业务增长预期 - 快手广告收入预计从二季度开始加速增长,同比增速由一季度的8%提升至四季度的19% [1] - 广告增长主要受益于内容消费、本地生活及货架电商广告的拉动 [1] 可灵AI商业化进展 - 可灵AI 3月份年化营收运行率(ARR)突破1亿美元,4月和5月月度订阅预订额均超1亿元人民币 [1] - 可灵AI 70%收入来自海外市场 [1] - 高盛将可灵AI 2025年收入预期上调至1.2亿美元 [2] - 摩根大通将可灵AI全年收入预期由4.5亿元上调至7.5亿元 [2] 可灵AI用户结构与市场潜力 - 可灵70%付费用户为广告、影视等行业的专业人士 [1] - 可灵2.1版本通过优化定价策略降低使用门槛,预计加速在中小企业市场渗透 [1] - 中信证券预计到2030年可灵年收入可能达到8.68亿美元,年复合增长率44.7% [2] - 可灵当前对应的保守估值增量约为36-48亿美元 [2] - 可灵未来总可触达市场(TAM)规模将超千亿美元 [2] 行业前景与公司估值 - 2023年全球视频制作市场规模9519亿元,预计2029年达15743亿元 [2] - 快手股价报63.4港元,为四月以来的最高值 [2] - 市场预计二季度财报将显示广告与AI业务的协同效应,为估值修复提供动能 [2]
人形机器人:产业推进提速,应用落地加快
2025-06-09 15:30
行业与公司 - 行业:人形机器人[1] - 公司:特斯拉、宇树科技、长江证券、药师帮、Figure AI、天工、埃斯顿、汇川技术、拓斯达智能、雷赛智能、优必选、智源信创、奥普特、北特科技[1][3][6][8][9][10][12][13][16] 核心观点与论据 行业动态与催化因素 - 6月人形机器人领域迎来多重催化:特斯拉审厂带来的供应链机会、华为云会议潜在落地、Optimus股东大会互动预期、宇树科技等厂商新品发布[1][4] - 5月人形机器人板块市场情绪先扬后抑,5月底板块涨幅回落[2] - 政策推动下人形机器人资本开支超预期,2025年国内知名厂商产销保底估计达1.5万台以上,优必选中标项目数量显著增长[13] 技术进展与瓶颈 - 特斯拉Optimus项目在工厂巡航、拣选及搬运操作取得进展,Local Motion展示良好[5] - 人形机器人产业化瓶颈在于手眼脑协同(视觉感知、分析与精准执行),国内外厂商仅能完成单一重复操作,长持续多步骤工作成功率低[7] - 国内厂商采用强化学习和模仿学习实现初步原子能力,但规划与意识需大脑参与,VRM模型研发积极,智源海外飞书AI突破VRA模型操作[11] - 3D视觉是解决机器人察觉周边深度信息的核心方案,国内市场主要由深圳一家企业和英特尔占据,新兴视觉模组厂商如奥普特正在突破[12] 应用场景与落地 - 长江证券与药师帮合作落地医药零售场景,Figure AI提升物流分拣效率30%,天工2.0展示多场景应用[6] - 工业人形机器人在下游市场有效需求可通过高性能或高性价比论证,优必选搬运机器人已在汽车制造领域实现降本增效[14][15] - 人形机器人应用场景可扩展至纺织服装等行业,关注边际变化如北特科技新产品发布和优必选新消费类产品[16] 硬件与供应链 - 灵巧手硬件需具备一致性、稳定性和长寿命,同时提升性价比,提供易用SDK和行业解决方案[8][9] - 雷赛智能在智能抓取手领域具有竞争优势,核心部件如空心杯电机、无刷槽电机及微型丝杆已实现量产和降本[8][10] - 雷赛在无框力矩电机领域预计出货量达万台级别,灵巧手方面计划向国内客户送样[10] 其他重要内容 - 长江机械认为赛道产业化趋势将持续推进,重点关注神经元协同瓶颈赛道及应用端机会,拥抱边际变化并储备进攻路线[17][18] - 需观察示范化应用落地以释放有效需求,目前每家企业表现出的规模水平及实际应用仍未达到泛化标准[13]
腾讯研究院AI速递 20250610
腾讯研究院· 2025-06-09 14:06
ChatGPT 4o更新 - ChatGPT 4o在回答复杂问题前会先停顿几秒"思考",页面显示"Thought for a few seconds",然后再决定搜索或直接回答 [1] - 这种"先理解后搜索"的能力提高了回答准确性,但用户需要等待更长时间,移动端触发率更高 [1] - OpenAI已将这种思考能力扩展到GPT-4.1和GPT-4.5等非推理模型中 [1] 谷歌Veo 3更新 - 谷歌Veo 3模型新增"360°"关键词功能,能生成3D环绕效果视频,但在物理真实性上仍有缺陷 [2] - 推出Veo 3-Fast版本,支持文生视频和自动生成配音,速度更快且价格降低80% [2] - Fast版本生成8秒720P视频仅需20 credits(比标准版便宜5倍),但面部细节和光照效果略有下降 [2] 智谱AI发布CoCo - 智谱AI推出CoCo企业自主Agent,具备"记忆能力"的AI助手,能记住员工互动、根据部门职能提供差异化服务 [3] - CoCo可集成企业知识库、数据库和系统工具,通过MCP平台实现与企业原有工作流的整合 [3] - 提供完整私有化部署方案确保数据安全,支持MCP小应用一键自动化工作流,已开放申请通道 [3] MiniCPM 4.0发布 - MiniCPM 4.0模型只关注重要内容,像人类阅读一样选择性处理信息,让手机等设备上的AI速度猛增220倍 [4] - 创新的"草稿+验证"机制让模型生成更快,同时用极致压缩技术将模型体积缩小90%但保持高性能 [5] - 自研专用软件系统和"小模型先试错"策略,让小模型用较小训练量就能超越同类产品,支持超长文本处理 [5] 小红书开源文本大模型 - 小红书hi lab开源dots.llm1大模型,采用MoE架构,总参数142B但仅激活14B,经11.2T高质量数据训练后性能可媲美Qwen2.5-72B [6] - 团队首次开源完整训练过程中每1T token的检查点,包括Pretrain与Instruct阶段共14个checkpoint [6] - 通过优化数据处理流程、AlltoAll通信重叠和Grouped GEMM实现,大幅提升训练效率,使用更少算力达到同等性能水平 [6] 即梦图片3.0 - 即梦智能参考3.0可用于海报重绘设计,上传图片后保持较好一致性,适合制作各类海报 [7] - 设计海报提示词结构公式:产品描述+布局+色调+背景+风格定位+情感氛围+标题设置+字体特色 [7] - 系统功能包括商业促销海报制作、活动展览海报设计及效果转换,可通过局部重绘精准修改文字内容 [7] DreamTech发布Direct 3D-S2 - Direct3D-S2 3D大模型刷新HuggingFace 3D建模趋势榜,被全球开发者广泛关注 [8] - 模型仅用8块GPU训练,效果超越闭源商用模型,训练效率提升近20倍,token吞吐量提高64倍 [8] - 核心创新为空间稀疏注意力机制(SSA),支持超大规模体素生成,已全面开源且采用MIT协议允许商业使用 [8] Meta投资Scale AI - Meta正与Scale AI洽谈超过100亿美元投资,将成为Meta最大外部AI投资和私企最大融资之一 [9][10] - Scale AI成立于2016年,由华裔Alex Wang和Lucy Guo创立,2024年5月获10亿美元F轮融资,估值138亿美元 [10] - 公司主要提供数据标注服务,包括图像视频标注、3D点云标注和NLP处理,客户包括OpenAI、微软、谷歌等科技巨头 [10] 荣耀进军机器人 - 荣耀进军机器人领域,首秀机器人奔跑速度达4m/s打破行业记录,展示其AI技术实力 [11] - 荣耀已发布阿尔法战略(HONOR ALPHA PLAN),将从智能手机制造商向AI终端生态公司转型,五年投资100亿美元 [11] - 荣耀组织架构已调整,成立AI&软件业务部、新产业孵化部,推进AI能力与产品线深度融合,通过HONOR AI Connect平台开放生态能力 [11] Ilya Sutskever演讲 - Ilya Sutskever在多伦多大学毕业典礼演讲中表示,AI最终将能完成人类所有工作,不是部分而是全部 [12] - 他解释称,人类大脑是生物计算机,数字计算机(AI)最终也能做到同样的事情,这将带来人类有史以来最大的挑战 [12] - Ilya呼吁人们密切关注AI发展,培养对AI能力的直觉,为即将到来的深刻变革做好准备 [12]