计算机视觉

搜索文档
暑假打打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛正式启动~
自动驾驶之心· 2025-06-30 12:51
竞赛概述 - 竞赛聚焦空间智能与具身智能的视觉感知技术,旨在推动高效、高质量的技术研究,探索强化学习、计算机视觉等前沿方法的创新,并促进神经渲染、场景优化等方向的应用 [2][4] - 竞赛由北京科技大学、清华大学、中国科学院自动化研究所等机构联合组织,北京九章云极科技有限公司提供赞助和技术支持 [5] 参赛要求与流程 - 参赛者包括高校教师、研究生、博士生及企事业单位研究团体,以个人或团队形式报名,每队不超过5人 [8][9] - 报名需通过邮件提交团队信息,截止日期为7月31日,比赛分为训练集发布、结果提交、评测和颁奖四个阶段 [5][6][10] 竞赛资源与任务 - 提供大规模无人机航拍图(500-1000张1k分辨率)和具身智能仿真场景数据,九章云极免费提供8卡H800 GPU算力用于验证 [11][12] - 赛道1要求构建多视角航拍图像的三维重建模型,评估渲染质量(PSNR)和几何精度(F1-Score) [17][19][20] - 赛道2要求完成动态遮挡场景的抓取任务,评估任务完成度(成功率、位姿误差)和执行效率(耗时、路径效率) [21][23] 奖项设置 - 每个赛道设一等奖(6000元+500度算力券)、二等奖(3000元+200度算力券)、三等奖(1000元+100度算力券)及优胜奖(500元+50度算力券) [25] 相关会议 - 竞赛结果将在PRCV2025大会(10月15-18日)公布,该会议是CCF分区顶级学术会议,涵盖模式识别与计算机视觉领域前沿成果 [27][28]
ICCV 2025放榜!录取率24%,夏威夷门票你抢到了吗?
机器之心· 2025-06-26 06:10
ICCV 2025会议概况 - ICCV 2025将于10月19日至25日在美国夏威夷举行,是计算机视觉领域三大顶级会议之一,与CVPR和ECCV并列 [2][27] - 本届会议共收到11239份有效投稿,录用2699篇论文,录用率为24% [3] - 投稿量较2019年增长近三倍(2019年4323篇),反映计算机视觉领域研究活跃度显著提升 [4][8] 录用数据与历史对比 - 近年录用率保持稳定:2023年26.15%(8260投稿/2160录用),2021年26.20%(6152投稿/1612录用),2019年25%(4323投稿/1075录用) [5][8] - 新政策导致29篇关联审稿人的论文被拒,其中12篇原本符合录用标准 [6][7] 代表性录取论文 - 高保真3D几何生成:通过法线桥接技术从图像生成三维模型 [9] - 医学影像分割:发布十亿级MRI标注数据集UKBOB [15] - 自动驾驶安全:本体驱动的风险评估框架OD-RASE [23] - 生成式AI:通用扩散模型UniVG实现图像生成与编辑一体化 [24] 行业趋势与挑战 - 深度学习革命推动研究爆发:自2012年AlexNet突破后,LLM和生成式AI等技术进一步刺激论文产量 [30][32] - 顶级会议投稿量激增:NIPS 2025投稿或超30000篇,同行评审系统面临质量与公平性挑战 [35][36] - 改革建议:建立双向评审系统(作者评估审稿质量+审稿人奖励机制)以提升问责制 [38][40][42] 会议形式与特点 - 会议周期4-5天,包含专题教程、技术议程、海报展示及商业展览 [28] - 近年新增强化问责政策,直接处理不负责任审稿行为 [6]
MIT终身教授何恺明,入职谷歌了
量子位· 2025-06-26 02:11
何恺明职业动向 - AI大牛何恺明在获得MIT终身教职后,宣布以兼职形式加盟谷歌DeepMind担任杰出科学家[1][5] - MIT官网显示其成为2025年工程学院11位新晋终身教职人员之一,距离正式入职MIT仅一年左右[2][3] - 在DeepMind的职位隶属基础研究组,直属领导职级为L8,距离CEO哈萨比斯相差三级管理层级[6] 学术成就与行业影响 - 何恺明是计算机视觉领域标杆人物,其2009年雾霾去除论文获CVPR最佳论文(亚洲学者首次)[9][10] - 2015年提出的ResNet获ILSVRC 2015分类任务冠军,论文引用量超28万次,成为其最高引研究[11][12] - ResNet框架被Transformer、AlphaGo Zero、AlphaFold及多数GenAI模型采用[13] - 在FAIR期间主导的Mask R-CNN获ICCV 2017最佳论文,解决实例级对象分割问题[15] - 谷歌学术总引用量达71万次,近期聚焦模型性能优化(如表示正则化、高压缩Tokenizer)[19][20] 与谷歌DeepMind的合作基础 - 2024年2月与DeepMind全华人团队合作提出分形生成模型,实现逐像素高分辨率图像生成并开源代码[23][24] - 2023年联合开发Fluid模型,突破视觉自回归模型扩展瓶颈,提升连续token生成质量[25][26][29] - 历史合作表明双方在生成模型领域有深度技术协同,此次加盟属强强联合[28]
单应计算加速数十倍、计算量减少95%!基于几何的SKS和ACA矩阵分解被提出
机器之心· 2025-06-19 03:50
论文简介 - 东华大学、上海交通大学、中科院自动化所研究团队提出两种基于几何的单应矩阵分解方法,相比传统稀疏线性方程组方法减少95%以上计算量,显著提升二维码扫描等视觉应用效率[3] - 该方法适用于射影几何、计算机视觉和图形学领域,论文已被IEEE T-PAMI期刊接收[4] - 论文标题为《Fast and Interpretable 2D Homography Decomposition: Similarity-Kernel-Similarity and Affine-Core-Affine Transformations》,提供代码、视频介绍及奖金激励[5] 问题背景 - 平面单应是8自由度的3×3矩阵,传统DLT方法通过构建稀疏线性方程组求解,OpenCV实现需约2000次浮点运算[6] - 改进方法包括3×3矩阵SVD分解(1800次运算)和定制化高斯消元法(220次运算),二维码场景可进一步简化但缺乏研究[7] 核心方法 - SKS变换利用两组对应点分解单应为相似-射影核-相似变换,通过标准点转换和双曲相似变换实现几何层次化求解[9][10][11] - ACA变换通过三组对应点实现仿射-射影核-仿射分解,仅需85次浮点运算,正方形模板场景可优化至29次运算[15][16][18] 性能对比 - ACA分解单次计算仅需17纳秒,相比DLT+LU方法实现43倍实际加速(理论FLOPs提升20倍)[21][22] - SKS方法在O2优化下实现29倍加速,超越理论11倍FLOPs改进,因避免了条件判断等额外开销[22] 应用前景 - 日均百亿次二维码扫描场景中,新方法可减少浮点运算量,相比传统DLT+LU节省显著[24] - 技术可集成于相机标定、图像拼接、AR等视觉任务,并延伸至深度学习单应估计、P3P姿态估计等研究方向[24][25]
刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
机器之心· 2025-06-13 15:45
CVPR 2025大会概况 - 本届CVPR共收到13008份论文投稿,同比增长13%,最终接收2872篇,接收率22.1% [3] - 大会现场参会学者超过9000人,来自70余个国家和地区 [7] - 图像与视频生成领域论文接收数量最多,基于多视角和单图像的3D领域接收率最高 [8] 最佳论文及荣誉提名 - 最佳论文VGGT由牛津大学和Meta AI联合提出,采用纯前馈Transformer架构实现通用3D视觉模型,推理速度达秒级 [14][17] - 荣誉提名论文MegaSaM来自Google DeepMind等机构,提出深度视觉SLAM框架,在动态场景中实现快速准确的相机姿态估计 [27][30] - 另一篇荣誉提名论文Navigation World Models由LeCun团队提出,采用条件扩散Transformer实现最先进视觉导航性能 [33] 3D视觉技术进展 - 3D Student Splatting and Scooping(SSS)改进了3D高斯泼溅技术,在质量和参数效率上优于现有方法 [37][40] - 论文实验数据显示,SSS方法在Mip-NeRF360数据集上PSNR达29.90,LPIPS为0.145,表现最优 [42] 视觉语言模型创新 - Molmo和PixMo论文提出开源视觉语言模型,72B参数模型在多项基准测试中超越Claude 3.5 Sonnet等商业模型 [46] - 该方法创新性地使用PixMo数据集,无需依赖专有VLM合成数据 [46] 学生论文亮点 - 最佳学生论文提出首个基于物理的多视角动态光传播神经逆渲染系统,实现强间接光条件下的3D重建 [55] - 荣誉提名学生论文创新性地利用扩散时间步构建视觉语言,统一多模态理解和生成 [63][66] 行业重要奖项 - 年轻研究者奖授予Hao Su和谢赛宁,两人论文被引量分别超过12万和7.5万 [68][72][74] - Longuet-Higgins奖授予Inception架构和全卷积网络两篇开创性论文,引用量分别达6.7万和4.9万 [76][79][80][83] - Thomas S. Huang纪念奖授予德克萨斯大学Kristen Grauman教授,表彰其在计算机视觉领域的贡献 [86]
微美全息上涨5.13%,报2.46美元/股,总市值2415.92万美元
金融界· 2025-06-11 13:50
股价表现 - 6月11日开盘上涨5.13%至2.46美元/股 [1] - 当日成交额达10.36万美元 [1] - 总市值为2415.92万美元 [1] 财务数据 - 2024年收入总额5.42亿人民币,同比减少7.42% [1] - 归母净利润7164.15万人民币,同比增长117.01% [1] 公司背景 - 注册于开曼群岛,主要通过北京微美云息软件有限公司运营 [1] - 中国领先的全息云产业综合实体 [1] - 目标成为具有国际影响力的全息云平台 [1] 业务范围 - 覆盖全息AR技术全产业链 [1] - 提供一站式全息云综合技术方案 [1] - 中国最大的全息云技术方案提供商之一 [1] 技术能力 - 涵盖全息计算机视觉AI合成到应用的全环节 [1] - 包括全息AR广告投放、SDK支付、5G通讯开发等 [1] - 具备全息人脸识别和AI换脸开发能力 [1] 行业应用 - 在广告、娱乐、教育、5G通讯领域取得突破 [2] - 深度研发全息3D计算机视觉各环节技术 [2] - 构建开放性服务平台连接技术与应用 [2] 发展战略 - 推动全息技术在不同场景的应用呈现 [2] - 促进行业跨越式发展 [2] - 愿景是成为中国全息生态缔造者 [2]
速递|Buildots完成4500万美元D轮融资,用AI模型+计算机视觉破解建筑业“信息脱节”难题
Z Potentials· 2025-05-30 03:23
公司概况 - Buildots是一家成立于2018年的芝加哥初创公司 由Roy Danon、Aviv Leibovici和Yakir Sudry联合创立 专注于通过人工智能和计算机视觉技术改善建筑行业管理效率 [3] - 公司已完成D轮4500万美元融资 由Qumra Capital领投 总融资额达1 66亿美元 [3] - 目前拥有230多名员工 计划重点扩充研发团队并拓展北美业务 [4] 核心技术 - 平台通过管理人员安全帽上的360度摄像头采集图像 实时追踪施工进度 [3] - 系统具备监测和预测功能 通过AI聊天机器人提供项目状态查询和延误风险预警 [4] - 计划利用历史数据训练AI模型 建立基准并优化建筑项目表现 [4] 市场定位 - 客户包括英特尔和约50家建筑企业 服务对象涵盖现场管理人员、建筑高管等多方利益相关者 [4] - 差异化优势在于以运营为核心的平台及建筑行业绩效管理的独特方法 [5] - 主要竞争对手包括BeamUp和Versatile等AI建筑科技公司 [4] 行业痛点 - 建筑行业存在管理人员与现场实际情况脱节的问题 需同时处理成本动态、多方沟通和承包商风险评估等复杂任务 [2] - 传统决策依赖碎片化信息 缺乏真实可衡量的数据支持 [4]
4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?
机器之心· 2025-05-28 03:02
计算机视觉领域热门方向 - CVPR 2025基于全球4万多名作者的13008份投稿统计出三大热门方向 投稿数量同比增长13% 最终接收2878篇论文 接收率22.1% [3] - 研究群体呈现指数级增长趋势 AI领域重要性提升带动相关学位攻读人数增加 [3] 多视角与传感器3D技术 - 该方向投稿量激增 研究重点从单幅图像2D渲染转向复杂3D评估 2020年NeRF技术突破推动领域发展 [4][5] - 高斯泼溅(Gaussian splatting)技术进一步促进计算机视觉与图形学融合 神经渲染研究显著提升3D相关论文数量 [5] 图像与视频合成 - 成为CVPR 2025最大论文类别之一 多模态商业聊天机器人已实现图像/视频生成能力 正朝交互式世界生成演进 [6] - 会议展示的合成方法为生成完整虚拟环境奠定技术基础 [6] 多模态学习 - 视觉、语言和推理合并为投稿量最大类别之一 可能预示新研究趋势 [7][8] - CVPR坚持学术公平原则 每篇论文评审标准独立于作者机构背景 维护领域生态平衡 [8] 行业动态 - CVPR 2025会议即将召开 投稿竞争加剧反映AI研究热度持续攀升 [8] - 机器之心将同步举办论文分享会 提供学术交流平台 [8]
长春光机所光电突触器件研究取得新进展
环球网资讯· 2025-05-10 09:18
技术突破 - 长春光机所科研人员开发出紫外光电突触器件和光电突触晶体管,为人工视觉系统和神经形态计算视觉提供新技术路径 [1] - 紫外光电突触器件利用AlScN铁电极化特性和GaN光电性能,基于异质结处空穴俘获与解俘获机制构建 [1] - 光电突触晶体管通过气体吸附辅助持久光电导策略,实现紫外到近红外的宽谱高光电转换效率和长时数据保留能力 [1] 器件性能 - 紫外光电突触器件具备非易失性存储特性,可模拟生物视觉突触功能,实现多阻态调节如长时程增强(LTP)、对脉冲增强(PPF)等 [1] - 光电突触晶体管在375nm-1310nm宽谱范围内展现长时数据保留能力,双脉冲易化(PPF)指数达158% [2] - 器件在紫外到近红外波段展现出优异的光电探测性能 [2] 应用前景 - 器件成功模拟人眼视网膜细胞对多光谱信号的感知与识别功能,为多光谱神经形态视觉系统提供高效解决方案 [2] - 神经形态视觉系统模拟人脑神经元和突触结构,采用并行处理方式,可同时处理多路信息,降低功耗并提升数据处理速度 [2] - 计算机视觉是自动驾驶、智能机器人和智能制造等新兴领域的核心技术 [2]
CVPR 2025 | CV 微调卷出天际,Mona:我小、我强、我省资源
机器之心· 2025-05-01 02:11
代码地址: https://github.com/Leiyi-Hu/mona 合作单位包括清华、国科大、上海交大、阿里巴巴。本文第一作者为殷东硕,清华大学计算机系「 水木学者」博后,中科院博士,曾以一作身份在 Nature Communications、IEEE CVPR、IEEE ICCV、ACM MM、IEEE TITS 等国际期刊/会议发表论文,并任 NeurIPS、CVPR、ICCV、ICLR、IEEE TIP、 IEEE TMM 等会议期刊审稿人。曾获「 中国科学院院长奖」,并与微软亚洲研究院 MSRA 和阿里巴巴集团进行科研合作。研究方向包括计算机视觉、参数 高效微调、视频生成、多模态以及遥感图像解译等。 Mona (Multi-cognitive Visual Adapter)是一种新型视觉适配器微调方法,旨在 打破传统全参数微调(full fine-tuning)在视觉识别任务中的性能瓶颈 论文标题: 5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks 论文地址: http ...