3D视觉
搜索文档
厘米级精度的三维场景实时重构!这款激光扫描仪太好用了~
自动驾驶之心· 2025-12-17 00:03
以下文章来源于3D视觉之心 ,作者3D视觉之心 3D视觉之心 . 3D视觉与具身智能、机器人相关内容分享。 最强性价比3D激光扫描仪 GeoScan S1是国内目前最强性价比实景三维激光扫描仪,轻量化设计,一键启动,便可拥有高效实用的三维解决 方案。以多模态传感器融合算法为核心,实现厘米级精度的三维场景实时重构。可广泛用于多种作业领域。 每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景,扫描可选配3D高斯数据采 集模块,实现高保真实景还原。支持跨平台集成,配备高带宽网口及双USB 3.0接口,为科研实验提供灵活扩展 空间。降低开发门槛,助力开发者快速掌握研发能力,开启更多可能。 GeoScan S1设备自带手持Ubuntu系统和多种传感器设备,手柄集成了电源,可通过D-TAP转XT30母头输出至 GeoScan S1设备本体,给雷达、摄像头以及主控板提供电源。 欢迎联系小助手,进一步咨询细节 基础版重建效果一览! 使用门槛低 :操作简单直观,一键启动即可 执行扫描作业 扫描结果导出即用 :无需复杂部署和繁琐处理,扫 描结果导出即用 高效率高精度建图 :模型精度高,行走之间轻松 ...
华为Mate80全系支持3D人脸识别,产业链需求激增
选股宝· 2025-11-25 15:03
产品发布与技术创新 - 华为于11月25日正式发布Mate 80系列手机,全系支持3D人脸识别 [1] - 华为Mate 80系列全系标配3D ToF技术,实现金融级支付安全,并支持超过150个主流应用进行3D人脸登录或支付 [1] - 该系列手机支持华为账号一键登录关联3D人脸验证 [1] 行业趋势与市场前景 - 东吴证券认为2024年为3D视觉产业开始爆发的元年 [1] - 2024年前,3D产业应用场景少,市场需求和产业积累弱 [1] - 2024年后,3D视觉应用场景不断扩展,成为实现高精度感知与自主操作的关键技术 [1] - 自动移动机器人、3D打印、人形机器人、机械臂、灵巧手等领域的快速发展对实时深度感知产生硬性需求,导致3D视觉需求激增 [1] 相关公司业务布局 - 奥比中光已将3D视觉传感器应用于线下零售、自助货柜、餐饮、医疗以及交通等支付场景 [2] - 欧菲光凭借光学技术和生产制造自动化能力,布局智能门锁、VR/AR、机器视觉、运动相机等新领域 [2]
这台3D扫描仪,重建了整个隧道和公园~
自动驾驶之心· 2025-11-25 00:03
产品核心定位 - 产品定位为最强性价比手持实景三维激光扫描仪,旨在降低开发门槛,助力开发者快速掌握研发能力 [3][6] - 由同济大学刘春教授团队与西北工业大学产业化团队合作开发,基于多年科研和行业积累,并经过上百个项目验证 [11] - 核心价值在于以轻量化设计和多模态传感器融合算法,提供高效实用的三维解决方案,实现厘米级精度的三维场景实时重构 [3][12] 核心性能参数 - 扫描性能卓越,每秒可生成20万点云,最远测量距离达70米,相对精度优于3厘米,绝对精度优于5厘米 [3][24][31] - 支持超20万平方米的大场景扫描,水平视角360°全域覆盖,并支持彩色点云融合输出 [3][24][32] - 系统搭载Ubuntu 20.04操作系统,支持ROS,具备实时解算和实时预览能力,数据可导出为pcd、las、ply等多种通用格式 [24] 硬件配置与设计 - 采用高度集成的一体化设计,机身尺寸为14.2cm * 9.5cm * 45cm,含电池重量为1.9kg,小巧便携 [14][24] - 集成丰富的传感器资源,包括3D激光雷达、双广角相机、深度相机、9DOF IMU、RTK模块,并采用微秒级同步技术确保数据同步精度 [15][24][25][36] - 激光雷达采用25°倾斜角度安装的小倾角设计,可兼顾多个方位扫描,提升采集效率 [17][18] - 硬件配置包括Intel N5095四核处理器、16G内存、256G硬盘,并配备高带宽网口、双USB 3.0接口及Micro SD卡槽,扩展性强 [24][25] 软件功能与操作 - 软件系统支持三维点云地图动态构建、色彩融合和实时预览,操作简单直观,可一键启动执行扫描作业 [6][24][29] - 提供快速建图、彩色点云建图、相机程序、数据录制等多种软件功能,扫描结果导出即用,无需复杂部署 [6][45] - 推出3D高斯(3DGS)版本,支持离线渲染和在线渲染两种模式,实现高保真实景还原 [7][8][53] 应用场景 - 设备适用于各类复杂室内外场景,包括写字楼、停车场、工业园区、隧道、森林、矿场等,能够精准完成三维场景地图构建 [40][49] - 支持跨平台集成,可适配无人机、无人车、机械狗、人形机器人等多种负载平台,实现无人化作业 [47] - 在地理信息数据采集、城市规划、文物保护、施工工程等领域均有应用潜力 [55][57] 产品版本与定价 - 提供四个版本以满足不同需求:基础版(19800元)、深度相机版(23800元)、3DGS在线版(39800元,云服务续费5000元/月)、3DGS离线版(67800元) [60][61] - 购买可享受为期1年的售后服务,并可通过优惠码DSAA-5T9R-K2M8获取优惠 [62]
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
具身智能之心· 2025-11-17 00:47
技术突破与核心观点 - 字节跳动团队推出Depth Anything 3(DA3),将单目深度估计扩展至任意视角场景,使计算机空间感知能力媲美人类[5] - 研究证明当前多数3D视觉研究存在过度设计问题,仅需一个简单的、用深度光线表示训练的Transformer即可实现强大性能[2][9] - DA3采用最小化建模理念,仅使用标准Transformer架构(如DINOv2编码器)和单一深度光线预测目标,无需复杂多任务学习或专门架构设计[7][12] 方法创新与架构设计 - DA3将几何重建目标建模为密集预测任务,训练模型根据N张输入图像输出N个对应的深度图和光线图[13] - 引入输入自适应的跨视图自注意力机制,在前向传播中动态重新排列token以实现跨视图高效信息交换[13] - 采用双DPT头联合输出深度值和光线值,并通过相机编码器选择性整合已知相机姿态增强灵活性[13] - 训练采用师生范式统一不同训练数据,使用伪标注策略为真实世界数据生成高质量伪深度图[14] 性能表现与基准测试 - 在姿态估计方面比当前最先进方法(SOTA)提升44%,在几何估计方面提升25%[7] - 建立新视觉几何基准,在10项任务中均取得SOTA成绩,相机姿态精度比SOTA VGGT平均提高35.7%,几何精度提高23.6%[15] - 单目深度估计性能优于Depth Anything V2,同时在细节和鲁棒性方面表现相当[15] - 所有模型完全基于公开学术数据集训练[16] 应用潜力与功能展示 - 具备视频重建能力,能从任意数量视图(单视图到多视图)恢复视觉空间[18] - 提升SLAM性能,在大规模环境下仅替换VGGT-Long中的VGGT(DA3-Long)即可显著降低漂移,效果优于需48小时以上的COLMAP[20] - 通过冻结主干网络并训练DPT头部预测3D高斯参数,实现强大泛化能力的新颖视图合成[22] - 适用于自动驾驶多摄像头空间感知,从车辆不同视角估计稳定可融合的深度图[24]
顶级四校联手打造OmniVGGT:全模态视觉几何Transformer!
自动驾驶之心· 2025-11-17 00:05
核心观点 - 提出OmniVGGT框架,旨在解决现有3D基础模型无法灵活利用多种辅助几何信息(如深度、相机参数)的问题 [5][6] - 该框架通过两个核心创新(GeoAdapter和随机多模态融合策略)实现在训练和推理时能利用任意数量的辅助模态,且不影响纯RGB输入的性能 [7][9][10] - 实验表明,该模型在单目/多视图深度估计、相机位姿估计、3D重建及机器人操作任务上均达到顶尖水平,展示了强大的性能与实用性 [7][29][48] 技术背景与问题定义 - 当前主流3D基础模型(如VGGT)主要依赖RGB图像,无法有效利用实际应用中广泛存在的辅助信息(如RGB-D数据、激光雷达点云、相机参数) [5] - 现有方法要么只能使用一种辅助信息,要么最多处理两种,缺乏对不同应用场景的灵活适配能力,造成“信息浪费” [5][9] 核心技术:OmniVGGT框架 - **基础架构**:基于VGGT改进,使用DINO骨干网络提取空间令牌,并通过交替注意力机制处理多视图信息 [13][14] - **GeoAdapter(几何适配器)**:包含相机适配器和深度适配器,采用零初始化卷积等技术将不同几何信息轻量且稳定地注入基础模型,计算开销极小 [10][15][16] - **随机多模态融合策略**:在训练时随机采样模态子集,使模型能适应测试时任意数量和组合的模态输入,增强鲁棒性 [10][22][23] - **端到端处理**:输入图像集及任意数量的辅助信息,通过网络直接输出深度图、相机位姿和3D点云图 [12] 实验性能评估 - **单视图深度估计**:在Sintel数据集上,仅使用RGB输入时,其绝对相对误差(Abs Rel)为0.558,优于基线VGGT的0.722;当使用100%深度信息时,Abs Rel显著降低至0.106 [30][36] - **多视图深度估计**:在ETH3D数据集上,结合深度信息后,相对误差(rel)仅为0.5,准确率(δ<1.25)达到98.7% [36][40] - **相机位姿估计**:在CO3Dv2数据集上,结合相机参数输入时,AUC@30°达到93.4%,远超对比方法Pow3R的82.2%,且推理速度仅需0.2秒,快30倍以上 [39][42] - **3D重建**:在7-Scenes数据集上,结合相机与深度信息后,重建精度(Acc)提升至0.036,比纯RGB输入(0.104)提升约64.4% [43][47] - **机器人操作任务**:集成到视觉-语言-动作模型后,在CALVIN数据集上,使用RGB-D输入的任务平均连续完成数(Avg Len)达4.08,优于基线 [48][51] 架构有效性验证 - 消融实验证明,完整的OmniVGGT设计(零卷积处理相机信息、直接相加处理深度信息)性能最优,替代方案(如直接替换令牌或单层适配器)均导致性能下降 [49][52] - 该设计确保了在引入辅助信息时不破坏原有特征空间,纯RGB输入性能仍优于基线 [30][52] 行业应用与前景 - 该技术解决了3D视觉模型在多样化真实场景(如VR/AR、自动驾驶、机器人)中的输入适配性问题,实现了“全能辅助” [5][53] - 模型高效且实用,计算开销小,易于集成到现有系统(如VLA模型)以提升下游任务(如机器人操作)性能 [7][53] - 展现了在多模态融合领域的潜力,为未来扩展到更复杂动态场景奠定了基础 [54]
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
机器之心· 2025-11-15 09:23
文章核心观点 - 字节跳动团队发布Depth Anything 3 (DA3)模型,证明3D视觉研究存在过度设计问题,仅需简单Transformer架构和单一深度光线预测目标即可实现强大空间感知能力[1][2][3] - DA3在姿态估计方面比当前最先进方法(SOTA)提升44%,在几何估计方面提升25%,并在10项任务中均取得新SOTA成绩[7][14] - 该模型采用最小化建模理念,仅使用标准预训练视觉Transformer作为骨干网络,无需专门架构设计[9][12] 技术方法创新 - 采用简单Transformer架构(如原始DINOv2编码器)作为骨干网络,避免复杂架构设计[9][12] - 使用单一深度光线预测目标替代复杂多任务学习[9][12] - 引入输入自适应的跨视图自注意力机制,实现动态重新排列token以支持任意数量视图处理[13] - 提出新型双DPT头,通过处理同一组特征联合输出深度值和光线值[13] 性能表现 - 在相机姿态精度方面比之前SOTA VGGT平均提高35.7%,在几何精度方面提高23.6%[14] - 单目深度估计性能优于Depth Anything V2,同时在细节和鲁棒性方面表现相当[14] - 大规模场景SLAM应用中,仅替换VGGT-Long中的VGGT就能显著降低漂移,效果优于需要48小时以上完成的COLMAP[19] 应用场景 - 视频重建:能从任意数量视图中恢复视觉空间,涵盖单视图到多视图范围[17] - 前馈3D高斯估计:通过冻结主干网络训练DPT头部预测3DGS参数,实现强大新颖视图合成能力[20] - 多摄像头空间感知:从车辆不同视角估计稳定可融合深度图,增强自动驾驶环境理解能力[21] 训练策略 - 采用师生范式统一不同训练数据,包括真实世界深度相机数据、3D重建数据和合成数据[14] - 使用伪标注策略,通过合成数据训练单目深度模型为真实世界数据生成高质量伪深度图[14] - 建立新视觉几何基准,涵盖相机姿态估计、任意视图几何和视觉渲染等10项任务[14]
奥比中光-UW(688322):25Q3业绩超预期 “机器人之眼”未来成长可期
新浪财经· 2025-10-30 06:36
公司业绩表现 - 2025年前三季度公司实现营业总收入7.14亿元,同比增长103.5% [1] - 2025年前三季度实现归母净利润1.08亿元,扣非归母净利润0.69亿元 [1] - 2025年单第三季度实现营业总收入2.79亿元,同比增长102.49% [1] - 2025年单第三季度实现归母净利润0.48亿元,扣非归母净利润0.38亿元 [1] - 收入增长主要源于三维扫描、支付核验、各类型机器人等业务领域的快速增长 [1] 盈利能力与费用控制 - 前三季度销售毛利率为42.80%,同比小幅下降1.19个百分点 [1] - 前三季度销售净利率为15.08%,同比大幅提升32个百分点 [1] - 前三季度期间费用率为36.08%,同比下降35.18个百分点 [1] - 销售费用率为6.94%,同比下降7.6个百分点 [1] - 管理费用率为9.19%,同比下降13.27个百分点 [1] - 研发费用率为20.52%,同比下降23.18个百分点,研发效率提升 [1] - 财务费用率为-0.58%,同比上升8.86个百分点 [1] - 盈利能力提升主要系大幅降费所致 [1] 市场拓展与技术布局 - 公司在韩国商用及工业移动机器人3D视觉市场占有率达72% [2] - 公司技术助力当地企业Twinny实现物流运营成本降低64.4% [2] - 公司已完成与日本TOP3机器人企业的合作布局 [2] - 在三维扫描领域,公司联合创想三维发布CRScanOtter、CR-Scan Raptor双旗舰3D扫描仪,搭载自研芯片 [2] - 在人形机器人领域,公司与地平线、地瓜机器人达成战略合作,打通"3D视觉+AI决策"链路 [2] - Gemini系列相机全面兼容NVIDIA Jetson平台,并于2025年正式加入Intel合作伙伴联盟,切入全球开发者生态 [2] 未来业绩预测与估值 - 预计公司2025年营收为9.36亿元,同比增长65.9% [2] - 预计公司2026年营收为14.76亿元,同比增长57.6% [2] - 预计公司2027年营收为18.98亿元,同比增长28.6% [2] - 预计公司2025年归母净利润为1.48亿元,同比增长335.0% [2] - 预计公司2026年归母净利润为3.26亿元,同比增长120.4% [2] - 预计公司2027年归母净利润为4.67亿元,同比增长43.4% [2] - 当前股价对应2025年/2026年/2027年PS估值分别为37.82倍/23.98倍/18.65倍 [3] - 公司被视为国内机器人之眼稀缺标的,业绩拐点初现,成长空间广阔 [3]
天准科技:公司将3D视觉技术广泛应用于工业零部件的质量控制
证券日报网· 2025-10-28 10:44
公司业务定位 - 公司是国内3D视觉领域的领先企业之一 [1] - 公司将3D视觉技术广泛应用于工业零部件的质量控制 [1]
天准科技:公司是国内3D视觉领域的领先企业之一
每日经济新闻· 2025-10-28 07:52
公司市场地位 - 公司是国内3D视觉领域的领先企业之一 [2] 技术应用 - 公司将3D视觉技术广泛应用于工业零部件的质量控制 [2]
天准科技:国内3D视觉领先企业,技术用于工业零部件质控
新浪财经· 2025-10-28 07:43
公司行业地位 - 天准科技是国内3D视觉领域的领先企业之一 [1] 技术应用领域 - 公司将3D视觉技术广泛应用于工业零部件的质量控制 [1]