Workflow
Vinci
icon
搜索文档
港理&清华等首个具身程序性综述:让机器人从第一人称视角学习步骤、纠错与问答
具身智能之心· 2025-12-01 10:00
文章核心观点 - 文章提出构建第一人称视角程序性AI助手(EgoProceAssist)的概念,旨在通过可穿戴设备辅助人们完成日常程序性任务,例如烹饪、装配等 [6] - 该研究首次系统性地总结了构建此类助手所需的三大核心技术任务:第一人称视角程序性错误检测、程序学习和程序问答,填补了现有综述的空白 [1][2] - 通过补充实验验证,现有主流视觉语言模型和AI代理在辅助程序性任务方面表现不足,存在巨大发展空间 [7][8][23] 核心技术任务分类与总结 - **第一人称视角程序性错误检测**:根据输入数据模态划分为仅需视频数据的方法和需要多模态数据的方法,程序性错误检测不同于视频异常检测,它关注于步骤序列中的特定顺序约束 [9][11] - **第一人称视角程序学习**:按照监督水平划分为无监督、弱监督和自监督三大类,其核心目标是识别出对实现目标真正重要的关键步骤序列,过滤无关动作 [14][15][16] - **第一人称视角程序问答**:根据算法结构分为以大型语言模型为固定推理引擎的方法和专门训练理解第一人称视角视频的模型两类,后者能更好地捕捉细微的视觉差异和时空关系 [17][19][20] 补充实验发现 - **程序性错误检测实验**:在CaptainCook4D数据集上,传统方法EgoPED的精确度为56.5,EDA为69.8,而主流VLM如Video-LLaVA的精确度为40.1,EDA为60.8,显示出现有模型识别程序性错误的能力有限 [25][26] - **程序学习实验**:在EgoProceL数据集的电脑装配任务中,传统方法RGWOT的F1分数为43.6,IoU为28.0,而AI代理Vinci 7的F1分数仅为14.1,IoU为7.5,表明现有方法在关键步骤识别和时间定位上准确性不足 [27][28] 行业面临的挑战 - **数据稀缺**:现有第一人称视角视频数据集场景单一,缺乏多样性,且与程序性任务相关的细粒度动作标注较少 [29] - **理解能力有限**:现有模型难以捕捉程序性活动中的逻辑和时间依赖关系,在计算效率、语义理解和多模态信号整合方面存在困难 [30] - **实时性不足**:严重依赖人工标注限制了在真实世界环境下的实用性,目前很少有方法能在实时在线环境中有效运行 [31]
Everything Blockchain Launches AI Event Trading Desk for Polymarket Prediction Markets
Globenewswire· 2025-11-24 13:00
业务举措 - 公司推出AI事件交易部门,使用自有资本在Polymarket预测市场进行定价和交易[1] - 该部门旨在将现实世界事件(如选举、通胀报告、主要加密决策)的错误定价概率转化为新的利润来源[1] - 管理层计划将该部门发展成一个高回报的交易分支,即使在股票和数字资产市场平淡或波动时也能为公司创造现金流[1] 市场机会与策略 - 公司在一个大型机构大多忽视的市场角落(预测市场)寻找机会,该市场资金流向关于现实世界事件的简单是非问题[2] - 由于缺乏专业玩家设定赔率,预测市场的赔率波动迅速且可能严重偏离真实概率[2] - AI交易部门将每个市场视为数学问题而非赌博,通过自有期权式模型设定公平赔率,并寻找公布赔率存在偏差的市场[3] - 该策略通过在对立结果双方建立对冲头寸来捕捉赔率差,而非简单单向押注,在保持严格对冲的同时实现了高达250%的年化回报率[3] 未来发展愿景 - 公司计划在优势持续的情况下谨慎扩大规模,并探索将事件数据和工具转化为面向机构合作伙伴的产品[4] - 管理层将AI事件交易部门视为一项可长期扩展的业务,未来可能成为专门部门,增加交易收入并建立一套事件驱动策略[5] - 公司未来可能将这些策略出售或授权给大型基金、交易公司和在线平台,股东可通过持有公司股票分享其发展为可持续现金流来源带来的收益[5] 公司背景 - Everything Blockchain Inc是一家公开上市的技术公司,专注于构建支持区块链的产品和开发解决方案[6] - 公司运营两个主要业务部门:数字资产产品平台Vinci和为数字金融和娱乐行业提供区块链基础设施解决方案的开发实验室[6]