o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
量子位·2025-07-30 06:06
豆包APP视觉推理功能升级 - 核心功能升级为视觉推理,支持图片深度思考,通过开启深度思考模式可拍照或上传图片进行分析[4][5] - 分析过程结合以图搜图、图片分析工具(放大/裁剪/旋转)等多步骤,例如识别上海东方明珠年份为1999年左右[1][7][8] - 支持AI识别AI生成图片,通过放大细节识别右图西红柿蒂部不自然卷曲判定为AI生成[10][11][13] 实测场景表现 - 复杂图像处理:在熊猫群像中精准定位足球,采用"初步识别→放大区域→空间定位"三步骤[17][22][25] - 小众知识检索:识别鄂温克族口弦琴、云南翅果藤等冷门内容,结合图片检索+文字检索双重验证[29][34][35] - 学术与工作辅助:解答IMO数学题(经ChatGPT验证答案正确),一键提取财报数据并保持准确性[40][43][46][49] 技术模式创新 - 采用"边想边搜"动态推理机制,区别于传统AI"先搜后想",支持多轮搜索与工具调用[50][52][53] - 实现图搜文能力,例如通过技术截图反向定位OpenAI论文原文及图表出处[62][64][65] - 多模态融合:Transformer架构统一处理文字/图像/音频,支撑工业检测、医疗分析等场景需求[72][75] 行业趋势 - 视觉推理成为大模型技术新门槛,OpenAI的o3/o4-mini推动多模态深度理解范式[68][69][70] - 技术成熟度与行业需求(工业/医疗)形成共振,促进行业竞速发展[71][74][76] - 豆包APP将高阶视觉推理功能免费开放,降低用户使用门槛[76][77]