Workflow
深思SenseAI
icon
搜索文档
闭源越跑越快之后,DeepSeek V3.2 如何为开源模型杀出一条新路
深思SenseAI· 2025-12-03 09:51
文章核心观点 - 闭源模型在综合能力上持续领先,与开源模型的差距在拉大,尤其在复杂任务上优势明显 [1] - DeepSeek V3.2系列模型通过三项关键技术改进,在效率、后训练算力投入和AI Agent能力上取得突破,实现了在有限预算下接近顶级闭源模型(如GPT-5)的性能,为开源社区提供了新的发展路径 [2][3][6][16] 闭源与开源模型的现状与挑战 - 权威评测指出,在最前沿的综合能力上,闭源模型的性能曲线更陡,开源模型在所有维度上追平变得越来越难 [1] - 闭源模型(如Anthropic、Gemini、OpenAI)在复杂任务上展现出越来越明显的优势,与开源模型的差距在拉大 [1] - 开源模型面临三个关键问题:依赖低效的Vanilla Attention机制限制了长序列场景的计算效率和部署;后训练阶段算力投入不足;在AI Agent场景中,泛化与指令跟随能力显著滞后于闭源系统 [2] DeepSeek V3.2的技术改进与架构创新 - 引入DeepSeek Sparse Attention稀疏注意力机制,旨在显著降低长上下文场景下的计算复杂度,这是相比前代V3.1-Terminus唯一的架构层修改 [2][6] - DSA采用两阶段稀疏化筛选机制:通过“闪电索引”轻量级模块计算索引分数,再根据分数仅对得分最高的Top-k个键值条目进行细粒度计算,将核心注意力复杂度从O(L^2)降低到O(L*k) [7][11] - DSA在多头潜在注意力框架下实例化,采用多查询注意力模式以最大化计算效率 [10] - 2025年9月评估显示,DSA在常规任务上相比密集注意力基线没有性能下降,在AA-LCR长文本推理基准测试中得分比上一代模型高出4分 [11] 后训练策略与算力投入 - 将后训练阶段的算力预算提升至超过预训练成本的10%,通过扩大后训练计算规模来释放更高阶的模型能力 [3][12] - 摒弃传统分阶段微调,采用单阶段混合强化学习方案,将推理、智能体和人类对齐任务合并进行,以解决灾难性遗忘问题 [12][14] - 通过专家蒸馏闭环(先训练专家模型并蒸馏,再通过混合RL优化)和算法底层优化(如推导无偏KL估计器、引入离策略序列掩码)来保证训练稳定性和性能上限 [14] - 构建了DeepSeek V3.2 Speciale版本,在RL阶段移除长度惩罚,允许超长思维链推理,使其在IMO 2025和IOI 2025中斩获金牌,硬实力追平闭源模型Gemini 3.0 Pro [14] 数据流水线与AI Agent能力提升 - 提出新的数据流水线,用于在工具使用场景中培育具有泛化能力的推理 [3] - 推进到大规模的agentic任务合成阶段,构建了超过1,800个不同环境以及85,000个复杂提示,这些大规模合成数据显著提升了模型在agent场景下的泛化能力和指令跟随能力 [3] 对行业与开源生态的意义 - Scaling law的边际收益正在变小,复制从GPT-3.5到GPT-4量级的提升已很难仅靠堆叠数据和算力实现,需要新的科学思路、训练机制和架构范式来打开增长曲线 [16] - 大模型发展被拉回到一个更偏“学术研究驱动”的时代,模型本身不是护城河,能力和落地才是 [16] - DeepSeek为开源社区做出了榜样,展示了如何在有限预算下通过重做架构、训练和重塑Agent体系,走出一条不依赖闭源的道路 [16]
Claude Opus 4.5 全面上线,凭什么夺回 Agentic Coding 第一!
深思SenseAI· 2025-11-25 12:42
模型性能表现 - 在单提示词生成Minecraft克隆版测试中,模型生成的角色移动流畅、帧率稳定,支持正常破坏和放置方块、切换方块类型及自由飞行,完成度和可玩性接近真正可玩的沙盒游戏[1] - 在同样的单提示词测试中,Gemini 3 Pro生成的世界无法破坏或放置方块,角色移动略显混乱,仅为基础可看的Demo[2] - 在单提示词生成乐高搭建网站测试中,模型返回完整可用的乐高模型,支持拖动视角、堆叠积木、修改颜色、删除及选择不同形状积木,达到高完成度交互应用水平[3] 效率与成本优化 - 模型引入可调effort参数(低、中、高三档),在同等任务下token消耗相较Sonnet 4.5呈指数级下降[4] - 在medium effort档位,模型追平Sonnet 4.5在SWB基准上的最佳验证分数,但输出token减少约76%;在最高effort档仍优于Sonnet 4.5,同时输出token减少约48%[6] - 模型价格下调至每100万输入token 5美元、每100万输出token 25美元,约为原价格的三分之一,整体性价比提升明显[7] 高级工具调用能力 - 模型在工具调用时不再扫描全部工具列表,而是检索与过滤后只调用与当前子任务相关的部分,显著提升效率[7] - 在解谜保险库Demo中,模型消耗约70万个token成功完成所有关卡,而Sonnet 4.5消耗约800万个token仍未完成解谜[8] - 按官方定价折算,同一任务Sonnet 4.5成本约4美元,而模型成本仅约1美元,体现成本与效率优势[8] 计算机操作能力升级 - 增强版Computer Use能力支持界面缩放,可先放大界面再操作,提升在真实桌面环境中的实用性[10] - 该能力使Agent能检查细小UI元素和复杂控件,如逐像素检查生成页面、读取小字号文本及分析结构复杂界面[10] 无限对话功能 - 无限对话机制自动对较早内容进行摘要与重写,腾出上下文空间,使同一会话线程持续推进,无需频繁新开对话[12] - 该功能显著降低长线项目(如从零共建App、持续打磨文档)的协作成本,为将大模型作为持续在线长期助手提供基础[12][13] 基准测试与竞争格局 - 在Agentic tool use测试中模型得分88.9%,高于Sonnet 4.5的86.2%和Gemini 3 Pro的85.3%[15] - 在Scaled tool use MCP Atlas测试中模型得分62.3%,显著高于Sonnet 4.5的43.8%和Opus 4.1的40.9%[15] - 在Novel problem solving ARC-AGI-2测试中模型得分37.6%,高于Gemini 3 Pro的31.1%和GPT-5.1的17.6%[15] - 模型在编码与工程类任务上保持优势,而Gemini 3 Pro在研究生级推理(得分91.9%)和多语言问答(得分91.8%)上领先[15] 目标用户与应用场景 - 模型理想用户指向专业软件开发者和知识工作者(如金融分析师、顾问、会计师),以及渴望激发创造力、构建新事物的用户[16] - 模型在处理电子表格、演示文稿等办公任务及执行深度研究方面有显著提升,可参与需求梳理、方案设计、实现与跟进的全流程[16]
Fal 联创对话 种子轮投资人:从 200 万到 1 亿美金的思考和决策
深思SenseAI· 2025-11-24 03:16
公司概况与业务定位 - 公司是一家面向开发者的生成式媒体基础设施平台,托管图像、视频、音频等多模态模型,通过高速推理引擎和统一API提供服务 [4] - 核心产品形态为统一Model API,调用超过600个图像、视频、音频模型,并提供高性能推理基础设施、SDK和工具链 [4] - 公司总部位于旧金山,2021年成立,创始团队为前Coinbase和亚马逊的工程师 [4] - 公司将“实时视频生成”从演示技术转化为可复用的基础设施 [1] 财务表现与融资情况 - 年经常性收入(ARR)在不到两年时间内从约200万美元增长至超过1亿美元 [1][3][4] - 服务超过200万开发者和300多家企业客户,包括Adobe、Canva、Shopify等 [1][3][4] - 2025年7月完成C轮1.25亿美元融资,估值约15亿美元;2025年10月完成新一轮约2.5亿美元融资,最新估值超过40亿美元 [3][4] 战略转型与市场机遇 - 公司从最初押注数据基础设施果断转向生成式媒体推理平台,在视频生成爆发前夜完成二次创业 [4][5] - 转型契机源于DALL-E 2、Stable Diffusion、ChatGPT和LLaMA等模型的相继发布,AI世界转向直接使用现成模型,降低了使用门槛 [6] - 公司专注于图像和视频推理,避开了竞争激烈的语言模型推理市场,抓住了Stable Diffusion和视频模型带来的早期机会 [11][12] 产品与技术优势 - 视频模型的上线(约10月份)是业务增长的关键转折点,带来了“疯狂”的增长 [3][15] - 公司构建了复杂的系统来动态调度GPU资源,在28个数据中心部署,优化“冷启动”时间至秒级,并通过缓存策略减少模型启动时间 [18] - 技术挑战包括实现多GPU的线性扩展推理,以提升计算效率 [19] - 公司定位“生成式媒体”为全新蓝海市场,不同于抢夺传统巨头的市场,覆盖广告、影视、设计、电商等多个领域 [17] 客户与商业化策略 - 早期客户主要为通用的设计或图像生成应用,部分客户每日花费达数万美元,证明其商业价值 [14][15] - 商业化策略从按需付费转向推动年付合约,以提升收入质量和稳定性,并组建销售团队进行客户转化 [25][29] - 企业客户更关注模型训练方式、输入输出安全性等合规问题,公司已建立应对企业合规和法律问题的能力 [22][23] - 收入是公司的北极星指标,请求数量和团队账户数量为参考指标 [26] 开发者生态与品牌建设 - 公司极度重视开发者体验,通过500多个Slack频道与客户工程师保持紧密沟通,并日常追踪响应速度 [20] - 品牌建设采用更细腻、隐晦的营销方式,如“GPU富裕/贫穷”帽子,通过社交媒体和社区活动自然传播,传统市场营销对开发者无效 [30][32] - 新模型发布是重要的营销和销售机会,公司努力成为第一个支持新模型的平台 [24] 团队管理与文化 - 团队采用扁平化管理,30多名工程师中没有专职的工程经理,每个人都写代码,领导起带头作用但非专职管理 [33] - 招聘注重两点:对优化痴迷(具备数据库或底层系统经验)以及对生成式媒体领域的热情和执着 [35] - 销售团队约6人,包含客户成功团队约10人,销售流程更短,重心是快速筛选潜在客户 [39] - 内部大量使用AI工具,如产品团队使用Cursor辅助编程,销售团队用Clay做线索丰富化处理 [40]
别再肝了!Google 发布 SIMA 2,你的下一个游戏搭子可能是个 AI
深思SenseAI· 2025-11-21 04:14
SIMA 2核心能力突破 - 新一代通用智能体SIMA 2与Gemini深度集成,能够在虚拟世界理解并执行自然语言指令,执行连续多步操作[1] - SIMA 2超越简单指令执行,通过Gemini作为推理中枢具备思考和推理能力,能够解释意图并描述下一步行动[2] - 智能体可以理解复杂细致指令,执行冗长任务并给予反馈,互动体验接近真实玩家[5] 技术实现与训练方法 - 训练使用大量带语言标注的人类演示视频,结合Gemini自动生成标注进行强化学习[2] - 具备初步对话式协作能力,能用自然语言向用户解释意图并描述行动计划[2] - 通过反复试验加Gemini反馈评估的闭环实现自我改进,不断学会完成更复杂新任务[11] 多模态与环境适应能力 - 借助Gemini出色多模态能力,可以理解图像、表情符号和简洁语言进行互动[6][7] - 在《我的世界》学会挖矿后,能将采集能力迁移到其他未训练过的游戏中[7] - 在Genie 3新生成的3D模拟世界中,即使未受专门训练也能正确辨别方向并执行指令[9][10] 行业意义与发展路径 - SIMA 2是迈向通用交互式具身智能的重要一步,为机器人领域智能具身化提供核心能力模块[15][16] - 通过大规模多世界数据训练叠加Gemini推理能力,将分散的专用系统能力整合进统一通用智能体框架[15] - 虚拟3D世界为具身智能提供可控低成本训练环境,Gemini加SIMA 2组合让会思考的LLM迈向会动手做事的Agent[14]
实测如何一分钟内用 Gemini 3.0 Pro 搭建一款网页/游戏
深思SenseAI· 2025-11-19 10:34
模型核心能力 - 正式发布Gemini 3.0 Pro,主打更强的推理与理解能力,能更好地捕捉语言深层含义与细微差别,使用户在无需精细提示词的情况下获得更高质量回答 [1] - 在权威基准测试中,事实准确性评测取得72.1%的当前最优成绩,数学测试以23.4%的得分达到同类模型领先水平,意味着在多学科场景下具备更高可靠性,能高效处理跨领域、跨步骤的复杂问题 [1] 基准测试表现 - 在Humanity's Last Exam学术推理测试中,无工具、带搜索和代码执行条件下分别达到37.5%和45.8%,显著高于对比模型 [2] - 在MathArena Apex挑战性数学竞赛问题测试中得分23.4%,远超Gemini 2.5 Pro的0.5%、Claude Sonnet 4.5的1.6%和GPT-5.1的1.0% [2] - 在ScreenSpot-Pro屏幕理解测试中得分72.7%,远高于对比模型,显示出卓越的界面理解能力 [2] - 在Vending-Bench 2长周期智能体任务中,平均净值达到$5,478.16,显著高于其他模型 [2] - 在LiveCodeBench Pro竞争性编程问题测试中,Elo评级达到2,439,高于GPT-5.1的2,243 [2] 实际应用与用户体验 - 通过Vibe Coding能力,仅依赖提示词即可生成产品界面,整体水准足以对标专业甚至顶级产品设计师的UI作品 [5] - 在相同提示词条件下生成YouTube首页,Gemini 3.0 Pro生成的网页在顶部导航栏、视频卡片网格等方面高度还原,布局与原版几乎一致,排版稳健、留白得当,字体层级与组件细节讲究 [6] - 相比GPT-5.1生成的页面,在贴近真实产品水准上更加领先,细节表现更优 [7] - 具备将静态图片转换为可交互小游戏的能力,例如上传炒菜照片后可生成炒菜小游戏,用户可进行加菜、加肉、倒酱油、控制翻炒等操作,系统会根据食材搭配和操作节奏给出反馈 [7] 开发效率与行业影响 - 能够根据详细提示词快速生成可运行的复杂应用,例如在不到两分钟内生成一个包含开始任务、发射子弹、移动飞船、碰撞检测和结算界面的3D太空射击游戏,全程无需手写代码 [8] - 标志着Vibe Coding进入新分水岭,模型不仅能稳定生成可运行代码,其UI审美也达到较高水准,可能是第一个真正意义上强到可以交付级UI的模型 [9] - 大幅降低了使用门槛,对提示词的依赖度更低,一旦与Lovable、Base44等平台完成打通,很可能引发新一轮应用爆发,使非专业开发者能直接调用模型能力完成产品从原型到前端实现的闭环 [9] - 系统性重构软件生产方式,从代码到设计、从数据分析到内容创作,边际试错成本被大幅拉低,使过去只停留在想象的产品形态具备快速验证和规模化落地的可能 [10] - 将成为业界新的研发标杆,在此更高起点上,应用开发效率可将原本需要数周甚至数月的人力工作压缩到几小时甚至几分钟完成 [9][10]
Google 的 Gemini 3.0 可能将于美国时间11月18日发布
深思SenseAI· 2025-11-17 12:54
Gemini 3.0 Pro发布进展 - Google大模型训练平台Vertex上出现名为"Gemini 3.0 Pro Preview, 2025年11月"的新测试版本,被视为正式版发布前的最后一个测试版本[1] - 目前国内已有多家API平台接入并开放Gemini 3 Pro Preview调用,部分平台甚至公开了对应接口URL[1] - 根据图片资料显示,Gemini 2.5 Pro Preview等旧版本将在11月18日停用[2] - 从经验看,Google经常在大模型正式发布前大规模下线旧版本,公开发布很可能在11月18日左右或推迟至12月初[3] 技术能力提升 - Gemini 3.0 Pro在整体性能上有显著提升,尤其在代码生成、前端界面构建和多模态推理任务上表现突出[5] - 模型能够生成高度复杂的行星可视化场景,可实时调节山脉高度、大陆分布密度、海平面高度等参数并立即显示变化[5] - 具备生成完整可交互魔方仿真的能力,旋转逻辑符合真实物理规则,底层代码可直接运行[6] - 拥有完整的"作曲+演奏"能力,能够根据指令自主创作原创音乐并生成播放对应音频[7] - 能生成"创意虫洞模拟",视觉超现实且逻辑连贯[8] - 在单次生成中能同时完成视觉与音频部分,整体质量和一致性显著领先其他模型[9] 性能调整与权衡 - 11月最新测试版本在图像和视觉模态上的生成质量有所下调,新版画面表现更为逊色,细节和观感都有下降[10] - 考虑到Gemini体系中已有Nano Banana作为主力图像生成模型,在Gemini 3代上对视觉模态做出取舍,将更多能力预算倾斜到代码和多模态推理方向[11] 行业竞争格局 - 自2022年底ChatGPT发布以来,谷歌被迫大幅调整内部架构,加速将生成式AI深度嵌入搜索、办公套件、安卓等核心产品线[13] - 谷歌通过"全栈"优势,一端持续打磨Gemini模型,另一端通过搜索、YouTube、Android等自有产品和Cloud业务基础设施将模型快速推向终端用户和企业场景[13] - Gemini系应用月活跃用户已达6.5亿,较7月增加约2亿,虽然仍落后于ChatGPT每周8亿活跃用户的体量,但差距正在持续缩小[13] - 以Nano Banana为代表的图像生成应用在年轻用户群体中表现亮眼,用户结构发生显著变化[13] - 如果Gemini 3能够取得真正意义上的成功,很可能成为谷歌重回行业"头号玩家"的关键窗口[14] - OpenAI不具备谷歌那样完整的一体化技术栈,在云基础设施、终端分发和产品矩阵上的纵深相对有限,目前领先主要得益于先发优势和行业伙伴联盟网络[14]
李飞飞世界模型爆火后,我们实测后发现离「真可用」还很远
深思SenseAI· 2025-11-14 12:40
产品核心功能与技术特点 - World Labs公司发布“世界模型”,可根据单张图片和提示词创建3D世界 [1] - 支持两种使用方式:直接通过提示词生成世界,或上传图片由系统自动生成提示词和世界 [1] - 在初始视角下生成效果颇为亮眼,画面质量和精美程度表现良好 [1][2] 当前技术局限与性能瓶颈 - 空间范围扩展后质量快速下降,远离起始区域后场景出现模糊、扭曲、拉伸等失真现象 [3] - 现实输入与生成空间之间存在明显质量断层,从图像视角稍作移动后质量显著降低 [4] - 世界越大细节越稀疏,难以维持足够的密度和几何连续性,大范围探索时沉浸感不足 [5] - “世界延展”功能存在严重几何扭曲与纹理拉伸,画面偏向高度抽象化 [6] - 多图生成功能运行效率低下,实测中任务运行两个多小时仍停留在初始loading状态 [8] 用户实际体验反馈 - 多图合成功能经常长时间卡在生成中,在Reddit和小红书等平台被用户反馈“形同摆设” [8][12][14] - 官网展示的游戏项目效果与普通用户实际使用体验存在明显落差 [17] - 对于不具备专业背景的个人用户而言,产品能力的可享受程度有限 [17] 行业定位与发展前景 - 该产品被视为AI生成游戏与虚拟空间的早期雏形,技术概念前沿但距离成熟应用尚有距离 [19] - 在技术路径上为虚拟世界构建、机器人仿真、数字孪生等应用打开了新的想象空间 [19] - 作为标志性起点,展示了下一代空间计算与内容生产工具的轮廓 [19]
当 AI 在耳机里主动和你说话,BeeBot 正在开启下一代社交形态
深思SenseAI· 2025-11-14 01:34
BeeBot产品概述 - 产品是一款名为BeeBot的个性化电台机器人,已登陆美区iOS应用商店测试,通过耳机提供基于位置的语音播报,在用户步行时告知朋友动态、本地新闻及附近活动 [1] - 产品定位为音频优先、主动式的社交实验,由Foursquare创始人Dennis Crowley推出,旨在探索现实世界的数字连接新形态 [1] - 产品支持任何有线或无线耳机及蓝牙音频设备,包括扬声器、车载音响和Meta的Ray-Ban智能眼镜,虽然应用标注为AirPods版但具备广泛兼容性 [3] 核心功能与运作机制 - 产品常驻后台待机,戴耳机自动唤醒,摘耳机休眠,听音乐时调低音量插入播报,听播客时智能暂停/续播,通话或视频场景零干扰 [3] - 用户每天会收到数次更新推送,避免高频打扰,内容整合实时位置信息、用户分享动态及本地网站活动数据,根据兴趣关键词智能推荐附近地点与活动 [3] - 产品开创地面级地点标记新玩法,允许用户精准标注具体点位并留下语音彩蛋,实现沉浸式地理社交,如标记涂鸦墙或分享小众景点路线 [10] - 产品具备突发新闻功能,覆盖街区至全球视角,内容经本地运营团队审核真实性后精准触达相关区域,目前仍在实验阶段 [11] 内容生成与个性化体验 - 每日首次佩戴耳机时提供城市晨报,用1-2句精炼语音播报所在城市新鲜事,内容结合团队人工精选全城热点与AI引擎基于用户行为的个性化推荐 [5] - 社交提醒功能整合好友打卡动态、本地新闻与周边活动数据,通过大模型分析生成专属生活摘要,例如通知好友行踪或地铁延误等实用信息 [6] - 基于用户画像(如发布内容、去过地点、个人资料关键词)持续扫描周边区域,推荐可能感兴趣的现实活动,例如根据喜好提示沙士汽水供应点或F1赛车展览 [7] - 当用户移动至新区域时,产品会提示附近好友及活动,受《塞尔达传说》游戏设计启发,增强现实探索感,如进入中城区时通知好友位置及公园观鸟活动 [8] 技术基础与创始人背景 - 创始人Dennis Crowley长期践行让数字软件走上街头的理念,2004年开发Dodgeball实现手机现实互动签到,后被谷歌收购,随后联合创立Foursquare推广签到概念全球 [12] - 2024年联合创立新公司Hopscotch Labs,BeeBot作为首个项目融合其过去所有想法,包括将曼哈顿变为吃豆人游戏等线下快闪项目经验 [13] - 技术依赖Foursquare积累的海量用户签到数据构建的地点位置能力,为Uber、Apple等提供底层位置服务,其路径感知、地点触发等方法论可直接迁移至BeeBot机制 [14] - 产品继承Marsbot for AirPods技术逻辑,如自动调低音乐音量、无缝暂停播客等细节工程,并借鉴Foursquare对频率与时机控制的经验,优化播报优先级与口吻生成 [16] 产品哲学与行业愿景 - 产品定位为面向街头的AI,旨在将用户从虚拟信息流拉回现实,通过语音播报身边事促进人与人真实连接,减少手机屏幕依赖 [17] - 核心灵魂是主动式人工智能,根据情景触发机制主动提供服务,如走到咖啡馆提示优惠,探索主动式AI与环境感知的交汇点 [18] - 契合可穿戴AI硬件普及趋势,支持耳机、智能眼镜等设备始终在线收集环境信息,致力于开发无需手动交互的主动式人工智能产品 [18] - 产品设计强调无需使用应用,戴耳机自动开启,摘耳机关闭,反对通过诱导用户停留提升月活/日活指标,主张减少手机触碰以激发好奇心 [20] - 创始人试图通过BeeBot重现早期社交软件注重人际链接的氛围,结合简单状态更新与便捷音频方式,将人们从算法信息流解放,增加现实世界感知 [21]
a16z对话Nano Banana团队:2亿次编辑背后的"工作流革命"
深思SenseAI· 2025-11-12 01:02
产品定位与核心能力 - 产品定位为通用创作平台,旨在重构创作全过程,整合对话式编辑、角色一致性与多图叙事功能[1] - 核心能力包括高度一致的角色生成、一键迁移的风格、拖拽完成的复杂编辑,将原本耗时数周的角色设计和分镜绘制压缩到几分钟内完成[1] - 模型具备多模态对话能力与高质量视觉效果结合的优势,支持生成图像的同时生成文本,并可进行对话式编辑[4] 技术开发与模型特性 - 开发过程重点优化定制化能力和角色一致性,并将其作为关键监测指标[12] - 模型具备交互式对话的迭代特性,支持长对话中像创意搭档一样陪伴创作,但长指令遵循能力仍有提升空间[12] - 采用多模态架构,模型在内部可能学习到潜在的世界表示,对3D理解已相当出色,可对生成视频进行三维重建[21] - 底层表示目前以像素为主,但未来可能发展混合表示以提升可编辑性,如支持矢量图等结构化格式[27] 市场反响与用户需求 - 产品发布后用户请求量远超预期,不得不一再上调每秒请求数配置,表明市场价值超预期[6] - 个人化应用激发强烈情感共鸣,当用户生成自己、家人或宠物的图像时,使用活跃度爆发式增长[7] - 创作者最看重控制感,特别是角色物体一致性和多图风格迁移能力,这些是维持有说服力叙事的关键[11] - 评估发现当模型在角色一致性上超过某个质量阈值后,应用场景会突然起飞,目前已达实用临界点[22] 未来发展方向 - 未来创作工具将呈现光谱状分布,专业端侧重创意爆发与枯燥工作自动化,消费端涵盖从娱乐分享到任务代理的多种场景[8][9] - 不认为会出现单一模型统治一切的局面,未来将是多模型共存状态,不同类型模型服务不同用户偏好[16] - 关键能力倍增器包括低延迟(如10秒而非2分钟响应)和信息可视化,后者要求模型保证事实准确性[30] - 视频被视为终极方向,因视频本质是时间轴上连续的动作,当前图像编辑可视为低帧率视频互动[30] 行业影响与创作演变 - 技术正推动创作者角色从执行者转变为与AI长期对话的创意导演,聚焦故事与情感打磨[1] - 艺术创作的核心是人的意图和品味,模型作为工具赋能艺术家,但不会取代几十年积累的专业手艺和设计语言[10][36] - 专业用户界面可能趋向复杂节点式工作流(如ComfyUI),而大众界面则可能更智能,能根据上下文提示下一步操作[15] - 图像生成与代码生成能力交叉产生新可能,例如用代码模型在Excel中复刻图像,展示出零样本迁移的问题解决潜力[28]
未来已来!AI飞行器时代,将代替大部分人工
深思SenseAI· 2025-11-06 04:46
Infravision公司及其创新技术 - 公司开发了一套集成无人机、地面电动绞盘和专用牵引器具的完整系统,旨在实现对传统人工作业和直升机架线模式的全面自动化替代[3] - 系统的核心创新在于地面电动绞盘的自动放线技术,绞盘能随无人机的飞行姿态自动收放牵引绳,实现与空中牵引作业的精准同步,使系统获得堪比直升机的牵引能力与作业高度[3] - 自2018年成立以来发展迅速,在2025年完成了9100万美元的B轮融资,业务从澳大利亚起步,正逐步扩展至北美等全球市场[1] 无人机架线方案的优势 - 避免了人员高空作业和直升机飞行的安全隐患,不受地形限制,并实现了在超长距离跨度上的连续架线,无需人工干预[5] - 无人机体积小噪音低,对沿线环境和土地的影响更小,减少了施工对土地权属方造成的干扰[6] - 效率更高、成本更低,由于省去了出动大型直升机及大量人力的需求,每条线路的架设速度明显提升,整体项目周期缩短,同时施工成本也降低[6] - 优势在于提供成套解决方案,不仅有硬件,还包含软件和服务支持,使客户能够以租赁服务的方式快速采用这一新技术[6] 实际应用案例与效果 - 在澳大利亚Powerlink电网建设项目中,为一个抽水蓄能电站敷设约50公里长的275千伏高压输电线路,无人机系统展现了更高的施工效率和安全性[7] - 传统方法需要出动直升机反复架设导引绳,而Infravision的方案一次性连续铺设了超长距离的线路[7] - Powerlink的CEO评价称,无人机架线更灵活多能,且对土地的影响更小,安全性更高,相较直升机等传统手段具有显著优势[7] Infravision公司的成功战略 - 战略上精准聚焦于高价值细分场景,即电力传输线路架设,这个市场痛点明显且随着新能源大发展急需扩容升级[8] - 选择从澳大利亚本土切入,在本国广袤地形和能源项目中验证技术,从而建立了样板工程,用有限资源撬动了重要客户需求[8] - 注重提供端到端解决方案而非单纯卖产品,通过租赁设备并提供作业服务的模式,深入参与客户项目,形成长期合作关系[9] - 积极拓展全球版图,在澳洲市场验证成功后,迅速将目光投向电网升级需求巨大的北美市场,与美国PG&E等龙头客户建立联系[10] - 组织扩张上执行力强,预计2025年底员工将从70人增至150-200人,以满足订单和项目需求[10] 空中具身智能赛道概述 - “空中具身智能”指的是赋予飞行机器人以自主认知和物理交互能力的前沿领域,研究主体是各类AI驱动的、能自主决策、感知环境并直接操作物理世界的无人机群体[11] - 其技术基础是视觉-语言-动作模型,流程为感知(通过摄像头、激光雷达等)→认知(理解环境、对齐任务目标、规划行动路径)→行动(向飞行器底层控制系统发送指令并执行)[11] - 价值在于灵活行动、学习、决策,能挂载机械臂或专用工具直接执行带电喷涂、清洗等需要物理接触的任务,承担重复、危险的作业环节[12] 无人机集群控制与技术应用 - 无人机集群控制是指协调多架自主无人机为完成共同任务而协同工作的技术,控制方式可以是集中式或分散式[12] - 带来的实际好处是多机并行覆盖,使同样的巡检、测绘、搜救任务可以更高效[12] - 典型应用场景覆盖电力设施巡检(包括国家电网的室内变电站、地下电缆及发电厂燃烧炉)、森林资源调查与应急消防任务等[12] 行业主要参与者 - 微分智飞是国内代表性的创业公司,专注于打造通用空中机器人具身智能“大脑”及集群系统,核心技术涵盖自主导航、环境感知、机器学习决策和群体协同[13] - 该公司推出了P300自主探索无人机等产品,可在无GPS信号环境下自主完成矿洞、隧道等复杂空间的测绘巡检任务[13] - 其定位在于提供通用型平台,赋予各类无人机独立智能和群体协作能力[14] - 北京威斯博科技专注于GNSS拒止环境下自主定位、避障、导航、跟踪、识别的无人机及蜂群的研发[15] - 美国的Exyn Technologies开发了能在地下矿井自主飞行的无人机,拉脱维亚的Aerones公司使用系留多旋翼无人机为风力发电机叶片清洗和维护[15] - 传统无人机巨头如大疆开始入局具身智能领域,发布了具备更强负载和智能避障能力的机型,如可载重30公斤的FlyCart30物流无人机[15] 当前市场创新热点 - 通过强化学习训练无人机掌握特技飞行技能,在算法上达到或超越人类飞手水平[17] - 利用数字孪生和仿真环境对无人机进行大规模试错训练,缩短开发周期[18] - 将新型软体机器人技术引入飞行器设计,使其在发生碰撞时更具弹性以保护自身[19] 未来发展愿景 - 电网只是第一块被改写的拼图,微分智飞等在矿业、轨道交通和应急管理等垂直领域已有了一些标杆场景[20] - 微分智飞未来将拓展更多行业应用场景、完善产品线提升通用性、并探索海外市场[20] - 行业提供的并非“一台更专业的无人机”,而是一种全新的作业范式,将危险与重复性工作解构为一系列可被机器自主执行的标准化任务[20]