Workflow
多模态交互
icon
搜索文档
微软深夜送出程序员节最“离谱”的礼物:让Mico接管你的Copilot
AI前线· 2025-10-24 04:07
核心观点 - 微软发布Copilot秋季更新,将其从“生产力工具插件”升级为跨设备、跨场景的“情境AI基础设施”,体现了“以人为本的AI”理念 [2] - 此次发布围绕三个关键词:协作、个性化、连接,共推出12项关键功能 [2][3] - 新虚拟角色Mico的推出是本次更新的亮点,标志着微软在人机交互领域长达三十年探索的延续,旨在将AI从“工具”转变为“伙伴” [5][18] 关键功能更新 - **小组(Groups)**:支持最多32人共享Copilot会议,在同一工作空间进行头脑风暴和共同创作,Copilot负责维持上下文、自动汇总决策 [3] - **Imagine**:作为协作中心,用于在企业环境中快速创建和混合AI生成的视觉素材、营销草稿或培训材料原型 [3] - **真实对话(Real Talk)**:旨在摒弃AI模型过度讨好的行为,采用更可信的对话方式,如苏格拉底式问答,以提供更具技术协作价值的反馈 [7] - **记忆与个性化(Memory & Personalisation)**:使Copilot具备长期情境记忆能力,可按用户指示记住关键细节并提供个性化建议 [7] - **连接器(Connectors)**:与OneDrive、Outlook、Gmail、Google Drive、Google日历集成,实现跨账户的自然语言搜索 [7] - **主动行动(Active Actions,预览)**:基于用户最近活动与上下文,以“下一步建议”的形式主动提出可行操作 [7] - **Copilot for Health**:基于可靠医疗来源提供健康信息,并支持用户查找和比较医生 [7] - **实时学习(Live Learning)**:提供通过问题、视觉效果、白板的苏格拉底式、语音驱动辅导体验 [7] - **Edge中的Copilot模式**:将Microsoft Edge浏览器转换为“AI浏览器”,用户可通过语音总结、比较网页内容并执行操作 [7] - **Windows上的Copilot**:通过“Hey Copilot”激活,与Windows 11深度集成,引入Copilot Vision并通过摄像头/屏幕识别理解视觉内容 [7] - **Copilot Pages和Coppilot Search**:Pages为协作文件画布,Search将AI生成答案与标准网络搜索结果相结合 [7] 虚拟角色Mico - Mico是Microsoft和Copilot的组合名,以可爱、不规则圆点造型作为新的角色标识出现在用户界面 [3][5] - Mico能实时变换表情和颜色以反映情绪和反馈,定位为跨模态、统一的用户体验层 [3][15] - 该角色是微软对1997年推出的Office助手“大眼夹”(Clippy)理念的延续,旨在探索“情感化计算”和“亲和式交互” [5][6][10] - 微软AI部门高管表示,Mico拥有固定形象、独立空间以及“成长”过程,是公司“人本主义人工智能”愿景的具体化体现 [10][15][16] 行业意义与市场反应 - 外媒评论此举是微软将其生产力体验与生成式AI能力更深整合的一次重大举措 [3] - 此次更新标志着AI技术从“工具”迈向“伙伴”,旨在让人与电脑的关系从命令与响应转变为对话与理解 [18] - Mico亮相后在社交媒体引发讨论,有用户称赞其可爱、有活力,并包含将Mico变为Clippy的彩蛋功能 [20][21] - 有观点认为,Mico在市场上面临挑战,因为科技公司对赋予AI个性持谨慎态度,此前Clippy因技术受限和交互生硬而失败 [5][21]
荣耀Magic 8系列上新,火山引擎助力“YOYO助理”多模态升级
搜狐网· 2025-10-17 09:00
产品发布与核心升级 - 荣耀于10月15日发布年度旗舰新品,包括Magic 8系列手机、MagicPad 3 Pro平板及荣耀手表5 Pro,并搭载全新MagicOS 10操作系统 [1] - 智能语音助手“YOYO助理”实现多模态交互能力升级,旨在提供更贴心、全能、主动的智能服务 [1] 关键技术合作与赋能 - 荣耀与字节跳动旗下火山引擎合作,基于豆包大模型能力为“YOYO助理”注入多场景智能服务,如联网问答、智能识图、创意修图等 [3] - 火山引擎的联网问答Agent整合豆包大模型及联网能力,能实时检索互联网公开资源并深度整合抖音集团生态内容,如今日头条图文、抖音百科等 [4] - 火山引擎实时对话式AI方案保障“YOYO助理”在复杂网络下的低延时、高流畅连续交互体验,实现视频通话中“看得准、答得快” [9] “YOYO助理”功能详解 - 联网问答功能具备秒级输出能力,支持图片、文字、语音多模态输入,输出形式包括文字、图片、音乐、视频等,并具备精准的时效性信息筛选能力 [4] - 智能识物功能可基于视觉理解能力快速识别物体(如鸟类)并提供详细信息,结合联网问答补充知识 [6] - 提供“YOYO打电话”和“YOYO视频通话”功能,支持用户通过语音或视频进行闲聊陪伴、口语陪练及专业问答,例如在超市通过视频通话挑选水果 [7] - AI修图功能允许用户通过圈选和语音指令快速完成去除杂物、调整光影、照片风格迁移等复杂图片编辑需求 [10][11] 具体应用场景与用户体验 - 在健康饮食场景中,用户询问食物建议后,“YOYO助理”可定制输出包含文字、图片、视频等多元内容的低脂饮食搭配建议 [6] - 豆包大模型能结合上下文理解用户情绪和语调,生成超自然、高保真、个性化的即时语音互动,使回答更拟人 [9] 未来合作方向 - 荣耀与火山引擎将持续合作,训练“YOYO助理”的智商和情商,并拓展更多AI智能体应用场景,强化MagicOS的多模态交互体验 [11]
当AI与老人相爱,谁来为“爱”买单?
虎嗅· 2025-10-17 04:50
文章核心观点 - AI陪伴机器人市场潜力巨大,但快速发展伴随显著的伦理挑战,需在商业与伦理间取得平衡 [4][7][21][26][28] 市场潜力与增长动力 - 2025年上半年全球AI陪伴应用收入达8200万美元,预计年底突破1.2亿美元,消费支出累计2.21亿美元,较2024年同期增长64% [6] - 全球AI老年陪伴机器人市场规模2024年约为2.12亿美元,预计2031年增长至31.9亿美元,期间年复合增长率高达48.0% [12] - 市场基础由庞大刚需人群奠定,中国失能半失能老人约4400万,独居老人3729万,阿尔茨海默病患者约1699万,潜在服务人口规模逼近亿级 [9] 产品功能与发展趋势 - 产品功能从简单对话升级为融合多模态情感大模型、健康监测与安全预警的综合性解决方案 [10][11] - 技术向情感智能化发展,构建稳定可定制的人格和长期记忆库,交互载体从手机应用扩展至实体机器人与混合现实空间 [14][15][16][19][20] - 全球服务机器人市场规模预计2035年接近1960亿美元,为具身化陪伴提供产业基础 [19] 伦理挑战与行业问题 - AI情感回应本质是算法生成,长期使用可能导致用户现实社交意愿下降,斯坦福研究显示使用超200小时的用户社交意愿下降比例达41% [23][24] - 存在数据安全隐忧,部分应用过度收集用户敏感信息,例如xAI公司被曝公开超过37万条用户聊天记录 [24] - 技术风险转化为实际损害时责任认定困难,法律在界定平台、开发者与用户责任方面存在空白 [25]
阿里AI战局再落一子:顶尖科学家许主洪转岗,执掌多模态交互模型
硬AI· 2025-09-30 05:52
公司AI战略调整 - 公司将顶尖AI科学家许主洪从智能信息事业群调岗至核心AI研发机构通义实验室,负责多模态交互模型研究[2][3] - 此次人才调动体现了公司以“AI驱动”为核心的战略,旨在将顶尖人才向AI基础模型研发领域集结[3] - 调整反映了公司对AI战略优先级的再聚焦,从C端应用创新转向集中优势兵力攻坚核心基础模型能力[4][5] 多模态交互技术布局 - 多模态交互被视为下一阶段AI突破的关键隘口,是AI从“能听会说”迈向“能看会想”的关键一步[3][6] - 公司通义实验室已构建包括语言、视觉、语音等的“全尺寸”和“全模态”模型矩阵,其开源模型在全球有巨大影响力[6] - 公司意图整合许主洪在多模态预训练领域的学术远见和工业经验,以在多模态核心赛道建立更强技术壁垒[6] 行业竞争与战略逻辑 - 全球科技巨头在人工智能领域展开激烈军备竞赛,多模态能力成为竞争前沿,如谷歌Gemini、OpenAI GPT-4o等[6] - 顶尖人才的流向是战略方向的指针,显示出公司最高层对底层技术掌控力的极度重视[9] - 资源正以前所未有的力度向核心模型集中,公司倾向于将宝贵研发资源投入底层模型以求颠覆性技术突破[9]
Nano Banana核心团队:图像生成质量几乎到顶了,下一步是让模型读懂用户的intention
Founder Park· 2025-09-22 11:39
图像模型发展趋势 - 图像模型正从创意工具向信息查询工具转变,类似于LLM的发展路径[4][11] - 未来模型将更主动、更智能,能根据用户问题灵活运用文本、图像等多模态交互[4][11] - 所有团队都在朝通用模型(Omni Models)方向发展,即能处理多种任务的模型[6][40] 技术突破方向 - 关键进步将体现在模型的可表达性方面,重点是提升能力下限而非上限[6][33] - 现在最好的图像质量与几年后相差不大,但最差的图像质量将显著改善[6][33] - 图像与视频模型技术共享紧密,未来可能融合在一起[40][41] 产品应用场景 - 角色一致性功能成为用户最感兴趣的功能之一,允许用户将自己形象置于不同场景[8][9] - 用户最高频需求包括更高分辨率(目前为1K)、透明背景和更好的文字渲染效果[9] - 图像模型在专业工作流中应用广泛,包括建筑设计、视频制作和网站UI生成[24][25][28] 交互设计挑战 - 多模态交互核心在于识别用户意图,根据实际任务切换不同交互模式[4][19] - 界面设计需明确问题边界,让用户清楚哪些操作可行[5][20] - 当前UI设计被低估,需要整合各种模态让普通人更容易使用模型[4][18] 模型评估方法 - 真实用户主动测试是最佳评估方式,如LM Arena平台让用户输入自己的Prompt使用模型[21] - 形成反馈循环,利用语言模型的智能来评估自己生成的内容[21] - 团队通过多渠道收集用户反馈,调整评估标准确保好用功能不退化[22] 个性化与美学需求 - 美学需求难以满足,需要深度个性化才能提供有用建议[6][26] - 个性化更多停留在Prompt层面,通过对话和上下文实现而非专属模型[26][27] - 现成模型支持的使用场景范围广泛,但高级功能需求需要结合其他工具[28] 行业竞争格局 - Midjourney成功关键在于比其他团队更早搞清楚如何进行模型的后续训练[6][31] - 小团队仍有可能做出顶尖模型,但有能力训练LLMs的团队可能占据主导地位[6][43] - 图像和视频领域存在良性竞争,推动整个行业快速发展[30] 工作流整合 - 传统工具和AI模型将长期共存,各自满足不同精度控制需求[35][36][37] - Gemini等聊天工具适合快速迭代和创意构思,专业场景需要更精密的多工具协作流程[35] - 模型在办公协作、知识性场景和创意领域都有巨大应用潜力[37][38]
2025国际汽车智能座舱大会苏州召开
中国汽车报网· 2025-09-17 05:56
大会概况 - 2025国际汽车智能座舱大会于9月16日在苏州召开,主题为“AI赋能智舱革新,重构人·车·未来生态” [1] - 大会设置1场全体大会、1场高端闭门会、3场关键技术会议及3场专题会议,并设有实车体验活动 [1] - 来自国内外智能座舱领域的800名专家学者和企业代表参会 [1] 行业发展趋势 - 人工智能大模型、多模态交互等技术正推动智能座舱从“功能集成”向“场景驱动”、“单机智能”向“群体智能”加速演进 [3] - 中国相关产业凭借技术与市场优势持续领跑全球 [3] - 参评车型智能座舱平均得分达6.78分,绝大多数车型稳居6分以上良好区间,头部车型突破8分,显示产业整体向上发展 [5] 技术发展路径与挑战 - 行业专家指出,“单车智能+网联赋能”的车路云一体化方案是中国智能网联汽车的终极发展方向 [6] - 当前“车路云一体化”方案在产业化、市场应用的生态和商业模式上尚不够清晰,相关领域投资回报不理想 [6] - 建议行业关注端到端大模型技术发展,推进车路协同标准化建设,并加强大模型上车安全监管 [6] 网络安全创新方案 - 当前以IP网络为架构的智能网联汽车体系存在安全缺陷,传统防护手段难以应对AI时代攻击风险 [7] - 多标识网络融合区块链技术,通过“数字护照+数字签证+数字海关”管理模式,可实现网络安全指数级提升 [7] - 该技术方案已在多次国际安全对抗赛中验证其高可靠性 [7] 企业战略与产品创新 - 理想汽车将智能座舱定义为“幸福空间”,认为座舱将成为车企差异化竞争核心,并围绕三维空间交互等三大方向构建交互体系 [8] - 斑马智行认为AI是构建专属用户关系的核心手段,其全模态端模型解决方案将通过端侧大模型部署推动座舱从“被动响应”转向“主动陪伴” [8] - Unity中国的3D实时渲染技术已服务全球54家主机厂,赋能120余款量产车型HMI开发,未来将探索车载游戏等新应用 [9] 标准体系建设目标 - 汽车智能座舱团体标准体系建设目标为:到2026年搭建好体系框架并与国家标准对接;到2030年完善体系并填补关键技术标准空白;到2035年使中国标准成为国际标杆 [5] 区域产业生态与支持 - 江苏省作为全国最大汽车产业集群地之一,已在车载芯片、车联网、智能座舱解决方案等领域形成完整的智能网联汽车产业链与创新体系 [3] - 苏州正成为长三角汽车产业集聚区的重要力量与全国智能网联汽车发展的“先行者”,并出台涵盖核心技术攻关、高端人才引进等领域的支持政策 [3] - 中国汽车工程学会长三角科技交流中心在苏州揭牌,将依托学会资源为长三角区域汽车产业高质量发展提供助力 [4]
华为,发布!未来十年,十大技术趋势!
证券时报· 2025-09-17 03:54
核心观点 - 华为发布《智能世界2035》和《全球数智化指数2025》报告 展望未来十年关键技术趋势及其对教育、医疗、金融、制造、电力等行业的影响 [2] 技术趋势 - AGI将是未来十年最具变革性的驱动力量 需克服核心挑战以实现奇点突破 走向物理世界是AGI形成的必由之路 [3] - AI智能体将从执行工具演进为决策伙伴 驱动产业革命 [4] - 人机协同编程成为主流开发模式 人类专注于顶层设计和创新思考 AI负责编码执行 [4] - 交互方式从图形界面转向自然语言 并向融合人类五感的多模态交互演进 用户通过语音、手势获得深度沉浸体验 [4] - 手机App从独立功能实体转变为AI智能体驱动的服务节点 AI智能体调用服务节点为用户提供极致体验 [4] - 世界模型等关键技术突破推动L4+自动驾驶汽车成为"移动第三空间" [4] - 2035年全社会算力总量将增长10万倍 计算领域在计算架构、材料器件、工程工艺、计算范式四大核心层面实现颠覆性创新 催生新型计算兴起 [4] - 数据成为推动人工智能发展的"新燃料" AI存储容量需求比2025年增长500倍 占比超过70% Agentic AI驱动存储范式改变 [4] - 通信网络连接对象从90亿人扩展到9000亿智能体 实现移动互联网至智能体互联网的跃迁 [5] - 能源成为制约AI高速发展的核心要素 2035年可再生能源发电量占比突破50% 人工智能通过Token管理瓦特实时管理能量 实现动态高效电网 [5] 行业影响 - 关键技术趋势将对教育、医疗、金融、制造、电力等行业带来改变和影响 [2] - 全球数智化指数帮助各国量化数智化发展进程 [2]
算力总量将增长10万倍!华为预测未来智能世界十大趋势
第一财经· 2025-09-17 02:49
智能世界2035技术趋势 - AGI将成为未来十年最具变革性的驱动力量 但需克服核心挑战才能实现奇点突破 走向物理世界是AGI形成的必由之路 [2] - AI智能体将从执行工具演进为决策伙伴 驱动产业革命 [3] - 人机协同编程成为主流开发模式 人类专注于顶层设计和创新思考 AI负责繁琐编码执行 [3] 交互与服务模式演进 - 交互方式从图形界面转向自然语言 并向融合人类五感的多模态交互演进 用户通过语音手势获得深度沉浸体验 [3] - 手机App从独立功能实体转变为AI智能体驱动的服务节点 AI智能体调用相关服务节点提供极致体验 [3] 自动驾驶与算力发展 - 世界模型等关键技术突破将推动L4+自动驾驶汽车成为移动第三空间 [3] - 2035年全社会算力总量将增长10万倍 计算领域在架构/材料/工艺/范式四大层面实现颠覆性创新 [3] 数据存储与通信网络 - AI存储容量需求比2025年增长500倍 占比超过70% Agentic AI驱动存储范式改变 [3] - 通信网络连接对象从90亿人扩展到9000亿智能体 实现移动互联网至智能体互联网的跃迁 [4] 能源系统变革 - 可再生能源发电量占比将突破50% 加速替代传统化石能源 [4] - 人工智能成为新能源系统核心 通过Token管理瓦特实时管理每一焦耳能量 实现更动态高效的电网 [4]
华为发布十大技术趋势:2035年全社会算力总量将增长10万倍
观察者网· 2025-09-17 02:35
报告核心观点 - 华为发布《智能世界2035》系列报告 展望未来十年关键技术趋势及其对各行业的影响 [1] - 生成式人工智能正以全新方式重新定义未来可能性 前瞻视野和科技愿景比以往更重要 [1] - 技术需融入生活、家庭、企业与环境 方能真正推动文明进步 [6] 十大技术趋势 - AGI将是未来十年最具变革性的驱动力量 实现突破需克服核心挑战并走向物理世界 [3] - AI智能体将从执行工具演进为决策伙伴 驱动产业革命 [3] - 人机协同编程成为主流开发模式 人类专注于顶层设计 AI负责编码执行 [3] - 交互方式从图形界面转向自然语言 并向融合人类五感的多模态交互演进 [3] - 手机App从独立功能实体转变为AI智能体驱动的服务节点 [3] - 世界模型等技术突破将推动L4+自动驾驶汽车成为移动第三空间 [4] - 2035年全社会算力总量将增长10万倍 计算领域在四大核心层面实现颠覆性创新 [4] - AI存储容量需求将比2025年增长500倍 占比超过70% Agentic AI驱动存储范式改变 [4] - 通信网络连接对象从90亿人扩展到9000亿智能体 实现移动互联网至智能体互联网跃迁 [5] - 能源成为制约AI高速发展的核心要素 2035年新能源发电量占比突破50% AI成为新能源系统核心 [5] 行业与社会影响 - 到2035年 人工智能将助力预防超过80%的慢性病 推动健康管理从被动治疗转向主动预防 [6] - 超过90%的中国家庭将拥有智能机器人 人类逐渐进入全息生活空间时代 [6] - 由AI Agent驱动的自主决策组织将重塑生产范式 2035年人工智能应用率超过85% [6] - AI可提升劳动生产率60% 通过自主系统彻底重构企业价值创造方式 [6] 全球数智化指数 - 华为将全球数字化指数升级为全球数智化指数 构建新时代生产要素综合评估模型 [7] - 新模型以数据、ICT人才和数智化生产工具为核心生产要素 涵盖ICT基础设施、行业应用深度、人才生态等多维度 [7] - 该指数旨在为国家数字经济高质量发展提供量化参考 帮助各国制定精准产业策略 [7]
当辅助驾驶 “哑火”,车企将如何重构城市交通的智能基因
36氪· 2025-08-20 11:04
政策监管趋严 - 部分高速路段明确禁止启用L2/L2+级辅助驾驶系统[1] - 市场监管总局与工信部发布新规,严禁使用“L2 5”、“脱手驾驶”等模糊宣传术语[1] - 新规要求车企在APP和用户手册中显著标注功能限制,禁止将辅助驾驶宣传为无人驾驶[2] 技术局限性暴露 - 辅助驾驶系统存在明显技术边界,无法可靠识别静止车辆、缓慢行驶的工程车及异形挂车等场景[1] - 在施工改道路段,系统感知范围有限,难以应对不规则摆放的锥桶和临时限速标志[2] - 节假日车流量激增时,ACC/AEB系统可能因误判急刹而引发连环追尾事故[2] - 国内L2级辅助驾驶渗透率已超过50%,但技术水平与营销宣传存在巨大差距[2] 安全事故与责任界定模糊 - 曾发生因系统未能识别静止车辆导致的追尾致死事故,造成2人死亡[1] - 现行法规要求驾驶员全程负责,导致“辅助”与“自主”的责任边界模糊,车企常以“系统识别局限”为由免责[2] 多模态交互与物理世界AI模型成为新方向 - 技术竞争焦点转向车辆对物理世界的理解深度,多模态模型通过融合800万像素摄像头、4D毫米波雷达和激光雷达数据,提升环境感知能力[4] - 系统通过“多模态认知-场景推理-决策进化”的三层架构,将感知数据转化为具体决策依据,例如识别施工路段需减速30%[4] - 驾驶员监测系统升级,通过方向盘扭矩感知、眼球追踪和心率监测等多维度数据构建驾驶员实时状态模型,实现渐进式干预[4] - 物理世界AI大模型通过模拟数千种危险情境的演化路径,具备场景预判能力,在虚拟测试中反应速度比人类快2倍以上[5] 数据驱动算法进化 - 智能驾驶的进化速度由数据质量与模型能力决定,新规强调将警示路段场景数据反哺算法训练[7] - 针对静止车辆误判问题,有车企建立了覆盖23种环境条件的专项数据库,包含超过10万案例,以提升识别非常规静止物体的能力[7] - 物理世界AI大模型通过学习百万次真实车流交互数据,能预测多车博弈场景,计算出保持秒级车距等最优策略,提升效率[7] 车企竞争维度与商业模式重构 - 行业竞争从“功能炫技”转向“生态安全”,透明化的安全承诺正在取代夸大宣传[8] - 新规推动车企在APP中设置“智能驾驶安全中心”,实时展示系统能力评分和功能优化项,此举有助于提升用户信任度和日均使用时长[8] - OTA升级需备案审查,倒逼车企建立全流程管控体系[8] - 最终竞争力在于构建“人-车-环境”的和谐关系,车辆成为智能出行生态的核心节点[8] - 商业模式可能从“卖车”升级为运营“城市效率基础设施”,车企转变为交通效率的运营商[9]