多模态

搜索文档
中信证券:火山引擎正赋能多品类硬件产品AI落地 重点关注字节生态链公司
智通财经· 2025-06-13 00:47
火山引擎Force2025原动力大会 - 火山引擎通过Force2025大会展示AI在多品类硬件产品的落地能力,重点布局多模态视觉理解应用 [1] - 大会设主论坛、产品专场、行业专场及合作伙伴论坛,凸显生态协同效应 [1] - 字节跳动大模型在硬件端应用覆盖AI闹钟、学习机、玩具、眼镜等15+品类,呈现多品类延伸趋势 [2] AI硬件产品落地进展 - 火山引擎AI玩具支持角色/音色/动作快速配置,AI耳机首字响应时间1.5秒,均实现Turnkey交付模式 [2] - 接入豆包大模型的AIoT产品出货量已超100万台,其中国内头部AI玩具公司跃然创新占比25% [2] - 火山引擎预计2024年底AIoT产品接入量将突破1000万台,年增长达10倍 [2] - 安防摄像头通过大模型升级为管家助理,台灯+摄像头组合可实现拍照解题功能,体现多模态应用价值 [3] 产业链合作与技术创新 - 博通集成芯片优化豆包生态端侧AI体验,突出低延迟/高带宽/超低功耗特性 [4] - 星宸科技在多模态领域布局居家/商业/可穿戴场景,眼镜端芯片已实际应用 [4] - Rokid展示眼镜端多模态方案,跃然创新计划年内发布全球首款端到端AI玩具 [4] AI眼镜发展趋势 - 小米首款AI眼镜预计6月26日发布,采用高通AR1+恒玄2700芯片及索尼IMX681传感器 [5] - 行业产品形态将从无显示向单绿/全彩显示迭代,2025年重点关注光波导/MicroLED技术突破 [5] - 建议跟踪META/Rokid/影目等厂商新品节奏,供应链关注显示技术环节 [5]
多模态大模型迎来新阶段
2025-06-09 01:42
纪要涉及的行业和公司 - **行业**:AI 产业、算力产业、芯片产业 - **公司**:星宸科技、英伟达、博通、盛宏、深亿、华电、韦尔股份、思特威 - W、格科威、恒玄科技、万德、谷歌、微软、ChatGPT、Deepseek、豆包、OpenAI、苹果、字节跳动、特斯拉、中芯国际 纪要提到的核心观点和论据 - **AI 应用落地路径**:AI 应用以嵌入式方式落地传统软件,如万德、谷歌、微软等软件内嵌 AI 功能,改变市场对 AI 落地速度和方式的认知 [1][3] - **AI 产业链供需现状**:2025 年全球算力供给端问题基本解决,核心矛盾转向需求端;尽管 AI 原生应用日活增长有限,但 TOKEN 消耗量指数级增长,预计 2025 年 6 月算力需求供不应求 [1][4][5] - **市场对 AI 产业认知偏差**:市场对 AI 产业认知存在时间偏差,AI 产品推广周期远短于传统行业,渗透速度远超传统制造业和互联网时代 [1][7] - **AI 模型更新方向**:未来 AI 模型更新集中在多模态、物理 AI 和 ChatGPT 5 等方面,多模态包括视频理解与生成,物理 AI 涉及自动驾驶等硬件媒介 [1][8] - **投资建议**:看好海外算力、多模态相关芯片公司以及国产算力产业链,如英伟达、博通、星宸科技等 [2][14][19][20] 其他重要但是可能被忽略的内容 - **重要会议和活动**:2025 年 6 月 10 日苹果 WWDC 大会、6 月 11 日字节跳动原生生态大会、6 月 12 日特斯拉展示 RoboTaxi 功能,这些可能带来重要产品更新和发布 [1][11][13] - **多模态视觉理解模型**:2025 年 5 月 30 日上线豆包 APP,实测理解准确度高,未来将嵌入其他 APP、应用于安防监控、探索智能眼镜领域 [12] - **星宸科技情况**:在安防和家用监控领域成熟,开拓汽车 ISP 芯片业务已获订单,开发运动相机产品预计下半年有订单突破,发布眼镜产品,将在元动力大会做多模态相关报告 [15][16] - **恒玄科技进展**:今年下半年推出集成后的 SoC 主控芯片,针对智能眼镜行业开发推广 [18] - **国产算力挑战与前景**:中芯国际 3 月起因国产零配件原材料有良率问题,预计 7 月改善,国产算力板块将随良率修复迎来行情 [19]
美团无人机香港首条运营航线开航|首席资讯日报
首席商业评论· 2025-06-08 03:56
美团无人机香港首航 - 美团无人机首条常态化航线在香港科学园至马鞍山海滨长廊投入运营,采用"跨海+公园"场景[1] - 航线配送效率提升7倍,已有香港麦当劳、必胜客等商户接入服务[1][2] - 计划以香港科学园为起点,逐步开通至马鞍山居民小区等无人机空投柜航线[1] 佳禾食品与幸运咖合作 - 佳禾食品产品广泛应用于食品饮料领域,蜜雪冰城旗下咖啡品牌"幸运咖"是其重要客户之一[3] AI多模态发展 - 大模型正从数字世界走向物理世界交互,多模态有望在2025年迎来规模化落地拐点[4] - 数据集共享成为开源协作的关键[4] 滴滴高温补贴 - 滴滴将在全国近300个城市发放超6亿元高温补贴,覆盖北京、上海等12个重点城市[5] - 补贴将在暑期3个月持续发放[5][6] 波音对华交付重启 - 波音737MAX飞机从西雅图飞往中国,为4月以来首次恢复对华交付[7] - 该飞机原为舟山工厂待交付的新飞机,4月曾被退回美国[7] 黄金价格波动 - 老庙黄金足金饰品价格跌至999元/克,较前一日下跌9元/克,2天累计下跌17元[8][9] 特斯拉人事变动 - 特斯拉Optimus人形机器人项目工程主管米兰・科瓦奇离职,由自动驾驶负责人阿肖克・埃卢斯瓦米接手[10] 白象食品产品更名 - 白象食品将原"多半"系列更名为"面饼120克","多一半"系列更名为"面饼110克"[11] - 本月内将停止生产原包装产品,后续终止使用原产品名[11][12] 特朗普与特斯拉 - 特朗普考虑出售或赠送其购买的红色特斯拉,该车原为白宫拍照活动使用[13] - 特朗普称马斯克是"一个失去理智的人",双方关系破裂[13][14] 江苏公积金政策 - 江苏省提高住房公积金贷款额度,支持提取公积金支付购房首付款[15] - 加大租房以及建造、翻建、大修自住住房等提取住房公积金支持力度[15] 比亚迪行业倡议 - 比亚迪李云飞呼吁汽车行业比技术、拼产品,拒绝夸大宣传和恶意竞争[16] 汽车市场动态 - 新车价格战持续,可能抑制二手车市场活跃度[17] - 5月二手车源量显出疲态,行业需调整增长预期[17]
4位图灵奖得主布道,2大冠军机器人登台,“AI春晚”果然又高又硬
量子位· 2025-06-06 13:45AI Processing
重磅演讲 :谷歌高管首谈抗癌经历,AI或将改写癌症诊疗未来
36氪· 2025-06-05 09:53
人工智能作为通用技术 - 人工智能与蒸汽机、电力、互联网并列 属于能够改变经济和社会结构的通用技术 [1] - 人工智能在四个领域具有巨大潜力:推动经济增长、加速科学突破、支持医疗服务与结果、加强网络安全 [2] - 人工智能若全面应用 2030年全球GDP可能提升约20万亿美元 [2] 人工智能在癌症研究与应用 - 谷歌人工智能聚焦于药物发现和疾病早期检测两大关键领域 [8] - AlphaFold解决了数十年未解的蛋白质折叠问题 将绘制2亿多种蛋白质结构的时间从数十万年缩短至几个月 [8] - AlphaFold已开源 全球超过190个国家的250多万科学家使用该数据库 [8] - 人工智能帮助科学家理解突变如何改变蛋白质功能 从而加速癌症研究和药物设计 [8] 人工智能在疾病诊断与早期检测 - 早期检测是改善癌症结果的关键 人工智能可识别淋巴结中微小癌细胞簇 [9] - 深度学习模型在千兆像素病理切片上发现癌症 将病理学家审查时间缩短一半并提高准确性 [9] - 人类与人工智能合作效果最佳 优于单独使用人类或算法 [9] - 人工智能辅助放射科医生快速浏览数千张扫描图像 早期检测结合治疗可挽救生命 [9] - 谷歌在东南亚和印度进行超过70万次糖尿病视网膜病变扫描 目标未来十年扩大至600万次以上 [10] 人工智能优化医疗服务与效率 - 代理人工智能系统可跟踪癌症试验、筛选患者相关数据、自动起草文件 减少医生行政负担 [10] - 谷歌与ASCO合作开发ASCO指南助手 几秒内处理大量数据 减少阅读80-90页资料的认知负担 [11] - 医生花费三分之一时间处理文书 临床医生因行政任务每周损失28小时 护士在轮班更换中损失大量时间 [11] - 生成式人工智能工具减少医疗文档记录时间 处理总结检查结果、安排预约、账单支持等任务 [12] - 多模态人工智能处理音频、高分辨率放射图像、病理图像及基因组学数据 帮助医生更精确高效工作 [12] - 人工智能使医生记录病情效率提高30% 护士节省40%时间处理出院报告 增加患者陪伴时间 [12] 人工智能在网络安全中的应用 - 医疗数字环境易受攻击 去年医疗数据泄露达历史最高水平 数亿条记录泄露影响超过80%美国人口 [13] - 网络攻击持续加速 因医疗数据敏感且有价值 谈判可能导致时间与生命损失 [13] - 人工智能通过早期数据模式检测监控新威胁 防止不必要数据入侵 加强云环境安全 [14] 人工智能技术推广与愿景 - 谷歌翻译服务覆盖250种语言 过去九个月新增116种语言 体现人工智能发展速度 [15] - 人工智能解决方案直观易用 建议通过实际使用建立熟悉度 例如尝试ASCO指南助手或搜索AI模式 [17] - 人工智能愿景包括普及早期检测、使优质医疗成为常态、将"可控"和"治愈"带给数百万人 [17]
“多模态卷王”收缩C端业务!大模型“六小虎”战略聚焦谋出路
证券时报网· 2025-06-04 11:14
阶跃星辰业务调整 - 阶跃星辰收缩C端业务,停运角色扮演类智能体产品"冒泡鸭",重心转向终端Agent(智能体)[1] - "冒泡鸭"从2023年12月起已停止大范围投流,团队合并至"阶跃AI"产品团队[1] - 公司C端业务调整是大模型创业企业在DeepSeek和互联网大厂竞争下重新定位的缩影[1] 阶跃星辰公司背景 - 阶跃星辰成立于2023年4月,创始人兼CEO是微软前全球副总裁姜大昕[2] - 公司2024年3月首次公开亮相,发布万亿参数大语言模型Step-2[2] - 专注于多模态领域,已发布22款自研基座模型,涵盖文字、图像、视频、语音、音乐和推理等领域[2] - 被业内称为"多模态卷王",与智谱AI并称基座大模型的"南北双雄"[2] 阶跃星辰业务转型 - 此前采用"模型+应用"两条腿走路策略,推出C端应用"跃问"和"冒泡鸭"[3] - 受DeepSeek影响,重新思考增长路径,认为投流逻辑在AI时代不完全成立[4] - 将资源重心从C端转向多模态大模型研发和终端Agent方向[4] - 2024年2月宣布与吉利汽车集团、OPPO、智元机器人等头部企业合作,推动AI在手机、汽车、具身智能等终端应用[5] 大模型行业竞争格局 - "六小虎"包括智谱AI、MiniMax、月之暗面、阶跃星辰、百川智能和零一万物[6] - 2024年下半年以来,除智谱AI和阶跃星辰外,其余几家无新融资消息[6] - 零一万物和百川智能已放弃基座大模型训练,分别押注AI行业落地和AI医疗[6] - MiniMax专注C端视频生成海外市场,智谱AI布局政企合作并启动IPO,月之暗面Kimi在C端竞争中逐渐落后[6] 行业发展趋势 - 大厂进入和DeepSeek冲击促使大模型创业公司重新定位[7] - 行业面临模型迭代快、C端用户忠诚度低、B端盈利难等挑战[7] - 融资环境趋紧,创业公司需在有限时间内争取更大生存空间[7]
文科转行后,我终于吃上了时代红利
36氪· 2025-06-04 01:56
AI行业人才需求与文科生转型 - 互联网公司推出"AI人文训练师"岗位 要求文史哲艺术背景 负责AI文学艺术表达训练 正职月薪达3-5万元[1] - 2022年文科生就业签约率仅12.4% 显著低于理科生29.5%和工科生17.3% 促使文科生转向AI行业[4] - 2023年AI行业岗位招聘量同比增超40% 平均月薪突破2.1万元 麦肯锡预测2030年中国AI人才缺口达400万人[4] AI行业发展现状与趋势 - ChatGPT上线两个月月活达1亿 成为AI技术普及关键节点[7] - 全球多模态AI市场规模预计2025年达24亿美元 2037年将增长至989亿美元[31] - 行业技术迭代加速 如AI Agent成为新趋势 要求从业者持续学习前沿技术[36] 文科生转型路径与岗位分布 - 转型路径包括:产品经理/运营等非技术岗 算法工程师等技术岗 以及数据标注等基础岗[15] - 头部公司如DeepSeek聘请中文系学生制定数据标注标准 实习生日薪达550元[19] - 成功案例显示 文科生可通过自学编程 参加技术比赛 攻读相关硕士等方式进入AI领域[17][23] 行业工作环境与挑战 - 初创AI公司呈现硅谷风格 鼓励创新 薪酬可达体制内工作三倍[28] - 部分企业保持互联网大厂高压文化 存在大小周和常态化加班现象[30] - 技术岗位入职门槛持续提高 需具备research背景或项目经验才能获得竞争力[36] 岗位技能要求与职业发展 - 核心岗位如AI产品经理需掌握编程基础 能独立完成技术方案实施[31] - Prompt工程师工作涵盖模型评测 客户方案设计等技术与非技术结合内容[17] - 职业持续发展依赖技术更新能力 如机器学习工程师需自学多模态等新技术[36]
2025年第21周:数码家电行业周度市场观察
艾瑞咨询· 2025-06-03 08:21
家电行业竞争格局 - 2024年中国空调销量达1.89亿台,同比增长20.9%,头部企业集中度持续提升[1] - 美的与格力争夺"空调行业第一"地位,双方引用不同数据维度展开竞争[1] - 小米空调线上市场份额快速崛起,但线下渠道薄弱,短期内难以撼动两巨头地位[1] - 未来竞争将聚焦智能化、绿色化和全球化三大方向,三家企业各具优势[1] 机器人产业发展 - 深圳构建全球首个"机器人创新共同体",2024年产值将超2000亿元[2] - 深圳拥有5.11万家机器人企业,核心零部件国产化率超90%,成本显著降低[2] - 政府开放50个领域作为试验场,形成"技术验证-场景反馈-迭代升级"闭环[2] - 探索"人与智能体共治"模式,推动机器人产业技术创新与应用落地[2] 自动驾驶与Robotaxi - 特斯拉计划2025年推出完全无人监督服务,FSD累计行驶里程超16亿英里[4] - 2030年全球Robotaxi市场规模或超2万亿美元,Waymo、小马智行等企业展开竞争[4] - 行业呈现成本派与生态派两大阵营,中国以技术出海和本地化运营突破壁垒[4] - 未来竞争将聚焦合规性、技术成熟度与全球化资源调配[4] AI大模型发展 - 中国大模型公司形成"3+2"第一梯队,包括阿里、字节、DeepSeek、阶跃星辰和智谱[7] - 上半年共发布32款大模型,阿里Qwen3成为全球最强开源模型[7] - 行业趋势聚焦开源、推理和多模态,商业化以垂类场景应用为主[7][8] - 中国MaaS市场预计2029年达90亿元规模,年均复合增长率66.1%[6] AI应用市场 - 移动端AI市场用户规模达5.91亿,AI搜索赛道竞争最为激烈[9] - AI助手将向Agent演进,AI社交互动或成新增长点[9] - 猿辅导与夸克在AI教育领域展开竞争,分别聚焦K12和高等教育[10] - AI玩具市场前景广阔,2025年国内规模超300亿,全球或达600亿美元[11] 企业动态与合作 - 华为与优必选科技签署全面合作协议,推动人形机器人在工业和家庭场景落地[12] - 美的集团与海信集团达成战略合作,共同开发数字化及AI应用平台[23] - 快手可灵战略提级,视频大模型正重塑内容生产方式[13] - 苹果计划推出"双核驱动"AI模式,结合百度、阿里技术优势服务中国市场[20] 企业财报表现 - 腾讯2025年Q1总收入1800.22亿元,同比增长12.87%,游戏业务收入增长显著[18] - 第四范式2025年Q1核心业务"先知AI平台"收入增长60.5%,贡献率提升至74.8%[19] - 昆仑万维海外业务占比超90%,DramaWave和Mureka年化流水分别达1.2亿和1200万美元[21] - 阿里2025财年Q4电商业务营收同比增长9%,但面临即时零售挑战[14][15]
中金 • 联合研究 | AI十年展望(二十三):AI+陪伴:技术降本×场景升维,提供深度情绪价值
中金点睛· 2025-05-29 23:39
行业概览 - AI陪伴是目前落地较快、热度较高的AI应用赛道,CharacterAI和Talkie率先达到千万MAU级别 [1] - 2023年全球AI陪伴市场规模约3000万美元,2030年基准/乐观情形下有望达700亿/1500亿美元,2024-2030年CAGR分别为200%/236% [7] - 2018-2023年AI陪伴产品MAU增长近30倍,从不足50万扩大至约1500万,渗透率增速高于社交媒体和在线游戏 [7] 产品核心要素 - 拟人化、个性化、实时互动、沉浸感和养成感是关键要素,满足陪伴、娱乐、幻想和效率提升需求 [2] - 用户集中于年轻群体,对AI容错率较高,更关注情感体验而非精准答复 [8] - 国内应用中星野DAU持续领先(2023年10月-2025年5月从10万增至141万),猫箱增长强劲(2024年3月-2025年5月从0.2万增至109万) [10] 技术驱动 - 混合专家模型(MoE)降低推理成本,DeepSeek-V3实现每人每天1小时交互成本约0.1元,通过缓存和错峰可压缩至0.03-0.05元/人天 [22] - 线性注意力机制将长文本处理复杂度从二次方降为线性,MiniMax-01在128K以上长度测试中超越主流模型 [24] - 多模态能力(图像/音频/视频生成)提升沉浸感,CharacterAI和星野已推出语音交互功能,端到端多模态架构如Gemini和GPT-4o带来效果跃升 [30] 典型应用案例 - **Replika**:全球最早商业化成功的AI陪伴应用,定位情感支持,2024年8月注册用户超3000万,已盈利 [33][35] - **CharacterAI**:技术驱动型,2024年8月MAU达2200万,创始团队来自谷歌LaMDA,采用通用Chatbot视角设计产品 [36][37] - **MiniMax星野**:引入卡牌机制和UGC社区生态,30日用户留存率从2023年10月的39%升至2024年10月的60%以上 [15][43] - **筑梦岛**:聚焦小说场景,80%为女性用户,用户日均对话超120轮,2025年1月注册用户近500万 [44][46] - **字节猫箱**:短剧化+公域社交设计,2024年9月下载量居国内市场第一,累计超500万次 [49][50] - **自然选择EVE**:3D AI伴侣,配备自研情感对话模型Vibe和记忆模型Echo,拟真度高 [53][54] 未来趋势 - 玩法创新是关键胜负手,延展方向包括硬件载体(如AI玩具)、垂直场景(教育/游戏)、用户群体拓展(老人/儿童) [64][65] - AI或成为内容网络中心,传统社交关系弱化,可能出现AI时代的"抖音" [59] - 当前挑战包括技术瓶颈(长时记忆/多智能体协同)、用户留存率低、商业化模式不成熟及算力成本高 [63]
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 11:59
AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑,OpenAI前首席科学家公开认为"预训练已走到尽头",而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示,行业分化成两派:曹越、孔令鹏等通过跨架构创新(如语言模型应用Diffusion、视频模型采用自回归)实现突破,阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势,参与者形容为"摸彩票",不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新:Dream 7B以7B参数量超越671B的DeepSeek V3,通过双向学习处理并行任务,在数学/代码任务表现突出[3][8][17] - 视频模型革新:曹越团队将自回归应用于视频生成,突破Sora无时序先验的限制,通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导:阿里内部多次"魔改"Transformer后仍确认其最优性,但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展:DeepSeek实现1:20+稀疏比,阿里测试显示1:10-1:20区间效果最佳,但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新:通过Attention稀疏化提升跨模态效率,端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显:GPU对Transformer训练非最优,行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧:2024年认为数据枯竭是共识,2025年美国新观点认为仍有潜力,阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新:历史显示算力增长可激活曾被放弃的技术,当前需重点优化算力利用率[40][41] - 创造本质探索:将创作定义为搜索问题,通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题:强化学习可能加剧错误推理模式,阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本:模型结构需同时兼容预训练与强化学习,当前每次技术押注成本显著上升[20][33] - 技术迭代哲学:行业进步类似飞机航道调整,需动态修正而非预测终极形态[44][45]