Workflow
多模态大模型
icon
搜索文档
声网发布对话式AI引擎:让任意大模型开口说话
36氪· 2025-03-07 09:37
产品发布 - 公司于3月6日举办"AI开口,互动无界"发布会,推出全球首个对话式AI引擎,支持任意文本大模型升级为多模态大模型 [2] - 定价策略为0.098元/分钟,单次赠送1000分钟,智能打断功能增值服务0.042元/分钟 [2][7] 核心技术能力 - 模型选择多:支持DeepSeek、ChatGPT等全球主流大模型及语音合成供应商,兼容30000+终端机型 [4] - 响应速度快:全链路优化后语音对话延迟中位数650ms,打断响应低至340ms [5] - 抗干扰能力强:选择性注意力锁定功能屏蔽95%环境噪声,80%丢包率下仍可稳定对话 [5] - 开发效率高:仅需2行代码15分钟完成部署,支持LLM与TTS的URL/Key快速接入 [6] 成本效益分析 - 用户单次对话平均3轮问答21.1秒,成本约3分钱,月均15次对话成本不足5毛钱,年成本5元 [8] 应用场景拓展 - 主要落地场景包括智能助手、虚拟陪伴、口语陪练、智能客服及智能硬件 [10] - 智能硬件领域可实现语音控制、智能看护、个性化服务,覆盖AI玩具、教育硬件、穿戴设备等 [10]
集齐了「鸿蒙」和「DeepSeek」两颗「龙珠」,深思考给出端侧AI「深度思考」
36氪· 2025-02-27 10:31
核心观点 - AI端侧模型与硬件模组一体化正迎来智能终端大爆发,2032年全球AI端侧市场规模预计达1436亿美元 [6] - 深思考人工智能(iDeepWise.ai)发布基于鸿蒙系统的端侧多模态大模型TinyDongni及DeepSeek-R1优化版本,形成国产化全链条解决方案 [7][13][15] - 公司通过自研Dongni-AMDC压缩算法实现模型高效量化,在保持精度的同时将DeepSeek-R1压缩至1B参数规模 [8][11][24] - 端侧模型在医疗、汽车、机器人等强隐私场景展现突出优势,已实现商业化落地 [39][45][46][47] 技术突破 - 自研Dongni-AMDC算法实现模型权重和输入数据双重压缩,使1B模型在RK3588芯片上达到10.2 tokens/s推理速度 [11][24][34] - 创新多层次语义解码架构Dongni-v,通过模态交互机制实现图像文本特征跨模态对齐,赋予模型多模态能力 [12][26][27] - TinyDongni模型支持32K超长上下文理解,内存占用降低30%,在RK3588上推理速度达13.6 tokens/s [21][35] 行业落地 - 医疗领域:AI显微镜已实现3000万例宫颈癌筛查,模型学习1687万篇医学论文 [46][47] - 智能汽车:实现手势/语音/图像/情感多模态交互,支持实时车内外场景分析 [48] - AI PC:推出本地多模态搜索、AI办公、情感交流"Her模式"及"AI Recall"功能 [40][42][43] - 机器人:应用于情感陪伴、养老、教育场景,具备情绪识别与语音对话能力 [45] 产业链协同 - 与国产模组厂商广和通、深开鸿合作,推出基于RK3588和QCS8550芯片的硬件解决方案 [30][31] - 模型适配OpenHarmony/Linux/Windows/Android系统,开发周期缩短50% [10][30][32] - 形成"模型+系统套件+算力模组"一站式方案,打破国产算力性能不足的认知 [12][35][38]