Nova Sonic

搜索文档
OpenAI发布端对端语音模型GPT-Realtime,助力开发者构建语音智能体
36氪· 2025-08-30 16:34
产品发布与定价 - 公司发布迄今最先进的端对端语音模型GPT-Realtime并宣布Realtime API全面进入生产环境 [1] - 新模型定价较上一代产品GPT-4o-Realtime-Preview降低20% 输入tokens价格从每百万40美元降至32美元 输出tokens从每百万80美元降至64美元 [1] - 新增对话上下文管理功能 允许开发者灵活设置token限制并一次性截断多轮对话以降低长会话成本 [2] 技术性能提升 - 新模型在遵循复杂指令 精确调用工具及生成更自然富有表现力的语音方面显著进步 [3] - 支持在一句话中无缝切换多种语言 并能识别非语言信号如笑声 [3][5] - 在Big Bench Audio推理测试中准确率达82.8% 显著高于GPT-4o-Realtime-Preview在2024年12月的65.6%和2024年6月的81.5% [5] - 在MultiChallenge Audio测试中指令执行准确率达30.5% 优于上一代产品的20.6%(2024年12月)和26.5%(2024年6月) [7] - 在ComplexFuncBench Audio测试中函数调用准确率达66.5% 支持异步调用 优于上一代产品的49.7%(2024年12月)和58.9%(2024年6月) [10] - 新增支持图像输入功能 可识别照片或截图内容 [10] - 新增两种API专用语音Cedar和Marin 展现最显著的自然语音改进 [10] API功能升级 - Realtime API通过单一模型直接处理音频 降低延迟并保留语音细节 [11] - 新增支持远程模型上下文协议(MCP)服务器 简化AI模型与外部数据的连接 [12] - 新增支持图像输入 启用多模态对话能力 [12] - 新增会话发起协议(SIP)支持 允许与公共电话网络及企业电话端点集成 [12] - 早期采用者Zillow证实新API具备更强推理能力和更自然语音 能处理复杂多步骤请求 [12] 行业竞争格局 - 语音AI市场竞争白热化 Anthropic于2024年5月为Claude AI推出语音模式 Meta于2024年7月以4500万美元收购语音初创公司PlayAI [13] - 开源社区力量显著 法国初创公司Mistral发布Voxtral模型 承诺服务价格低于同类API一半 小米发布自研声音理解大模型MiDashengLM-7B [13] - 传统科技巨头持续发力 亚马逊于2024年4月推出实时表现力模型Nova Sonic并集成至Alexa+助手 [14] - 专业初创公司聚焦细分创新 Stability AI研发设备端语音处理技术 Sesame AI通过添加自然停顿等特征打造逼真AI助手 [14]
AI语音赛道MiniMax再爆发,一场技术与市场的双重角逐
每日经济新闻· 2025-08-08 08:52
行业融资与巨头动态 - 2025年上半年AI语音赛道至少有4家初创公司获得超过3亿美元融资 [1] - Wispr Flow完成3000万美元A轮融资 Cartesia完成6400万美元融资 Hume AI完成5000万美元融资 ElevenLabs完成1.8亿美元C轮融资 [1] - Amazon推出Nova Sonic语音模型 OpenAI发布GPT-4o Transcribe/GPT-4o MiniTranscribe/GPT-4o MiniTTS三款语音模型 Google在Veo3整合语音模型 Siri或被ChatGPT/Claude接管 [1] MiniMax技术突破 - 8月7日发布新一代语音生成模型Speech 2.5 相比5月Speech 02实现三大突破:多语种表现力更强 音色复刻更精准 覆盖40个语种 [2][6] - 技术获全球市场认可 国内高途教育/喜马拉雅/网易等头部平台接入 海外Vapi/Pipecat/Hedra/Icon等AI应用采用 [7] - 在性能大幅提升同时保持高性价比 降低企业使用顶尖AI语音技术门槛 [7] 商业化落地案例 - 与起点读书合作打造AI朗读角色"说书先生"/"狐狸小姐" 在自然度/还原度/保真度上超越传统语音方案 [3] - 用户对个性化音色产生强黏性 新音色获认可后难以替换 起点读书正使用语音克隆能力满足用户个人IP创作需求 [4] - 与高途教育联合推出"AI阿祖"口语陪练(吴彦祖音色蓝本) 累计销售额超千万 [6] - 与广告公司Monks战略合作 将数日的提案构思压缩至分秒级 实现创意光速孵化 [6] 技术应用拓展 - 与Haivivi联合开发AI语音挂件玩具"Bubble Pal" 可附着毛绒玩具实现情绪化交互(如哭着说/开心宣布) [8] - AI语音从单向内容输出进阶为具备共情能力的智能伙伴 支持情感理解/长期记忆/个性化衍生 [8] - 在虚拟人/元宇宙等"声音驱动视觉"领域助力独立创作者低成本制作专业级音频内容 [7] 行业发展趋势 - AI语音从解决"从无到有"转向塑造角色/传递情感的表达媒介 [3][4] - 行业竞争焦点从技术突破转向商业化场景落地能力 [2] - 情感智能成为新方向 具备情绪表达和情感需求的AI将极具竞争力 [8]
美媒称“人工智能霸主”之争将不是中美之争,而是深圳与杭州之争
搜狐财经· 2025-05-20 22:08
人工智能对人类社会的影响 - 人工智能引发的变革堪比工业革命,且具有更高意义 [1] - 中美人工智能竞争被视为"具有决定意义的战争",中国正在接近获胜 [1] 中美人工智能发展现状 美国 - 美国在基础研究方面领先,拥有顶尖科研机构和科技企业如谷歌、微软、亚马逊、OpenAI、XAI,成果包括ChatGPT、GeminiAI、Grok等 [4] - 面临数据隐私和伦理问题挑战,可能影响技术推广 [6] - 投入巨大但领先优势缩小,需加大基础研究和应用创新投入以保持领先 [6] 中国 - 中国将人工智能上升为国家战略,出台全方位支持政策,资金、人才、产业布局全面扶持 [8] - 高校和科研机构在基础研究和应用研究上进展显著,论文数量和质量提升 [8] - 企业如百度、阿里巴巴、腾讯、360、今日头条、讯飞推出文心一言、通义千问、腾讯元宝等产品,DeepSeek因开源模式后来居上 [10] 中国城市人工智能发展 深圳 - 以硬件研发和智能制造为特色,形成完整人工智能产业链 [12] - 在人工智能芯片、机器人等领域取得重要突破 [21] 杭州 - 依托阿里巴巴等互联网巨头,在算法和大数据分析方面具有优势 [12] - 在电子商务、金融科技等领域的人工智能应用影响力广泛 [21] 其他城市 - 郑州、武汉、西安、成都、广州、上海、北京等城市也在全力发展人工智能技术 [23] 中美人工智能竞争前景 - 美国在基础研究和核心技术上有领先优势,中国在应用创新、市场规模和政策支持上表现出色 [18] - 未来基础研究领域中美将继续激烈竞争,中国在智能制造、智慧城市、医疗健康等应用层面有望领先 [20] - 深圳和杭州的竞争是良性竞争,有助于技术进步和产业升级,未来可能成为全球人工智能发展的引领者 [24] 全球人工智能发展趋势 - 中美竞争激烈且充满变数,中国凭借优势取得显著成就,深圳和杭州展现强大潜力 [26] - 中美竞争与合作将共同推动全球人工智能技术进步,中国有望发挥更重要作用 [26]
亚马逊CEO专访:像创业公司一样自我进化,才能活下去
虎嗅· 2025-05-15 07:33
核心观点 - 亚马逊CEO Andy Jassy强调AI时代公司需像创业公司般运作,市值1.8万亿美元的企业需保持敏捷与创新[1][5] - AI不仅是技术革命,更是组织革命,关键在于解决客户实际问题而非追求技术酷炫[9][60] - 亚马逊已构建完整AI堆栈战略,涵盖芯片、平台、应用三层,并落地超1000个生成式AI应用[2][31] AI与组织变革 - 组织迟钝是AI落地最大瓶颈,需减少管理层级,推行"双向门机制"和一线Builder决策权[16][17][34] - 设立"No Bureaucracy"邮箱优化375个流程,将个人贡献者与管理层比例提升15%[35][39][34] - 极小化团队+极大化授权模式延续至AI项目,如EC2初期仅11人[13][14] AI堆栈战略 - **芯片层**:2024年推出自研Trainium芯片,对标NVIDIA A100/H100,投资1100亿美元扩建数据中心[22][23] - **平台层**:Bedrock平台集成Claude/LLaMA等模型,提供RAG/Guardrails工具链,服务95%企业IT部门[24][26][29] - **应用层**:Nova模型优化库存,Alexa+升级语音交互,Rufus重构电商对话界面[30][47][55] 产品落地案例 - Rufus上线实现"理解意图-陪同比对-持续个性化"的销售顾问式交互,重写用户界面范式[48][50][54] - Nova模型实现库存"感知-决策-执行"闭环,自动调拨SKU响应区域需求变化[61][64][66] - Just Walk Out技术覆盖47家门店,打通视觉识别-结算全链路,授权第三方零售[68][69] 执行方法论 - AI项目需聚焦"效率闭环"而非技术演示,如缩短支付流程提升用户体验[70][72][73] - 鼓励快速试错,容忍60分项目但追求80分速度,建立"失败复盘"机制[87][88][83] - 决策半径决定AI速度,需将权限下放至"听到炮声的人"[78][80][82]
AI动态汇总:MetaLIama4开源,openAI启动先锋计划
中邮证券· 2025-04-15 10:50
根据提供的研报内容,该报告主要聚焦于AI领域的技术进展和行业动态,并未涉及量化模型或量化因子的相关内容。因此,无法按照要求总结量化模型或量化因子的构建、测试结果等信息。 报告主要内容包括: 1. AI重点要闻部分介绍了Meta Llama 4系列模型的开源情况、OpenAI的先锋计划、华人团队关于大模型幻觉问题的研究成果,以及豆包团队开源的Multi-SWE-bench代码修复基准[10][11][12][19][23][31][32] 2. 企业动态部分报道了商汤日日新SenseNova V6模型、亚马逊Nova Sonic语音模型、谷歌Gemini 2.5 Flash模型的发布情况,以及日本AI初创公司使用AI挑战东京大学入学考试的结果[36][37][39][40][41][42] 3. 技术前沿部分介绍了中国科学技术大学提出的KG-SFT框架和UC Berkeley团队开源的DeepCoder-14B-Preview代码推理模型[45][47][48][49][50][51][53][55][58][59][61][62][64][66][67] 报告未包含任何与量化投资、量化模型或量化因子相关的内容,因此无法提供相关总结。