Realtime API - 财报，业绩电话会，研报，新闻

Realtime API

搜索文档

搜狐财经· 2025-11-03 13:17

公司战略与产品动态 - 公司年度服务分钟数首次突破1万亿分钟，并发布多款对话式AI新品 [1] - 公司将对话式AI作为长期战略投入，OpenAI推出实时交互API是重要风向标 [3] - 公司推出对话式AI引擎2.0，能分辨讲话时机和讲话人，支持更多ASR和TTS供应商，并允许用户自定义语种和音色 [4] - 公司发布对话式AI Studio编排平台和开发套件，旨在帮助客户和开发者快速集成对话式AI能力 [4] - 2025年第二季度公司营收3430万美元，同比增长0.5%，净利润150万美元，实现同比扭亏 [5] 行业趋势与市场机遇 - 多模态大语言模型使计算机具备类人实时语音对话能力，67%的企业已将语音AI智能体置于战略核心位置，84%的企业计划在未来一年增加相关投入 [1] - 对话式AI的典型技术框架包括声音代理、自动语音识别、大语言模型处理和文本转语音等环节，每个环节都存在技术升级空间 [3] - AI语音助手、AI社交和陪伴、AI潮玩是当前对话式AI应用排名前三的热门场景 [4] - 人类对话中超过90%的信息感知依赖于语调、表情等非语言要素，实现真正的“类人对话”需攻克低延迟、自然打断、情感理解等挑战 [5] - 对话式AI被视为下一代AI基础设施的重要组成部分，以AI陪伴为例，其市场规模预测将从3000万美元增长至700亿-1500亿美元 [5] - 公司对话式AI相关用量在2025年第三季度实现151%的环比增长 [5]

声网(US:API)

对话式AI

多模态大语言模型

Software and Services

Software and Services

对话式AI引擎2.0

对话式AI Studio

对话式AI开发套件

Bandwidth Expands 'Bring Your Own AI' Approach With Support for OpenAI's Realtime API To Power Advanced AI Voice Agents Using GPT Language Models

Prnewswire· 2025-09-24 12:12

公司战略与产品发布 - 公司宣布支持OpenAI最新的Realtime API 将语音通话与SIP协议集成使企业能轻松将其由GPT模型驱动的对话式AI语音代理接入公司的边缘基础设施 [1] - 此次Realtime API集成是公司开放灵活战略的最新组成部分旨在让企业IT团队自由选择多种途径将一流AI应用构建到其通信栈中 [3] - 公司提供多种客户选项包括与Google Dialogflow和Cognigy等领先对话式AI平台的预构建集成支持使用可编程语音API的第三方应用支持云联络中心平台内的原生AI功能以及支持基于标准的API如OpenAI Realtime API [3] - 公司首席产品官表示通过提供多种集成对话式AI的选项公司正成为全球企业的AI编排领导者 [4] 技术优势与市场定位 - 结合公司自营的覆盖全球的云通信网络客户获得独特优势能够以高保真低延迟和智能路由运行对话式AI应用以满足关键任务语音通话的成功要求 [3] - 公司是首家也是唯一一家全球CPaaS提供商提供可组合API AI能力自营网络和广泛监管经验的独特组合其通信云覆盖超过65个国家和全球90%以上的GDP [6] - 公司解决方案受统一通信和云联络中心领域的所有领导者信任包括AWS 思科谷歌微软 RingCentral Zoom Genesys和Five9 以及全球2000强企业和SaaS构建商 [6]

Bandwidth(US:BAND)

Artificial Intelligence

Artificial Intelligence

OpenAI推出gpt-realtime：语音智能体进入“秒回”时代，开发者直呼交互更自然

36氪· 2025-09-16 10:42

产品发布与技术升级 - OpenAI正式发布gpt-realtime语音对语音模型并全面开放Realtime API 旨在降低延迟提升语音质量为开发者提供生产级AI语音智能体工具 [1] - 新模型采用端到端语音处理架构无需分开串联语音转文本与文本转语音显著缩短响应时间并保留语音细微差别 [1] - gpt-realtime生成更高质量语音语速语调更自然新增Cedar和Marin两个合成声音并对现有声音更新使其更逼真 [1] 模型性能提升 - 模型理解能力显著进步可识别非语言信号支持一句话内多语言切换准确处理跨语言字母数字序列支持西班牙语中文日语法语等语言 [2] - 内部测试显示 Big Bench Audio准确率从65.6%提升至82.8% MultiChallenge音频基准测试指令遵循得分从20.6%提升至30.5% [2] - 函数调用能力增强 ComplexFuncBench准确率从49.7%提升至66.5% 新增异步函数调用功能支持等待结果期间继续对话 [2] 开发者生态与集成能力 - Realtime API支持远程MCP服务器直接接入避免手动集成新增图像输入功能支持基于视觉内容对话 [3] - API新增SIP支持使语音智能体能无缝接入现有电话系统包括PBX和桌面电话提供可复用提示功能简化会话管理 [3] - API提供全面欧盟数据存储支持满足合规要求内置分类器可中止有害对话开发者可通过Agents SDK添加特定领域安全约束 [3] 行业应用与合作伙伴 - 早期企业合作伙伴在近生产环境测试功能 Zillow启动语音交互式房产搜索试点 T-Mobile探索实时响应客户服务场景 [3] - 企业强调AI语音智能体推动交互方式从传统脚本化自动化向更灵活更具领域专长方向转变 [3] - 模型与API已全面开放所有开发者可使用提供API文档与提示指南并在Playground提供演示版本 [4]

AI语音智能体

Artificial Intelligence

gpt - realtime

Realtime API

AI语音智能体

Artificial Intelligence

gpt - realtime

Realtime API

Agora and OpenAI's Realtime API Power Seamless Interaction with Multimodal AI Agents

Prnewswire· 2025-09-04 20:01

公司技术整合进展 - 公司宣布对OpenAI Realtime API的扩展支持现已全面可用集成功能包括自动问候、混合模态交互和选择性注意力锁定等高级功能[1] - 集成OpenAI Realtime API后显著降低开发复杂度同时解锁实时交互中的高级能力使开发者能够创建更自然、响应更迅速且类人的AI智能体[2] - 通过结合OpenAI实时语言模型与公司全球实时网络基础设施(SDRTN®)及专用开发者工具包团队可加速产品上市时间并简化应用开发流程[3] 技术功能增强 - 自动问候功能确保即时会话感知并提供自然欢迎的入门体验[7] - 混合模态交互支持在单一交互会话中实现语音与文本输入的无缝切换[7] - 选择性注意力锁定技术可过滤环境噪音和干扰语音实现无中断的交互体验[7] - 灵活的话轮检测选项为开发者提供对对话流程和话轮转换行为的细粒度控制[7] 合作伙伴与客户案例 - 机器人初创公司Carbon Origins已采用该技术集成方案实现重型设备免提操作并提升操作员效率[4] - 该技术组合支持自动化复杂检查清单和系统操作使操作员能专注于战略任务而非手动执行[5] 行业应用与市场地位 - 该集成巩固了公司作为对话式AI、实时交互和多模态智能体开发领先平台的地位应用领域涵盖客户支持、教育、游戏和粉丝互动等[5] - 公司为全球超过1,700家领先组织提供实时交互服务覆盖社交媒体、直播购物、教育和远程医疗等领域的顶级实时体验[6]

声网(US:API)

Multimodal AI

Artificial Intelligence

Conversational AI Engine

Realtime API

Multimodal AI

Artificial Intelligence

Conversational AI Engine

Realtime API

中航证券：政策护航+应用提速 AI有望加速释放新质生产力

智通财经网· 2025-09-01 01:59

政策支持与行业规划 - 国务院印发《深入实施"人工智能+"行动的意见》明确科学技术、产业发展、消费提质等六大深度融合领域并提出强化八大基础支撑能力为行业发展划定战略主线[1] - 国家发改委设定2027、2030、2035三个阶段性目标形成清晰的中长期发展路线并强调未来一到两年是人工智能应用加速落地的关键窗口期[1] - 人工智能测评服务体系已落地覆盖企业超60家累计服务100余次推动标准化、体系化的产业测评建设[1] 技术迭代与突破 - Claude Opus4.1在代理、编码和推理能力全面升级显著强化长期与复杂任务处理能力[2] - 智谱AI发布GLM-4.5V在图像、视频、文档理解等视觉推理任务上实现同级开源VLM最佳性能[2] - xAI推出Grok Code Fast1主打快速编程与低成本推理缓存命中率超90%突出实用与经济性[2] - OpenAI推出GPT-Realtime与Realtime API在语音质量、指令遵循和低延迟方面取得突破已在语音代理场景中应用[2] 应用落地与产业化 - 大模型的多维度升级将加快向教育、影视等场景渗透应用落地与产业化进程提速[1][3] - 短期政策落地与标准化测评体系推动行业进入规范化、可持续发展轨道中长期技术升级加速场景渗透[1][3] - 人工智能产业处于政策、技术、应用的多重共振阶段[1][3] 投资主线与标的 - 大模型开发与AI Agent能力提供商重点关注昆仑万维(300418.SZ)、科大讯飞(002230.SZ)[3] - AI落地场景应用重点关注焦点科技(002315.SZ)、奥飞娱乐(002292.SZ)、值得买、上海电影、恺英网络、中文在线、万兴科技[3]

OpenAI发布端对端语音模型GPT-Realtime，助力开发者构建语音智能体

36氪· 2025-08-30 16:34

产品发布与定价 - 公司发布迄今最先进的端对端语音模型GPT-Realtime并宣布Realtime API全面进入生产环境 [1] - 新模型定价较上一代产品GPT-4o-Realtime-Preview降低20% 输入tokens价格从每百万40美元降至32美元输出tokens从每百万80美元降至64美元 [1] - 新增对话上下文管理功能允许开发者灵活设置token限制并一次性截断多轮对话以降低长会话成本 [2] 技术性能提升 - 新模型在遵循复杂指令精确调用工具及生成更自然富有表现力的语音方面显著进步 [3] - 支持在一句话中无缝切换多种语言并能识别非语言信号如笑声 [3][5] - 在Big Bench Audio推理测试中准确率达82.8% 显著高于GPT-4o-Realtime-Preview在2024年12月的65.6%和2024年6月的81.5% [5] - 在MultiChallenge Audio测试中指令执行准确率达30.5% 优于上一代产品的20.6%（2024年12月）和26.5%（2024年6月） [7] - 在ComplexFuncBench Audio测试中函数调用准确率达66.5% 支持异步调用优于上一代产品的49.7%（2024年12月）和58.9%（2024年6月） [10] - 新增支持图像输入功能可识别照片或截图内容 [10] - 新增两种API专用语音Cedar和Marin 展现最显著的自然语音改进 [10] API功能升级 - Realtime API通过单一模型直接处理音频降低延迟并保留语音细节 [11] - 新增支持远程模型上下文协议（MCP）服务器简化AI模型与外部数据的连接 [12] - 新增支持图像输入启用多模态对话能力 [12] - 新增会话发起协议（SIP）支持允许与公共电话网络及企业电话端点集成 [12] - 早期采用者Zillow证实新API具备更强推理能力和更自然语音能处理复杂多步骤请求 [12] 行业竞争格局 - 语音AI市场竞争白热化 Anthropic于2024年5月为Claude AI推出语音模式 Meta于2024年7月以4500万美元收购语音初创公司PlayAI [13] - 开源社区力量显著法国初创公司Mistral发布Voxtral模型承诺服务价格低于同类API一半小米发布自研声音理解大模型MiDashengLM-7B [13] - 传统科技巨头持续发力亚马逊于2024年4月推出实时表现力模型Nova Sonic并集成至Alexa+助手 [14] - 专业初创公司聚焦细分创新 Stability AI研发设备端语音处理技术 Sesame AI通过添加自然停顿等特征打造逼真AI助手 [14]

OpenAI杀入语音模型大战，祭出最强GPT-RealTime，加量还降价

36氪· 2025-08-29 06:08

产品发布与功能更新 - OpenAI发布语音转语音模型GPT-RealTime 并更新API功能包括远程MCP服务器支持图像输入和SIP电话呼叫支持 [1] - GPT-RealTime是公司最先进的语音合成模型在遵循复杂指令精确调用工具和生成更自然更具表现力的语音方面有改进 [1] - 模型能自然朗读重复字母数字无缝切换语言捕捉笑声等非语言信号 [1] - 新增两个语音Cedar和Marin 在Realtime API中独家提供 [1] - 增加对对话上下文的细粒度控制允许设置智能token限制一次截断多个回合显著降低长会话成本 [2] 定价与市场反馈 - GPT-RealTime每百万token音频输入价格32美元缓存输入每百万token 0.4美元音频输出每百万token 64美元 [1] - GPT-RealTime相比gpt-4o-realtime-preview价格下调20% [1] - 有用户对模型充满期待称语音应用将更有趣但也有开发者反映声音仍像机器人旧语音角色仅稍微更具表现力 [2] 技术性能与评估 - 在Big Bench Audio评估中 GPT-RealTime准确率82.8% 超过2024年12月发布的旧模型 [8] - 在MultiChallenge音频基准测试中 GPT-RealTime得分30.5% 显著高于旧模型的20.6% [10] - 在ComplexFuncBench音频评估中 GPT-RealTime得分66.5% 超过旧模型的49.7% [13] - 改进异步函数调用长时间运行的函数调用不再中断会话流程模型可在等待结果时继续对话 [13] 行业竞争与进展 - 国内大模型MiniMax推出语音生成模型Speech 2.5 覆盖超40个语种 [3] - 豆包App更新实时语音通话功能免费开放可模仿不同声线并进行情绪感知 [3] - 微软推出高度表现力和自然语音生成模型MAI-Voice-1 同一提示词可生成不同表现音频 [3] 应用场景与合作伙伴 - 与美国房地产信息平台Zillow合作模型可自然交谈帮助筛选房源或分析购买价格 [5] - 与T-Mobile合作 AI助手能快速交替对话即使被打断或开启新话题也不受影响 [5] - 与票务平台StubHub合作模型可帮助用户付款并指导付款过程问题 [6] - 与Oscar Health合作模型可帮用户确认空闲预约时间注意事项和地址 [7] - 与保险科技公司Lemonade合作 AI助手可在对话中获取用户诉求根据内部储存信息进行购买操作 [7] API功能与技术特性 - Realtime API通过单个模型和API直接处理生成音频减少延迟保留语音细微差别使响应更自然 [16] - 新增远程MCP服务器支持连接后API自动处理工具调用无需手动设置集成 [16] - 支持图像输入开发者可在会话中添加图像照片和截图与音频或文本一起使用 [16] - 新增SIP支持通过API直接连接应用程序到公共电话网络 PBX系统和其他SIP终端 [17] - 新增可重用提示功能允许保存和重用提示包含开发者消息工具变量及示例消息支持跨会话使用 [17] 安全防护措施 - Realtime API包含多层安全防护和缓解措施采用主动分类器检测到违反有害内容指南时可中止对话 [18] - 开发者可使用Agents SDK添加额外安全防护措施 [18]

语音模型

Artificial Intelligence

Artificial Intelligence

Realtime API

GPT-RealTime

MAI-Voice-1