Workflow
语音交互
icon
搜索文档
完爆ChatGPT,谷歌这招太狠:连你的「阴阳怪气」都能神还原
36氪· 2025-12-15 02:04
谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新 标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。 想象这样一个场景: 你戴着耳机走在印度孟买喧闹的街头,周围是嘈杂的叫卖声和完全听不懂的印地语。 此时,一位当地大叔急匆匆地用印地语向你询问路线,他的语速很快,语气焦急。 若是以前,你可能得手忙脚乱地掏出手机,打开翻译App,按下按钮,尴尬地把手机递到他嘴边,然后听着手机里传出毫无感情的「机翻」电子音。 Nano Banana Pro制图 但现在,一切都变了。 你站在原地不动,耳机里直接传来了流利的中文:「嘿!朋友,麻烦问一下,火车站是不是往这边走?」 最绝的是,这句中文不仅意思准确,甚至连大叔那种焦急、气喘吁吁的语调都完美复刻了! 你用中文回答,耳机自动把你的声音转化成印地语传给对方,甚至保留了你热情的语调。 这不仅是科幻电影里的《巴别塔》重现,这是谷歌本周刚刚扔下的重磅「核弹」——Gemini 2.5 Flash Native Audio(原生音频模型)。 今天,我们就来扒一扒这次更新到底有多强。 ...
喝点VC|a16z专访百亿美金AI语音独角兽11Labs CEO :首要之务是深入行业内部,花时间理解他们的核心诉求与激励机制
Z Potentials· 2025-12-13 11:09
公司产品与技术演进 - 公司最初从文本转语音技术起步,随后构建了语音助手编排体系,并开发出完全持牌的音乐模型,如今已拓展至AI助手平台 [6] - 研究团队创建了首个能深度理解上下文的文本转语音模型,可精准转化情感语调并捕捉声音特征,实现了声音风格、年龄、性别、方言等要素的精准融合 [8] - 公司产品划分为两大创意领域:面向媒体娱乐创作者的创意平台,提供旁白、配音及音频后期制作服务;以及致力于重塑交互体验的智能助手领域 [8] - 公司拥有约20个产品团队,每个团队规模在5到10人之间,拥有完全自主权推进产品发布,这种小团队模式带来了强烈的主人翁意识和极快的推进速度 [8] - 在转向企业级市场时,核心在于构建系统内的知识库集成,并协助客户将知识库部署到电话服务商等系统中,同时解决从演示到生产环境的部署、测试、版本控制和长期监控优化等关键环节 [23] 研发与产品平衡策略 - 公司决策原则是:若研究工作预计超过三个月,产品团队即可自由添加新模型或扩展功能 [7][9] - 内部研究团队的指导原则是明确本季度希望交付的项目与长期计划,对于长期项目,利用其他工作填补时间差并优化方案 [9] - 公司早期曾为保持产品理念(如不添加语速调节滑块)而在研究层面攻坚九个月未果,最终由产品团队以极简方案解决,赢得了用户认可 [9] - 面向企业客户时,稳定性与可靠性至关重要,公司明确划分Alpha版本与非Alpha版本的界限,合作伙伴可自主决定是否优先获取可能存在不稳定性的Alpha版本 [25] - 在公司内部,项目被划分为“产品市场匹配前”与“产品市场匹配后”的阶段,前者给予6个月验证期,若未能达标则终止该产品 [26] 组织架构与人才管理 - 公司采用扁平化组织架构,实行无头衔制度,员工角色由能力而非资历决定,小团队模式(5-10人)使新成员从加入起就能对公司产生影响 [7][14] - 新组建的团队有六个月时间证明其价值,若能证明即可留存并继续运作 [14] - 公司采用全球化与枢纽办公室混合模式,在伦敦、华沙和旧金山设立枢纽办公室,以帮助新人融入,同时允许习惯远程的员工继续远程工作 [12] - 公司探索非传统招聘路径,例如曾招募一位在呼叫中心工作但拥有顶尖开源文本转语音模型的工程师,他后来成为团队中数据处理领域最杰出的研究员之一 [11] - 公司在某些岗位持续招募非常规背景的人才,并将其与传统背景的员工融合,后者能为前者提供指导,这种组合在销售等领域效果显著 [12] 市场拓展与行业合作 - 公司最初采用产品驱动增长模式,并尝试让工程师承担销售职能,但未奏效;目前采取销售占80%、工程占20%的混合模式,关键在于深度理解客户需求并紧密协作 [21] - 公司创建了声音市场平台,用户可创作并分享声音素材,被使用时即可获得收益;平台已拥有近万种声音资源,并向社区成员返利1000万美元 [17] - 公司与Merlin、Cobalt等四大唱片公司合作,通过授权方式将其音乐资源引入音乐模型,既能生成内容又能授予商业权利,此合作协议花费18个月才敲定 [18] - 行业合作的首要之务是深入理解行业的核心诉求与激励机制,明确哪些环节适合引入AI,哪些需要保留人工操作 [16] - 对于完全陌生的领域(如法律),公司采用引入深耕该领域的全职人员与大量咨询专家相结合的模式,以确保有效沟通和风险共担 [19][20] 企业级转型与规模化挑战 - 公司从服务创作者的品牌成功转向企业级市场,在AI智能助手平台、文本转语音及文本模型领域取得进展 [21] - 企业级应用的核心价值在于基础架构的稳固性,包括安全性、合规性以及高可用性,公司目标是为客户提供99.99%甚至99.999%的可用性保障 [24] - 随着团队规模扩大至350人,市场团队的激励机制变得至关重要;公司意识到配额与佣金是战略的滞后指标,必须确保其与战略目标紧密贴合,以最小化行为偏差 [26][27] - 公司实行独家销售制度,并设置防护措施,例如当销售团队遇到可能损害长期利益的交易时(如为赚取更高佣金而压低价格),可以上报并取消交易,即使这意味着放弃佣金 [27] - 在转向企业市场初期,内部存在怀疑态度,需要让团队相信长期方案的有效性,并在12个月后证明了方案的成功 [24]
瑞声科技助力夸克AI眼镜S1 开创语音交互新范式
中国经济网· 2025-12-03 04:53
产品发布与核心功能 - 阿里巴巴旗下夸克于11月27日正式推出首款自研旗舰双显AI眼镜——夸克AI眼镜S1,主打超级AI助理体验 [2] - 产品核心创新在于与瑞声科技深度共创的5麦克风阵列+骨传导高精度拾音系统,旨在破解智能眼镜在自然、私密、可靠交互方面的行业难题 [1][2] - 该拾音系统由5颗高性能麦克风(MIC)和1颗骨传导麦克风(VPU)组成,是目前AI眼镜行业中最豪华的拾音配置 [2][4] 技术突破与性能指标 - 联合定制的拾音系统通过声学特征识别用户意图,将误唤醒率降至行业新低 [1] - 骨传导麦克风VPU的信噪比高达77dB,专门优化捕捉人声频段,从物理层面隔绝环境噪声干扰 [4] - 该拾音方案的封装尺寸较行业水平缩小25%,为眼镜轻薄化设计释放更多空间 [4] - 其功耗较常规麦克风降低约50%,显著优化整机续航,保障AI功能持续稳定运行 [4] - 实测中,用户只需用近乎耳语的音量下达指令,眼镜便能即刻响应,结合强大的语义识别能力,突破交互瓶颈 [1] 用户体验与应用场景 - 新技术带来了全天候、全场景、私密性的高品质拾音与舒适聆听体验 [2] - 在嘈杂地铁车厢里,夸克眼镜依然能准确接收指令,而传统智能眼镜的语音识别可能失灵 [4] - 在安静图书馆内,用户可以用气声与眼镜交互,不打扰周围读者 [4] - 在户外公园中,大风风噪不再影响智能眼镜通话与交互质量 [4] - 知名UP主电丸科技AK评价其语音交互体验“就像从功能机时代进入了智能机时代” [4] 行业意义与发展前景 - 此次合作精准攻克了智能眼镜在语音交互与私密沟通上的核心技术瓶颈 [5] - 语音交互摆脱了“用户迁就设备”的被动桎梏,私密沟通从“附加需求”升级为“标准配置” [5] - 智能眼镜正从极客玩具走向大众消费品,但此前面临无法在任何场景下实现自然、私密且可靠交互的难题 [1] - 该技术为整个智能穿戴行业勾勒出从“功能满足”到“体验革新”的发展蓝图,推动设备成为真正打破场景限制、契合大众日常需求的“贴身智能伙伴” [5] - 瑞声科技的创新解决方案在多人多语种实时翻译、驾车抗噪交互、运动场景对讲及健康监测等场景带来更大想象空间 [4] - 未来的智能穿戴设备将不再是冰冷的技术集合,而是能读懂需求、尊重隐私、无缝融入生活的“感知延伸”,开启从“可用”到“好用”再到“离不开”的全新体验 [5]
可识别唇语,苹果的新专利可能会解救头戴设备
36氪· 2025-12-01 02:18
苹果公司新专利技术 - 公司获批一项新专利,未来头戴式设备将支持通过视觉传感器读取唇语,实现无声语音输入 [1] - 该技术旨在解决用户在无法或不愿说话的佩戴场景下的交互问题 [3] - 该无声输入模式有望成为解决公共场合使用痛点的两全其美方案 [10] AI/XR头戴设备行业现状与挑战 - 行业正迎来热潮,小米和阿里等公司已相继进入市场 [3] - 但产品面临高退货率挑战,在抖音电商平台上AI眼镜的平均退货率达到40%-50% [3] - 产品被用户列为“吃灰神器”,主要痛点包括元器件增多导致的佩戴负担以及语音交互问题 [3] 语音交互的核心痛点 - 在公共场合使用语音交互会使用户产生“羞耻感”或社交压力 [6] - 公共场合环境音复杂,用户需提高音量以确保指令被识别,这与公序良俗相悖且暴露隐私 [6] - 语音交互的信息量大,需要用户耗费更多精力进行分析和筛选,对人脑的上下文联想不友好 [8] - 马化腾曾指出语音交互在公共场合使用显得“好傻”、不好意思且不私密 [6] 现有交互方案的局限性 - 语音交互是当前最具性价比的解决方案,但要求用户必须发出声音 [8] - 若强化语音识别、自然语义处理、远场拾音等技术以捕捉低声语音,成本将大幅提升,导致潜在受众减少 [8] - 此前主要的镜腿触控交互不符合人体工学,频繁举手操作易导致疲劳 [10] - TWS耳机的触控交互可行是因为其为低频操作场景,不适用于需要频繁交互的头戴设备 [10] 唇语识别技术的潜力与影响 - 识别唇语技术可通过向AI模型灌输不同语言用户的唇部动作数据进行预训练来实现 [12] - 该技术只需搭配成熟的AI视觉模型,并非“黑科技” [10] - 解决识别率问题后,有望搬开阻碍AI眼镜、XR头显在公共场合广泛使用的最大绊脚石 [12] - 一旦用户能毫无顾忌地使用,此类产品将有机会从小众尝鲜产品转变为大众化消费电子产品 [14]
出门问问(02438)下跌16.67%,报0.7元/股
金融界· 2025-08-22 07:26
股价表现 - 8月22日盘中股价下跌16.67%至0.7港元/股 [1] - 当日成交金额达2755.84万元人民币 [1] 财务表现 - 2025财年中报营业总收入为1.79亿元人民币 [2] - 归属股东应占溢利为-289.8万元人民币 [3] - 净利润同比大幅改善,增长幅度达99.5% [3] - 基本每股收益为0元人民币 [3] 公司概况 - 公司专注于生成式AI和语音交互技术 [1] - 业务覆盖AIGC产品、AI政企服务及AIoT智能硬件三大领域 [1] - 服务对象包括内容创作者、企业和消费者群体 [1] - 2024年4月在香港交易所完成上市(股票代码:02438.HK) [1] - 已建立大模型技术能力与产品矩阵 [1] - 战略定位为全球AICoPilot引领者 [1]
出门问问(02438)上涨6.59%,报0.97元/股
金融界· 2025-08-06 01:42
股价表现 - 8月6日盘中股价上涨6.59%至0.97港元/股 [1] - 当日成交额达100.02万港元 [1] 公司业务定位 - 公司是以生成式AI和语音交互为核心的人工智能企业 [1] - 主营业务覆盖AIGC产品、AI政企服务及AIoT智能硬件三大领域 [1] - 服务对象包括内容创作者、企业和消费者三大群体 [1] 资本市场状态 - 公司于2024年4月在香港交易所上市(股票代码:02438.HK) [1] - 已构建领先的大模型技术能力与产品矩阵 [1] - 致力于成为全球AICoPilot引领者 [1] 财务表现 - 2024年年报显示营业总收入为3.9亿元人民币 [2] - 同期净利润为亏损7.21亿元人民币 [2]
出门问问(02438)上涨10.26%,报0.86元/股
金融界· 2025-08-04 03:20
股价表现 - 8月4日盘中上涨10.26%至0.86元/股 [1] - 当日成交金额达2757.42万元 [1] 公司概况 - 以生成式AI和语音交互为核心技术的人工智能公司 [1] - 服务对象包括内容创作者、企业和消费者三大群体 [1] - 主营业务覆盖AIGC产品、AI政企服务及AIoT智能硬件 [1] - 2024年4月在香港交易所上市(股票代码02438HK) [1] 财务数据 - 2024年营业总收入3.9亿元 [2] - 2024年净利润亏损7.21亿元 [2] 技术定位 - 已构建领先的大模型技术能力与产品矩阵 [1] - 致力于成为全球AICoPilot引领者 [1]
出门问问(02438)下跌8.33%,报0.77元/股
金融界· 2025-08-01 08:12
股价表现 - 8月1日盘中股价下跌8.33%至0.77港元/股 [1] - 当日成交额达1.53亿元 [1] 公司业务定位 - 以生成式AI和语音交互为核心技术的人工智能公司 [1] - 服务内容创作者、企业和消费者三大群体 [1] - 主营业务涵盖AIGC产品、AI政企服务及AIoT智能硬件 [1] - 致力于成为全球AICoPilot引领者 [1] 财务数据 - 2024年年报显示营业总收入为3.9亿元 [2] - 2024年年报显示净亏损达7.21亿元 [2] 资本市场动态 - 2024年4月在香港交易所上市 股票代码02438.HK [1]
出门问问(02438)下跌10.39%,报0.69元/股
金融界· 2025-07-31 02:31
股价表现 - 7月31日盘中股价下跌10.39%至0.69港元/股 [1] - 当日成交额达3556.11万元人民币 [1] 公司业务概况 - 以生成式AI和语音交互为核心技术的人工智能公司 [1] - 服务内容创作者、企业和消费者三大群体 [1] - 主营业务涵盖AIGC产品、AI政企服务及AIoT智能硬件 [1] - 致力于成为全球AICoPilot引领者 [1] 财务数据 - 2024年年报显示营业总收入3.9亿元人民币 [2] - 2024年年报净利润亏损7.21亿元人民币 [2] 公司背景 - 2024年4月在港交所上市(股票代码:02438.HK) [1] - 已构建领先的大模型技术能力与产品矩阵 [1]
出门问问(02438)上涨10.64%,报0.52元/股
金融界· 2025-07-30 05:30
股价表现 - 7月30日盘中股价上涨10.64%至0.52港元/股 [1] - 当日成交额达1333.3万元人民币 [1] 公司业务定位 - 以生成式AI和语音交互为核心技术的人工智能公司 [1] - 服务内容创作者、企业和消费者三大群体 [1] - 主营业务涵盖AIGC产品、AI政企服务及AIoT智能硬件 [1] - 致力于成为全球AICoPilot引领者 [1] 财务数据 - 2024年营业总收入3.9亿元人民币 [2] - 2024年净亏损7.21亿元人民币 [2] 公司背景 - 2024年4月在香港交易所上市(股票代码:02438.HK) [1] - 已构建领先的大模型技术能力与产品矩阵 [1]