品玩5月7日讯,据 MarkteChpost 报道,Inworld AI正式发布语音模型Realtime TTS-2,通过闭环系统架构革新语音交互体验。该模型突破传统文本转语音模式,可实时处理对话音频,感知用户语调、节奏及情感状态,实现更自然的拟人化交流。
TTS-2集成四大核心功能:支持开发者通过自然语言提示精准调控语音表达;基于闭环架构实现对话语境感知,自动延续情感与语调;提供跨语言支持,同一声音身份可无缝切换100多种语言;创新“高级语音设计”功能,仅需文本描述即可生成可复用语音,无需音频样本。
技术层面,模型通过单Websocket连接整合Realtime STT、路由器及TTS层,确保200毫秒内响应。其生成的语音包含自然停顿、语气词等拟人化特征,支持语音克隆,适配多场景应用。
此次发布标志着Inworld AI从音质竞争转向行为层创新,Realtime TTS-2在Artificial Analysis Speech Arena中已位列榜首,展现其技术领先性。该产品将助力AI交互从机械对话迈向更具情感理解力的“类人沟通”时代。





0 条评论
请「登录」后评论