icon

Resemble AI开源首款导演级可控语音模型DramaBox,实现分离式提示词情绪表演

据动察 Beating 监测,Resemble AI 今日在 Hugging Face 开源了语音生成模型 DramaBox。作为首款主打导演级调度(directable)特性的语音引擎,它让 AI 语音彻底告别了毫无起伏的机器人助理模式。核心机制在于分离式提示词控制。用户在半角双引号内输入台词,在引号外直接输入叹气、长停顿、低语甚至声音因悲伤而沙哑等舞台动作。模型不会读出动作指令,而是直接将其渲染为带有情绪的物理发声,使输出从单纯的声音合成升级为真正的角色表演。这一能力直接替代了原本依赖真人配音或繁琐后期的工作流。技术细节上,DramaBox 具备零样本音色克隆能力,仅需 10 秒参考音频即可锁定目标音色,并支持通过自然语言提示词直接设定角色的年龄、口音与情绪。模型原生输出 48kHz 立体声的录音室级音频。为防范深度伪造,所有生成音频默认注入不可见的 Perth 隐形水印,该水印能抵抗 MP3 压缩及常规音频编辑操作。底层架构方面,该模型以 Lightricks 33 亿参数的 LTX-2.3 音频大模型为底座微调,融合了扩散 Transformer(DiT)与流匹配架构,并接入 Gemma 3 12B 处理文本嵌入。
雷電財經提醒:請廣大讀者理性看待區塊鏈,切實提高風險意識,警惕各類虛擬代幣發行與炒作,站內所有內容僅系市場信息或相關方觀點,不構成任何形式投資建議。如發現站內內容含敏感信息,可通過 舉報 聯繫我們 ,我們會及時處理。
15:01 , 2026-05-15

Resemble AI开源首款导演级可控语音模型DramaBox,实现分离式提示词情绪表演