Resemble AI开源首款导演级可控语音模型DramaBox，实现分离式提示词情绪表演_雷電財經

据动察 Beating 监测，Resemble AI 今日在 Hugging Face 开源了语音生成模型 DramaBox。作为首款主打导演级调度（directable）特性的语音引擎，它让 AI 语音彻底告别了毫无起伏的机器人助理模式。核心机制在于分离式提示词控制。用户在半角双引号内输入台词，在引号外直接输入叹气、长停顿、低语甚至声音因悲伤而沙哑等舞台动作。模型不会读出动作指令，而是直接将其渲染为带有情绪的物理发声，使输出从单纯的声音合成升级为真正的角色表演。这一能力直接替代了原本依赖真人配音或繁琐后期的工作流。技术细节上，DramaBox 具备零样本音色克隆能力，仅需 10 秒参考音频即可锁定目标音色，并支持通过自然语言提示词直接设定角色的年龄、口音与情绪。模型原生输出 48kHz 立体声的录音室级音频。为防范深度伪造，所有生成音频默认注入不可见的 Perth 隐形水印，该水印能抵抗 MP3 压缩及常规音频编辑操作。底层架构方面，该模型以 Lightricks 33 亿参数的 LTX-2.3 音频大模型为底座微调，融合了扩散 Transformer（DiT）与流匹配架构，并接入 Gemma 3 12B 处理文本嵌入。

Resemble AI开源首款导演级可控语音模型DramaBox，实现分离式提示词情绪表演

關聯標籤

市場行情 (24h)

恐懼貪婪指數

Resemble AI开源首款导演级可控语音模型DramaBox，实现分离式提示词情绪表演