☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Step-Audio-EditX 是由阶跃星辰推出的全球首个达到大语言模型(LLM)级别的开源音频编辑大模型。它首次实现了在“情感、说话风格、副语言”三个维度上的细粒度、可迭代控制,能够自由调节愤怒、喜悦、悲伤等情绪的强度,支持撒娇、耳语、老人声线等多种语音风格的叠加与调整,并能像添加字幕一样,在指定位置插入呼吸、笑声、叹气等 10 类自然副语言标记(token)。该模型内置零样本文本转语音(TTS)能力,无需目标人物语音样本即可完成音色克隆,通过在文本前添加“[四川话]”“[粤语]”等标签即可实时切换方言。整个模型完全基于大间隔合成数据进行监督微调(SFT)和近端策略优化(PPO),后训练阶段无需引入额外编码器或适配模块,便能实现属性解耦与多轮编辑控制。
Step-Audio-EditX的核心功能
- 情感调控:支持愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等数十种情绪标签,可多次增强或减弱情绪强度,实现渐进式情感表达。
- 风格变换:涵盖撒娇、耳语、老人、儿童、严肃、慷慨、夸张等多种语音风格,允许连续叠加与精细调节,打造个性化表达。
- 副语言注入:可在任意位置精准插入呼吸、轻笑、叹息、惊讶词(oh/ah)、确认音(en)、不满哼声(hnn)、疑问语气(ei)、迟疑音(uhm)等 10 类自然副语言 token。
- 零样本语音合成:无需任何目标人声音数据,仅凭文本输入即可克隆音色;加入“[粤语]”“[四川话]”等语言标签,即时生成对应方言语音。
- 多轮迭代编辑:同一段语音可反复修改,各属性独立控制不相互干扰,编辑效果逐次累积,支持渐进式优化。
- 开源轻量化设计:提供 8bit 量化版本,最低仅需单张 8GB 显存显卡即可运行;推荐使用 4×A800/H800 获得最优音质表现;配套开放推理代码、训练脚本、Gradio 演示界面及 Hugging Face Space。
Step-Audio-EditX的技术架构
- 双码本语音离散化:采用并行双码本结构——16.7 Hz / 1024 类的“语言码本”与 25 Hz / 4096 类的“语义码本”,以 2:3 比例交错切片,将原始语音转换为离散 token 序列,有效保留语义、情感与韵律信息,为 LLM 直接操控语音提供基础。
- 3B 参数音频大模型:基于已预训练的 3B 规模文本模型初始化,将文本 token 与双码本音频 token 按对话格式拼接输入,仅预测后续音频 token;训练中保持文本与音频数据比例为 1:1,充分复用现有文本 LLM 生态进行高效后训练。
- 大间隔合成数据训练机制:摒弃传统依赖编码器或 adapter 的方式,仅利用“相同文本、不同属性(情感/风格/副语言)”的成对合成数据进行 SFT 与 PPO 训练;通过设置显著属性差异(大间隔),迫使模型学习到属性间的解耦表示,从而实现强度调节与多属性叠加。
-
流匹配 + BigVGANv2 解码 pipeline:音频 LLM 输出的双码本 token 经 DiT 架构的流匹配模块转化为 Mel 谱图,再由 B
igVGANv2 高保真声码器还原为高质量波形;依托 200,000 小时高质量音频训练,确保发音准确性和音色一致性。 - 统一处理框架:整套“分词 → LLM 编辑 → 解码”流程同时支持零样本 TTS、情感/风格编辑、副语言插入、语速调节与降噪等功能,无需针对不同任务设计专用模块,大幅降低系统复杂度与部署成本。
Step-Audio-EditX官方资源链接
- 项目官网:https://www.php.cn/link/757ef3cdc6e89291664b0033ac007cfa
- GitHub仓库:https://www.php.cn/link/30c1778642a506dbd803a0fa5ece533e
- HuggingFace模型页面:https://www.php.cn/link/150784e5fbeb562400a0cd1111471d6a
- arXiv论文地址:https://www.php.cn/link/b783acd4479bf1b8a981bb023b363043
Step-Audio-EditX的应用领域
- 有声内容生产:适用于有声书、播客、新闻播报等内容创作,一键添加“喜悦”“悲伤”“耳语”等情绪或风格,无需重新录制即可生成多个情感版本,提升听众沉浸体验。
- 视频与广告配音:短视频、动画、广告可实现角色音色的零样本克隆,并通过叠加“撒娇”“夸张”“严肃”等风格快速生成多样化配音,降低人力成本,提高制作效率。
- 游戏与虚拟偶像:用于 NPC、虚拟主播、VTuber 等场景,只需一句参考语音即可克隆音色,并实时插入笑声、呼吸、叹气等副语言,构建更真实、生动的交互式语音系统。
- 智能客服与语音助手:可在标准 TTS 基础上动态调整情绪,将机械回复转为“热情”或“安抚”语调,提升服务亲和力;结合方言标签,满足区域化用户需求。
- 教育与语言学习:在线课程和语言类 APP 可使用“老人”“小孩”“耳语”等风格生成适龄语音,或将普通话自动转换为粤语、四川话等方言,辅助学生模仿练习,减少教师重复录音工作。
- 会议处理与无障碍支持:对嘈杂或存在长时间静音的会议录音,可先执行“降噪+静音裁剪”,再根据需要加快语速或注入适当情感,输出清晰易懂的纪要音频,便于听障人士理解或归档传播。
以上就是Step-Audio-EditX— 阶跃星辰开源的音频编辑大模型的详细内容,更多请关注其它相关文章!
# 中文网
# 低价网站建设官网登录
# 太原重点关键词优化排名
# 教育网站优化如何做
# 湖南seo排名技巧分析
# 咸宁网站建设兼职公司
# 嘉陵区网络推广营销中心
# 自助网站建设加推广方案
# 厦门seo百度
# 交易类网站建设费用
# 中山全网营销seo推广费用
# 降噪
# 安装包
# 声码
# 转换为
# 高质量
# git
# 可在
# 一键
# 粤语
# 开源
# udio
# hugging face
# 在线课程
# 大模型
# 短视频
# pdf
# ai
# app
# 显卡
# 编码
# github
相关栏目:
【
企业资讯168 】
【
行业动态50218 】
【
媒体报道120512 】
相关推荐:
学typescript有什么用
如何学习typescript
如何用ftp连接命令行
如何加装固态硬盘
如何测试固态硬盘速度
typescript是什么类型的语言
j*a中如何创建列表数组
虚拟机如何用命令清除垃圾
焊机上power指示灯亮是什么意思
夸克前缀后缀什么意思啊
广东春运抢票怎么抢的
gs是什么意思
固态硬盘内存如何查找
为什么夸克没有动漫
ready是什么意思
苹果16自带配件有哪些
苹果16系统有哪些改变
如何设置sql命令
win10电脑如何使用命令提示符
春运车站抢票和网上抢票
angluar如何命令删除dist
单片机*计步器怎么用
春运抢票在哪儿抢票
什么是域名解析 域名解析中采用了什么
一帧是多少秒
如何安装笔记本固态硬盘
如何在命令提示符播放音频
老电脑如何装固态硬盘
html怎么使用typescript
typescript接口有什么用
mac 如何启动命令行模式
推特是什么软件国内可以使用吗
solidworks打开IGS文件作图教程
faq是什么意思
闪光灯power闪烁是什么意思
镜像ao3链接入口
固态硬盘如何4k对其
新网站如何填写域名解析
本科一批和本科二批是什么意思
自己如何加装固态硬盘
新的固态硬盘如何分区
单片机for循环怎么用
如何用命令提示符显示隐藏分区
typescript怎么写react
一秒是多少毫秒
单片机log怎么看
固态硬盘如何接主机
driver是什么意思
空调power灯一直闪是什么意思
typescript和nodejs哪个好


igVGANv2 高保真声码器还原为高质量波形;依托 200,000 小时高质量音频训练,确保发音准确性和音色一致性。