Step-Audio-EditX— 阶跃星辰开源的音频编辑大模型_媒体报道

分类

Step-Audio-EditX— 阶跃星辰开源的音频编辑大模型2025-11-08 16:24:11

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Step-Audio-EditX— 阶跃星辰开源的音频编辑大模型
Step-Audio-EditX 是由阶跃星辰推出的全球首个达到大语言模型（LLM）级别的开源音频编辑大模型。它首次实现了在“情感、说话风格、副语言”三个维度上的细粒度、可迭代控制，能够自由调节愤怒、喜悦、悲伤等情绪的强度，支持撒娇、耳语、老人声线等多种语音风格的叠加与调整，并能像添加字幕一样，在指定位置插入呼吸、笑声、叹气等 10 类自然副语言标记（token）。该模型内置零样本文本转语音（TTS）能力，无需目标人物语音样本即可完成音色克隆，通过在文本前添加“[四川话]”“[粤语]”等标签即可实时切换方言。整个模型完全基于大间隔合成数据进行监督微调（SFT）和近端策略优化（PPO），后训练阶段无需引入额外编码器或适配模块，便能实现属性解耦与多轮编辑控制。

Step-Audio-EditX的核心功能

情感调控：支持愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等数十种情绪标签，可多次增强或减弱情绪强度，实现渐进式情感表达。
风格变换：涵盖撒娇、耳语、老人、儿童、严肃、慷慨、夸张等多种语音风格，允许连续叠加与精细调节，打造个性化表达。
副语言注入：可在任意位置精准插入呼吸、轻笑、叹息、惊讶词（oh/ah）、确认音（en）、不满哼声（hnn）、疑问语气（ei）、迟疑音（uhm）等 10 类自然副语言 token。
零样本语音合成：无需任何目标人声音数据，仅凭文本输入即可克隆音色；加入“[粤语]”“[四川话]”等语言标签，即时生成对应方言语音。
多轮迭代编辑：同一段语音可反复修改，各属性独立控制不相互干扰，编辑效果逐次累积，支持渐进式优化。
开源轻量化设计：提供 8bit 量化版本，最低仅需单张 8GB 显存显卡即可运行；推荐使用 4×A800/H800 获得最优音质表现；配套开放推理代码、训练脚本、Gradio 演示界面及 Hugging Face Space。

Step-Audio-EditX的技术架构

双码本语音离散化：采用并行双码本结构——16.7 Hz / 1024 类的“语言码本”与 25 Hz / 4096 类的“语义码本”，以 2:3 比例交错切片，将原始语音转换为离散 token 序列，有效保留语义、情感与韵律信息，为 LLM 直接操控语音提供基础。
3B 参数音频大模型：基于已预训练的 3B 规模文本模型初始化，将文本 token 与双码本音频 token 按对话格式拼接输入，仅预测后续音频 token；训练中保持文本与音频数据比例为 1:1，充分复用现有文本 LLM 生态进行高效后训练。
大间隔合成数据训练机制：摒弃传统依赖编码器或 adapter 的方式，仅利用“相同文本、不同属性（情感/风格/副语言）”的成对合成数据进行 SFT 与 PPO 训练；通过设置显著属性差异（大间隔），迫使模型学习到属性间的解耦表示，从而实现强度调节与多属性叠加。
流匹配 + BigVGANv2 解码 pipeline：音频 LLM 输出的双码本 token 经 DiT 架构的流匹配模块转化为 Mel 谱图，再由 BigVGANv2 高保真声码器还原为高质量波形；依托 200,000 小时高质量音频训练，确保发音准确性和音色一致性。
统一处理框架：整套“分词 → LLM 编辑 → 解码”流程同时支持零样本 TTS、情感/风格编辑、副语言插入、语速调节与降噪等功能，无需针对不同任务设计专用模块，大幅降低系统复杂度与部署成本。

Step-Audio-EditX官方资源链接

项目官网：https://www.php.cn/link/757ef3cdc6e89291664b0033ac007cfa
GitHub仓库：https://www.php.cn/link/30c1778642a506dbd803a0fa5ece533e
HuggingFace模型页面：https://www.php.cn/link/150784e5fbeb562400a0cd1111471d6a
arXiv论文地址：https://www.php.cn/link/b783acd4479bf1b8a981bb023b363043

Step-Audio-EditX的应用领域

有声内容生产：适用于有声书、播客、新闻播报等内容创作，一键添加“喜悦”“悲伤”“耳语”等情绪或风格，无需重新录制即可生成多个情感版本，提升听众沉浸体验。
视频与广告配音：短视频、动画、广告可实现角色音色的零样本克隆，并通过叠加“撒娇”“夸张”“严肃”等风格快速生成多样化配音，降低人力成本，提高制作效率。
游戏与虚拟偶像：用于 NPC、虚拟主播、VTuber 等场景，只需一句参考语音即可克隆音色，并实时插入笑声、呼吸、叹气等副语言，构建更真实、生动的交互式语音系统。
智能客服与语音助手：可在标准 TTS 基础上动态调整情绪，将机械回复转为“热情”或“安抚”语调，提升服务亲和力；结合方言标签，满足区域化用户需求。
教育与语言学习：在线课程和语言类 APP 可使用“老人”“小孩”“耳语”等风格生成适龄语音，或将普通话自动转换为粤语、四川话等方言，辅助学生模仿练习，减少教师重复录音工作。
会议处理与无障碍支持：对嘈杂或存在长时间静音的会议录音，可先执行“降噪+静音裁剪”，再根据需要加快语速或注入适当情感，输出清晰易懂的纪要音频，便于听障人士理解或归档传播。

以上就是Step-Audio-EditX— 阶跃星辰开源的音频编辑大模型的详细内容，更多请关注其它相关文章！

# 中文网 # 低价网站建设官网登录 # 太原重点关键词优化排名 # 教育网站优化如何做 # 湖南seo排名技巧分析 # 咸宁网站建设兼职公司 # 嘉陵区网络推广营销中心 # 自助网站建设加推广方案 # 厦门seo百度 # 交易类网站建设费用 # 中山全网营销seo推广费用 # 降噪 # 安装包 # 声码 # 转换为 # 高质量 # git # 可在 # 一键 # 粤语 # 开源 # udio # hugging face # 在线课程 # 大模型 # 短视频 # pdf # ai # app # 显卡 # 编码 # github

相关栏目：【企业资讯168 】【行业动态50218 】【媒体报道120512 】

分享到：

上一篇：美图设计室接入千牛，为电商商家降本提效开启新变革

下一篇：paperok查重官方网址最新版 paperok查重官网链接入口推荐

快速导航×

Step-Audio-EditX的核心功能

Step-Audio-EditX的技术架构

Step-Audio-EditX官方资源链接

Step-Audio-EditX的应用领域