声音克隆神器,快速克隆你的声音

下载地址

B站效果演示视频: https://www.bilibili.com/video/BV1Dh4y1K7qJ/
GitHub项目地址:https://github.com/Plachtaa/VALL-E-X

VALL-E X声音克隆在线体验地址

Hugging Face在线体验: https://huggingface.co/spaces/Plachta/VALL-E-X

Google Colab在线体验:https://colab.research.google.com/drive/1yyD_sz531QntLKowMHo-XxorsFBCfKul?usp=sharing

写在前面
原文链接 :https://github.com/Plachtaa/VALL-E-X/blob/master/README-ZH.md

B站效果演示视频: https://www.bilibili.com/video/BV1Dh4y1K7qJ/
GitHub项目地址:https://github.com/Plachtaa/VALL-E-X
Hugging Face在线体验: https://huggingface.co/spaces/Plachta/VALL-E-X
Google Colab在线体验:https://colab.research.google.com/drive/1yyD_sz531QntLKowMHo-XxorsFBCfKul?usp=sharing

微软VALL-E X 零样本语音合成模型的开源实现.预训练模型现已向公众开放,供研究或应用使用。

VALL-E X 是一个强大而创新的多语言文本转语音(TTS)模型,最初由微软发布。虽然微软最初在他们的研究论文中提出了该概念,但并未发布任何代码或预训练模型。我们认识到了这项技术的潜力和价值,复现并训练了一个开源可用的VALL-E X模型。我们很乐意与社区分享我们的预训练模型,让每个人都能体验到次世代TTS的威力。 🎧
微软VALL-E X 零样本语音合成模型的开源实现.预训练模型现已向公众开放,供研究或应用使用。

VALL-E X声音快速克隆功能特点

强大的VALL-E X 配备有一系列尖端功能:

多语言 TTS: 可使用三种语言 - 英语、中文和日语 - 进行自然、富有表现力的语音合成。

零样本语音克隆: 仅需录制任意说话人的短短的 3~10 秒录音,VALL-E X 就能生成个性化、高质量的语音,完美还原他们的声音。

查看示例

prompt.webm

output.webm

语音情感控制: VALL-E X 可以合成与给定说话人录音相同情感的语音,为音频增添更多表现力。

查看示例

https://github.com/Plachtaa/VALL-E-X/assets/112609742/56fa9988-925e-4757-82c5-83ecb0df6266

https://github.com/Plachtaa/VALL-E-X/assets/112609742/699c47a3-d502-4801-8364-bd89bcc0b8f1

零样本跨语言语音合成: VALL-E X 可以合成与给定说话人母语不同的另一种语言,在不影响口音和流利度的同时,保留该说话人的音色与情感。以下是一个使用日语母语者进行英文与中文合成的样例: 🇯🇵 🗣

查看示例

jp-prompt.webm

en-output.webm

zh-output.webm

口音控制: VALL-E X 允许您控制所合成音频的口音,比如说中文带英语口音或反之。 🇨🇳 💬

查看示例

en-prompt.webm

zh-accent-output.webm

en-accent-output.webm

声学环境保留: 当给定说话人的录音在不同的声学环境下录制时,VALL-E X 可以保留该声学环境,使合成语音听起来更加自然。

查看示例

noise-prompt.webm

noise-output.webm

VALL-E X声音克隆硬件要求

VALL-E X声音克隆
VALL-E X 可以在CPU或GPU上运行 (pytorch 2.0+, CUDA 11.7 ~ CUDA 12.0).

若使用GPU运行,你需要至少6GB的显存。