仅需3秒音频实现声音克隆
声音克隆神器,快速克隆你的声音
下载地址
B站效果演示视频: https://www.bilibili.com/video/BV1Dh4y1K7qJ/
GitHub项目地址:https://github.com/Plachtaa/VALL-E-X
VALL-E X声音克隆在线体验地址
Hugging Face在线体验: https://huggingface.co/spaces/Plachta/VALL-E-X
Google Colab在线体验:https://colab.research.google.com/drive/1yyD_sz531QntLKowMHo-XxorsFBCfKul?usp=sharing
写在前面
原文链接 :https://github.com/Plachtaa/VALL-E-X/blob/master/README-ZH.md
B站效果演示视频: https://www.bilibili.com/video/BV1Dh4y1K7qJ/
GitHub项目地址:https://github.com/Plachtaa/VALL-E-X
Hugging Face在线体验: https://huggingface.co/spaces/Plachta/VALL-E-X
Google Colab在线体验:https://colab.research.google.com/drive/1yyD_sz531QntLKowMHo-XxorsFBCfKul?usp=sharing
微软VALL-E X 零样本语音合成模型的开源实现.预训练模型现已向公众开放,供研究或应用使用。
VALL-E X 是一个强大而创新的多语言文本转语音(TTS)模型,最初由微软发布。虽然微软最初在他们的研究论文中提出了该概念,但并未发布任何代码或预训练模型。我们认识到了这项技术的潜力和价值,复现并训练了一个开源可用的VALL-E X模型。我们很乐意与社区分享我们的预训练模型,让每个人都能体验到次世代TTS的威力。 🎧
微软VALL-E X 零样本语音合成模型的开源实现.预训练模型现已向公众开放,供研究或应用使用。
VALL-E X声音快速克隆功能特点
强大的VALL-E X 配备有一系列尖端功能:
多语言 TTS: 可使用三种语言 - 英语、中文和日语 - 进行自然、富有表现力的语音合成。
零样本语音克隆: 仅需录制任意说话人的短短的 3~10 秒录音,VALL-E X 就能生成个性化、高质量的语音,完美还原他们的声音。
查看示例
prompt.webm
output.webm
语音情感控制: VALL-E X 可以合成与给定说话人录音相同情感的语音,为音频增添更多表现力。
查看示例
https://github.com/Plachtaa/VALL-E-X/assets/112609742/56fa9988-925e-4757-82c5-83ecb0df6266
https://github.com/Plachtaa/VALL-E-X/assets/112609742/699c47a3-d502-4801-8364-bd89bcc0b8f1
零样本跨语言语音合成: VALL-E X 可以合成与给定说话人母语不同的另一种语言,在不影响口音和流利度的同时,保留该说话人的音色与情感。以下是一个使用日语母语者进行英文与中文合成的样例: 🇯🇵 🗣
查看示例
jp-prompt.webm
en-output.webm
zh-output.webm
口音控制: VALL-E X 允许您控制所合成音频的口音,比如说中文带英语口音或反之。 🇨🇳 💬
查看示例
en-prompt.webm
zh-accent-output.webm
en-accent-output.webm
声学环境保留: 当给定说话人的录音在不同的声学环境下录制时,VALL-E X 可以保留该声学环境,使合成语音听起来更加自然。
查看示例
noise-prompt.webm
noise-output.webm
VALL-E X声音克隆硬件要求
VALL-E X声音克隆
VALL-E X 可以在CPU或GPU上运行 (pytorch 2.0+, CUDA 11.7 ~ CUDA 12.0).
若使用GPU运行,你需要至少6GB的显存。