本教程通过2个案例:克隆郭德纲、林志玲的声音,来掌握最像真人的AI语音克隆工具(文本转语音工具)—阿里出品的cosyvoice。
整个教程包含:①安装包、②练习素材、③视频教程、④文本教程。
教程分为“入门篇”和“进阶篇”
入门篇:选择的是“AI剪辑助手”打包的cosyvoice,它的特点是简单,新人很容易上手。 缺点是:砍掉了方言等功能。
进阶篇:选择的是“与AI同行”打包的cosyvoice,它的特点是:功能全。 缺点是略显复杂。
所以建议新手先看入门篇,知道基本的操作。 然后再看进阶篇。
如果是老手,直接看进阶篇。
相关资源下载:
(资源都一样,多放几个网盘是怕被封,选择其中的一个下载即可)
① 安装包:
入门篇工具安装包(大小:11.4G):
夸克网盘: https://pan.quark.cn/s/e49a0d238ba2
百度云盘: https://pan.baidu.com/s/17UtflIaaU-ZUC0EJu_Y6rg?pwd=2045
进阶篇工具安装包(大小:8.8G):
夸克网盘链接: https://pan.quark.cn/s/a7ed622f5ae9
百度网盘链接: https://pan.baidu.com/s/1yX17U6lGDVoCI3doFt-POw?pwd=2045 提取码:2045
② 练习素材:
练习素材入门篇和进阶篇,都是一样的。
夸克网盘链接: https://pan.quark.cn/s/19bac8977f95
③视频教程:
(包含入门教程和进阶教程)
夸克网盘链接: https://pan.quark.cn/s/bb629f97ca8b
入门篇
1. cosyvoice是什么?
免费的语音克隆工具:提供3秒的原音,既可复制音色。
由阿里的通义实验室推出。
2. cosyvoice的3大特色?
- 3秒原音,即可克隆(复制)出任何人的说话。
- 支持中、英、日、韩、中国方言(粤语、四川话、上海话、天津话、武汉话、长沙话、郑州话等)
- 可以包含情感:快乐、悲伤、笑声等等。
3. cosyvoice如何使用?——克隆郭德纲的声音
本教程将通过克隆郭德纲的声音,来演示如何使用cosyvoice。
工具说明:使用的是“AI剪辑助手”制作的cosyvoice版本。
这个版本的优点:特别适合新手,只保持了最基本的功能,去掉了多余的功能。
第1步:下载安装包
一键安装包下载地址(11.4G):
夸克网盘: https://pan.quark.cn/s/e49a0d238ba2
百度云盘: https://pan.baidu.com/s/17UtflIaaU-ZUC0EJu_Y6rg?pwd=2045
安装包里有2个文件:
工具文件:cosyvoice-2。
练习素材: 包含郭德纲和林志玲的10秒语音及文本,用来做练习
第2步:复制软件到C盘根目录
把软件复制到C盘根目录,
特别注意: 安装路径里,不要包含中文。 否则会引起报错。
第3步:运行软件
① 打开cosyvoice-2文件夹,找到并双击“go-web"文件
② 会出现命令行界面。 这个界面,在软件运行的时候,不要关闭。
大约过20~40秒,会出现下面的界面: 说明软件安装成功了。
第4步:添加“郭德纲”的声音
添加郭德纲声音。 声音文件在安装包”练习素材“文件夹里。
① 点击“声音模型管理
② 填写角色名字:郭德纲
③ 上传郭德纲的9秒音频
④ 填写参考音频文字
添加新模型
检查声音是否添加成功
① 打开“文本生成音频”界面
② 单击“刷新声音模型列表
③ 在“声音模型列表”里,可以看到刚才添加的声音
第5步:文本转语音
输入文本:
大家好,这是我的新朋友叶赛文,他是一个分享AI干货的博主。 赶紧关注他一下,[laughter]他可是一位帅哥[laughter]
进阶篇
如何安装?
下载安装包:
夸克网盘链接: https://pan.quark.cn/s/a7ed622f5ae9
百度网盘链接: https://pan.baidu.com/s/1yX17U6lGDVoCI3doFt-POw?pwd=2045 提取码:2045
下载练习素材:
夸克网盘链接: https://pan.quark.cn/s/0070f8caeb08
百度网盘链接: https://pan.baidu.com/s/1OxVYYeAWxXKVxrNUt70Msg?pwd=2045 提取码:2045
练习素材: 包含2个语音文件:郭德纲和林志玲的声音,还有声音文本。
如何使用
文件解压后,点击“启动.exe”文件既可
打开后是这样子:
1.说方言
如何使用cosyvoice的方言
① 选择“自然语言控制”
② 选择要克隆的声音。 (可以选择安装包里的林志玲声音。声音不能小于3秒,不能超过30秒)
③ 输入克隆声音的文本
④ 输入要文本转语音的文字
⑤ 输入要将的方言。 例如:用四川话
目前支持粤语、四川话、上海话、天津话、长沙话、郑州话。
2. 加入:笑声、呼吸声、强调
如何使用
如何使用cosyvoice的方言
① 选择“自然语言控制”
② 选择要克隆的声音。 (可以选择安装包里的林志玲声音。声音不能小于3秒,不能超过30秒)
③ 输入克隆声音的文本
④ 输入要文本转语音的文字。 注意:加入笑声、强调的语法。
⑤ 生成音频
⑥ 下载音频
呼吸
作用:在加入的地方,会有一次换气声
示例:我已经不是当年的穷小子了[breath],现在的我是今年的穷小子[breath]。
效果:
笑声
作用:发出笑声
用法示例:我在窗户上就着雾写下他全家的名字,雾散了,他全家也没了[laughter][laughter]。
效果
作用:发出笑声
用法示例: 没出息没关系,有气息就已经<laughter>很棒了</laughter>。
效果:
强调
作用:强调内容
用法示例:人为什么一定要往高处走呢,人可以往<strong>四处走</strong>。
效果:
3.加入情绪
使用方法和方言一样,在“输入instruct文本” 里写,需要什么情绪
用开心的语气说
示例: 能打败我的人,我也不跟他们打。
效果:
① 选择“自然语言控制”
② 选择要克隆的声音。 (可以选择安装包里的林志玲声音。声音不能小于3秒,不能超过30秒)
③ 输入克隆声音的文本
④ 输入要文本转语音的文字。
⑤ 输入情绪词:例如,用开心的语气说
⑥ 生成音频
⑦ 下载音频
用生气的语气说
示例:在交通高峰期,遭遇到一位鲁莽的司机插队,我感到非常生气。这种不文明的行为总让人无奈。
效果:
4. 角色扮演
用天真浪漫的小孩语气说
① 选择“自然语言控制”
② 选择要克隆的声音。 (可以选择安装包里的林志玲声音。声音不能小于3秒,不能超过30秒)
③ 输入克隆声音的文本
④ 输入要文本转语音的文字。
⑤ 输入角色
⑥ 生成音频
下载音频
指令文本(instruct文本):一个天真烂漫的小孩,总是充满幻想和无尽的好奇心。
文本:没出息没关系,有气息就已经很棒了
5. 任务描述词(instruct文本)词汇总
根据官方文档整理。
官方文档链接: https://funaudiollm.github.io/cosyvoice2
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<laughter></laughter> |
|
<strong></strong> |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3.常见问题
3.1 安装不成功:No module named'ttsfrd'
问题原因: 安装路径有中文
解决方法: 把安装包复制到C盘根目录
3.2.安装路径里,有中文
报错:FstIOError:read failded
问题原因:文件安装路径里,有中文。
解决方法:修改安装路径,不要有中文。
3.3 localhost is not accessible
报错:ValueError: When localhost is not accessible, a shareable link must be created. Please set share=True or check your proxy settings to allow access to localhost.
问题原因:开了国际网
解决方法:关闭国际网
3.4 出现其它问题
还可能出现其它的七七八八的问题,大多都是电脑配置的问题。
解决方法:
- 租用阿里云电脑(第一个月免费)。
- 租用GPU电脑。
- 使用魔塔在线的工具: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B