-
Notifications
You must be signed in to change notification settings - Fork 15
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
复现mooer-omni #31
Comments
三个阶段的任务是递增的,用于保证之前音频到文本的效果不受过多的损失。第一阶段是音频到文本的训练;第二阶段增加了文本到音频的训练,第三阶段基于第二阶段又增加了音频到音频的训练。其实如果在引入第0阶段,也就是保持文本到文本的训练的话,最终instruction tuning的模型效果会更好。 |
第二阶段训练的数据是不是像下面这样: case2: 第三阶段的数据应该是: 如果我说的不对,麻烦告知一下正确的训练数据格式。 另外如果我想在你们的模型上进行微调,是不是只需要微调第三阶段就行。 |
第三阶段包含了case1,case2和case3;我们控制了概率为 0.3,0.3,0.4 来随机简单相关case的数据;微调的话是的 |
如果想实时的话,应该改进哪里呢? |
实时指的是流式的输入还是流式的输出呢?如果是流式的输出,把Generate那里获取latent的部分改成流式的就行 |
作者您好,想跟您确认下,第二阶段的训练在第一阶段上新增了tts任务,输入为回复的文本,输出为对应的音频的encodec,那在训练第二阶段的同时,下图中的部分也要带着一起吗?

第三阶段训练也有同样的困惑,输入只有音频adapter,输出为回复音频的encodec?还需要带第二阶段的部分吗?
The text was updated successfully, but these errors were encountered: