Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

复现mooer-omni #31

Open
zhiyu112223 opened this issue Dec 31, 2024 · 5 comments
Open

复现mooer-omni #31

zhiyu112223 opened this issue Dec 31, 2024 · 5 comments

Comments

@zhiyu112223
Copy link

作者您好,想跟您确认下,第二阶段的训练在第一阶段上新增了tts任务,输入为回复的文本,输出为对应的音频的encodec,那在训练第二阶段的同时,下图中的部分也要带着一起吗?
第三阶段训练也有同样的困惑,输入只有音频adapter,输出为回复音频的encodec?还需要带第二阶段的部分吗?
截屏2024-12-31 15 22 04

@lzl-mt
Copy link
Collaborator

lzl-mt commented Jan 6, 2025

三个阶段的任务是递增的,用于保证之前音频到文本的效果不受过多的损失。第一阶段是音频到文本的训练;第二阶段增加了文本到音频的训练,第三阶段基于第二阶段又增加了音频到音频的训练。其实如果在引入第0阶段,也就是保持文本到文本的训练的话,最终instruction tuning的模型效果会更好。

@zhiyu112223
Copy link
Author

第二阶段训练的数据是不是像下面这样:
case1:
Instruction: Respond to speech input with text。
Input: speech adapter
Output: Text

case2:
Instruction: Please convert this text into speech
Input: text
Output: encodec token

第三阶段的数据应该是:
Instruction: Answer my question with speech.
Input: speech adapter
Output: Text + speech encodec token

如果我说的不对,麻烦告知一下正确的训练数据格式。

另外如果我想在你们的模型上进行微调,是不是只需要微调第三阶段就行。

@lzl-mt
Copy link
Collaborator

lzl-mt commented Jan 8, 2025

第三阶段包含了case1,case2和case3;我们控制了概率为 0.3,0.3,0.4 来随机简单相关case的数据;微调的话是的

@zhiyu112223
Copy link
Author

如果想实时的话,应该改进哪里呢?

@lzl-mt
Copy link
Collaborator

lzl-mt commented Jan 8, 2025

实时指的是流式的输入还是流式的输出呢?如果是流式的输出,把Generate那里获取latent的部分改成流式的就行

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants