复现mooer-omni #31

zhiyu112223 · 2024-12-31T07:36:47Z

作者您好，想跟您确认下，第二阶段的训练在第一阶段上新增了tts任务，输入为回复的文本，输出为对应的音频的encodec，那在训练第二阶段的同时，下图中的部分也要带着一起吗？
第三阶段训练也有同样的困惑，输入只有音频adapter，输出为回复音频的encodec？还需要带第二阶段的部分吗？

lzl-mt · 2025-01-06T04:12:33Z

三个阶段的任务是递增的，用于保证之前音频到文本的效果不受过多的损失。第一阶段是音频到文本的训练；第二阶段增加了文本到音频的训练，第三阶段基于第二阶段又增加了音频到音频的训练。其实如果在引入第0阶段，也就是保持文本到文本的训练的话，最终instruction tuning的模型效果会更好。

zhiyu112223 · 2025-01-07T06:58:39Z

第二阶段训练的数据是不是像下面这样：
case1:
Instruction: Respond to speech input with text。
Input: speech adapter
Output: Text

case2:
Instruction: Please convert this text into speech
Input: text
Output: encodec token

第三阶段的数据应该是：
Instruction: Answer my question with speech.
Input: speech adapter
Output: Text + speech encodec token

如果我说的不对，麻烦告知一下正确的训练数据格式。

另外如果我想在你们的模型上进行微调，是不是只需要微调第三阶段就行。

lzl-mt · 2025-01-08T11:43:57Z

第三阶段包含了case1，case2和case3；我们控制了概率为 0.3,0.3,0.4 来随机简单相关case的数据；微调的话是的

zhiyu112223 · 2025-01-08T12:01:21Z

如果想实时的话，应该改进哪里呢？

lzl-mt · 2025-01-08T13:50:39Z

实时指的是流式的输入还是流式的输出呢？如果是流式的输出，把Generate那里获取latent的部分改成流式的就行

Provide feedback