Решён
Можно ли смешивать обученные модели нейросети?
Занимаюсь файнтюнингом LLM на своих данных. Обучил две LoRA-адаптера для одной базовой модели (Mistral 7B):
- Первый адаптер натренирован на корпусе юридических документов, отвечает на вопросы по праву
- Второй натренирован на медицинских текстах, работает как медицинский ассистент
Вопрос: можно ли смешивать обученные модели нейросети? В смысле, объединить оба адаптера чтобы получить модель которая разбирается и в праве и в медицине одновременно?
Пробовал загрузить оба LoRA одновременно через PEFT, но результат странный. Юридические ответы деградировали, медицинские тоже стали хуже. Качество упало по обоим направлениям.
Интересует:
- Теоретически это вообще корректная операция?
- Если да, какой метод дает лучшие результаты (merge, ensemble, что то еще)?
- Может правильнее держать модели раздельно и роутить запросы?
Про TIES не знал, спасибо. Поставил mergekit, буду экспериментировать с density. Отпишусь по результатам.