Решён
Как имитировать реалистичный женский голос программно или аппаратно?

Нужно для озвучки персонажа в инди игре. Актрису нанимать бюджета нет, TTS звучат слишком роботизированно.

Пробовал:

  • Изменение pitch в Audacity - звучит как пародия
  • Онлайн генераторы голоса - интонации деревянные
  • Фильтры в реалтайме (Voicemod) - эффект "бурундука"

Есть способы получить натуральное звучание женского голоса из мужского? Может какие то нейросети обученные или профессиональный софт?

Готов потратить время на настройку, главное чтоб результат был похож на живого человека.

Решение
68
Эксперт • 2 ответа

RVC (Retrieval-based Voice Conversion). Качаешь модель с HuggingFace, обучаешь на датасете женских голосов минут 20-30, потом прогоняешь через нее свою запись.

Результат реально живой, интонации сохраняются. Главное найти хороший датасет для обучения (чистые записи без шумов, разные эмоции).

Если лень возиться с обучением - есть готовые претрейн модели женских голосов на том же HF.

Аватар Ламповый Звук

Попробовал RVC с pretrain моделью - охренеть как круто работает! Спасибо огромное, ты спас проект)

41
Эксперт • 1 ответ

Комбо которое я использовал для дубляжа:

  1. Записываешь свой голос максимально нейтрально, четко проговаривая.
  2. Прогоняешь через ElevenLabs Voice Cloning (там есть тариф $5/мес для инди разрабов).
  3. Загружаешь туда 10-15 минут женского голоса из опенсорс аудиокниг.
  4. Генерируешь speech из своего текста.
  5. Постобработка в iZotope RX: убираешь артефакты, выравниваешь громкость.

Качество на уровне профессиональной актрисы озвучки. Единственный минус - подписка платная, но для коммерческого проекта это копейки по сравнению с наймом актера.

12
Участник • 1 ответ

А зачем вообще извращаться? Найди актрису на фрилансе (Кворк, FL.ru) - там девочки озвучивают по 500-1000р за минуту готового аудио. Для инди игры это адекватный бюджет.

Любая синтетика все равно слышна, особенно в эмоциональных сценах. Игроки сразу чувствуют фальш.

51
Эксперт • 1 ответ

Попробуй so-vits-svc 4.0 - это форк RVC с лучшим качеством преобразования. Там в комплекте идут предобученные модели на русском и английском языках.

Ставится через pip, интерфейс на gradio. Если у тебя видюха NVIDIA - процесс конвертации займет секунды.

git clone https://github.com/svc-develop-team/so-vits-svc
cd so-vits-svc
pip install -r requirements.txt
python webUI.py

Открывается веб морда, загружаешь аудио, выбираешь модель, жмешь Convert. Profit.

6
Эксперт • 2 ответа

я для своего проекта юзал респикер - это когда берешь готовые реплики из игр или фильмов, нарезаешь на фонемы и собираешь новые фразы как конструктор

звучит натурально тк это реальный голос актрисы, но геморно пипец... каждую фразу вручную собирать приходится

22
Эксперт • 2 ответа

Вспомнил историю с одним стримером который притворялся девушкой используя voice changer. Его спалили только через полгода когда он случайно забыл включить софт перед стримом))

Он юзал комбинацию: Krisp (шумодав) + Voicemod Pro (pitch shift + formant) + реверб плагин для "теплоты". Настраивал часами, но результат был максимально believable.

Написать ответ

Премодерация гостей

Вы отвечаете как гость. Ваш ответ будет скрыт до проверки модератором. Чтобы ответ появился сразу и вы получали репутацию — войдите в аккаунт.

Будьте вежливы и соблюдайте правила платформы.