Решён
PaLM 2 (Pretraining and Language Model) - что это и чем отличается от GPT?

Андрей Щербаков ChatGPT и LLM
5.6k
3

Наткнулся на упоминание PaLM 2 от Google. Пытаюсь разобраться в ландшафте LLM и запутался.

Что конкретно представляет из себя PaLM 2? Читал что это основа для Bard (теперь Gemini), но так и не понял чем архитектурно отличается от GPT-4 и какие у нее преимущества. На Хабре статьи либо слишком поверхностные, либо наоборот академические с формулами.

Может кто простым языком объяснить:

  1. Чем PaLM 2 отличается от первого PaLM
  2. Как соотносится с GPT-4
  3. Актуальна ли модель сейчас или уже заменена на Gemini полностью
Решение
60
Эксперт • 2 ответа

PaLM 2 (Pathways Language Model 2) - это LLM от Google, представленная в мае 2023 на Google I/O. Расшифровка "Pretraining and Language Model" из твоего заголовка некорректна, P означает Pathways.

Отличия от PaLM 1:

PaLM 1 (апрель 2022) имел 540 миллиардов параметров и был на тот момент крупнейшей dense-моделью. PaLM 2 пошел другим путем: Google не раскрыл точное число параметров, но по утечкам и косвенным данным модель значительно меньше по размеру (предположительно ~340B), зато обучена на в 5 раз большем корпусе данных и с применением техники "compute-optimal training" (подход Chinchilla). Суть: лучше потратить вычислительный бюджет на больше данных при меньшем числе параметров, чем наращивать параметры.

PaLM 2 выпускался в четырех размерах: Gecko (наименьшая, для мобильных), Otter, Bison и Unicorn (наибольшая).

Сравнение с GPT-4:

Прямое сравнение затруднено, потому что OpenAI тоже не раскрыл архитектуру GPT-4. По бенчмаркам они сопоставимы в большинстве задач, GPT-4 традиционно сильнее в рассуждениях и кодинге, PaLM 2 показывал лучшие результаты в многоязычных задачах (обучался на более чем 100 языках) и в переводе.

Архитектурно обе модели используют Transformer, но GPT-4 предположительно является mixture-of-experts моделью, а PaLM 2 - dense. Это принципиально разные подходы к масштабированию.

Текущий статус:

PaLM 2 де-факто заменен на Gemini. Google прекратил выдачу API-доступа к PaLM 2 через Vertex AI в начале 2025 года, направляя разработчиков на Gemini 1.5 Pro и Gemini 2.0. Bard, который работал на PaLM 2, переименован в Gemini и переведен на одноименную модель.

Изучать PaLM 2 имеет смысл как историческую веху, но строить на ней проекты уже нет смысла.

Да, "Training Compute-Optimal Large Language Models" (Hoffmann et al., 2022). Основная идея: для фиксированного compute-бюджета оптимальнее увеличивать объем тренировочных данных пропорционально размеру модели, а не наращивать параметры при том же объеме данных

Спасибо за развернутый ответ. Не знал про расшифровку Pathways, везде видел другую. А Chinchilla-подход это та самая статья от DeepMind?

12
Эксперт • 2 ответа

Если совсем коротко:

PaLM 2 это то на чем работал Bard до ребрендинга в Gemini. Сейчас уже неактуальна. Google переключился на линейку Gemini (1.0, 1.5 Pro, 1.5 Flash, 2.0). Если ты выбираешь LLM для проекта, смотри в сторону Gemini API, а PaLM 2 забудь.

11
Участник • 2 ответа

Все эти PaLM, Gemini, GPT... Каждые полгода новая модель, предыдущую выкидывают. Нет смысла разбираться в конкретных архитектурах, они устаревают быстрее чем ты дочитаешь статью. Лучше пойми общие принципы трансформеров, attention механизм, tokenization. Это не меняется от модели к модели. А конкретные названия - маркетинг.

Написать ответ

Премодерация гостей

Вы отвечаете как гость. Ваш ответ будет скрыт до проверки модератором. Чтобы ответ появился сразу и вы получали репутацию — войдите в аккаунт.

Будьте вежливы и соблюдайте правила платформы.