PaLM 2 (Pathways Language Model 2) - это LLM от Google, представленная в мае 2023 на Google I/O. Расшифровка "Pretraining and Language Model" из твоего заголовка некорректна, P означает Pathways.
Отличия от PaLM 1:
PaLM 1 (апрель 2022) имел 540 миллиардов параметров и был на тот момент крупнейшей dense-моделью. PaLM 2 пошел другим путем: Google не раскрыл точное число параметров, но по утечкам и косвенным данным модель значительно меньше по размеру (предположительно ~340B), зато обучена на в 5 раз большем корпусе данных и с применением техники "compute-optimal training" (подход Chinchilla). Суть: лучше потратить вычислительный бюджет на больше данных при меньшем числе параметров, чем наращивать параметры.
PaLM 2 выпускался в четырех размерах: Gecko (наименьшая, для мобильных), Otter, Bison и Unicorn (наибольшая).
Сравнение с GPT-4:
Прямое сравнение затруднено, потому что OpenAI тоже не раскрыл архитектуру GPT-4. По бенчмаркам они сопоставимы в большинстве задач, GPT-4 традиционно сильнее в рассуждениях и кодинге, PaLM 2 показывал лучшие результаты в многоязычных задачах (обучался на более чем 100 языках) и в переводе.
Архитектурно обе модели используют Transformer, но GPT-4 предположительно является mixture-of-experts моделью, а PaLM 2 - dense. Это принципиально разные подходы к масштабированию.
Текущий статус:
PaLM 2 де-факто заменен на Gemini. Google прекратил выдачу API-доступа к PaLM 2 через Vertex AI в начале 2025 года, направляя разработчиков на Gemini 1.5 Pro и Gemini 2.0. Bard, который работал на PaLM 2, переименован в Gemini и переведен на одноименную модель.
Изучать PaLM 2 имеет смысл как историческую веху, но строить на ней проекты уже нет смысла.
Да, "Training Compute-Optimal Large Language Models" (Hoffmann et al., 2022). Основная идея: для фиксированного compute-бюджета оптимальнее увеличивать объем тренировочных данных пропорционально размеру модели, а не наращивать параметры при том же объеме данных
Спасибо за развернутый ответ. Не знал про расшифровку Pathways, везде видел другую. А Chinchilla-подход это та самая статья от DeepMind?