Решён
Используете ли вы биг-дату в своих проектах?

Максим D. Big Data
3k
6

Работаю бекенд разрабом в небольшой компании, в основном CRUD и интеграции с внешними API. Начальство заикнулось что хотят "внедрить биг дату" для аналитики поведения пользователей.

У нас база на 500к юзеров, около 2-3 млн записей в основных таблицах. Это вообще считается биг датой или нам хватит обычного PostgreSQL с нормальными индексами?

Кто реально работает с большими данными - с какого объема начинается смысл переходить на Hadoop/Spark/ClickHouse и прочее? И какой стек используете?

Решение
77
Эксперт • 2 ответа

Классика жанра - начальство услышало модное слово и хочет "внедрить".

С твоими объемами вот что сделай:

  1. Настрой pg_stat_statements, посмотри какие запросы тормозят
  2. Добавь индексы на частые фильтры
  3. Для аналитики можешь поднять реплику и гонять тяжелые запросы туда
  4. Если нужны графики - Metabase или Grafana поверх постгреса

Этого хватит на годы вперед. Хадуп вам не нужен, там оверхед на администрирование съест все ресурсы команды.

Аватар Максим D.

Спасибо! Про реплику для аналитики хорошая идея, как раз думали куда деть старый сервер

44
Участник • 2 ответа

2-3 млн записей это не биг дата, это обычная база.

Постгрес потянет и 100 млн если нормально настроить. Партиционирование, правильные индексы, материализованные вьюхи для аналитики.

Биг дата начинается когда данные не влезают на один сервер или когда нужна обработка в реальном времени миллионов событий в секунду.

34
Эксперт • 2 ответа

Работаю в финтехе, у нас реально биг дата - терабайты транзакций в день.

Стек: Kafka для стриминга, Spark для батч обработки, ClickHouse для аналитических запросов, S3 для хранения сырых данных.

Но мы к этому пришли через 5 лет роста. Начинали точно так же на постгресе и долго на нем держались. Не надо бежать впереди паровоза.

52
Участник • 1 ответ

Если начальство хочет именно "биг дату" чтобы было - поставь им ClickHouse.

Он жрет SQL, ставится за полчаса, работает быстро на любых объемах. Для аналитики поведения юзеров идеально - кидаешь туда ивенты и строишь дашборды.

Будет выглядеть солидно, а по факту просто колоночная база которая не требует Hadoop-инфраструктуры.

22
Эксперт • 1 ответ

биг дата это когда екселька не открывается)))

а если серьезно, 500к юзеров это вообще ни о чем. у нас на прошлой работе было 50 млн и постгрес справлялся

18
Участник • 2 ответа

Рекомендую посмотреть в сторону современных решений - Snowflake, Databricks, BigQuery. Они предоставляют полный цикл работы с данными из коробки: хранение, обработка, ML, визуализация.

Да, это облако и стоит денег. Но зато не нужно держать штат дата инженеров для поддержки Hadoop кластера.

Написать ответ

Премодерация гостей

Вы отвечаете как гость. Ваш ответ будет скрыт до проверки модератором. Чтобы ответ появился сразу и вы получали репутацию — войдите в аккаунт.

Будьте вежливы и соблюдайте правила платформы.