Решён
Какой самый ценный параметр больших данных?

Олег Демидов Big Data
2.7k
5

Готовлюсь к собеседованию на позицию data engineer. Знаю про 5V (Volume, Velocity, Variety, Veracity, Value), но интервьюеры любят спрашивать что из этого важнее.

Понятно что все взаимосвязано, но если выбирать один ключевой параметр для бизнеса - какой и почему? Хочу аргументированно ответить если спросят.

Решение
47
Участник • 1 ответ

Value. Без вариантов.

Можешь иметь петабайты данных (Volume), получать их в реальном времени (Velocity), из сотни источников (Variety) и даже чистых (Veracity). Но если из них нельзя извлечь бизнес-ценность - это просто дорогое хранилище мусора.

На собесе так и отвечай: все остальные V это средства достижения Value. Данные ради данных никому не нужны.

Аватар Олег Демидов

Логично, спасибо! Именно такую аргументацию и искал

32
Участник • 2 ответа

Не соглашусь с Value. Это маркетинговый ответ.

С инженерной точки зрения главное Veracity. Можешь построить идеальный пайплайн, но если входные данные грязные - на выходе будет мусор. Garbage in - garbage out.

Value это уже задача аналитиков и бизнеса. Data engineer отвечает за качество данных, а не за бизнес-метрики.

28
Эксперт • 1 ответ

Зависит от контекста вопроса. Если спрашивают про бизнес - Value. Если про архитектуру - Velocity (потому что от нее зависит выбор инструментов: batch vs streaming). Если про data quality - Veracity.

Хороший интервьюер оценит если ты покажешь понимание что "правильного" ответа нет.

18
Эксперт • 2 ответа

На реальных проектах 90% времени уходит на борьбу с Variety. Данные из разных источников, разных форматов, разных схем. Пока не победишь этот зоопарк - не будет ни Value ни Veracity.

Написать ответ

Премодерация гостей

Вы отвечаете как гость. Ваш ответ будет скрыт до проверки модератором. Чтобы ответ появился сразу и вы получали репутацию — войдите в аккаунт.

Будьте вежливы и соблюдайте правила платформы.