Кто ты в анализе данных? Десять ролей в команде дата-аналитиков

  • 13 авг. 2018, 10:23
  • 755

Когда вы думаете об идеальной команде аналитиков данных, представляете ли вы десять копий профессора информатики и статистики, держащего в руках черный маркер? Надеюсь, нет!

Прикладной анализ данных – командный и междисциплинарный спорт. Разнообразие точек зрения и отношение здесь так же важны, как образование и опыт.

Если вы хотите построить умную команду аналитиков данных, эта статья для вас.

№0 Инженер анализа данных

Список начинается с нуля, поскольку необходимо сперва иметь возможность получать данные, и лишь затем есть смысл говорить об их анализе. Если вы работаете с маленькими датасетами, data engineering – это по большей части занесение каких-то чисел в таблицу. Когда вы работаете с большими датасетами, это становится сложной и важной дисциплиной. В вашей команде должен быть человек, который возьмет на себя ответственность заниматься сложными инженерными аспектами передачи данных, с которыми будет работать остальной персонал.

№1 Лицо, принимающее решения

Прежде чем нанимать доктора наук на должность дата-сайентиста, удостоверьтесь в том, что у вас есть человек, который понимает науку и искусство принятия решений.  

Чтобы начать извлекать пользу из данных, вы должны найти человека, способного принимать правильные решения.

Он будет выделять решения, которые следует принять, формировать их (от проектирования метрик до оценки статистических предположений), и определять необходимый уровень аналитической ясности, основываясь на потенциальном влиянии на бизнес. Ищите глубокого мыслителя. Вам не нужен сотрудник, который говорит: «Упс, я не подумал об этом, когда принимал решение».

№2 Аналитик

А теперь речь идет о… всех, с кем вы уже работаете. Каждый человек может смотреть на данные и вдохновляться, единственное, чего не хватает – углубленного технического понимания ПО, которое необходимо для работы. Если вы когда-либо смотрели на цифровую фотографию, вы делали визуализацию данных и анализ.

Применять инструменты вроде R и Python в визуализации данных – все равно что рисовать в Microsoft Paint. Разница заключается в том, что они более универсальны для исследования широкого набора датасетов.

Кроме того, если у вас хватает смелости и ресурсов только на то, чтобы смотреть на первые пять рядов данных в таблице, что ж, это все же лучше, чем ничего. Если этим будут заниматься все сотрудники, вы все равно будете лучше понимать ваш бизнес, чем если бы никто вообще этим не занимался.

Не стоит принимать решения за пределами ваших данных. Это требует специальной подготовки. Возьмем, к примеру, фотографию выше. Все, что вы можете сказать о ней: «Это было в моем датасете». Пожалуйста, не приходите к заключению, что Лох-несское чудовище существует.

№3 Эксперт-аналитик

Этот человек может быстрее просматривать данные. Главное в этой профессии – скорость, исследование, открытие, игра! Она не связана с ясностью и точными выводами. Этот человек помогает остальной команде отслеживать как можно больше данных, чтобы сотрудник, принимающий решения, мог понять, на что следует обратить усиленное внимание.

Не нанимайте на эту роль своих самых надежных разработчиков, которые пишут отличный код. Вся суть здесь в скорости, и люди, которые одержимы качеством кода, просто не смогут приносить пользу в этой роли.

Я часто видела, как над аналитиками в командах разработчиков смеялись, потому что их коллеги не понимали, что означает «хороший код» для описательной аналитики. Хороший – значит «быстрый и простой». Если таких кодеров не будут уважать, они уйдут из компании, и вы не сможете следить за успехом или неудачами своего бизнеса.

№4 Статистик

Теперь пора нанять сотрудника, который будет следить за порядком. В команде всегда нужен человек, который не будет давать остальным сотрудникам прийти к необоснованным выводам.

Вдохновение стоит дешево, а ясность – дорого.

Лайфхак: не делайте никаких выводов, и вам не нужно будет переживать. Я шучу. Вдохновение стоит дешево, а вот ясность – дорого. Либо платите, либо довольствуйтесь простым вдохновением.

Статистики помогают людям, принимающим решения, делать правильные заключения за пределами данных.

Например, если ваша система машинного обучения работала в одном датасете, все, что вы можете с уверенностью сказать – она работала в этом датасете. Будет ли она работать в реальности? Стоит ли ее запускать? Вам нужны дополнительные навыки, чтобы найти ответы на эти вопросы. Статистические навыки.

Если вы хотите принять серьезные решения, не обладая точными фактами, следует выбрать осторожный подход. Статистики помогут принимающим решения людям сделать правильные выводы за пределами анализируемых данных.

№5 Инженер прикладного машинного обучения

Инженер прикладного машинного обучения не только должен понимать, как работают алгоритмы. Его задача – использовать их, а не строить. Вам нужен человек, способный набросать код, который заставит существующие алгоритмы принять и обработать ваши данные.  

Помимо навыков программирования, вы должны обращать внимание на характер кандидата – а именно на его способность справляться с неудачами. Дело в том, что в этой роли вы практически никогда не знаете, что делаете, даже если думаете, что знаете. Вы пропускаете данные через различные алгоритмы и смотрите, получается у вас что-то или нет. Большую часть своего времени вы работаете вслепую, и лишь люди с определенным характером способны получать от этого удовольствие.

Перфекционистам сложно работать инженерами МО.

Вы не знаете заранее, что сработает, поэтому невозможно ожидать идеального результата с первой попытки. Это нормально, просто протестируйте как можно быстрее разные подходы и перейдите к решению проблемы.

Говоря о «пропуске данных через алгоритмы»… каких данных? Разумеется, тех, которые аналитики посчитали потенциально интересными. Поэтому имеет смысл сначала нанять аналитиков.

Инженер машинного обучения должен глубоко уважать часть процесса, где ясность является жизненно важной – а именно оценивание. Работает ли решение на новых данных? К счастью, вы сделали мудрый выбор, наняв статистика, поэтому все, что вам нужно сделать – передать ему эстафету.

Лучшие инженеры прикладного МО понимают, сколько времени занимает применение различных подходов.

№6 Дата-сайентист

В моем понимании, дата-сайентист – это полноправный эксперт во всех трех предыдущих ролях. Не каждый использует мое определение: очень часто можно найти резюме так называемых дата-сайентистов, которые обладают лишь одним из трех перечисленных раньше навыков.

Я поставила эту роль на шестое место, поскольку нанять человека, который является экспертом сразу в трех ролях, довольно дорого. Если вам это позволяет бюджет, здорово. В противном случае попытайтесь прокачать навыки специалистов, которые уже работают в вашей компании.

№7 Лидер по анализу данных

Это сотрудник, выполняющий одновременно обязанности дата-сайентиста и человека, принимающего решения. Его задача – удваивать силу и производительность команды и следить за тем, что ваши сотрудники не тратят время впустую и приносят ценность бизнесу. Проблема в том, что таких людей сложно найти.

Этого человека можно разбудить ночью и спросить: «Как принять решения? Как лучше всего распределить экспертов? Что следует делать? Будут ли навыки и данные соответствовать требованиям?»

Если вам повезет найти такого сотрудника, крепко держитесь за него и никогда не отпускайте.

№8 Эксперт по качеству / социолог

Иногда человек, принимающий решение в вашей команде – гениальный лидер, менеджер, мотиватор, инфлюенсер или навигатор организационной политики… но ему не хватает навыков в науке и искусстве принятия решений. Здесь недостаточно одного таланта. Если ваш сотрудник, отвечающий за принятие решений, не оттачивает свое мастерство, он, скорее, навредит компании, а не принесет пользу.

Вместо того, чтобы увольнять неквалифицированного сотрудника, вы можете приставить к нему эксперта по качеству. Он будет выступать в роли помощника и дополнять его навыки.

Такой человек должен обладать опытом работы в области социологии – например, поведенческий экономист или нейроэкономист. Его задача – помочь человеку, принимающему решения, прояснить идеи, изучить все стороны проблемы и превратить неоднозначную интуицию в хорошо продуманные инструкции для команды.

Мы не понимаем, насколько ценны социологи. Они обычно лучше квалифицированы для превращения интуици и намерений ответственного за принятие решений в конкретные метрики, чем дата-сайентисты.

Эксперт по качеству является доверенным советчиком, компаньоном по мозговому штурму. Такой человек в команде поможет вам правильно начать проект.

№9 Исследователь

Не торопитесь сразу же нанимать в команду бывших профессоров, пока не удостоверитесь в том, что индустрия не предоставит вам необходимые алгоритмы. Делайте вещи в правильном порядке: прежде чем покупать дорогую ручку, сначала проверьте, сможет ли справиться с работой карандаш. Сперва приступите к работе, и если вы заметите, что доступные решения не дают желаемого результата, приступайте к поиску исследователей.

В самом начале у вас, скорее всего, не будет правильной среды, чтобы получать пользу от исследователя.

Подождите, пока ваша команда сама поймет, зачем ей нужен исследователь. Используйте все доступные инструменты, прежде чем нанимать человека, который разработает вам дорогие.

№10+ Дополнительный персонал

Помимо вышеперечисленных ролей, я хотела бы также отметить следующие профессии:

  •  Эксперт по бизнес-доменам
  •  Специалист по этике
  •  Разработчик ПО
  •  Инженер по надежности
  •  UX-дизайнер
  •  Графический дизайнер
  •  Специалист по сбору данных
  •  Менеджер продуктов данных
  •  Менеджер продукта/программы

Я не могу справиться без этих людей со многими проектами. Единственная причина, почему я не перечислила их в своем списке, – аналитика решений не является их основным занятием. Они гении собственной дисциплины и знают достаточно о данных и принятии решений, чтобы быть полезными в вашем проекте.

Большая или маленькая команда?

Прочитав эту статью, вы можете почувствовать переизбыток информации. Так много ролей! Но в зависимости от ваших потребностей вы можете получить достаточную ценность и от первых нескольких ролей.

Давайте сравним прикладное машинное обучение с приготовлением пиццы.

  • Если вы хотите открыть большую сеть пиццерий, в которой готовят инновационную пиццу, вам нужна большая команда или же вы должны сотрудничать с поставщиками/консультантами.
  • Если вы хотите приготовить на этих выходных уникальную пиццу, вы все еще должны рассмотреть все компоненты, о которых я рассказала выше. Вам нужно будет решить, что готовить (роль 1), какие ингредиенты использовать (роли 2 и 3), где взять ингредиенты (роль 0), как адаптировать рецепт (роль 5) и как протестировать вкус (роль 4), прежде чем предлагать пиццу человеку, которого хотите впечатлить.

Ставки не очень высоки? Тогда вы можете сделать это все сами. Если ваша цель – приготовить стандартную традиционную пиццу, вам не нужно даже это: просто найдите в интернете рецепт и приступайте к делу!