Аналитик данных (Data Analyst)

Специалист по анализу Big Data, который работает на стыке трёх дисциплин — математики, программирования и понимания бизнес-процессов. Он собирает, обрабатывает, изучает и интерпретирует информацию. Это могут быть данные о продуктах или поведении пользователей и клиентов. Выводы и рекомендации такого аналитика могут пригодиться в бизнесе или науке.

Hard

Средний уровень владения Excel (Google Sheets, Sublime). Базовый инструмент, с помощью которого работают с данными в таблицах и визуализируют результаты.
Аналитическое мышление. Нужно уметь разбирать разные ситуации, сопоставлять факты и делать выводы на основе собранной информации.

Необходимые навыки

Soft

Языки программирования (Python, R). Их используют, когда Excel недостаточно для обработки очень больших объёмов информации.
SQL. PostgreSQL и ClickHouse применяют, чтобы быстро работать с крупными базами данных и выгружать информацию без помощи разработчиков.
Отчетность в BI-системах (Tableau, Power BI, Google Data Studio, Grafana). Они помогают создавать удобные дашборды для визуализации.
Теория вероятностей и статистика. Основы, необходимые для подбора оптимальных методов анализа данных и тестирования гипотез.
Технический склад ума. У вас не должно быть препятствий для изучения смежных направлений. Например, при решении задач бизнеса может пригодиться умение прочитать документацию, использовать разные базы данных или API для автоматизации.
Внимательность и усидчивость. Работа включает в себя много монотонных задач, в которых нельзя допускать просчётов.
Критическое мышление. Необходимо научиться оценивать информацию, проверять источники и расчёты. Нельзя поддаваться когнитивным искажениям.
Продуктовое мышление. Нужно уметь оцифровывать пользовательский опыт в метриках, а также видеть за ними пользователей, чтобы помогать им решать конкретные задачи.
Предпринимательское мышление. Важно знать, как оцифровать бизнес-процессы компании, и понимать изменения на рынке, чтобы связывать их с продуктом и пользователями.
Готовность учиться. Чтобы оставаться востребованным и эффективным специалистом, нужно постоянно осваивать новые инструменты и подходы.
Аналитики данных обычно вырастают из выпускников вузов, получивших образование на программах по прикладной математике, математическому и компьютерному моделированию, вычислительной математике, прикладной информатике, бизнес-аналитике и прогнозированию, аналитике данных и эффективному управлению.

Попасть в профессию можно и с бэкграундом в социальных науках, освоив необходимые аналитические инструменты. Обрести нужные знания можно на программах магистратуры, профессиональной переподготовки или профильных курсах.

Где и сколько учиться

Python for Data Analysis, Wes McKinney. 2nd Edition, 2017.

Автор — разработчик ПО и бизнесмен, создавший библиотеку анализа и обработки данных Pandas для Python. Работа с этим языком программирования — основа книги. Вся теория подкреплена практическими примерами и иллюстрациями. Если вы уже знаете основы Python, разобраться в материале будет проще.

Полезные книги

Microsoft Excel 2019 Data Analysis and Business Modeling, Winston Wayne.

Книга американского учёного научит анализировать и обрабатывать данные, принимать решения, составлять отчёты и строить аналитические модели в Excel. Вы закрепите знания с помощью понятных примеров и практических бизнес-задач. В книге объясняются финансовые и статистические функции Excel, помогающие рассчитать, как увеличить прибыль, сократить затраты и эффективно управлять производством.
Python Data Science Handbook: Essential Tools for Working with Data, Jake VanderPlas.

Автор рассказывает про вычислительные и статистические методы, которые используются для интенсивной обработки данных, научных исследований и передовых разработок. Материал подойдёт тем, кто уже имеет опыт в программировании и хочет использовать Python в сфере Data Science. Вы узнаете о библиотеках IPython, NumPy, Pandas, Matplotlib и Scikit-Learn. Каждая глава книги посвящена конкретному пакету или инструменту, а теорию дополняют примеры.
Data Science from Scratch, Joel Grus.

Доступный материал по Data Science, который необходимо освоить для быстрого старта в профессии. Вы изучите Python, алгебру, матанализ и статистику, а также теорию вероятностей, машинное обучение и не только. Дополнительный акцент сделан на методы анализа социальных сетей, основы баз данных и SQL.
Numsense! Data Science for the Layman: No Math Added, Annalyn Ng.

Это издание не только для профессионалов. Оно пригодится аналитикам, бизнесменам, программистам и непрофильным специалистам. В книге вы найдёте массу алгоритмов, каждому из которых посвящена отдельная глава. Они сопровождаются иллюстрациями и примерами реальных задач.
Creating a Data-Driven Organization: Practical Advice from the Trenches, Carl Anderson. 1st Edition.

Книга для руководителей, менеджеров и аналитиков. Автор рассказывает о цепочке аналитической ценности, которая поможет строить предиктивные бизнес-модели — от сбора и анализа до идей и конкретных обоснованных действий. Вы изучите методы статистики и инструменты визуализации. Также читатели узнают, как нанимать аналитиков с нужными навыками, объединять их в команды и способствовать развитию data-driven-культуры.
Java Data Science Cookbook, Rushdi Shams.

Java может понадобиться, чтобы строить аналитические модели. С помощью библиотек MLlib, Weka и DL4j вы сможете эффективно выполнить все необходимые задачи по обработке информации. В книге собраны рецепты по получению, индексированию, поиску данных, их анализу и извлечению. В конце вас ждет блок по обработке Big Data и визуализации.

Полезные сайты и ресурсы

Dataconomy — сайт с новостями о Data Science, машинном обучении, искусственном интеллекте и big data. Авторы описывают влияние данных на бизнес и повседневную жизнь обычным языком и дают понятные примеры.
KDnuggets крупный ресурс, посвящённый науке о данных. Содержит знания для всех уровней — от начинающих специалистов до профессиональных инженеров. Куратор проекта — Георгий Пятницкий-Шапиро, один из идеологов Data Mining.

Блоги и подкасты

OpenAI Blog — блог одного из наиболее успешных некоммерческих проектов в области исследований искусственного интеллекта. Инженеры компании публикуют статьи с описанием своих работ на понятном широкой аудитории языке.
The Unstructured Data Blog — блог о внедрении Data Science-решений на примере конкретных кейсов, рассказанных компанией-разработчиком. Посты написаны простым языком и будут понятны неспециалистам.
Journey to AI Blog — тематический блог IBM. Авторы объясняют различные проблемы с данными, которые возникают при их сборе, хранении и использовании.
Tldr_tany — канал с короткими и ёмкими статьями по глубокому машинному обучению на русском языке. Публикации ориентированы на специалистов.
«Gonzo-обзоры ML статей» — русскоязычный канал Григория Сапунова и Алексея Тихонова из «Яндекса», где обозревают научные статьи о машинном обучении. Посты больше подойдут специалистам.
DL in NLP — новости и обзоры статей о нейросетях и обработке естественного языка (Natural Language Processing). Канал ведут участники исследовательского проекта DeepPavlov — открытой библиотеки для разговорного искусственного интеллекта, которую разрабатывают в МФТИ.

Бесплатные курсы

Ещё один курс по машинному обучению от Stepik. Школьная программа математики пригодится и здесь.
Курс по анализу данных с помощью R от Stepik. Потребуются базовые знания в области статистики.
Курс от Stepik, который будет полезен тем, кто хочет понять статистику, суть методов статистического анализа данных и возможности их прикладного применения.
Курс по Tableau от Stepik. Вы узнаете, как подключаться к источникам данных, создавать дашборды и отдельные визуализации.
Курс по системе для обработки данных Hadoop от Stepik. Здесь разбирают программы и практические задачи, поэтому нужно уметь читать и писать код на Java и Python. Но если вы знаете только С++ и знакомы с Linux и работой в командной строке, проблем также не возникнет.
Курс по машинному обучению от Stepik. Подойдёт неспециалистам с базовыми знаниями по статистике и программированию на Python для решения практических задач.
Курс по нейросетям от Stepik. Потребуется уверенное знание школьной математики — производных, логарифмов, степеней, линейной алгебре и статистике. Кроме того, необходимо уметь программировать на языке Python 3.