Data Science часто продают как профессию, в которую можно вкатиться через пару курсов, один ноутбук и уверенное владение model.fit().

Технически — да.

Практически — именно так рождаются люди, которые умеют обучить модель, но не умеют понять, почему ей нельзя верить. Хороший DS держится на нескольких слоях:

математика → статистика → python → машинное обучение → визуализация → эксперименты → инженерная культура

Ниже — книжная полка по направлениям. Это не список «прочитать всё перед первым собеседованием», а навигатор: куда смотреть, если хочется не просто вкатиться, а остаться в профессии.

1. Математика для DS

Без математики машинное обучение быстро превращается в религию: гиперпараметры подкручены, метрики улучшились, чудо свершилось.

Начинать стоит не со всей высшей математики сразу, а с четырёх вещей: линейная алгебра, производные, оптимизация и вероятность.

  1. Mathematics for Machine Learning — Deisenroth, Faisal, Ong
  2. Introduction to Linear Algebra — Gilbert Strang
  3. Linear Algebra and Learning from Data — Gilbert Strang
  4. Linear Algebra Done Right — Sheldon Axler
  5. Calculus — James Stewart
  6. Convex Optimization — Boyd, Vandenberghe
  7. Numerical Optimization — Nocedal, Wright
  8. Introduction to Applied Linear Algebra — Boyd, Vandenberghe
  9. Introduction to Probability — Bertsekas, Tsitsiklis
  10. OpenStax Calculus
Если оставить только три:
Mathematics for Machine Learning, Introduction to Linear Algebra, Convex Optimization.

2. Вероятность и статистика

Статистика — это место, где многие DS впервые узнают, что данные не говорят сами за себя.

Обычно они мямлят, шумят, врут, смещены и требуют аккуратного допроса.

  1. Naked Statistics — Charles Wheelan
  2. Think Stats — Allen Downey
  3. Think Bayes — Allen Downey
  4. All of Statistics — Larry Wasserman
  5. Statistical Inference — Casella, Berger
  6. Statistics — Freedman, Pisani, Purves
  7. The Art of Statistics — David Spiegelhalter
  8. Statistical Rethinking — Richard McElreath
  9. Bayesian Data Analysis — Gelman et al.
  10. An Introduction to the Bootstrap — Efron, Tibshirani
Если оставить только три:
Naked Statistics, All of Statistics, Statistical Rethinking.

3. Python и работа с данными

Python в DS — это не просто язык программирования.

Это рабочая поверхность: на ней данные чистят, проверяют, ломают, склеивают, визуализируют и иногда даже понимают.

  1. Python for Data Analysis — Wes McKinney
  2. Python Data Science Handbook — Jake VanderPlas
  3. Python Crash Course — Eric Matthes
  4. Fluent Python — Luciano Ramalho
  5. Effective Python — Brett Slatkin
  6. Python Distilled — David Beazley
  7. High Performance Python — Gorelick, Ozsvald
  8. Effective Pandas — Matt Harrison
  9. Data Science from Scratch — Joel Grus
  10. Fundamentals of Data Visualization — Claus Wilke
Если оставить только три:
Python for Data Analysis, Python Data Science Handbook, Effective Python.

4. Классическое машинное обучение

Машинное обучение начинается не там, где человек импортирует
RandomForestClassifier.

Оно начинается там, где человек понимает, что именно модель оптимизирует,
какую ошибку совершает и почему качество на тесте не всегда означает качество в жизни.

  1. Hands-On Machine Learning — Aurélien Géron
  2. Introduction to Statistical Learning — James, Witten, Hastie, Tibshirani
  3. The Elements of Statistical Learning — Hastie, Tibshirani, Friedman
  4. The Hundred-Page Machine Learning Book — Andriy Burkov
  5. Probabilistic Machine Learning: An Introduction — Kevin Murphy
  6. Pattern Recognition and Machine Learning — Christopher Bishop
  7. Machine Learning — Tom Mitchell
  8. Understanding Machine Learning — Shalev-Shwartz, Ben-David
  9. Machine Learning with PyTorch and Scikit-Learn — Sebastian Raschka
  10. Ensemble Methods — Zhi-Hua Zhou
Если оставить только три:
Hands-On Machine Learning, Introduction to Statistical Learning, The Elements of Statistical Learning.

5. Deep Learning

Deep Learning лучше начинать не с восторга перед трансформерами,
а с простых вопросов.

Что такое loss, gradient descent, backpropagation, regularization, embedding
и почему нейросеть может прекрасно переобучиться на мусоре.

  1. Deep Learning — Goodfellow, Bengio, Courville
  2. Neural Networks and Deep Learning — Michael Nielsen
  3. Deep Learning with Python — François Chollet
  4. Dive into Deep Learning — Zhang, Lipton, Li, Smola
  5. Programming PyTorch for Deep Learning — Ian Pointer
  6. Deep Learning with PyTorch — Stevens, Antiga, Viehmann
  7. Speech and Language Processing — Jurafsky, Martin
  8. Natural Language Processing with Transformers — Tunstall, von Werra, Wolf
  9. Generative Deep Learning — David Foster
  10. Understanding Deep Learning — Simon Prince
Если оставить только три:
Deep Learning, Deep Learning with Python, Dive into Deep Learning.

6. Визуализация и коммуникация данных

Плохая визуализация — это когда правильный анализ выглядит как случайное облако из matplotlib.

Хорошая визуализация — это когда человек понимает вывод до того, как начал читать подпись.

  1. Storytelling with Data — Cole Nussbaumer Knaflic
  2. The Visual Display of Quantitative Information — Edward Tufte
  3. The Truthful Art — Alberto Cairo
  4. How Charts Lie — Alberto Cairo
  5. Fundamentals of Data Visualization — Claus Wilke
  6. Data Visualisation: A Handbook for Data Driven Design — Andy Kirk
  7. Show Me the Numbers — Stephen Few
  8. Information Dashboard Design — Stephen Few
  9. Visualize This — Nathan Yau
  10. Data Visualization: A Practical Introduction — Kieran Healy
Если оставить только три:
Storytelling with Data, The Visual Display of Quantitative Information, Fundamentals of Data Visualization.

7. Продуктовая аналитика, A/B-тесты и causal inference

В реальной работе главный вопрос часто не «какая модель точнее?»,
а «можно ли вообще верить этому выводу?».

И вот здесь начинаются A/B-тесты, смещения, подглядывания, причинность,
метрики, сезонность и прочая взрослая жизнь.

  1. Trustworthy Online Controlled Experiments — Kohavi, Tang, Xu
  2. A/B Testing — Deng, Knoblich, Lu
  3. Causal Inference: The Mixtape — Scott Cunningham
  4. Causal Inference for the Brave and True — Matheus Facure
  5. Mostly Harmless Econometrics — Angrist, Pischke
  6. Causal Inference in Statistics: A Primer — Pearl, Glymour, Jewell
  7. The Book of Why — Judea Pearl
  8. Forecasting: Principles and Practice — Hyndman, Athanasopoulos
  9. Data Science for Business — Provost, Fawcett
  10. Lean Analytics — Croll, Yoskovitz
Если оставить только три:
Trustworthy Online Controlled Experiments, Causal Inference: The Mixtape, Data Science for Business.

8. ML Engineering и MLOps

Модель в ноутбуке — это ещё не продукт. Это, в лучшем случае, красивый эмбрион продукта.

В реальности у модели должны быть данные, пайплайны, мониторинг, деплой, владельцы, документация, алерты и план на случай, если всё сломается в пятницу вечером.

  1. Designing Machine Learning Systems — Chip Huyen
  2. Machine Learning Engineering — Andriy Burkov
  3. Building Machine Learning Powered Applications — Emmanuel Ameisen
  4. Introducing MLOps — Mark Treveil et al.
  5. Practical MLOps — Noah Gift, Alfredo Deza
  6. Designing Data-Intensive Applications — Martin Kleppmann
  7. Building Machine Learning Pipelines — Hapke, Nelson
  8. Machine Learning Design Patterns — Lakshmanan, Robinson, Munn
  9. Reliable Machine Learning — Cathy Chen et al.
  10. Made With ML — Goku Mohandas
Если оставить только три:
Designing Machine Learning Systems, Machine Learning Engineering, Designing Data-Intensive Applications.

Самый короткий must-read для входа в DS

Если не хочется собирать библиотеку Александрийского масштаба,
можно начать с десяти книг:

  1. Mathematics for Machine Learning
  2. Naked Statistics
  3. All of Statistics
  4. Python for Data Analysis
  5. Python Data Science Handbook
  6. Hands-On Machine Learning
  7. Introduction to Statistical Learning
  8. Storytelling with Data
  9. Trustworthy Online Controlled Experiments
  10. Designing Machine Learning Systems

Это уже хороший входной билет в профессию.

Потому что Data Science — это не умение вызвать библиотеку.

Это умение понять, что произошло с данными, где могла появиться ошибка
и почему результату можно или нельзя доверять
.

Иначе получается не Data Scientist, а пикейный аналитик с Jupyter Notebook.