У специалистов по данным есть сотни распределений вероятностей на выбор. С чего начать?
Распределения вероятностей являются основой статистики, так же как и структуры данных — основой компьютерных наук. Это точка отсчета с которой стоит начать учиться если ты хочешь разговаривать как исследователь данных. Иногда вы можете обойтись простым анализом с использованием R или scikit-learn, не разбираясь в распределениях, точно так же, как вы можете писать программу на Java, не понимая хэш-функций. Но это быстро заканчивается слезами, ошибками, фальшивыми результатами или еще хуже: вздохами и закатыванием глаз экспертов от статистики.
Существуют сотни вероятностных распределений, некоторые из которых похожи на монстров из средневековых легенд, как например, Muth или Lomax. Только около 15 распределений используется стабильно на практике. Что это за распределения, и какие инсайты о них нам следует запомнить?
Итак, что такое распределение вероятности?
Что-то случается постоянно: игральные кости бросаются, идет дождь, прибывает автобус. Когда событие уже произошло, его результаты очевидны: на костях выпало 3 и 4, сегодня было полдюйма дождя, автобусу потребовалось 3 минуты, чтобы прибыть. До этого, мы можем говорить только о том, насколько вероятны результаты. Распределения вероятностей описывают то, что, по нашему мнению, является вероятностью каждого исхода, что иногда интереснее знать, чем просто какой конкретно исход наиболее вероятен. Они бывают разных форм, но всегда одного размера: сумма вероятностей в распределении всегда равна 1.
Например, подбрасывание справедливой монеты имеет два результата: выпадет орел или решка. (При предположении, что монета не может приземлиться на край или быть украденной чайкой в воздухе.) До броска мы полагаем, что вероятность выпадения орла равна 1 из 2-х или 0.5. То же самое верно для решки. Это и есть распределение вероятности между двумя исходами броска монеты, и если вы следовали этому предложению вы уже освоили распределение Бернулли.
Несмотря на экзотические названия, самые распространенные распределения связаны друг с другом интуитивно понятным и интересным образом, что позволяет легко их помнить и высказываться с авторитетным видом. Некоторые из них естественным образом следуют, например, из распределения Бернулли. Пришло время раскрыть карту взаимоотношений.
Каждое распределение иллюстрировано примером своей плотности распределения (PDF). В этом посте речь идет только о распределениях с исходами, состоящими из отдельных чисел. Итак, горизонтальная ось в каждом поле представляет собой набор возможных числовых исходов. Вертикальная ось описывает вероятность исходов. Некоторые распределения являются дискретными, с исходами, которые должны быть целыми числами, например 0 или 5. Они отображаются в виде отдельных линий, по одной для каждого результата, где высота линии — это вероятность этого исхода. Некоторые из них являются непрерывными для исходов, которые могут принимать любое действительное числовое значение, например -1,32 или 0,005. Они выглядят как плотные кривые, где площади под участками кривой дают вероятности. Сумма высот линий или площадей под кривыми для каждого распределения всегда равна 1.
Распечатайте изображение, вырежьте по пунктирной линии и возьмите с собой в кошелек или сумочку. Эта шпаргалка поможет выявлению распределений и их родственников.
Бернулли и равномерное распределения
Выше мы встречались с распределением Бернулли с двумя дискретными исходами — решка или орел. Думайте об этом, однако, как о распределении 0 и 1, например 0 — решка или 1 — орел. Выше оба исхода были равновроятными, и это показано на диаграмме. PDF Бернулли имеет две линии одинаковой высоты, представляющие два равновероятных исхода 0 и 1.
Распределение Бернулли может представлять исходы не являющиеся равновероятными, например, подбрасывание несправедливой монеты. Тогда вероятность выпадения орла равна не 0.5, а какому-то другому значению p, а вероятность выпадения решки равна 1-p. Как и многие распределения, на самом деле это семейство распределений, определяемых параметрами, в этом случае параметром p. Когда вы думаете «Бернулли», просто думайте «(возможно, несправедливое) подбрасывание монеты».
Нужен небольшой шаг, чтобы представить себе распределение по множеству равновероятных результатов: равномерное распределение, характеризующееся плоской PDF. Представьте, что вы бросаете честный кубик. Варианты с 1 по 6 одинаково вероятны. Его можно определить для любого количества результатов n или даже как непрерывное распределение.
Представляйте себе равномерное распределение, как «бросание честного кубика».
Биномиальное и гипергеометрическое распределения
Биномиальное распределение можно представлять как сумму исходов событий следующих распределению Бернулли. Сколько раз выпадет орел, при подбрасывании монеты 20 раз? Подсчет этого результата следует биномиальному распределению. Его параметрами являются n — число попыток и p, вероятность «успеха» (здесь: орел или 1). Каждое подбрасывание — это исход распределенный по Бернулли, или испытание. Вы получите биномиального распределения всегда, когда считаете число успехов в вещах, которые действуют как подбрасывание монет, при условии, что каждое подбрасывание независимо и имеет одинаковую вероятность.
Или представьте урну с одинаковым количеством черных и белых шаров. Закройте глаза, достаньте шар и запомните цвет. Затем положите его обратно и повторите. Сколько раз вы достали черный шар? Этот подсчет тоже следует биномиальному распределению.
Представление этой странной ситуации имеет смысл, поскольку оно упрощает объяснение гипергеометрического распределения. Это распределение тоже о том же подсчете шаров, с одним изменением, мы не возвращаем извлеченные шары. Несомненно, это близкий родственник биномиального распределения, но не совпадающий с ним, поскольку вероятность успеха изменяется по мере извлечения шаров. Если количество шаров велико по сравнению с количеством розыгрышей, распределения аналогичны, потому что шансы на успех мало меняются с каждым розыгрышем.
Когда люди говорят об извлечении шаров из урн без возвращения, почти всегда безопасно можно вставить «гипергеометрическое распределение, да», потому что я никогда не встречал никого, кто бы действительно наполнял урны шарами, а затем вынимал их и возвращал или еще что-то с ними делал. (Я даже не знаю никого, у кого есть урна.) В более широком смысле, это распределение должно приходить на ум при выборе значительной части популяции в качестве выборки.
Пуассоновское распределение
Что насчет количества клиентов звонящих на линию поддержки каждую минуту? Это исход распределение которого кажется биномиальным, если представить каждую секунду как испытание Бернулли во время которого клиент либо не звонит (0) или звонит (1). Однако, как известно энергокомпании, при отключении электричества, двое или даже сотни человек могут позвонить в одну и ту же секунду. Если рассматривать это как 60 000 испытаний по милисекунде, проблема все еще не решена — больше испытаний, меньше вероятность 1 звонка, не говоря уже о двух и более, но все еще технически это не испытание Бернулии. Однако, при доведении этого до бесконечности, логическое заключение работает. Пусть n стремится к бесконечности, а p к нулю, так чтобы np оставалось неизменным. Это похоже на движение к бесконечному количеству бесконечно малых отрезков времени, во время которых вероятность вызова бесконечно мала. Результат получившийся в пределе является распределением Пуассона.
Как и биномиальное, распределение Пуассона это распределение количества — количества раз, когда что-то произошло. Оно параметризуется не вероятностью p и количеством испытаний n, а средней скоростью λ, которая в этой аналогии является просто константой np. Распределение Пуассона, это то, что вы должны иметь ввиду при подсете количества событий за определенный промежуток времени, учитывая постоянную скорость возникновения событий.
Когда пакеты прибывают к маршрутизаторам, или покупатели прибывают в магазин, или что-то ждет в какой-то очереди, подумайте «Пуассон».
Геометрическое и отрицательное биномиальное распределения
Из простых испытаний Бернулли вырастает еще одно распределение. Сколько раз при подбрасывании монеты выпадет решка пока не выпадет первый орел? Это количество решек следует геометрическому распределению. Как и распределение Бернулли оно параметризуется значением p — вероятностью этого финального успеха. Оно не параметризуется n — количеством испытаний или бросков монеты, поскольку количество неудачных испытаний само по себе является исходом.
Если биномиальное распределение это про “Сколько успешных попыток?” то геометрическое — про “Сколько раз провалиться до достижения успеха?”
Отрицательное биномиальное распределение — это просто обобщение. Это количество провалов до достижения не одного, а r успехов. Оно поэтому параметризуется r. Иногда это распределение определяется как количество успехов до r провалов. Как говорит мой лайф-коуч, успех и неудача это то, как вы их определяете, так что эти два определения эквивалентны до тех пор, пока вы четко понимаете, является p вероятностью успеха или неудачи.
Если вам нужно поддержать разговор, вы можете указать, что биномиальное и гипергеометрическое распределения — очевидная пара, но геометрическое и отрицательное биномиальное распределения также довольно похожи, и затем сказать: «Я имею в виду, кто же дает им такие имена?»
Экспоненциальное распределение и распределение Вейбулла
Вернемся к звонкам в службу поддержки: сколько времени пройдет до следующего звонка от клиента? Распределение времени ожидания кажется должно быть геометрическим, поскольку каждая секунда, когда никто не звонит выглядит провалом, вплоть до секунды когда наконец позвонит клиент. Количество неудач, можно рассматривать как количество секунд, в течение которых никто не звонил, и это почти время ожидания до следующего звонка, но всегда не точное. Загвоздка в том, что сумма будет выражаться в целых секундах, но при этом не будет учитываться ожидание внутри секунды, во время которой звонил клиент.
Как и раньше, рассмотрим геометрическое распределение в пределе, доводя временные отрезки до бесконечно малых — это сработает. Вы получите экспоненциальное распределение, которое аккуратно определяет распределение времени до звонка. Это непрерывное распределение, первое, которое тут встретилось, поскольку время исхода не должно быть в целых секундах. Как и распределение Пуассона, оно параметризуется значением λ..
Повторяя биномиально-геометрическую связь, пуасссоновское “Сколько событий за промежуток времени?” относится к экспоненциальному “Сколько времени до события?” Для событий, количество которых за единицу времени соответствует распределению Пуассона, время соответствует экспоненциальному распределению с тем же параметром λ. Это соответствие между двуя распределениями существенно для упоминания при обсуждении каждого из них.
Экспоненциальное распределение мы вспоминаем, когда думаем о «времени до следующего события», или может «времени до отказа». Это настолько важдно, что существуют более общие распределения описывающие время-до-отказа, такие как распределение Вейбулла. В то время, как экспоненциальное распределение подходит когда скорость изнашивания или отказов — постоянная, распределение Вейбулла может моделировать возрастающую (или убывающую) интенсивность ошибок с течением времени. Экспоненциальное распределение — это просто частный случай Вейбулла.
Думай о «Вейбулле» когда разговор заходит о времени-до-отказа.
Нормальное, логнормальное, Стьюдента и хи-квадрат
Нормальное, или Гауссово распределение возможно самое важное из всех. Оно имеет форму колокола и узнаваемо сразу. Как и e, это особенная штука, которая появляется повсюду из, казалось бы, простых источников. Возьмите набор значений из одного распределения — из любого распределения — и просуммируйте их. Распределение этих сумм будет следовать (примерно) нормальному распределению. Чем больше элементов суммируется, тем больше распределение суммы соответствует нормальному. Тот факт, что это правда независимо от исходного распределения, удивителен.
Это свойство называют центральной предельной теоремой и вы должны знать, как эта теорема называется, и что она значит, иначе вас немедленно переспорят.
В этом смысле оно относится ко всем распределениям. Однако, особенно к распределениям сумм. Суммы испытаний Бернулли следуют биномиальному распределению, и с ростом количества испытаний биномиальное распределение становится все больше и больше похожим на нормальное. С гипергеометрическим распределением похожая ситуация. Распределение Пуассона — экстремальная форма биномиального тоже приближается к нормальному распределению при увеличении параметра λ.
Исход, который следует логнормальному распределению, принимает значения, логарифм которых имеет нормальное распределение. Или: возведение в степень нормально распределенного значения распределено нормально логарифмически. Если суммы распределяются нормально, то помните, что произведения распределяются нормально логнормально.
Распределение Стьюдента это основа t-критерия который изучается в других науках многими специалистами не занимающимися статистикой. Оно используется при рассуждениях о среднем нормального распределения и также приближается к нормальному распределению при увеличении параметра. Отличительной чертой t-распредления являются более толстые, чем у нормального распределения хвосты.
Если байка про толстый хвост не является достаточно остроумной, чтобы поразить вашего собеседника, воспользуйтесь интересной предысторией о пиве. Более 100 лет назад, Guinness использовал статистику, чтобы улучшить стаут. Чтобы вырастить лучший ячмень Уильям Сили Госсет разработал совершенно новую теорию статистики. Госсет убедил босса, что другие пивовары не смогут понять, как использовать эти идеи и получил разрешение на публикацию, только под псевдонимом «Стьюдент». Самым известным результатом Госсета стало t-распределение, названное в его честь.
Наконец, распределение хи-квадрат — распределение описывающее суммы квадратов нормально распределенных значений. Это распределение лежащее в основе критерия хи-квадрат который основана на сумме квадратов разностей, которые должны быть нормально распределены.
Гамма и Бета
В этот момент, если вы что-то говорите о хи-квадрат, значит разговор стал серьезным. Вы вероятно разговариваете с настоящими специалистами в статистике, и вы можете отойти с извинениями здесь, потому что могут возникнуть такие штуки как гамма-распределение. Это обобщение экспоненциального и хи-квадрат распределений. Более похожее на экспоненциальное распределение оно используется для сложных моделей времени ожидания. Например, гамма-распределение возникает при моделировании времени до происхождения следующих n событий. Оно возникает в машинном обучении, как сопряжённое априорное распределение для парных распределений.
Не вступайте в разговоры о сопряженных априорных, но если вы это сделаете, будьте уверены, что сейчас начнется разговор о бета-распределении, потому что это сопряженное априорное большинству других упомянутых здесь распределений. С точки зрения дата сайентистов, оно был создано для этого. Вскользь упомяните об этом и двигайтесь к двери.
Начало мудрости
Вероятностные распределения — это то, о чем нельзя знать много. По настоящему интересующимся стоит изучить эту невероятно подробную карту всех одномерных распределений. Надеюсь это шуточное руководство вселит в вас уверенность, что вы будете неплохо осведомленным в современной технической культуре. Или же будет способом с высокой вероятностью определить, пора ли поискать менее занудную коктейльную вечеринку.
Оригинал статьи: Common Probability Distributions: The Data Scientist’s Crib Sheet