ddd
В мире есть два вида процессов. Первый из них описывает школьная физика, это так называемые детерминированные процессы - зная все исходные данные, мы можем однозначно предсказать результаты такого процесса. Например, зная высоту, с которой падает маркер, я могу узнать, сколько времени он падает и с какой силой он ударится об пол. Второй вид процессов - это так называемые стохастические, или случайные процессы. Про них мы, как правило, ничего не знаем - или знаем очень мало.

Так получилось, что большинство социальных процессов относится к стохастическим - мы про них либо не знаем ничего, либо знаем какие-то крохи информации.

В статистике есть специальный инструмент, который описывает случайные процессы - это так называемая случайная переменная. Случайная переменная состоит из двух частей - детерминированной и, собственно, случайной. Детерминированная - это то, что мы знаем о процессе, а случайная - то, что не знаем или не хотим знать или отказываемся знать в силу каких-то политических соображений.

Пример случайной величины - сколько человек проголосует за партию "Единая Россия" на думских выборах 2016 года по каждому округу. Мы примерно знаем, какова электоральная поддержка этой партии в округе, мы примерно знаем, какие факторы влияют на эту поддержку, но мы никогда не узнаем, сколько конкретно человек проголосует; в данном случае случайная переменная и будет так описываться - сколько человек проголосовало за "Единую Россию" в избирательном округе номер N. Описывать случайные величины довольно сложно, и любая случайная величина представляется исследователю в виде большой таблицы с данными. Например, мы откроем Excel, и увидим в строчках округа, а в столбиках - доли голосов в этих округах за наши парламентские партии на думских выборах 2016 года.

Чтобы упростить работу исследователя, придумали несколько простых инструментов.

Первое - это распределение случайной переменной. Распределение показывает, с какой частотой какой результат эксперимента происходит. В данном случае результатами является голосование за ту или иную партию, а частота - это просто число людей, проголосовавших за эту или другую партию.

Распределения описываются тремя числами. Первое число, центр распределения, показывает самое характерное значение данной переменной. Центр распределения в нашем примере - это средняя доля голосов за партию "Единая Россия" по всем избирательным округам; мы можем сказать, что средняя доля составляет 60%, а это значит, что придя в какой-то избирательный округ, мы больше всего ждем, что в этом округе за "Единую Россию" проголосует именно 60% избирателей. Второе число, которое описывает распределение случайных переменных, - это разброс. Стандартное отклонение и дисперсия - термины сложные, но объясняют очень простую вещь - то, насколько хорошо центр отражает все распределение случайной переменной. Например, если при среднем в 60% разброс будет высокий, это означает, что в каких-то округах за "Единую Россию" не голосуют совсем, а в каких-то округах за нее голосуют все. Если же разброс будет маленький, это значит, что в каждом округе от 60% результат "Единой России" будет отличаться несильно. Третье число, или математическая формула, если быть точным, описывает т.н. закон распределения случайной переменной. Он просто показывает соответствие между значениями переменной и вероятностью их появления. В данном случае законом распределения будет служить некая гистограмма, на которой по горизонтальной оси отложены различные доли голосов за "Единую Россию", а по вертикали - вероятность того, что такая доля голосов будет достигнута в том или ином округе.

Почему все это полезно? Мы можем посмотреть на центр, разброс и закон распределения случайных переменных, и специальными методами - о них пойдет речь в следующих роликах - можем проверить наличие связи между этими переменными и какими-то другими, например, уровнем дохода населения, наличием определенной политической культуры, наличием административного ресурса и так далее. Помните, на волне протестов 2011 года по поводу выборов в ГосДуму все требовали Гауссова распределения? Предполагается, что все голоса за какую-либо партию имеют нормальное распределение, т.е. большинство округов проголосует каким-то определенным образом, а чем сильнее отличается результат от этого среднего значения, тем меньше таких округов будет в стране. Реальные картинки, которые нам показал ЦИК, сильно отличались от нормального распределения, что позволяло протестующим кричать о многочисленных нарушениях на выборах. Конечно, гипотеза о нормальном распределении голосов за партию до сих пор не доказана, поэтому требования протестующих выглядели странно для специалистов по математической статистике, но позволили очень громко кричать на митингах.

С одной стороны, и это повод для очень пространной критики в адрес количественных методов, нельзя сводить политические процессы к одному числу, например, доле голосов на выборах. С другой стороны, даже это небольшое число позволяет нам делать взвешенные выводы о том, как на самом деле происходит политический процесс, и дне поддаваться на уловки провокаторов.