«Центр» набора данных — это также способ описания местоположения. Двумя наиболее широко используемыми мерами «центра» данных являются среднее (среднее) и медиана. Слова «средний» и «средний» часто используются как взаимозаменяемые. Замена одного слова на другое является обычной практикой. Технический термин — «среднее арифметическое», а «среднее» технически относится к местоположению центра. Однако на практике среди нестатистиков «среднее» обычно принимается за «среднее арифметическое».
Еще одним мерилом центра является мода. Режим является наиболее частым значением. Если набор данных имеет два значения, которые встречаются одинаковое количество раз, то набор является бимодальным.
Вычисление среднего и медианы
Чтобы рассчитать средний вес 50 человек, сложите 50 весов вместе и разделите на 50. Чтобы найти медианный вес 50 человек, упорядочьте данные и найдите число, которое разбивает данные на две равные части (ранее обсуждалось в разделе Ящичковые диаграммы в этой главе). Медиана, как правило, является лучшей мерой центра при наличии экстремальных значений или выбросов, поскольку на нее не влияют точные числовые значения выбросов. Среднее значение является наиболее распространенной мерой центра.
Среднее значение также можно вычислить, умножив каждое отдельное значение на его частоту, а затем разделив сумму на общее количество значений данных. Буква, используемая для обозначения примерного среднего значения, представляет собой букву x с чертой над ней (произносится как «x bar»).
Греческая буква μ (произносится как «мяу») обозначает среднее значение численности населения. Одним из требований к тому, чтобы среднее значение выборки было хорошей оценкой среднего генеральной совокупности, является то, что выборка должна быть действительно случайной.
Вы можете быстро найти местоположение медианы с помощью выражения (n+1)/2. Буква n — это общее количество значений данных в выборке. Если n — нечетное число, медиана — это среднее значение упорядоченных данных (упорядоченное от меньшего к большему). Если n является четным числом, медиана равна двум средним значениям, сложенным вместе и разделенному на 2 после того, как данные были упорядочены. Например, если общее количество значений данных равно 97, то (n+1)/2 = (97+1)/2 = 49. Медиана — это 49-е значение в упорядоченных данных. Если общее количество значений данных равно 100, то (n+1)/2 = (100+1)/2 = 50.5. Медиана находится на полпути между 50-м и 51-м значениями. Расположение медианы и значение медианы не одно и то же.
Этот текст адаптирован из Барбара Илловски, доктор философии, Сьюзан Дин, Совместная статистика. OpenStax CNX.
Исследователи часто суммируют свои данные, используя определенную меру центральной тенденции — одну оценку, которая представляет весь набор точек данных.
Наиболее простой мерой является режим — наиболее часто встречающаяся оценка, которая полезна при вычислении итоговых значений для категориальных данных, таких как профессиональная профессия. Здесь режим обозначен как писательский, поскольку он составляет большую часть того, о чем сообщалось о карьере.
Другой мерой является медиана — истинная средняя точка в наборе числовых данных, расположенных в порядке величины. Здесь медиана заработной платы составляет 65 000 долларов, причем половина сотрудников получает зарплату на уровне или выше, а другая половина — на уровне или ниже… этой средней точки. В случаях с четным числом значений медиана определяется средним значением двух средних чисел.
Наконец, наиболее распространенной мерой для числовых данных является среднее арифметическое значение, которое равно общей сумме всех числовых баллов, деленной на количество точек данных.
Например, общая сумма всех доходов будет разделена на количество занятых — в данном случае это даст в среднем 140 000 долларов. Поскольку эта мера учитывает все значения в наборе данных для расчета, исследователи обычно предпочитают сообщать среднее значение.
В нормальном распределении мода, среднее и медиана имеют приблизительно эквивалентные значения и расположены точно в центре кривой. Однако в асимметричных распределениях, когда либо очень высокие, либо очень низкие баллы более распространены и имеют больший вес, эти измерения не равны.
Если бы большинство участников сообщили о низких доходах, среднее значение выросло бы из-за нескольких чрезвычайно высоких показателей дохода. Таким образом, чувствительность среднего к экстремальным значениям может привести к искусственно завышенному или низкому представлению данных. В этом случае медиана или мода будет служить более точным измерением.
В конечном счете, лучшим показателем центральной тенденции является тот, который учитывает закономерность распределения в имеющихся данных.
Related Videos
Research Methods
59.4K Просмотры
Research Methods
11.6K Просмотры
Research Methods
15.4K Просмотры
Research Methods
14.7K Просмотры
Research Methods
16.0K Просмотры
Research Methods
11.9K Просмотры
Research Methods
11.3K Просмотры
Research Methods
8.9K Просмотры
Research Methods
13.0K Просмотры
Research Methods
6.1K Просмотры
Research Methods
10.6K Просмотры
Research Methods
23.0K Просмотры
Research Methods
32.8K Просмотры
Research Methods
10.9K Просмотры
Research Methods
12.7K Просмотры
Research Methods
6.3K Просмотры
Research Methods
16.0K Просмотры
Research Methods
22.2K Просмотры
Research Methods
20.1K Просмотры