Понятие вариации в статистике. Статистическое изучение вариации
Правила построения рядов распределения
Ряды распределения представляют собой простейшую группировку, в которой каждая выделенная группа характеризуется одним показателем.
Статистический ряд распределения - это упорядоченное распределение единиц совокупности на группы по определенному варьирующему признаку.
В зависимости от признака, положенного в основу образования ряда распределения, различают атрибутивные и вариационные ряды распределения.
Атрибутивными называют ряды распределения, построенные по качественным признакам, то есть признакам, не имеющим числового выражения.
Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам. Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры.
Вариационными рядами называют ряды распределения, построенные по количественному признаку. Любой вариационный ряд состоит из двух элементов: вариантов и частот. Вариантами называются отдельные значения признака, которые он принимает в вариационном ряду, то есть конкретное значение варьирующего признака. Частотами называются численности отдельных вариант или каждой группы вариационного ряда, то есть это числа, которые показывают, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот определяет численность всей совокупности, ее объем. Частностями называются частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частностей равна 1 или 100%.
Правила построения рядов распределения аналогичны правилам построения группировки.
Группировки, построенные за один и тот же период времени, но для разных объектов или, наоборот, для одного объекта, но за два разных периода времени могут оказаться несопоставимыми из-за различного числа выделенных групп или неодинаковости границ интервалов.
Вторичная группировка, или перегруппировка сгруппированных данных применяется для лучшей характеристики изучаемого явления (в случае, когда первоначальная группировка не позволяет четко выявить характер распределения единиц совокупности), либо для приведения к сопоставимому виду группировок с целью проведения сравнительного анализа.
Термин «вариация» произошел от латинского varito -изменение, колеблемость, различие. Однако не всякое различие называется вариацией. Под вариацией в статистике понимают такие количественные изменения величины исследуемого признака в пределах однородной совокупности, которые обусловлены перекрещивающимся влиянием действия различных факторов.
Исследование вариации в статистике имеет важное значение, т.к. дает возможность оценить степень воздействия на данный признак других варьирующих признаков. Определение вариации необходимо при организации выборочного наблюдения, построения статистических моделей, разработке материалов экспертных опросов и т.д.
Средняя величина - это обобщающая характеристика признака изучаемой совокупности. Она не дает представления о том, как отдельные значения изучаемого признака группируются вокруг средней. Поэтому для характеристики колеблемости признака используют показатели вариации.
Различие индивидуальных значений признака внутри изучаемой совокупности в статистике называется вариацией признака. Она возникает в результате того, что его индивидуальные значения складываются под совокупным влиянием разнообразных факторов (условий), которые по-разному сочетаются в каждом отдельном случае.
Колебания отдельных значений характеризуют показатели вариации.
Термин «вариация» произошел от лат. variatio – «изменение, колеблемость, различие». Под вариацией понимают количественные изменения величины исследуемого признака в пределах однородной совокупности, которые обусловлены перекрещивающимся влиянием действия различных факторов. Различают вариацию признака: случайную и систематическую.
Систематическая вариация помогает оценить степень зависимости изменений в изучаемом признаке от определяющих ее факторов.
Для характеристики колеблемости признака используется ряд показателей, такие как размах вариации, определяемый как разность между наибольшим (Хмах) и наименьшим(xmjn) значениями вариантов:
Среднее линейное отклонение определяется как средняя арифметическая из отклонений индивидуальных значений от средней без учета знака этих отклонений.
Меру вариации более объективно отражает показатель дисперсии.
Среднее квадратическое отклонение – это мерило надежности средней.
Для характеристики меры колеблемости изучаемого признака исчисляются показатели колеблемости в относительных величинах, которые позволяют сравнивать характер рассеивания в различных распределениях. Расчет показателей меры относительного рассеивания осуществляют отношением абсолютного показателя рассеивания к средней арифметической и умножают на 100%.
При помощи группировок, подразделив изучаемую совокупность на группы, однородные по признаку-фактору, можно определить три показателя колеблемости признака в совокупности: общую дисперсию, межгрупповую дисперсию и среднюю из внутригруп-повых дисперсий.
Общая дисперсия характеризует вариацию признака, зависящую от всех условий в изучаемой статистической совокупности.
Межгрупповая дисперсия отражает вариацию изучаемого признака, которая возникает под влиянием признака-фактора, положенного в основу группировки, характеризует колеблемость групповых (частных) средних хi и общей средней хо.
Средняя внутригрупповых дисперсий характеризует случайную вариацию в каждой отдельной группе, возникает под влиянием факторов кроме положенного в основу группировки.
Дисперсия альтернативного признака равна произведению доли единиц, обладающих признаком, и доли единиц, не обладающих им.
22. Показатели вариации: абсолютные и относительные
Вариация – различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени.
К показателям вариации относятся:
I группа - абсолютные показатели вариации
- размах вариации
- среднее линейное отклонение
- дисперсия
- среднее квадратическое отклонение
II группа - относительные показатели вариации
- коэффициент вариации
- коэффициент осцилляции
- относительное линейное отклонение
· Для измерения вариации в статистике применяют несколько способов.
· Наиболее простым является расчет показателя размаха вариации Н как разницы между максимальным (X max) и минимальным (X min) наблюдаемыми значениями признака:
· H=X max - X min .
· Однако размах вариации показывает лишь крайние значения признака. Повторяемость промежуточных значений здесь не учитывается.
· Более строгими характеристиками являются показатели колеблемости относительно среднего уровня признака. Простейший показатель такого типа – среднее линейное отклонение Л как среднее арифметическое значение абсолютных отклонений признака от его среднего уровня:
·
· При повторяемости отдельных значений Х используют формулу средней арифметической взвешенной:
· (Напомним, что алгебраическая сумма отклонений от среднего уровня равна нулю.)
· Показатель среднего линейного отклонения нашел широкое применение на практике. С его помощью анализируются, например, состав работающих, ритмичность производства, равномерность поставок материалов, разрабатываются системы материального стимулирования. Но, к сожалению, этот показатель усложняет расчеты вероятностного типа, затрудняет применение методов математической статистики. Поэтому в статистических научных исследованиях для измерения вариации чаще всего применяют показатель дисперсии.
· Дисперсия признака (s 2) определяется на основе квадратической степенной средней:
· .
· Показатель s, равный , называется средним квадратическим отклонением.
· В общей теории статистики показатель дисперсии является оценкой одноименного показателя теории вероятностей и (как сумма квадратов отклонений) оценкой дисперсии в математической статистике, что позволяет использовать положения этих теоретических дисциплин для анализа социально-экономических процессов.
· Если вариация оценивается по небольшому числу наблюдений, взятых из неограниченной генеральной совокупности, то и среднее значение признака определяется с некоторой погрешностью. Расчетная величина дисперсии оказывается смещенной в сторону уменьшения. Для получения несмещенной оценки выборочную дисперсию, полученную по приведенным ранее формулам, надо умножить на величину n / (n - 1). В итоге при малом числе наблюдений (< 30) дисперсию признака рекомендуется вычислять по формуле
· Обычно уже при n > (15÷20) расхождение смещенной и несмещенной оценок становится несущественным. По этой же причине обычно не учитывают смещенность и в формуле сложения дисперсий.
· Если из генеральной совокупности сделать несколько выборок и каждый раз при этом определять среднее значение признака, то возникает задача оценки колеблемости средних. Оценить дисперсию среднего значения можно и на основе всего одного выборочного наблюдения по формуле
· ,
· где n – объем выборки; s 2 – дисперсия признака, рассчитанная по данным выборки.
· Величина носит название средней ошибки выборки и является характеристикой отклонения выборочного среднего значения признака Х от его истинной средней величины. Показатель средней ошибки используется при оценке достоверности результатов выборочного наблюдения.
· Показатели относительного рассеивания. Для характеристики меры колеблемости изучаемого признака исчисляются показатели колеблемости в относительных величинах. Они позволяют сравнивать характер рассеивания в различных распределениях (различные единицы наблюдения одного и того же признака в двух совокупностях, при различных значениях средних, при сравнении разноименных совокупностей). Расчет показателей меры относительного рассеивания осуществляют как отношение абсолютного показателя рассеивания к средней арифметической, умножаемое на 100%.
· 1. Коэффициентом осцилляции отражает относительную колеблемость крайних значений признака вокруг средней
· .
· 2. Относительное линейное отключение характеризует долю усредненного значения признака абсолютных отклонений от средней величины
· .
· 3. Коэффициент вариации:
·
· является наиболее распространенным показателем колеблемости, используемым для оценки типичности средних величин.
· В статистике совокупности, имеющие коэффициент вариации больше 30–35 %, принято считать неоднородными.
· У такого способа оценки вариации есть и существенный недостаток. Действительно, пусть, например, исходная совокупность рабочих, имеющих средний стаж 15 лет, со средним квадратическим отклонением s = 10 лет, «состарилась» еще на 15 лет. Теперь = 30 лет, а среднеквадратическое отклонение по-прежнему равно 10. Совокупность, ранее бывшая неоднородной (10/15 × 100= 66,7%), со временем оказывается, таким образом, вполне однородной (10/30 × 100 = 33,3 %).
Как доказать, что закономерность, полученная при изучении экспериментальных данных, не является результатом совпадения или ошибки экспериментатора, что она достоверна? С таким вопросом сталкиваются начинающие исследователи.Описательная статистика предоставляет инструменты для решения этих задач. Она имеет два больших раздела – описание данных и их сопоставление в группах или в ряду между собой.
Показатели описательной статистики
Существует несколько показателей, которые использует описательная статистика.
Итак, представим, что перед нами стоит задача описать рост всех студентов в группе из десяти человек. Вооружившись линейкой и проведя измерения, мы получаем маленький ряд из десяти чисел (рост в сантиметрах):
168, 171, 175, 177, 179, 187, 174, 176, 179, 169.
Если внимательно посмотреть на этот линейный ряд, то можно обнаружить несколько закономерностей:
- Ширина интервала, куда попадает рост всех студентов, – 18 см.
- В распределении рост наиболее близок к середине этого интервала.
- Встречаются и исключения, которые наиболее близко расположены к верхней или нижней границе интервала.
Совершенно очевидно, что для выполнения задачи по описанию роста студентов в группе нет необходимости приводить все значения, которые будут измеряться. Для этой цели достаточно привести всего два, которые в статистике называются параметрами распределения. Это среднеарифметическое и стандартное отклонение от среднего арифметического. Если обратиться к росту студентов, то формула будет выглядеть следующим образом:
Среднеарифметическое значение роста студентов = (Сумма всех значений роста студентов) / (Число студентов, участвовавших в измерении)
Если свести все к строгим математическим терминам, то определение среднего арифметического (обозначается греческой буквой – μ («мю»)) будет звучать так:
Среднее арифметическое – это отношение суммы всех значений одного признака для всех членов совокупности (X) к числу всех членов совокупности (N).
Если применить эту формулу к нашим измерениям, то получаем, что μ для роста студентов в группе 175,5 см.
Если присмотреться к росту студентов, который мы измерили в предыдущем примере, то понятно, что рост каждого на сколько-то отличается от вычисленного среднего (175,5 см). Для полноты описания нужно понять, какой является разница между средним ростом каждого студента и средним значением.
На первом этапе вычислим параметр дисперсии. Дисперсия в статистике (обозначается σ 2 (сигма в квадрате)) – это отношение суммы квадратов разности среднего арифметического (μ) и значения члена ряда (Х) к числу всех членов совокупности (N). В виде формулы это рассчитывается понятнее:
Значения, которые мы получим в результате вычислений по этой формуле, мы будем представлять в виде квадрата величины (в нашем случае – квадратные сантиметры). Характеризовать рост в сантиметрах квадратными сантиметрами, согласитесь, нелепо. Поэтому мы можем исправить, точнее, упростить это выражение и получим среднеквадратичное отклонение формулу и расчёт, пример:
Таким образом, мы получили величину стандартного отклонения (или среднего квадратичного отклонения) – квадратный корень из дисперсии. С единицами измерения тоже теперь все в порядке, можем посчитать стандартное отклонение для группы:
Получается, что наша группа студентов исчисляется по росту таким образом: 175,50±5,25 см.
Среднее квадратичное отклонение хорошо работает с рядами, в которых разброс значений не очень велик (это хорошо прослеживалось на примере роста, где интервал был всего 18 см). Если бы ряд наших измерений был значительнее, а варьирование роста было сильнее, то стандартное отклонение стало непоказательным и нам потребовался бы критерий, который может отразить разброс в относительных единицах (т. е. в процентах, относительно средней величины).
Для этих целей предусмотрены абсолютные и относительные показатели вариации в статистике, характеризующие вариационные масштабы:
- Размах вариации.
Квадратический коэффициент вариации (обозначается как Vσ) – это отношение среднеквадратичного отклонения к среднеарифметическому значению, выраженное в процентах.
Для нашего примера со студентами, определить Vσ несложно - он будет равен 3,18%. Основная закономерность – чем больше будет изменяться значение коэффициента, тем больше разброс вокруг среднего значения и тем менее однородна выборка.
Преимущество коэффициента вариации в том, что он показывает однородность значений (асимметрия) в ряду наших измерений, кроме того, на него не оказывают влияния масштаб и единицы измерения. Эти факторы делают коэффициент вариации особенно популярным в биомедицинских исследованиях. Будет считаться , что эксцесс значения Vσ =33% отделяет однородные выборки от неоднородных.
Если найти в ряду значений роста (первый пример) максимальное и минимальное значения, то получим размах вариации (обозначается как R, иногда ещё называется колеблемостью). В нашем примере – это значение будет равно 18 см. Эта характеристика используется для расчёта коэффициента осцилляции:
Коэффициент осцилляции – показывает как размах вариации будет относиться к среднему арифметическому ряда в процентном отношении.
Расчёты в Microsoft Ecxel 2016
* — в таблице указан диапазон A1:A10 для примера, при расчётах нужно указать требуемый диапазон.
Итак, обобщим информацию :
- Среднее арифметическое – это значение, позволяющее найти среднее значение показателя в ряду данных.
- Дисперсия – это среднее значение отклонений возведенное в квадрат.
- Стандартное отклонение (среднеквадратичное отклонение) – это корень квадратный из дисперсии, для приведения единиц измерения к одинаковым со среднеарифметическим.
- Коэффициент вариации – значение отклонений от среднего, выраженное в относительных величинах (%).
Отдельно следует отметить, что все приведённые в статье показатели, как правило, не имеют собственного смысла и используются для того, чтобы составлять более сложную схему анализа данных. Исключение из этого правила — коэффициент вариации, который является мерой однородности данных.
Из всех показателей вариации среднеквадратическое отклонение в наибольшей степени используется для проведения других видов статистического анализа. Однако среднеквадратическое отклонение дает абсолютную оценку меры разбросанности значений и чтобы понять, насколько она велика относительно самих значений, требуется относительный показатель. Такой показатель называется он коэффициент вариации .
Формула коэффициента вариации:
Данный показатель измеряется в процентах (если умножить на 100%).
В статистике принято, что, если коэффициент вариации
меньше 10%, то степень рассеивания данных считается незначительной,
от 10% до 20% - средней,
больше 20% и меньше или равно 33% - значительной,
значение коэффициента вариации не превышает 33%, то совокупность считается однородной,
если больше 33%, то – неоднородной.
Средние, рассчитанные для однородной совокупности – значимы, т.е. действительно характеризуют эту совокупность, для неоднородной совокупности – незначимы, не характеризуют совокупность из-за значительного разброса значений признака в совокупности.
Возьмем пример с расчетом среднего линейного отклонения.
И график для напоминания
По этим данным рассчитаем: среднее значение, размах вариации, среднее линейное отклонение, дисперсию и стандартное отклонение.
Среднее значение – это обычная средняя арифметическая.
Размах вариации – разница между максимумом и минимумом:
Среднее линейное отклонение считается по формуле:
Дисперсия считается по формуле:
Среднеквадратическое отклонение – квадратный корень из дисперсии:
Расчет сведем в табличку.
Вариация показателя отражает изменчивость процесса или явления. Ее степень может измеряться с помощью нескольких показателей.
Размах вариации – разница между максимумом и минимумом. Отражает диапазон возможных значений.
Среднее линейное отклонение – отражает среднее из абсолютных (по модулю) отклонений всех значений анализируемой совокупности от их средней величины.
Дисперсия – средний квадрат отклонений.
Среднеквадратическое отклонение – корень из дисперсии (среднего квадрата отклонений).
Коэффициент вариации – наиболее универсальных показатель, отражающий степень разбросанности значений независимо от их масштаба и единиц измерения. Коэффициент вариации измеряется в процентах и может быть использован для сравнения вариации различных процессов и явлений.
Таким образом, в статистическом анализе существует система показателей, отражающих однородность явлений и устойчивость процессов. Часто показатели вариации не имеют самостоятельного смысла и используются для дальнейшего анализа данных. Исключением является коэффициент вариации, который характеризует однородность данных, что является ценной статистической характеристикой.
Вариация - это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени.
Например, работники фирмы различаются по доходам, затратам времени на работу, росту, весу, любимому занятию в свободное время и т.д.
Вариация возникает в результате того, что индивидуальные значения признака складываются под совокупным влиянием разнообразных факторов (условий), которые по-разному сочетаются в каждом отдельном случае. Таким образом, величина каждого варианта объективна.
Исследование вариации в статистике имеет большое значение, помогает познать сущность изучаемого явления. Особенно актуально оно в период формирования многоукладной экономики. Измерение вариации, выяснение его причины, выявление влияния отдельных факторов дает важную информацию (например, о продолжительности жизни людей, доходах и расходах населения, финансовом положении предприятия и т.п.) для принятия научно обоснованных управленческих решений.
Средняя величина дает обобщенную характеристику признака изучаемой совокупности,но она не раскрывает строения совокупности, которое весьма существенно для ее познания. Средняя не показывает, как располагается около нее варианты осредняемого признака, сосредоточены ли они вблизи средней или значительно отклоняются от нее. Средняя величина признака в двух совокупностях может быть одинаковой, но в одном случае все индивидуальные значения отличаются от нее мало, а в другом - эти отличия велики, т.е. в одном случае вариация признака мала, а в другом велика, это весьма важное значение для характеристики надежности средней величины.
Чем больше варианты отдельных единиц совокупности различаются между собой, тем больше они отличаются от своей средней, и наоборот, - тем меньше они отличаются от средней, которая в таком случае будет более реально представлять всю совокупность. Вот почему ограничиваться вычислением одной средней в ряде случаев нельзя. Нужны и другие показатели, характеризующие отклонения отдельных значений от общей средней.
Это можно показать на таком примере. Предположим, что одинаковую работу выполняют две бригады, каждая из трех человек. Пусть количество деталей, шт., изготовленных за смену отдельными рабочими, составляло:
В первой бригаде 95, 100, 105 (???????х1=100 шт.);
Во второй бригаде - 75, 100, 125 (?х2=100 шт.)
Средняя выработка на одного рабочего в обеих бригадах одинакова и составляет 1=2=100 шт., однако колеблемость выработки отдельных рабочих в первой бригаде гораздо меньше, чем во второй.
Поэтому возникает необходимость измерять вариацию признака в совокупностях. Для этой цели в статистике применяют ряд обобщающих показателей:
- * размах вариации;
- *среднее линейное отклонение;
- * дисперсия;
- * среднее квадратическое отклонение;
- *коэффициент вариации.
Самым элементарным показателем вариации признака является размах вариацииR, представляющим собой разность максимальным и минимальным значениями признака:
R = хmax- хmin.
В нашем примере размах вариации сменной выработки деталей составляет: в первой бригаде - R1= 10 шт. (т.е.105-95); во второй бригаде - R2=50 шт. (т.е 125-75), что в 5 раз больше.
Это свидетельствует о том, что при численном равенстве средняя выработка первой бригады более «устойчива». Размах вариации может служить базой расчета возможных резервов роста выработки. Таких резервов больше у второй бригады, поскольку в случае достижения всеми рабочими максимальной для этой бригады выработки деталей, ею может быть изготовлено 375 шт., т.е. (3Ч125), а в первой - только 315 шт., т.е. (3Ч105).
Однако размах вариации показывает лишь крайние отклонения признака и не отражает отклонений всех вариантов в ряду. При изучении вариации нельзя ограничиваться только определением ее размаха. Для анализа вариации необходим показатель, который отражает все колебания варьирующего признака и дает обобщенную характеристику. Простейший показатель такого типа - среднее линейное отклонение.
>Cреднее линейное отклонение представляет собой среднюю арифметическую абсолютных значений отклонений отдельных вариантов от их средней арифметической (при этом всегда предполагают, что среднюю вычитают из варианта: (x -).
Среднее линейное отклонение:
* для несгруппированных данных
где n - число членов ряда;
*для сгруппированных данных
где?f - сумма частот вариационного ряда.
В формулах (2.1) и (2.2) разности в числителе взяты по модулю, (иначе в числителе всегда будет ноль - алгебраическая сумма отклонений вариантов отих средней арифметической). Поэтому среднее линейное отклонение как меру вариации признака применяют в статистической практике редко (только в тех случаях, когда суммирование показателей без учета знаков имеет экономический смысл). С его помощью, например, анализируется состав работающих, ритмичность производства, оборот внешней торговли.
> Дисперсия признака представляет собой средний квадрат отклонений вариантов от их средней величины, она вычисляется поформула простой и взвешенной дисперсий (в зависимости от исходных данных):
*простая дисперсия для несгруппированных данных
*взвешенная дисперсия для вариационного ряда
Техника вычисления дисперсии по формулам (2.3) и (2.4) достаточно сложна, а при больших значениях вариантов и частот может быть громоздкой.
Расчет можно упростить, используя свойства дисперсии (доказываемые в математической статистике). Приведем два из них:
- 1) если все значения признака уменьшить или увеличить на одну и ту же постоянную величину А, то дисперсия от этого не изменится;
- 2) если все значения признака уменьшить или увеличить в одно и тоже число раз (iраз), то дисперсия соответственно уменьшится или увеличится в i2раз.
Дисперсия имеет большое значение в экономическом анализе. В математической статистике важную роль для характеристики качества статистических оценок играет их дисперсия. Ниже, в частности, будет показано разложение дисперсии на соответствующие элементы, позволяющие оценить влияние различных факторов, обуславливающих вариацию признака.
- >Среднее квадратическое отклонение у равно корню квадратному из дисперсии:
- *для несгруппированных данных
*для вариационного ряда
Среднее квадратическое отклонение - это обобщающая характеристика размеров вариации признака в совокупности; оно показывает, на сколько в среднем отклоняются конкретные варианты от их среднего значения; является абсолютной мерой колеблемости признака и выражается в тех же единицах, что и варианты, поэтому экономически хорошо интерпретируется.
>Коэффициент вариации представляет собой выраженное в процентах отношение среднего квадратического отклонения к средней арифметической:
Коэффициент вариации используют не только для сравнительной оценки вариации единиц совокупности, но и как характеристику однородности совокупности. Совокупность считается количественно однородной, если коэффициент вариации не превышает 33%.
Решение задач
Задача 3.6
Пользуясь формулой Стерджесса, определите интервал группировки сотрудников фирмы по уровню доходов, если общая численность составляет 20 человек, а минимальный и максимальный доход соответственно равен 5000 и 30000 рублей.
Согласно формуле Стерджессаn = 1 + 3,322 - lgN,
где n - число групп;
N - число единиц совокупности, определим число групп в коллективе фирмы.
n = 1 + 3,322 - lg 20 = 1 + 3,322 -1,3?3.
Вариация признака (уровень дохода сотрудников) проявляется в сравнительно узких границах и распределение будет носить равномерный характер. Совокупность сотрудников разделится на 3 группировки с равными интервалами. Величина равного интервала определяется по следующей формуле:
h = R/n = (xmax-xmin)/n,
где xmax и xmin- максимальное и минимальное значение признака в совокупности;
n - число групп.
h = (30000 - 5000)/3 = 8333,33.
Итак, величина интервала определена, теперь можно определить границы групп:
- 5000 - 13333,33 1-я группа
- 13333,33 - 21666,66 2-я группа
- 21666,66 - 30000 3-я группа.
Задача 7.4
По результатам зимней экзаменационной сессии одного курса студентов:
Определите:
- а) средний балл оценки знаний студентов;
- б) модальный балл успеваемости и медианное значение балла;
- в) сделайте выводы о характере данногораспределении.
Средний балл найдем по формуле
ар= (2х6 + 3х75 + 4х120 + 5х99)/300 = 1212/300 = 4,04. Средний балл по итогам сессии достаточно высокий и равен 4.
Мода (Mo) - значение признака наиболее часто встречающееся в исследуемой совокупности, т.е., это один из вариантов признака, который в ряду распределения имеет наибольшую частоту (частость).
В дискретном ряду модальное значение определяется визуальнопо максимальной частоте. Соответственно, Mo= 4,т.к в данной совокупности именно эту оценку получило самое большое число студентов в группе.
Медиана (Ме) - значение признака (варианта), приходящееся на середину ранжированной (упорядоченной) совокупности, т.е. это вариант, который делит ряд распределения на две равные по объему части.
Медиана, как и мода, не зависит от крайних значений вариантов, поэтому применяется для характеристики центра в ряду распределения.
Для определения медианы в ранжированном ряду необходимо вначале найти номер медианы по формуле:
N = (300+1)/2 = 150,5
Затем используют кумулятивные частоты Sfили частость Sd.
Зная, чтоN = 150,5, накапливаем частоты до тех пор, пока кумулятивная частотаSfне будет равна этому номеру или превысит его. Следовательно, на 2 балла сдали 6 человек + 75 человек, сдавшие на 3 балла - это 81человек, + 120 человек, сдавшие на 4, равно 201 человек. Таким образом, медиана данного ряда распределения равна 4 баллам, т.е. половина студентов сдали на 2, 3 и 4,а половина на 4 и 5.
Вывод: средний балл,модальное значение и медиана совпадают и равняются 4 баллам. Это говорит о симметричном распределении частот множества.
5.3. Показатели вариации
Целью статистического исследования является выявление основных свойств и закономерностей изучаемой статистической совокупности. В процессе сводной обработки данных статистического наблюдения строят ряды распределения. Различают два типа рядов распределения – атрибутивные и вариационные, в зависимости от того, является ли признак, взятый за основу группировки, качественным или количественным.
Вариационными называют ряды распределения, построенные по количественному признаку. Значения количественных признаков у отдельных единиц совокупности не постоянны, более или менее различаются между собой. Такое различие в величине признака носит название вариации. Отдельные числовые значения признака, встречающиеся в изучаемой совокупности, называют вариантами значений. Наличие вариации у отдельных единиц совокупности обусловлено влиянием большого числа факторов на формирование уровня признака. Изучение характера и степени вариации признаков у отдельных единиц совокупности является важнейшим вопросом всякого статистического исследования. Для описания меры изменчивости признаков используют показатели вариации.
Другой важной задачей статистического исследования является определение роли отдельных факторов или их групп в вариации тех или иных признаков совокупности. Для решения такой задачи в статистике применяются специальные методы исследования вариации, основанные на использовании системы показателей, с помощью которых измеряется вариация. В практике исследователь сталкивается с достаточно большим количеством вариантов значений признака, что не дает представления о распределении единиц по величине признака в совокупности. Для этого проводят расположение всех вариантов значений признака в возрастающем или убывающем порядке. Этот процесс называют ранжированием ряда. Ранжированный ряд сразу дает общее представление о значениях, которые принимает признак в совокупности.
Недостаточность средней величины для исчерпывающей характеристики совокупности заставляет дополнять средние величины показателями, позволяющими оценить типичность этих средних путем измерения колеблемости (вариации) изучаемого признака. Использование этих показателей вариации дает возможность сделать статистический анализ более полным и содержательным и тем самым глубже понять сущность изучаемых общественных явлений.
Самыми простыми признаками вариации являются минимум и максимум – это наименьшее и наибольшее значение признака в совокупности. Число повторений отдельных вариантов значений признаков называют частотой повторения. Обозначим частоту повторения значения признака fi, сумма частот, равная объему изучаемой совокупности будет:
где k – число вариантов значений признака. Частоты удобно заменять частостями – wi. Частость – относительный показатель частоты – может быть выражен в долях единицы или процентах и позволяет сопоставлять вариационные ряды с различным числом наблюдений. Формально имеем:
Для измерения вариации признака применяются различные абсолютные и относительные показатели. К абсолютным показателям вариации относятся среднее линейное отклонение, размах вариации, дисперсия, среднее квадратическое отклонение.
Размах вариации (R) представляет собой разность между максимальным и минимальным значениями признака в изучаемой совокупности: R = Xmax – Xmin. Этот показатель дает лишь самое общее представление о колеблемости изучаемого признака, так как показывает разницу только между предельными значениями вариантов. Он совершенно не связан с частотами в вариационном ряду, т. е. с характером распределения, а его зависимость может придавать ему неустойчивый, случайный характер только от крайних значений признака. Размах вариации не дает никакой информации об особенностях исследуемых совокупностей и не позволяет оценить степень типичности полученных средних величин. Область применения этого показателя ограничена достаточно однородными совокупностями, точнее, характеризует вариацию признака показатель, основанный на учете изменчивости всех значений признака.
Для характеристики вариации признака нужно обобщить отклонения всех значений от какой-либо типичной для изучаемой совокупности величины. Такие показатели
вариации, как среднее линейное отклонение, дисперсия и среднее квадратическое отклонение, основаны на рассмотрении отклонений значений признака отдельных единиц совокупности от средней арифметической.
Среднее линейное отклонение представляет собой среднюю арифметическую из абсолютных значений отклонений отдельных вариантов от их средней арифметической:
– абсолютное значение (модуль) отклонения варианта от средней арифметической; f– частота.
Первая формула применяется, если каждый из вариантов встречается в совокупности только один раз, а вторая – в рядах с неравными частотами.
Существует и другой способ усреднения отклонений вариантов от средней арифметической. Этот очень распространенный в статистике способ сводится к расчету квадратов отклонений вариантов от средней величины с их последующим усреднением. При этом мы получаем новый показатель вариации – дисперсию.
Дисперсия (?2) – средняя из квадратов отклонений вариантов значений признака от их средней величины:
Вторая формула применяется при наличии у вариантов своих весов (или частот вариационного ряда).
В экономико-статистическом анализе вариацию признака принято оценивать чаще всего с помощью среднего квадратического отклонения. Среднее квадратическое отклонение (?) представляет собой корень квадратный из дисперсии:
Среднее линейное и среднее квадратическое отклонения показывают, на сколько в среднем колеблется величина признака у единиц исследуемой совокупности, и выражаются в тех же единицах измерения, что и варианты.
В статистической практике часто возникает необходимость сравнения вариации различных признаков. Например, большой интерес представляет сравнение вариаций возраста персонала и его квалификации, стажа работы и размера заработной платы и т. д. Для подобных сопоставлений показатели абсолютной колеблемости признаков – среднее линейное и среднее квадртическое отклонение – не пригодны. Нельзя, в самом деле, сравнивать колеблемость стажа работы, выражаемую в годах, с колеблемостью заработной платы, выражаемой в рублях и копейках.
При сравнении изменчивости различных признаков в совокупности удобно применять относительные показатели вариации. Эти показатели вычисляются как отношение абсолютных показателей к средней арифметической (или медиане). Используя в качестве абсолютного показателя вариации размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, получают относительные показатели колеблемости:
– наиболее часто применяемый показатель относительной колеблемости, характеризующий однородность совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33 % для распределений, близких к нормальному.