Описательная статистика. Классификация задач и методов анализа связей между признаками.


Читайте также:
  1. B) зазор между пластинкой и линзой
  2. BPWIN 4.0 – инструмент системного анализа
  3. Cуть методов численного интегрирования
  4. D) взаимодействием между молекулами на расстоянии
  5. E) тело, размерами которого можно пренебречь в условиях данной задачи
  6. I Создание таблиц и связей таблиц
  7. I. Классификация всех нейронов по местонахождению их аксонов
  8. I. Правоотношения между сонаследниками
  9. I. Рекомендации по решению практических задач
  10. II. Дисконтные методы анализа эффективности инвестиционных проектов.
  11. II. Задачи, возлагаемые на должностных лиц
  12. II. Классификация клеток передних рогов

Одномерные частотные распределения

Описание "поведения" признака

Начальным этапом изучения эмпирических данных, при котором происходит предварительное упорядочивание первичной информации, является одномерный анализ данных, т.е. описание распределений наблюдений ("случаев") вдоль оси интересующего исследователя признака. Основным методом при этом выступает метод статистической группировки.

Метод статистической группировки — распределение единиц изучаемого объекта на однородные группы по существенным для него признакам.

Результатом группировки являются некие частотные распределения, которые обычно описываются тремя показателями:

1. абсолютная частота — число объектов в выборке, обладающих определенным значением какого-либо признака;

2. относительная частота (частость) — доля объектов, обладающих определенным значением какого-либо признака, относительно всех объектов выборки (в процентах или долях);

3. накопленная частота — суммарная доля объектов, обладающих определенными признаками, относительно всех объектов выборки

Цели анализа одномерных распределений:

ü во-первых, для проверки качества выборки,

ü во-вторых, для определения дифференцирующей силы признаков,

ü в-третьих, для определения характера распределения и установления эмпирических закономерностей "поведения" признака относительно изучаемых объектов.

Для представления результатов группировки используют статистические таблицы (таблицы частотных распределений)..

Изменения (вариации признака) могут иметь разный вид: дискретный или непрерывный. Дискретной называется вариация, при которой отдельные значения признака (варианты) отличаются друг от друга на некоторую конечную величину, т.е. даны в виде прерывных чисел (номинальная и порядковая шкалы). Непрерывной называется вариация, при которой значения признака могут отличаться друг от друга на сколь угодно малую величину (интервальные шкалы). При непрерывном изменении значений признака частотное распределение задается по интервалам, т.е. частоты соотносят не с каждым отдельным значением признака, а с рядом значений, попадающих в определенный интервал. При этом большое значение приобретает выбор типа, количества и размеров интервалов. Общее требование к этому выбору состоит в том, чтобы группировка наиболее полно отражала существенные свойства рядов распределения.



Решение этой проблемы связано, в первую очередь, с содержанием задачи, стоящей перед исследователем.

Так, при изучении потребительского поведения могут быть выделены низкодоходные группы (доходы ниже прожиточного минимума до 899 руб.), группы с доходами ниже среднего (например, от уровня прожиточного минимума до средней заработной платы по региону от 900 до 2699 руб.), с уровнем дохода выше среднего (от 2700 до 4449 руб.) и высокодоходные группы (свыше 4500 руб.). Если же изучается влияние уровня образования на доходы населения, целесообразно разбиение на большее количество интервалов, ширина которых одинакова (за исключением крайних). Например, до 1000 руб.; от 1000 до 1999; от 2000 до 2999 и т.д.

Важную роль при выборе способа разбиения на интервалы играет желание сравнить собственные данные с результатами работы других исследователей. В этом случае, способы разбиения диапазонов признаков должны быть одинаковыми.

Существуют и математические методы, помогающие разбить диапазон изменения признака на интервалы.

При делении диапазона значений признака на интервалы необходимо точно обозначать количественные границы группы, избегая таких обозначений границ интервалов, при которых отдельные единицы совокупности могут быть отнесены в две соседние группы.

Например, при разбиении признака “доход” границы интервалов не должны включать одни и те же значения.

Не верно: Верно:
1. менее 1000 1. менее 1000
2. 1000 — 2000 2. 1000 — 2000
3. 2000 — 3000 3. 2001 — 3000
4. … 4. …

Помимо табличного представления частотных распределений используют также различные методы графического представления. Каждый столбик гистограммы (столбиковой диаграммы) соответствует интервалу значений переменной, причем его середина совмещается с серединой данного интервала. Высота столбика отражает частоту (абсолютную или относительную) попадания наблюдавшихся значений переменной в определенный интервал.

Для номинальных и порядковых шкал ширина каждого столбика условно равняется единице, поэтому не учитывается. Точно также строится гистограмма для шкал более высокого уровня, но только в том случае, если диапазон значений разбит на равные интервалы (например, при выделении групп по стажу работы с интервалом 5 лет — "до 5"; "от 6 до 10"; "от 11 до 15" и т.д.) Если же интервалы не равны, гистограмма строится иначе, а именно — по плотности распределения, отражающей число объектов, приходящихся на единицу интервала. Таким образом учитывается ширина соответствующего интервала, следовательно, гистограмма будет иметь другой вид Пример1

Одним из способов графического представления распределения данных является построение эмпирической кривой распределения (полигона) — линии, соединяющей середины интервалов.

А также круговой диаграммы, каждый сектор которой соответствует группе, заданной значением одной группирующей переменной.

Отображение распределений в графическом виде позволяет:

упорядочивать группы по их представительности (объему) в выборке;

определять степень единодушия ответов;

анализировать характер распределения для определения закона распределения данных (теоретического распределения).

Меры центральной тенденции

Для описания одномерных признаков используют простейшие статистические закономерности — меры центральной тенденции. В социологии наиболее часто используются мода, медиана, среднее арифметическое.

Мода (Мо) — наиболее часто встречающееся значение признака, т.е. значение, с которым наиболее вероятно можно встретиться в серии зарегистрированных наблюдений (значение, имеющее наибольшую частоту).

Для номинальной и порядковой шкал модальными являются дискретные значения признака, а для интервальных — модальный интервал — интервал, содержащий моду. При его построении необходимо перейти от содержательных критериев деления на интервалы, к делению по формальным критериям. Интервалы при этом должны иметь одинаковую ширину, а их количество определяется мерой изменчивости признака.

Например, для распределения респондентов по признаку образование (см. таблицу 1) модальным значением будет "среднее специальное" (Мо=2), а по стажу работы (см. таблицу 2) модальным интервалом — "11-15" (Мо=3).

К недостаткам моды относят:

невозможность осуществления арифметических операций со значением моды;

в интервальном вариационном ряду величина моды зависит от интервала группировки;

в вариационном ряду моды может не быть (случай отсутствия преобладающих значений) или может существовать несколько модальных значений.

Медиана — значение признака у той единицы совокупности, которая расположена в середине упорядоченного ряда.

Если в вариационном ряду четное число членов, то медиана равна среднему арифметическому из двух срединных значений признака).

Для порядковых и интервальных шкал вычисляется медианный интервал— интервал, содержащий медиану.

Me = x + k (50 — P) / p , где:

х — нижняя граница медианного интервала;

k — ширина медианного интервала;

Р — частота, накопленная до медианного интервала;

р — частота в медианном интервале.

Среднее арифметическое

Выделяют:

простую среднюю арифметическую — частное от деления суммы всех значений признака на их число и среднюю арифметическую взвешенную — средняя арифметическая ряда, упорядоченного при помощи группировки, определяемая с учетом весов (численности) группы.

Целесообразность использования того или иного типа средней величины зависит от нескольких условий: цели усреднения; вида распределения; уровня измерения признака.

Цель усреднения связана с содержательной трактовкой рассматриваемой задачи, т.е. с ответом на вопрос, для чего используется тот или иной показатель средней тенденции.

Вид распределения также определяет выбор среднего. Например, для унимодального симметричного распределения (половины гистограммы слева и справа от модального значения зеркально совпадают) среднее, медиана и мода будут равны между собой. Для несимметричного распределения их значения будут разными — в правостороннем асимметричном распределении медиана и мода всегда меньше среднего арифметического, в левостороннем асимметрическом распределении — больше. В том случае, если распределение переменной — признака близко к нормальному (крайние большие и малые значения встречаются редко, а средние — часто), то лучшим выбором будет среднее. В случае больших колебаний изучаемого признака следует остановиться на медиане. Этот же показатель следует использовать при нефиксированных крайних значениях интервалов вариационного ряда.

Уровень измерения признака определяет ограничения на содержательную интерпретацию значения среднего. Из курса "Теория измерения" вы должны помнить, что для номинальной шкалы допустимо использование лишь моды, для порядковой — моды и медианы, интервальной — моды, медианы, среднего арифметического.

Сравнение значений средних показателей — является весьма распространенным способом анализа одномерных распределений. Однако сравнение различных мер центральной тенденции, например, медианы и моды недопустимо. Объясняется это тем, что они описывают разные характеристики распределения: мода — наиболее часто встречающееся значение, а медиана — среднее положение. Два однотипных показателя средней тенденции тоже не всегда сравнимы. Средние двух распределений имеет смысл сравнивать, если распределения имеют сходную форму.

Также нельзя сравнивать две средние величины, если одно распределение симметрично, а другое скошено (имеет большие или малые значения в "хвостовых частях"). Хотя значения меры центральной тенденции в том и другом случае может быть одно и тоже, вывод о том, что анализируемая переменная распределена в обоих случаях одинаково будет неверным.

Таким образом, для корректных выводов о характере распределения признака важно знать не только то, что типично для выборки наблюдений, но и то, насколько выражены отклонения от типичных значений. Чтобы определить, насколько точно та или иная мера центральной тенденции описывает распределение, пользуются какой-либо мерой изменчивости, разброса. Иногда их называют также показателями рассеяния (вариации) признака.

Показатели рассеяния (вариации) признака

Меры изменчивости в зависимости от уровня измерения признака условно делятся на две группы.

1. Показатели разброса для шкал низких типов:

— Коэффициент качественной вариации признака, имеющего k взаимоисключающих градаций, указывает на степень неоднородности полученных ответов. При попадании всех ответов в одну градацию J=0, что означало бы полное единство ответов, значение J=1 говорит, что распределение равномерное.

— Коэффициент качественной вариации для альтернативных (дихотомических) признаков

2. Показатели разброса для количественных шкал

Дисперсия — величина, равная среднему значению квадрата отклонений отдельных значений признака от средней арифметической.

Для интервального ряда с равными интервалами вычисление дисперсии производят методом отсчета от условного нуля:

Вычисляют центры интервалов.

Среднее линейное отклонение — средняя арифметическая из абсолютных величин отклонений отдельных значений признака от их средней арифметической.

Коэффициенты вариации

Ряд, у которого коэффициент вариации больше имеет, соответственно, большее рассеяние

Перекрестная классификация

Таблицы сопряженности

В процессе анализа почти всегда возникает необходимость анализа взаимодействия между признаками, основными целями которого является определение:

наличия связи между признаками;

влияния одного признака на другой;

возможности прогнозирования значения одного признака по значению другого.

В самом общем виде связью при анализе данных считают взаимообусловленность значений признаков, полученных на определенной выборке случаев. Изучению связей между переменными уделяется много внимания в любом социологическом исследовании, поскольку это позволяет ответить на вопрос о существующих причинно-следственных отношениях.