Формы представления статистических данных. Формы, виды и способы статистического наблюдения Анализ и обобщение статистических данных экономики Республики Калмыкия
Основные статистические характеристики делят на две основные группы: меры центральной тенденции и характеристики вариации.
Центральную тенденцию выборки позволяют оценить такие статистические характеристики, как среднее арифметическое значение, мода, медиана.
Наиболее просто получаемой мерой центральной тенденции является мода. Мода (Мо) – это такое значение в множестве наблюдений, которое встречается наиболее часто. В совокупности значений (2, 6, 6, 8, 7, 33, 9, 9, 9, 10) модой является 9, потому что оно встречается чаще любого другого значения. В случае, когда все значения в группе встречаются одинаково часто, считают, что эта группа не имеет моды.
Когда два соседних значения в ранжированном ряду имеют одинаковую частоту и они больше частоты любого другого значения, мода есть среднее этих двух значений.
Если два несмежных значения в группе имеют равные частоты, и они больше частот любого значения, то существуют две моды (например, в совокупности значений 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 модами являются 11 и 14); в таком случае группа измерений или оценок является бимодальной .
Наибольшей модой в группе называется единственное значение, которое удовлетворяет определению моды. Однако во всей группе может быть несколько меньших мод. Эти меньшие моды представляют собой локальные вершины распределения частот.
Медиана (Me) – середина ранжированного ряда результатов измерений. Если данные содержат четное число различных значений, то медиана есть точка, лежащая посередине между двумя центральными значениями, когда они упорядочены.
Среднее арифметическое значение для неупорядоченного ряда измерений вычисляют по формуле:
где . Например, для данных 4,1; 4,4; 4,5; 4,7; 4,8 вычислим :
.
Каждая из выше вычисленных мер центра является наиболее пригодной для использования в определенных условиях.
Мода вычисляется наиболее просто – ее можно определить на глаз. Более того, для очень больших групп данных это достаточно стабильная мера центра распределения.
Медиана занимает промежуточное положение между модой и средним с точки зрения ее вычисления. Эта мера получается особенно легко в случае ранжированных данных.
Среднее множество данных предполагает в основном арифметические операции.
На величину среднего влияют значения всех результатов. Медиана и мода не требуют для определения всех значений. Посмотрим, что произойдет со средним, медианой и модой, когда удвоится максимальное значение в следующем множестве:
Множество 1: 1, 3, 3, 5, 6, 7, 8 33/7 5 3
Множество 2: 1, 3, 3, 5, 6, 7, 16 41/7 5 3
На величину среднего особенно влияют результаты, которые называют “выбросами”, т.е. данные, находящиеся далеко от центра группы оценок.
Вычисление моды, медианы или среднего – чисто техническая процедура. Однако выбор из этих трех мер и их интерпретация зачастую требуют определенного размышления. В процессе выбора следует установить следующее:
– в малых группах мода может быть совершенно нестабильной. Например, мода группы: 1, 1, 1, 3, 5, 7, 7, 8 равна 1; но если одна из единиц превратится в нуль, а другая – в два, то мода будет равна 7;
– на медиану не влияют величины “больших” и “малых” значений. Например, в группе из 50 значений медиана не изменится, если наибольшее значение утроится;
– на величину среднего влияет каждое значение. Если одно какое-нибудь значение меняется на c единиц, изменится в том же направлении на c/n единиц;
– некоторые множества данных не имеют центральной тенденции, что часто вводит в заблуждение при вычислении только одной меры центральной тенденции. Особенно это справедливо для групп, имеющих более чем одну моду;
– когда считают, что группа данных является выборкой из большой симметричной группы, среднее выборки, вероятно, ближе к центру большой группы, чем медиана и мода.
Все средние характеристики дают общую характеристику ряда результатов измерений. На практике нас часто интересует, как сильно каждый результат отклоняется от среднего значения. Однако легко можно представить, что две группы результатов измерений имеют одинаковые средние, но различные значения измерений. Например, для ряда 3, 6, 3 – среднее значение = 4; для ряда 5, 2, 5 – также среднее значение = 4, несмотря на существенное различие этих рядов.
Поэтому средние характеристики всегда необходимо дополнять показателями вариации, или колеблемости.
К характеристикам вариации , или колеблемости , результатов измерений относят размах варьирования, дисперсию, среднее квадратическое отклонение, коэффициент вариации, стандартную ошибку средней арифметической.
Самой простой характеристикой вариации является размах варьирования . Его определяют как разность между наибольшим и наименьшим результатами измерений. Однако он улавливает только крайние отклонения, но не отражает отклонений всех результатов.
Чтобы дать обобщающую характеристику, можно вычислить отклонения от среднего результата. Например, для ряда 3, 6, 3 значения будут следующими: 3 – 4 = – 1; 6 – 4 = 2; 3 – 4 = – 1. Сумма этих отклонений (– 1) + 2 + (– 1) всегда равна 0. Чтобы избежать этого, значения каждого отклонения возводят в квадрат: (– 1) 2 + 2 2 + (– 1) 2 = 6.
Значение делает отклонения от средней более явственными: малые отклонения становятся еще меньше (0,5 2 =0,25), а большие – еще больше (5 2 = 25). Получившуюся сумму называют суммой квадратов отклонений . Разделив эту сумму на число измерений, получают средний квадрат отклонений, или дисперсию . Она обозначается s 2 и вычисляется по формуле:
.
Если число измерений не более 30, т.е. n ≤ 30, используется формула:
.
Величина n – 1 = k называется числом степеней свободы , под которым подразумевается число свободно варьирующих членов совокупности. Установлено, что при вычислении показателей вариации один член эмпирической совокупности всегда не имеет степени свободы.
Эти формулы применяются, когда результаты представлены неупорядоченной (обычной) выборкой.
Из характеристик колеблемости наиболее часто используется среднее квадратическое отклонение , которое определяется как положительное значение корня квадратного из значения дисперсии, т.е.:
.
Среднее квадратическое отклонение или стандартное отклонение характеризует степень отклонения результатов от среднего значения в абсолютных единицах и имеет те же единицы измерения, что и результаты измерения.
Однако для сравнения колеблемости двух и более совокупностей, имеющих различные единицы измерения, эта характеристика не пригодна.
Коэффициент вариации определяется как отношение среднего квадратического отклонения к среднему арифметическому, выраженное в процентах. Вычисляется он по формуле:
.
В спортивной практике колеблемость результатов измерений в зависимости от величины коэффициента вариации считают небольшой
(0 – 10 %), средней (11 – 20 %) и большой (V > 20 %).
Коэффициент вариации имеет большое значение в статистической обработке результатов измерений, т. к., будучи величиной относительной (измеряется в процентах), позволяет сравнивать между собой колеблемость результатов измерений, имеющих различные единицы измерения. Коэффициент вариации можно использовать лишь в том случае, если измерения выполнены в шкале отношений.
2.4.2. Анализ статистических данных в MS Excel. Инструменты анализа: описательная статистика, корреляция.
В состав электронных таблиц Microsoft Excel входит так называемый пакет анализа – набор инструментов, предназначенный для решения сложных статистических задач. Данный пакет производит анализ статистических данных с помощью макрофункций и позволяет, выполнив одно действие, получить на выходе большое количество результатов. В пакете анализа, имеющемся в Excel, среди прочих инструментов анализа имеется разделы «Описательная статистика» и «Корреляция».
Инструмент «Описательная статистика» позволяет нам получить значительный перечень рассчитанных статистических характеристик для большого количества числовых рядов. С помощью инструмента «Корреляция» мы получаем корреляционную матрицу, содержащую все возможные парные коэффициенты корреляции. Для k рядов будет получено k (k – 1)/2 коэффициентов корреляции.
Пакет анализа вызывается с помощью пункта меню Сервис – Анализ данных… Если этот пункт меню отсутствует, значит, пакет анализа не установлен. Для его установки надо вызвать пункт меню Сервис – Надстройки… и включить надстройку «Пакет анализа», ОК (см. рисунок 1).
Рисунок 1. Диалоговое окно включения/выключения надстроек
После включения надстройки «Пакет анализа» будет доступен пункт меню Сервис – Анализ данных… При его выборе появляется следующее диалоговое окно (рисунок 2).
Рисунок 2. Диалоговое окно выбора инструмента для анализа данных
После выбора инструмента «Описательная статистика» и нажатия ОК появится еще одно диалоговое окно (рисунок 3), требующее ввода входных данных и места вывода результатов. Здесь достаточно в поле «Входной интервал» ввести диапазон ячеек, содержащих исходные данные. Можно указать диапазон с заголовками столбцов, в этом случае потребуется включить флажок «Метки в первой строке». Для указания выходного интервала достаточно указать только левую верхнюю ячейку диапазона. Результаты вычисления автоматически займут требуемое количество строк и столбцов в таблице.
Рисунок 3. Диалоговое окно инструмента «Описательная статистика»
Рассмотрим работу инструмента анализа «Описательная статистика» на следующем примере. В процессе обследования группы школьников (n = 21) измерялись следующие показатели: рост, масса тела, динамометрия правой и левой руки, жизненная емкость легких, проба Штанге и проба Генчи. Результаты были занесены в таблицу (рисунок 4).
Для получения статистических характеристик воспользуемся пакетом анализа, инструментом «Описательная статистика». В поле «Входной интервал» занесем диапазон ячеек В1:Н22. Так как выделенный входной интервал содержит заголовки столбцов, включаем флажок «Метки в первой строке». Для удобства работы в качестве места выхода результата выбираем «Новый рабочий лист». В качестве выводимых данных отметим флажками «Итоговая статистика» и «Уровень надежности: 95 %». Последний флажок позволит вывести параметры доверительного интервала с доверительной вероятностью 0,95. Полученный результат после небольшого форматирования будет выглядеть так, как показано на рисунке 5.
Рисунок 4. Результаты обследования группы школьников
Рисунок 5. Результат работы инструмента «Описательная статистика»
После выбора инструмента «Корреляция» и нажатия ОК в диалоговом окне «Анализ данных» (рисунки 2, 6) появится еще одно диалоговое окно (рисунок 7), требующее ввода входных данных и места вывода результатов. Здесь достаточно в поле «Входной интервал» ввести диапазон ячеек, содержащих исходные данные. Можно указать диапазон с заголовками столбцов, в этом случае потребуется включить флажок «Метки в первой строке». Для указания выходного интервала достаточо указать только левую верхнюю ячейку диапазона. Результаты вычисления автоматически займут требуемое количество строк и столбцов в таблице.
Рисунок 6. Диалоговое окно выбора инструмента для анализа данных
Рисунок 7. Диалоговое окно инструмента «Корреляция»
Рассмотрим работу инструмента анализа «Корреляция» на примере, представленном на рисунке 4.
Для получения корреляционной матрицы воспользуемся пакетом анализа, инструментом «Корреляция». В поле «Входной интервал» занесем диапазон ячеек В1:Н22. Так как выделенный входной интервал содержит заголовки столбцов, включаем флажок «Метки в первой строке». Для удобства работы в качестве места выхода результата выбираем «Новый рабочий лист». Полученный результат после небольшого форматирования будет выглядеть так, как показано на рисунке 8.
Рисунок 8. Корреляционная матрица
Таким образом, путем выполнения несложных операций мы получаем большое количество результатов вычислений. Стоит отметить, что хотя информационные технологии открывают перед исследователем возможности получения огромного количества информации для анализа, отбор наиболее информативных результатов, окончательная интерпретация и формулировка выводов – работа самого исследователя.
Основные понятия корреляционного анализа экспериментальных данных. Оценка коэффициента корреляции по экспериментальным данным.
В спортивных исследованиях между изучаемыми показателями часто обнаруживается взаимосвязь. Вид ее бывает различным. Например, определение ускорения по известным данным скорости, второй закон Ньютона и другие характеризуют так называемую функциональную зависимость, или взаимосвязь, при которой каждому значению одного показателя соответствует строго определенное значение другого.
К другому виду взаимосвязи относят, например, зависимость веса от длины тела. Одному значению длины тела может соответствовать несколько значений веса и наоборот. В таких случаях, когда одному значению одного показателя соответствует несколько значений другого, взаимосвязь называют статистической .
Изучению статистической взаимосвязи между различными показателями в спортивных исследованиях уделяют большое внимание, поскольку это позволяет вскрыть некоторые закономерности и в дальнейшем описать их как словесно, так и математически с целью использования в практической работе тренера и педагога.
Среди статистических взаимосвязей наиболее важны корреляционные . Корреляция – это статистическая зависимость между случайными величинами, при которой изменение одной из случайных величин приводит к изменению математического ожидания (среднего значения) другой. Например, толкание ядра 3 кг и 5 кг. Улучшение результатов толкания ядра 3 кг вызывает улучшение (в среднем) результата в толкании ядра весом 5 кг.
Статистический метод, который используется для исследования взаимосвязей, называется корреляционным анализом . Основной задачей его является определение формы, тесноты и направленности взаимосвязи изучаемых показателей. Корреляционный анализ позволяет исследовать только статистическую взаимосвязь. Он широко используется в теории тестов для оценки их надежности и информативности. Различные шкалы измерений требуют разных вариантов корреляционного анализа.
Величина коэффициента взаимосвязи рассчитывается с учетом шкалы, использованной для измерений.
Для оценки взаимосвязи, когда измерения производят в шкале отношений или интервалов и форма взаимосвязи линейная, используется коэффициент корреляции Бравэ-Пирсона (коэффициенты корреляции для других шкал измерения в данном пособии не рассматриваются). Обозначается он латинской буквой – r. Вычисление значения r чаще всего производят по формуле:
,
где и – средние арифметические значения показателей x и y, и – средние квадратические отклонения, n – число измерений (испытуемых).
В некоторых случаях тесноту взаимосвязи определяют на основании коэффициента детерминации D, который вычисляется по формуле:
.
Этот коэффициент определяет часть общей вариации одного показателя, которая объясняется вариацией другого показателя. Например, коэффициент корреляции r = –0,677 (между результатами в беге на 30 м с ходу и тройном прыжке с места). Коэффициент детерминации равен:
Следовательно, 45,8 % рассеяния спортивного результата в тройном прыжке объясняется изменением результатов в беге на 30 м. Иными словами, на оба исследуемых признака действуют общие факторы, вызывающие варьирование этих признаков, и доля общих факторов составляет 45,8%. Остальные 100% – 45,8% = 54,2% приходятся на долю факторов, действующих на исследуемые признаки избирательно.
Оценить статистическую достоверность коэффициента корреляции – это значит определить, существует или нет линейная корреляционная связь между генеральными совокупностями или, что то же, установить, существенно или несущественно отличается от нуля коэффициент корреляции между выборками. Эта задача может быть решена с помощью таблиц критических точек распределения коэффициента корреляции в следующем порядке:
1. Выдвигаются статистические гипотезы. Гипотеза Н 0 предполагает отсутствие статистически значимой взаимосвязи между исследуемыми показателями (r ген =0). Гипотеза Н 1 предполагает, что существует статистически достоверная взаимосвязь между показателями (r ген >0).
2. Рассчитывается наблюдаемое значение коэффициента корреляции r набл .
3. Находится по таблице критическое значение коэффициента корреляции r крит в зависимости от объема выборки n , уровня значимости a и вида критической области (односторонняя или двусторонняя).
3. Сравнивается r набл и r крит .
Если r набл < r крит – статистически недостоверным (незначимым). Принимается гипотеза Н 0 Если r набл ≥ r крит , коэффициент корреляции считается статистически достоверным (значимым). Принимается гипотеза Н 1 .
Объектом исследования в прикладной статистике являются статистические данные, полученные в результате наблюдений или экспериментов. Статистические данные – это совокупность объектов (наблюдений, случаев) и признаков (переменных), их характеризующих. Например, объекты исследования – страны мира и признаки, – географические и экономические показатели их характеризующие: континент; высота местности над уровнем моря; среднегодовая температура; место страны в списке по качеству жизни, доли ВВП на душу населения; расходы общества на здравоохранение, образование, армию; средняя продолжительность жизни; доля безработицы, безграмотных; индекс качества жизни и т.д.
Переменные – это величины, которые в результате измерения могут принимать различные значения.
Независимые переменные – это переменные, значения которых в процессе экперимента можно изменять, а зависимые переменные – это переменные, значения которых можно только измерять.
Переменные могут быть измерены в различных шкалах. Различие шкал определяется их информативностью. Рассматривают следующие типы шкал, представленные в порядке возрастания их информативности: номинальная, порядковая, интервальная, шкала отношений, абсолютная. Эти шкалы отличаются друг от друга также и количеством допустимых математических действий. Самая «бедная» шкала – номинальная, так как не определена ни одна арифметическая операция, самя «богатая» – абсолютная.
Измерение в номинальной (классификационной) шкале означает определение принадлежности объекта (наблюдения) к тому или иному классу. Например: пол, род войск, профессия, континент и т.д. В этой шкале можно лишь посчитать количество объектов в классах – частоту и относительную частоту.
Измерение в порядковой (ранговой) шкале, помимо определения класса принадлежности, позволяет упорядочить наблюдения, сравнив их между собой в каком-то отношении. Однако эта шкала не определяет дистанцию между классами, а только то, какое из двух наблюдений предпочтительнее. Поэтому порядковые экспериментальные данные, даже если они изображены цифрами, нельзя рассматривать как числа и выполнять над ними арифметические операции 5 . В этой шкале дополнительно к подсчету частоты объекта можно вычислить ранг объекта. Примеры переменных, измеренных в порядковой шкале: бальные оценки учащихся, призовые места на соревнованиях, воинские звания, место страны в списке по качеству жизни и т.д. Иногда номинальные и порядковые переменные называют категориальными, или группирующими, так как они позволяют произвести разделение объектов исследования на подгруппы.
При измерении в интервальной шкале упорядочивание наблюдений можно выполнить настолько точно, что известны расстояния между любыми двумя их них. Шкала интервалов единственна с точностью до линейных преобразований (y = ax + b). Это означает, что шкала имеет произвольную точку отсчета – условный нуль. Примеры переменных, измеренных в интервальной шкале: температура, время, высота местности над уровнем моря. Над переменными в данной шкале можно выполнять операцию определения расстояния между наблюдениями. Расстояния являются полноправными числами и над ними можно выполнять любые арифметические операции.
Шкала отношений похожа на интервальную шкалу, но она единственна с точностью до преобразования вида y = ax. Это означает, что шкала имеет фиксированную точку отсчета – абсолютный нуль, но произвольный масштаб измерения. Примеры переменных, измеренных в шкале отношений: длина, вес, сила тока, количество денег, расходы общества на здравоохранение, образование, армию, средняя продолжительность жизни и т.д. Измерения в этой шкале – полноправные числа и над ними можно выполнять любые арифметические действия.
Абсолютная шкала имеет и абсолютный нуль, и абсолютную единицу измерения (масштаб). Примером абсолютной шкалы является числовая прямая. Эта шкала безразмерна, поэтому измерения в ней могут быть использованы в качестве показателя степени или основания логарифма. Примеры измерений в абсолютной шкале: доля безработицы; доля безграмотных, индекс качества жизни и т.д.
Большинство статистических методов относятся к методам параметрической статистики, в основе которых лежит предположение, что случайный вектор переменных образует некоторое многомерное распределение, как правило, нормальное или преобразуется к нормальному распределению. Если это предположение не находит подтверждения, следует воспользоваться непараметрическими методами математической статистики.
Корреляционный анализ. Между переменными (случайными величинами) может существовать функциональная связь, проявляющаяся в том, что одна из них определяется как функция от другой. Но между переменными может существовать и связь другого рода, проявляющаяся в том, что одна из них реагирует на изменение другой изменением своего закона распределения. Такую связь называют стохастической. Она появляется в том случае, когда имеются общие случайные факторы, влияющие на обе переменные. В качестве меры зависимости между переменными используется коэффициент корреляции (r), который изменяется в пределах от –1 до +1. Если коэффициент корреляции отрицательный, это означает, что с увеличением значений одной переменной значения другой убывают. Если переменные независимы, то коэффициент корреляции равен 0 (обратное утверждение верно только для переменных, имеющих нормальное распределение). Но если коэффициент корреляции не равен 0 (переменные называются некоррелированными), то это значит, что между переменными существует зависимость. Чем ближе значение r к 1, тем зависимость сильнее. Коэффициент корреляции достигает своих предельных значений +1 или -1, тогда и только тогда, когда зависимость между переменными линейная. Корреляционный анализ позволяет установить силу и направление стохастической взаимосвязи между переменными (случайными величинами). Если переменные измерены, как минимум, в интервальной шкале и имеют нормальное распределение, то корреляционный анализ осуществляется посредством вычисления коэффициента корреляции Пирсона, в противном случае используются корреляции Спирмена, тау Кендала, или Гамма.
Регрессионный анализ.
В регрессионном анализе моделируется взаимосвязь одной случайной переменной от одной или нескольких других случайных переменных. При этом, первая переменная называется зависимой, а остальные – независимыми. Выбор или назначение зависимой и независимых переменных является произвольным (условным) и осуществляется исследователем в зависимости от решаемой им задачи. Независимые переменные называются факторами, регрессорами или предикторами, а зависимая переменная – результативным признаком, или откликом.
Если число предикторов равно 1, регрессию называют простой, или однофакторной, если число предикторов больше 1 – множественной или многофакторной. В общем случае регрессионную модель можно записать следующим образом:
Y = f(x 1 , x 2 , …, x n),
Где y – зависимая переменная (отклик), x i (i = 1,…, n) – предикторы (факторы), n – число предикторов.
Посредством регрессионного анализа можно решать ряд важных для исследуемой проблемы задач:
1). Уменьшение размерности пространства анализируемых переменных (факторного пространства), за счет замены части факторов одной переменной – откликом. Более полно такая задача решается факторным анализом.
2). Количественное измерение эффекта каждого фактора, т.е. множественная регрессия, позволяет исследователю задать вопрос (и, вероятно, получить ответ) о том, «что является лучшим предиктором для...». При этом, становится более ясным воздействие отдельных факторов на отклик, и исследователь лучше понимает природу изучаемого явления.
3). Вычисление прогнозных значений отклика при определенных значениях факторов, т.е. регрессионный анализ, создает базу для вычислительного эксперимента с целью получения ответов на вопросы типа «Что будет, если… ».
4). В регрессионном анализе в более явной форме выступает причинно-следственный механизм. Прогноз при этом лучше поддается содержательной интерпретации.
Канонический анализ. Канонический анализ предназначен для анализа зависимостей между двумя списками признаков (независимых переменных), характеризующих объекты. Например, можно изучить зависимость между различными неблагоприятными факторами и появлением определенной группы симптомов заболевания, или взаимосвязь между двумя группами клинико-лабораторных показателей (синдромов) больного. Канонический анализ является обобщением множественной корреляции как меры связи между одной переменной и множеством других переменных. Как известно, множественная корреляция есть максимальная корреляция между одной переменной и линейной функцией других переменных. Эта концепция была обобщена на случай связи между множествами переменных – признаков, характеризующих объекты. При этом достаточно ограничиться рассмотрением небольшого числа наиболее коррелированных линейных комбинаций из каждого множества. Пусть, например, первое множество переменных состоит из признаков у1, …, ур, второе множество состоит из – х1, …, хq, тогда взаимосвязь между данными множествами можно оценить как корреляцию между линейными комбинациями a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq, которая называется канонической корреляцией. Задача канонического анализа в нахождении весовых коэффициентов таким образом, чтобы каноническая корреляция была максимальной.
Методы сравнения средних.
В прикладных исследованиях часто встречаются случаи, когда средний результат некоторого признака одной серии экспериментов отличается от среднего результата другой серии. Так как средние это результаты измерений, то, как правило, они всегда различаются, вопрос в том, можно ли объяснить обнаруженное расхождение средних неизбежными случайными ошибками эксперимента или оно вызвано определенными причинами. Если идет речь о сравнении двух средних, то можно применять критерий Стьюдента (t-критерий). Это параметрический критерий, так как предполагается, что признак имеет нормальное распределение в каждой серии экспериментов. В настоящее время модным стало применение непараметрических критериев сравнения средних
Сравнение средних результата один из способов выявления зависимостей между переменными признаками, характеризующими исследуемую совокупность объектов (наблюдений). Если при разбиении объектов исследования на подгруппы при помощи категориальной независимой переменной (предиктора) верна гипотеза о неравенстве средних некоторой зависимой переменной в подгруппах, то это означает, что существует стохастическая взаимосвязь между этой зависимой переменной и категориальным предиктором. Так, например, если установлено, что неверна гипотеза о равенстве средних показателей физического и интеллектуального развития детей в группах матерей, куривших и не куривших в период беременности, то это означает, что существует зависимость между курением матери ребенка в период беременности и его интеллектуальным и физическим развитием.
Наиболее общий метод сравнения средних дисперсионный анализ. В терминологии дисперсионного анализа категориальный предиктор называется фактором.
Дисперсионный анализ можно определить как параметрический, статистический метод, предназначенный для оценки влияния различных факторов на результат эксперимента, а также для последующего планирования экспериментов. Поэтому в дисперсионном анализе можно исследовать зависимость количественного признака от одного или нескольких качественных признаков факторов. Если рассматривается один фактор, то применяют однофакторный дисперсионный анализ, в противном случае используют многофакторный дисперсионный анализ.
Частотный анализ. Таблицы частот, или как еще их называют одновходовые таблицы, представляют собой простейший метод анализа категориальных переменных. Таблицы частот могут быть с успехом использованы также для исследования количественных переменных, хотя при этом могут возникнуть трудности с интерпретацией результатов. Данный вид статистического исследования часто используют как одну из процедур разведочного анализа, чтобы посмотреть, каким образом различные группы наблюдений распределены в выборке, или как распределено значение признака на интервале от минимального до максимального значения. Как правило, таблицы частот графически иллюстрируются при помощи гистограмм.
Кросстабуляция (сопряжение) – процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка в построенной таблице представляется единственной комбинацией значений или уровней табулированных переменных. Кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно выявить связи между табулированными переменными и исследовать структуру этой связи. Обычно табулируются категориальные или количественные переменные с относительно небольшим числом значений. Если надо табулировать непрерывную переменную (предположим, уровень сахара в крови), то вначале ее следует перекодировать, разбив диапазон изменения на небольшое число интервалов (например, уровень: низкий, средний, высокий).
Анализ соответствий.
Анализ соответствий по сравнению с частотным анализом содержит более мощные описательные и разведочные методы анализа двухвходовых и многовходовых таблиц. Метод, так же, как и таблицы сопряженности, позволяет исследовать структуру и взаимосвязь группирующих переменных, включенных в таблицу. В классическом анализе соответствий частоты в таблице сопряженности стандартизуются (нормируются) таким образом, чтобы сумма элементов во всех ячейках была равна 1.
Одна из целей анализа соответствий – представление содержимого таблицы относительных частот в виде расстояний между отдельными строками и/или столбцами таблицы в пространстве более низкой размерности.
Кластерный анализ. Кластерный анализ – это метод классификационного анализа; его основное назначение – разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры. Это многомерный статистический метод, поэтому предполагается, что исходные данные могут быть значительного объема, т.е. существенно большим может быть как количество объектов исследования (наблюдений), так и признаков, характеризующих эти объекты. Большое достоинство кластерного анализа в том, что он дает возможность производить разбиение объектов не по одному признаку, а по ряду признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов и позволяет исследовать множество исходных данных практически произвольной природы. Так как кластеры – это группы однородности, то задача кластерного анализа заключается в том, чтобы на основании признаков объектов разбить их множество на m (m – целое) кластеров так, чтобы каждый объект принадлежал только одной группе разбиения. При этом объекты, принадлежащие одному кластеру, должны быть однородными (сходными), а объекты, принадлежащие разным кластерам, – разнородными. Если объекты кластеризации представить как точки в n-мерном пространстве признаков (n – количество признаков, характеризующих объекты), то сходство между объектами определяется через понятие расстояния между точками, так как интуитивно понятно, что чем меньше расстояние между объектами, тем они более схожи.
Дискриминантный анализ. Дискриминантный анализ включает статистические методы классификации многомерных наблюдений в ситуации, когда исследователь обладает так называемыми обучающими выборками. Этот вид анализа является многомерным, так как использует несколько признаков объекта, число которых может быть сколь угодно большим. Цель дискриминантного анализ состоит в том, чтобы на основе измерения различных характеристик (признаков) объекта классифицировать его, т. е. отнести к одной из нескольких заданных групп (классов) некоторым оптимальным способом. При этом предполагается, что исходные данные наряду с признаками объектов содержат категориальную (группирующую) переменную, которая определяет принадлежность объекта к той или иной группе. Поэтому в дискриминантном анализе предусмотрена проверка непротиворечивости классификации, проведенной методом, с исходной эмпирической классификацией. Под оптимальным способом понимается либо минимум математического ожидания потерь, либо минимум вероятности ложной классификации. В общем случае задача различения (дискриминации) формулируется следующим образом. Пусть результатом наблюдения над объектом является построение k-мерного случайного вектора Х = (X1, X2, …, XК), где X1, X2, …, XК – признаки объекта. Требуется установить правило, согласно которому по значениям координат вектора Х объект относят к одной из возможных совокупностей i, i = 1, 2, …, n. Методы дискриминации можно условно разделить на параметрические и непараметрические. В параметрических известно, что распределение векторов признаков в каждой совокупности нормально, но нет информации о параметрах этих распределений. Непараметрические методы дискриминации не требуют знаний о точном функциональном виде распределений и позволяют решать задачи дискриминации на основе незначительной априорной информации о совокупностях, что особенно ценно для практических применений. Если выполняются условия применимости дискриминантного анализа – независимые переменные–признаки (их еще называют предикторами) должны быть измерены как минимум в интервальной шкале, их распределение должно соответствовать нормальному закону, необходимо воспользоваться классическим дискриминантным анализом, в противном случае – методом общие модели дискриминантного анализа.
Факторный анализ. Факторный анализ – один из наиболее популярных многомерных статистических методов. Если кластерный и дискриминантный методы классифицируют наблюдения, разделяя их на группы однородности, то факторный анализ классифицирует признаки (переменные), описывающие наблюдения. Поэтому главная цель факторного анализа – сокращение числа переменных на основе классификация переменных и определения структуры взаимосвязей между ними. Сокращение достигается путем выделения скрытых (латентных) общих факторов, объясняющих связи между наблюдаемыми признаками объекта, т.е. вместо исходного набора переменных появится возможность анализировать данные по выделенным факторам, число которых значительно меньше исходного числа взаимосвязанных переменных.
Деревья классификации. Деревья классификации – это метод классификационного анализа, позволяющий предсказывать принадлежность объектов к тому или иному классу в зависимости от соответствующих значений признаков, характеризующих объекты. Признаки называются независимыми переменными, а переменная, указывающая на принадлежность объектов к классам, называется зависимой. В отличие от классического дискриминантного анализа, деревья классификации способны выполнять одномерное ветвление по переменными различных типов категориальным, порядковым, интервальным. Не накладываются какие-либо ограничения на закон распределения количественных переменных. По аналогии с дискриминантным анализом метод дает возможность анализировать вклады отдельных переменных в процедуру классификации. Деревья классификации могут быть, а иногда и бывают, очень сложными. Однако использование специальных графических процедур позволяет упростить интерпретацию результатов даже для очень сложных деревьев. Возможность графического представления результатов и простота интерпретации во многом объясняют большую популярность деревьев классификации в прикладных областях, однако, наиболее важные отличительные свойства деревьев классификации – их иерархичность и широкая применимость. Структура метода такова, что пользователь имеет возможность по управляемым параметрам строить деревья произвольной сложности, добиваясь минимальных ошибок классификации. Но по сложному дереву, из-за большой совокупности решающих правил, затруднительно классифицировать новый объект. Поэтому при построении дерева классификации пользователь должен найти разумный компромисс между сложностью дерева и трудоемкостью процедуры классификации. Широкая сфера применимости деревьев классификации делает их весьма привлекательным инструментом анализа данных, но не следует полагать, что его рекомендуется использовать вместо традиционных методов классификационного анализа. Напротив, если выполнены более строгие теоретические предположения, налагаемые традиционными методами, и выборочное распределение обладает некоторыми специальными свойствами (например, соответствие распределения переменных нормальному закону), то более результативным будет использование именно традиционных методов. Однако как метод разведочного анализа или как последнее средство, когда отказывают все традиционные методы, Деревья классификации, по мнению многих исследователей, не знают себе равных.
Анализ главных компонент и классификация.
На практике часто возникает задача анализа данных большой размерности. Метод анализ главных компонент и классификация позволяет решить эту задачу и служит для достижения двух целей:
– уменьшение общего числа переменных (редукция данных) для того, чтобы получить «главные» и «некоррелирующие» переменные;
– классификация переменных и наблюдений, при помощи строящегося факторного пространства.
Метод имеет сходство с факторным анализом в постановочной части решаемых задач, но имеет ряд существенных отличий:
– при анализе главных компонент не используются итеративные методы для извлечения факторов;
– наряду с активными переменными и наблюдениями, используемыми для извлечения главных компонент, можно задать вспомогательные переменные и/или наблюдения; затем вспомогательные переменные и наблюдения проектируются на факторное пространство, вычисленное на основе активных переменных и наблюдений;
– перечисленные возможности позволяют использовать метод как мощное средство для классификации одновременно переменных и наблюдений.
Решение основной задачи метода достигается созданием векторного пространства латентных (скрытых) переменных (факторов) с размерностью меньше исходной. Исходная размерность определяется числом переменных для анализа в исходных данных.
Многомерное шкалирование. Метод можно рассматривать как альтернативу факторному анализу, в котором достигается сокращение числа переменных, путем выделения латентных (непосредственно не наблюдаемых) факторов, объясняющих связи между наблюдаемыми переменными. Цель многомерного шкалирования – поиск и интерпретация латентных переменных, дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Показателями сходства объектов на практике могут быть расстояния или степени связи между ними. В факторном анализе сходства между переменными выражаются с помощью матрицы коэффициентов корреляций. В многомерном шкалировании в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов: расстояния, корреляции и т.д. Несмотря на то, что имеется много сходства в характере исследуемых вопросов, методы многомерное шкалирование и факторный анализ имеют ряд существенных отличий. Так, факторный анализ требует, чтобы исследуемые данные подчинялись многомерному нормальному распределению, а зависимости были линейными. Многомерное шкалирование не накладывает таких ограничений, оно может быть применимо, если задана матрица попарных сходств объектов. В терминах различий получаемых результатов факторный анализ стремится извлечь больше факторов – латентных переменных по сравнению с многомерным шкалированием. Поэтому многомерное шкалирование часто приводит к проще интерпретируемым решениям. Однако более существенно то, что метод многомерное шкалирование можно применять к любым типам расстояний или сходств, в то время как факторный анализ требует, чтобы в качестве исходных данных была использована корреляционная матрица переменных или по файлу исходных данных сначала была вычислена матрица корреляций. Основное предположение многомерного шкалирования заключается в том, что существует некоторое метрическое пространство существенных базовых характеристик, которые неявно и послужили основой для полученных эмпирических данных о близости между парами объектов. Следовательно, объекты можно представить как точки в этом пространстве. Предполагают также, что более близким (по исходной матрице) объектам соответствуют меньшие расстояния в пространстве базовых характеристик. Поэтому, многомерное шкалирование – это совокупность методов анализа эмпирических данных о близости объектов, с помощью которых определяется размерность пространства существенных для данной содержательной задачи характеристик измеряемых объектов и конструируется конфигурация точек (объектов) в этом пространстве. Это пространство («многомерная шкала») аналогично обычно используемым шкалам в том смысле, что значениям существенных характеристик измеряемых объектов соответствуют определенные позиции на осях пространства. Логику многомерного шкалирования можно проиллюстрировать на следующем простом примере. Предположим, что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) между некоторыми городами. Анализируя матрицу, надо расположить точки с координатами городов в двумерном пространстве (на плоскости), максимально сохранив реальные расстояния между ними. Полученное размещение точек на плоскости впоследствии можно использовать в качестве приближенной географической карты. В общем случае многомерное шкалирование позволяет таким образом расположить объекты (города в нашем примере) в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно измерить эти расстояния в терминах найденных латентных переменных. Так, в нашем примере можно объяснить расстояния в терминах пары географических координат Север/Юг и Восток/Запад.
Моделирование структурными уравнениями (причинное моделирование).
Наметившийся в последнее время прогресс в области многомерного статистического анализа и анализа корреляционных структур, объединенный с новейшими вычислительными алгоритмами, послужил отправной точкой для создания новой, но уже получившей признание техники моделирования структурными уравнениями (SEPATH). Эта необычайно мощная техника многомерного анализа включает методы из различных областей статистики, множественная регрессия и факторный анализ получили здесь естественное развитие и объединение.
Объектом моделирования структурными уравнениями являются сложные системы, внутренняя структура которых не известна («черный ящик»). Наблюдая параметры системы при помощи SEPATH, можно исследовать ее структуру, установить причинно-следственные взаимосвязи между элементами системы.
Постановка задачи структурного моделирования выглядит следующим образом. Пусть имеются переменные, для которых известны статистические моменты, например, матрица выборочных коэффициентов корреляции или ковариации. Такие переменные называются явными. Они могут быть характеристиками сложной системы. Реальные связи между наблюдаемыми явными переменными могут быть достаточно сложными, однако предполагаем, что имеется некоторое число скрытых переменных, которые с известной степенью точности объясняют структуру этих связей. Таким образом, с помощью латентных переменных строится модель связей между явными и неявными переменными. В некоторых задачах латентные переменные можно рассматривать как причины, а явные – как следствия, поэтому, такие модели называются причинными. Допускается, что скрытые переменные, в свою очередь, могут быть связаны между собой. Структура связей допускается достаточно сложной, однако тип ее постулируется – это связи, описываемые линейными уравнениями. Какие-то параметры линейных моделей известны, какие-то нет, и являются свободными параметрами.
Основная идея моделирования структурными уравнениями состоит в том, что можно проверить, связаны ли переменные Y и X линейной зависимостью Y = aX, анализируя их дисперсии и ковариации. Эта идея основана на простом свойстве среднего и дисперсии: если умножить каждое число на некоторую константу k, среднее значение также умножится на k, при этом стандартное отклонение умножится на модуль k. Например, рассмотрим набор из трех чисел 1, 2, 3. Эти числа имеют среднее, равное 2, и стандартное отклонение, равное 1. Если умножить все три числа на 4, то легко посчитать, что среднее значение будет равно 8, стандартное отклонение – 4, а дисперсия – 16. Таким образом, если есть наборы чисел X и Y, связанные зависимостью Y = 4X, то дисперсия Y должна быть в 16 раз больше, чем дисперсия X. Поэтому можно проверить гипотезу о том, что Y и X связаны уравнением Y = 4X, сравнением дисперсий переменных Y и X. Эта идея может быть различными способами обобщена на несколько переменных, связанных системой линейных уравнений. При этом правила преобразований становятся более громоздкими, вычисления более сложными, но основной смысл остается прежним – можно проверить, связаны ли переменные линейной зависимостью, изучая их дисперсии и ковариации.
Методы анализа выживаемости.
Методы анализа выживаемости первоначально были развиты в медицинских, биологических исследованиях и страховании, но затем стали широко применяться в социальных и экономических науках, а также в промышленности в инженерных задачах (анализ надежности и времен отказов). Представьте, что изучается эффективность нового метода лечения или лекарственного препарата. Очевидно, наиболее важной и объективной характеристикой является средняя продолжительность жизни пациентов с момента поступления в клинику или средняя продолжительность ремиссии заболевания. Для описания средних времен жизни или ремиссии можно было бы использовать стандартные параметрические и непараметрические методы. Однако в анализируемых данных есть существенная особенность – могут найтись пациенты, которые в течение всего периода наблюдения выжили, а у некоторых из них заболевание все еще находится в стадии ремиссии. Также может образоваться группа больных, контакт с которыми был потерян до завершения эксперимента (например, их перевели в другие клиники). При использовании стандартных методов оценки среднего эту группу пациентов пришлось бы исключить, тем самым, потеряв с трудом собранную важную информацию. К тому же большинство этих пациентов являются выжившими (выздоровевшими) в течение того времени, которое их наблюдали, что свидетельствует в пользу нового метода лечения (лекарственного препарата). Такого рода информация, когда нет данных о наступлении интересующего нас события, называется неполной. Если есть данные о наступлении интересующего нас события, то информация называется полной. Наблюдения, которые содержат неполную информацию, называются цензурированными наблюдениями. Цензурированные наблюдения типичны, когда наблюдаемая величина представляет время до наступления некоторого критического события, а продолжительность наблюдения ограничена по времени. Использование цензурированных наблюдений составляет специфику рассматриваемого метода – анализа выживаемости. В данном методе исследуются вероятностные характеристики интервалов времени между последовательным возникновением критических событий. Такого рода исследования называются анализом длительностей до момента прекращения, которые можно определить как интервалы времени между началом наблюдения за объектом и моментом прекращения, при котором объект перестает отвечать заданным для наблюдения свойствам. Цель исследований – определение условных вероятностей, связанных с длительностями до момента прекращения. Построение таблиц времен жизни, подгонка распределения выживаемости, оценивание функции выживания с помощью процедуры Каплана – Мейера относятся к описательным методам исследования цензурированных данных. Некоторые из предложенных методов позволяют сравнивать выживаемость в двух и более группах. Наконец, анализ выживаемости содержит регрессионные модели для оценивания зависимостей между многомерными непрерывными переменными со значениями, аналогичными временам жизни.
Общие модели дискриминантного анализа. Если не выполняются условия применимости дискриминантного анализа (ДА) – независимые переменные (предикторы) должны быть измерены как минимум в интервальной шкале, их распределение должно соответствовать нормальному закону, необходимо воспользоваться методом общие модели дискриминантного анализа (ОДА). Метод имеет такое название, потому что в нем для анализа дискриминантных функций используется общая линейная модель (GLM). В этом модуле анализ дискриминантных функций рассматривается как общая многомерная линейная модель, в которой категориальная зависимая переменная (отклик) представляется векторами с кодами, обозначающими различные группы для каждого наблюдения. Метод ОДА имеет ряд существенных преимуществ перед классическим дискриминантным анализом. Например, не устанавливается никаких ограничений на тип используемого предиктора (категориальный или непрерывный) или на тип определяемой модели, возможен пошаговый выбор предикторов и выбор наилучшего подмножества предикторов, в случае наличия в файле данных кросс-проверочной выборки выбор наилучшего подмножества предикторов можно провести на основе долей ошибочной классификации для кросс-проверочной выборки и т.д.
Временные ряды.
Временные ряды – это наиболее интенсивно развивающееся, перспективное направление математической статистики. Под временным (динамическим) рядом подразумевается последовательность наблюдений некоторого признака Х (случайной величины) в последовательные равноотстоящие моменты t. Отдельные наблюдения называются уровнями ряда и обозначаются хt, t = 1, …, n. При исследовании временного ряда выделяются несколько составляющих:
x t =u t +y t +c t +e t , t = 1, …, n,
где u t – тренд, плавно меняющаяся компонента, описывающая чистое влияние долговременных факторов (убыль населения, уменьшение доходов и т.д.); – сезонная компонента, отражающая повторяемость процессов в течение не очень длительного периода (дня, недели, месяца и т.д.); сt – циклическая компонента, отражающая повторяемость процессов в течение длительных периодов времени свыше одного года; t – случайная компонента, отражающая влияние не поддающихся учету и регистрации случайных факторов. Первые три компоненты представляют собой детерминированные составляющие. Случайная составляющая образована в результате суперпозиции большого числа внешних факторов, оказывающих каждый в отдельности незначительное влияние на изменение значений признака Х. Анализ и исследование временного ряда позволяют строить модели для прогнозирования значений признака Х на будущее время, если известна последовательность наблюдений в прошлом.
Нейронные сети. Нейронные сети представляют собой вычислительную систему, архитектура которой имеет аналогию с построением нервной ткани из нейронов. На нейроны самого нижнего слоя подаются значения входных параметров, на основании которых нужно принимать определенные решения. Например, в соответствии со значениями клинико-лабораторных показателей больного надо отнести его к той или иной группе по степени тяжести заболевания. Эти значения воспринимаются сетью как сигналы, передающиеся в следующий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона верхнего слоя вырабатывается некоторое значение, которое рассматривается как ответ – отклик всей сети на входные параметры. Для того, чтобы сеть работала ее надо «натренировать» (обучить) на данных для которых известны значения входных параметров и правильные отклики на них. Обучение состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов к известным правильным ответам. Нейронные сети могут быть использованы для классификации наблюдений.
Планирование экспериментов. Искусство располагать наблюдения в определенном порядке или проводить специально спланированные проверки с целью полного использования возможностей этих методов и составляет содержание предмета «планирование эксперимента». В настоящее время экспериментальные методы широко используются как в науке, так и в различных областях практической деятельности. Обычно основная цель научного исследования состоит в том, чтобы показать статистическую значимость эффекта воздействия определенного фактора на изучаемую зависимую переменную. Как правило, основная цель планирования экспериментов заключается в извлечении максимального количества объективной информации о влиянии изучаемых факторов на интересующий исследователя показатель (зависимую переменную) с помощью наименьшего числа дорогостоящих наблюдений. К сожалению, на практике, в большинстве случаев, недостаточное внимание уделяется планированию исследований. Собирают данные (столько, сколько могут собрать), а потом уже проводят статистическую обработку и анализ. Но сам по себе правильно проведенный статистический анализ недостаточен для достижения научной достоверности, поскольку качество любой информации, получаемой в результате анализа данных, зависит от качества самих данных. Поэтому планирование экспериментов находит все большее применение в прикладных исследованиях. Целью методов планирования экспериментов является изучение влияния определенных факторов на исследуемый процесс и поиск оптимальных уровней факторов, определяющих требуемый уровень течения данного процесса.
Карты контроля качества. В условиях современного мира чрезвычайно актуальным является проблема качества не только выпускаемой продукции, но и услуг оказываемых населению. От успешного решения этой важной проблемы в значительной степени зависит благополучие любой фирмы, организации или учреждения. Качество продукции и услуг формируется в процессе научных исследований, конструкторских и технологических разработок, обеспечивается хорошей организацией производства и услуг. Но изготовление продукции и оказание услуг независимо от их вида всегда связано с определенным непостоянством условий производства и предоставления. Это приводит к некоторой вариабельности признаков их качества. Поэтому, актуальными являются вопросы разработки методов контроля качества, которые позволят своевременно выявить признаки нарушения технологического процесса или оказания услуг. При этом, для достижения и поддержания высокого уровня качества, удовлетворяющего потребителя нужны методы, направленные не на устранение дефектов готовой продукции и несоответствий услуг, а на предупреждение и прогнозирование причин их появления. Контрольная карта – это инструмент, позволяющий отслеживать ход протекания процесса и воздействовать на него (с помощью соответствующей обратной связи), предупреждая его отклонения от предъявленных к процессу требований. Инструментарий карт контроля качества широко использует статистические методы, основанные на теории вероятностей и математической статистики. Применение статистических методов позволяет при ограниченных объемах анализируемых изделий с заданной степенью точности и достоверности судить о состоянии качества выпускаемой продукции. Обеспечивает прогнозирование, оптимальное регулирование проблем в области качества, принятие верных управленческих решений не на основе интуиции, а при помощи научного изучения и выявления закономерностей в накапливаемых массивах числовой информации. />/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>
Статистические данные могут быть представлены в виде статистических таблиц, статистических графиков и статистических диаграмм.
Статистические таблицы оформляются в результате сводки и группировки имеющихся данных проведенного наблюдения. Статистические таблицы обязательно содержат итоговые показатели и состоят из подлежащего и сказуемого.
Подлежащее таблицы показывает, о чем идет речь в таблице, оно расположено слева и представляет собой содержание строк.
Сказуемое таблицы расположено сверху и представляет собой содержание граф. Сказуемое показывает, какими признаками характеризуется подлежащее.
Статистические графики. Построение статистических графиков является итоговым этапом сводки и группировки статистических данных. Графическое изображение - это самая эффективная форма представления статистических данных с точки зрения их восприятия.
Графиком называют условное, наглядное изображение статистических величин и их соотношений при помощи геометрических линий и фигур.
Каждый график должен включать следующие элементы: графический образ, поле графика, масштабные ориентиры и систему координат.
Графический образ - геометрические знаки, совокупность точек, линии, фигуры, с помощью которых изображаются статистические величины.
Поле графика представляет собой пространство, в котором размещаются геометрические знаки.
Масштабные ориентиры статистического графика определяются масштабом и масштабной шкалой.
Масштаб статистического графика - это мера перевода числовой величины в графическую,
Масштабная шкала - линия, определенные точки которой могут быть прочитаны как определенные числа. Шкала состоит из линии (носителя шкалы) и ряда намеченных на ней точек, расположенных в определенном порядке.
Масштабом равномерной шкалы называется длина отрезка, принятого за единицу и измеренного в каких-либо мерах.
Для размещения геометрических знаков в поле графика необходима система координат. Наиболее распространена система прямоугольных координат.
По способу построения графики делятся на линейные графики, диаграммы, картограммы, картодиаграммы.
К классу линейных графиков относятся: полигон, кумулята и кривая Лоренца.
Полигоном называют ломаную линию, отрезки которой соединяют точки X и/j (X j - значение признака;- частота).
Полигон применяют для дискретного ряда распределения.
Кумулята - ломаная, составленная по накопленным частотам или частостям, координатами точек которой являются Х { и f. (X j - значение признака, для интервального ряда - верхняя граница значений (Х.);/ { - накопленная частота).
Начальная точка ломаной интервального ряда распределения - нижняя граница значения (X ") в первой группе.
Кривой Лоренца , или кривой концентрации, называют кривую относительной концентрации суммарного значения признака. Она представляет собой ломаную, координатами точек которой на оси абсцисс являются накопленные относительные частоты, а на оси ординат - накопленное (нарастающим итогом) значение признака X j .
Чем ближе кривая Лоренца к прямой линии, тем распределение признака более равномерное, т.е. концентрация меньше. Чем кривизна кривой больше, тем распределение более неравномерное, т.е. концентрация больше.
Статистические диаграммы. К классу диаграмм, прежде всего, относят гистограмму (столбиковую диаграмму), а также диаграммы полосовые, ленточные, круговые, линейные, квадратные, секторные, фигурные и др.
Гистограмма - это ступенчатая фигура, состоящая из прямоугольников, основания которых равны величине интервала в группе, а высоты - плотности в группе (абсолютной или относительной).
При построении столбиковых диаграмм данные изображаются в виде столбиков одинаковой ширины, но различной высоты, в зависимости от числовых значений изображаемых величин по определенному масштабу.
Разновидностью столбиковых диаграмм являются ленточные и полосовые диаграммы. Они изображают размеры признака в виде расположенных по горизонтали прямоугольников одинаковой ширины, но различной длины, пропорционально изображаемым величинам. Начало полос должно находиться на одной и той же вертикальной линии.
Секторные диаграммы удобно использовать для изображения структуры явления, в этом случае круг делится на секторы, пропорциональные долям частей явлений. Круг принимается за целое (100%) и разбивается на секторы, дуги которых пропорциональны
значениям отдельных частей изображаемых величин. Дуга каждого сектора (или величина цетрального угла) определяется по формуле
где 360° - площадь круга;
d - удельный вес изображаемого явления в процентах.
Если статистические данные представлены в абсолютных величинах, то формула для определения дуги приобретает вид:
где b - величина изображаемого явления в абсолютных величинах.
Для построения круговых и квадратных диаграмм надо провести предварительные расчеты, так как имеющиеся статистические данные (/)) соответствуют площадям геометрических фигур (кругов или квадратов).
Чтобы построить круг, необходимо найти радиус круга по формуле
Чтобы построить квадрат, необходимо найти сторону квадрата, исходя из формулы площади квадрата:
Знак Варвара применяют для наглядной характеристики трех взаимосвязанных величин - это прямоугольник, в котором основанием является один показатель, высотой - другой, а произведение основания на высоту характеризует величину производного третьего показателя.
Фигурные диаграммы строятся двумя способами: сравниваемые статистические величины (/)) изображаются фигурами - символами разных размеров пропорционально объемам этих совокупностей либо разной численностью одинаковых знаков-символов, каждому из которых придается определенное числовое значение.
Для графического изображения пространственного распределения какого-либо статистического показателя применяют картограммы, которые бывают фоновые и точечные.
Картограмма - это сочетание диаграммы с географической картой.
На фоновых картограммах распределение изучаемого явления по территории изображается различными раскрасками территориаль
ных единиц с разной густотой цвета или штриховкой различной интенсивности.
На точечной картограмме символами графического изображения статистических данных являются точки, размещенные в пределах определенных территориальных единиц. Каждой точке придается конкретное числовое значение.
Картограмма применяется в тех случаях, когда возникает необходимость показать территориальное распределение какого-нибудь одного статистического признака в совокупности для выявления закономерности распределения этого признака.
Автоматизированные способы построения диаграмм. Автоматизированным способом диаграммы можно создать на основе сформированных и сгруппированных в таблице данных наблюдения. Для обеспечения наглядности диаграммы блок данных должен соответствовать определенным требованиям:
- данные должны быть систематизированы по количеству и по группам, столбцам и строкам;
- данные по различным категориям должны быть соизмеримы;
- заголовки таблиц, строк, столбцов должны быть короткими и ясными, чтобы не занимать много места и обеспечивать правильное понимание значений построенной диаграммы;
- данные должны быть расположены в одном или нескольких прямоугольных диапазонах с текстовыми подписями в верхней строке и левом столбце.
В рамках интегрированного пакета Microsoft Office информация электронных таблиц обрабатывается с помощью программы Microsoft Excel. Электронная таблица представляет собой компьютерный эквивалент обычной таблицы.
Табличный процессор - специальная программа (пакет программ), обеспечивающая обработку информации, представленной в табличной форме.
Microsoft Excel определяет первый ряд данных, начиная с первой ячейки в верхнем левом углу имеющегося выделенного диапазона данных, не являющегося датой, и заканчивая остальными выделенными строками и столбцами.
Для построения диаграмм в табличном процессоре предусмотрено применение специального мастера построения диаграмм, использующего графопостроитель Microsoft Graph. Мастер построения диаграмм запускается щелчком по пиктограмме в стандартной панели инструментов. Предварительно рекомендуется выделить диапазон ячеек, содержащих данные, используемые для построения диаграмм. Построение диаграмм производится в четыре этапа:
- 1) выбор типа и вида диаграммы;
- 2) уточнение диапазона данных и расположения рядов в строках или столбцах. Результат построения диаграммы при расположении
рядов в строках и столбцах может существенно различаться. По умолчанию в окне отображается вид диаграммы для выделенного диапазона ячеек. Если предварительное выделение данных не проводилось, необходимо это выполнить в данном окне, щелкнув по пиктограмме стилизованной таблицы в поле Диапазон и выделив данные в таблице. Вкладка «ряд» позволяет добавлять и удалять ряды, указывать диапазоны, в которых представлены соответствующие ряды, метки оси категорий;
- 3) указание заголовка диаграммы и выполнение необходимых подписей;
- 4) размещение диаграммы на листе табличного процессора (на текущем или отдельном рабочем листе).
Для редактирования элементов диаграммы необходимо выполнить двойной щелчок, после этого будет осуществлен переход к соответствующему окну изменения параметров выбранного элемента. Значительную помощь предоставляет контекстно зависимое меню, вызываемое на отдельных элементах диаграммы.
Клиентов, потребителей, – это не просто сбор информации, а полноценное исследование. А целью всякого исследования является научно обоснованная интерпретация изученных фактов. Первичный материал необходимо обработать, а именно упорядочить и проанализировать.После опроса респондентов происходит анализ данных исследования. Это ключевой этап. Он представляет собой совокупность приемов и методов, направленных на то, чтобы проверить, насколько были верны предположения и гипотезы, а также ответить на заданные вопросы. Данный этап является, пожалуй, наиболее сложным с точки зрения интеллектуальных усилий и профессиональной квалификации, однако позволяет получить максимум полезной информации из собранных данных. Методы анализа данных многообразны. Выбор конкретного метода зависит, в первую очередь, от того, на какие вопросы мы хотим получить ответ. Можно выделить два класса процедур анализа:
- одномерные (дескриптивные) и
- многомерные.
Целью одномерного анализа является описание одной характеристики выборки в определенный момент времени. Рассмотрим более подробно.
Одномерные типы анализа данных
Количественные исследования
Дескриптивный анализ
Дескриптивные (или описательные) статистики являются базовым и наиболее общим методом анализа данных. Представьте, что вы проводите опрос с целью составления портрета потребителя товара. Респонденты указывают свой пол, возраст, семейное и профессиональное положение, потребительские предпочтения и т.д., а описательные статистики позволяют получить информацию, на основе которой будет строиться весь портрет. В дополнение к числовым характеристикам создаются разнообразные графики, помогающие визуально представить результаты опроса. Всё это многообразие вторичных данных объединяется понятием «дескриптивный анализ». Полученные в ходе исследования числовые данные наиболее часто представляются в итоговых отчетах в виде частотных таблиц. В таблицах могут быть представлены разные виды частот. Давайте рассмотрим на примере: Потенциальный спрос на товар
- Абсолютная частота показывает, сколько раз тот или иной ответ повторяется в выборке. Например, 23 человека купили бы предложенный товар стоимостью 5000 руб., 41 человек – стоимостью 4500 руб. и 56 человек – 4399 руб.
- Относительная частота показывает, какую долю данное значение составляет от всего объема выборки (23 человека – 19,2%, 41 – 34,2%, 56 – 46,6%).
- Кумулятивная или накопленная частота показывает долю элементов выборки, не превышающих определенное значение. Например, изменение процента респондентов, готовых приобрести тот или иной товар при уменьшении цены на него (19,2% респондентов готовы купить товар за 5000 руб., 53,4% — от 4500 до 5000 руб., и 100% — от 4399 до 5000 руб.).
Наряду с частотами, дескриптивный анализ предполагает расчет различных описательных статистик. Соответствуя своему названию, они предоставляют основную информацию о полученных данных. Уточним, использование конкретной статистики зависит от того, в каких шкалах представлена исходная информация. Номинальная шкала
используется для фиксации объектов, не имеющих ранжированного порядка (пол, место жительства, предпочитаемая марка и т.д.). Для подобного рода массива данных нельзя рассчитать каких-либо значимых статистических показателей, кроме моды
— наиболее часто встречающегося значения переменной. Несколько лучше в плане анализа ситуация обстоит с порядковой шкалой
. Здесь становится возможным, наряду с модой, расчет медианы
– значения, разбивающего выборку на две равные части. Например, при наличии нескольких ценовых интервалов на товар (500-700 руб. руб., 700-900, 900-1100 руб.) медиана позволяет установить точную стоимость, дороже или дешевле которой потребители готовы приобретать или, наоборот, отказаться от покупки. Наиболее богатыми на все возможные статистики являются количественные шкалы
, которые представляют собой ряды числовых значений, имеющих равные интервалы между собой и поддающихся измерению. Примерами подобных шкал могут служить уровень дохода, возраст, время, отводимое на покупки и т.д. В данном случае становятся доступными следующие информационные меры
: среднее, размах, стандартное отклонение, стандартная ошибка среднего. Конечно, язык цифр является довольно «сухим» и для многих весьма непонятным. По этой причине дескриптивный анализ дополняется визуализацией данных путем построения различных диаграмм и графиков, как, например: гистограммы, линейные, круговые или точечные диаграммы.
Таблицы сопряженности и корреляции
Таблицы сопряженности – это средство представления распределения двух переменных, предназначенное для исследования связи между ними. Таблицы сопряженности можно рассматривать как частный тип дескриптивного анализа. В них также является возможным представление информации в виде абсолютных и относительных частот, графическая визуализация в виде гистограмм или точечных диаграмм. Наиболее эффективно таблицы сопряженности проявляют себя в определении наличия взаимосвязи между номинальными переменными (например, между полом и фактом потребления какого-либо продукта). В общем виде таблица сопряженности выглядит так. Зависимость между полом и пользованием страховыми услугами
Ясно, что вполне можно превратить в числа значения признаков, названия которых приведены в столбце "Показатели компании", однако этот переход будет зависеть от исследователя, носить неизбежный налет субъективизма.
Иногда не удается однозначно отнести данные к категоризованным или количественным. Например, в Ветхом Завете, в Четвертой книге Моисея "Числа" указывается количество воинов в различных коленах. С одной стороны, это типичные категоризованные данные, градациями служат названия колен. С другой стороны, эти данные можно рассматривать как количественные, как выборку, их вполне естественно складывать, вычислять среднее арифметическое и т.п.
Описанная ситуация типична. Существует весьма много различных видов статистических данных. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определенного момента, то получаем так называемые цензурированные данные, состоящие из набора чисел - продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Такого рода данные часто используются при оценке и контроле надежности технических устройств.
Описание вида данных и, при необходимости, механизма их порождения - начало любого статистического исследования.
В простейшем случае статистические данные - это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект . Во втором случае говорят о качественном признаке. Используют и более сложные признаки, перечень которых будет расширяться по мере развертывания изложения в учебнике.
Нечисловые статистические данные - это категоризованные данные, векторы разнотипных признаков, бинарные отношения, множества , нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты . Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа , и т.д. (см. "Статистика нечисловых данных").
Сведем информацию об основных областях прикладной статистики в табл.1.2 . Отметим, что модели порождения цензурированных данных входят в состав каждой из рассматриваемых областей.
Показатели компании | Оценка показателя (по отношению к предприятиям отрасли) | Важность (вес) | ||||||
---|---|---|---|---|---|---|---|---|
Очень высокая | Высокая | Средняя | Низкая | Очень низкая | Высокая | Средняя | Низкая | |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Финансы | ||||||||
1. Оценка структуры активов | Х | Х | ||||||
2. Инвестиционная привлекательность | Х | Х | ||||||
3. Доход на активы | Х | Х | ||||||
4. Норма прибыли | Х | Х | ||||||
5. Доход на вложенный капитал | Х | Х | ||||||
Производство | ||||||||
1. Использование оборудования | Х | Х | ||||||
2. Производственные мощности | Х | Х | ||||||
3. Численность персонала | Х | Х | ||||||
4. Система контроля качества | Х | Х | ||||||
5. Возможность расширения производства | Х | Х | ||||||
6. Износ оборудования | Х | Х | ||||||
Организация и управление | ||||||||
1. Численность ИТР и управленческого персонала | Х | Х | ||||||
2. Скорость реакции управления на изменения во внешней среде | Х | Х | ||||||
3. Четкость разделения полномочий и функций | Х | Х | ||||||
4. Качество используемой в управлении информации | Х | Х | ||||||
5. Гибкость оргструктуры управления | Х | Х | ||||||
Маркетинг | ||||||||
1. Доля рынка | Х | Х | ||||||
2. Репутация компании | Х | Х | ||||||
3. Престиж торговой марки | Х | Х | ||||||
4. Стимулирование сбыта | Х | Х | ||||||
5. Численность сбытового персонала | Х | Х | ||||||
6. Уровень цен | Х | Х | ||||||
7. Уровень сервиса | Х | Х | ||||||
8. Число клиентов | Х | Х | ||||||
9. Качество поступающей информации | Х | Х | ||||||
Кадровый состав | ||||||||
1. Уровень квалификации производственного персонала | Х | Х | ||||||
2. Расходы по подготовке и переподготовке персонала | Х | Х | ||||||
3. Уровень подготовке сбытового персонала в технической области | Х | Х | ||||||
Технология | ||||||||
1. Применяемые стандарты | Х | Х | ||||||
2. Новые продукты | Х | Х | ||||||
3. Расходы на |