При изучении корреляций стараются установить, существует ли какая-то связь между двумя показателями в одной выборке (например, между ростом и весом детей или между уровнем IQ и школьной успеваемостью) либо между двумя различными выборками (например, при сравнении пар близнецов), и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого.

Иными словами, корреляционный анализ помогает установить, можно ли предсказывать возможные значения одного показателя, зная величину другого.

До сих пор при анализе результатов нашего опыта по изучению действия марихуаны мы сознательно игнорировали такой показатель, как время реакции. Между тем было бы интересно проверить, существует ли связь между эффективностью реакций и их быстротой. Это позволило бы, например, утверждать, что чем человек медлительнее, тем точнее и эффективнее будут его действия и наоборот.

С этой целью можно использовать два разных способа: параметрический метод расчета коэффициента Браве - Пирсона (r) и вычисление коэффициента корреляции рангов Спирмена (r s ), который применяется к порядковым данным, т. е. является непараметрическим. Однако разберемся сначала в том, что такое коэффициент корреляции.

Коэффициент корреляции

Коэффициент корреляции - это величина, которая может варьировать в пределах от -1 до 1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной - минус 1. На графике этому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных:

Переменная

В случае же если эти точки не выстраиваются по прямой линии, а образуют «облако», коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления этого облака приближается к нулю:

В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга.

В гуманитарных науках корреляция считается сильной, если ее коэффициент выше 0,60; если же он превышает 0,90, то корреляция считается очень сильной. Однако для того, чтобы можно было делать выводы о связях между переменными, большое значение имеет объем выборки: чем выборка больше, тем достовернее величина полученного коэффициента корреляции. Существуют таблицы с критическими значениями коэффициента корреляции Браве-Пирсона и Спирмена для разного числа степеней свободы (оно равно числу пар за вычетом 2, т. е. n -2). Лишь в том случае, если коэффициенты корреляции больше этих критических значений, они могут считаться достоверными. Так, для того чтобы коэффициент корреляции 0,70 был достоверным, в анализ должно быть взято не меньше 8 пар данных ( = п - 2 = 6) при вычислении r (табл. В.4) и 7 пар данных ( = п - 2 = 5) при вычислении r s (табл. 5 в дополнении Б. 5).

Коэффициент Браве – Пирсона

Для вычисления этого коэффициента применяют следующую формулу (у разных авторов она может выглядеть по-разному):

где XY - сумма произведений данных из каждой пары;

n - число пар;

- средняя для данных переменной X ;

Средняя для данных переменной Y ;

S Х - x ;

s Y - стандартное отклонение для распределения у.

Теперь мы можем использовать этот коэффициент для того, чтобы установить, существует ли связь между временем реакции испытуемых и эффективностью их действий. Возьмем, например, фоновый уровень контрольной группы.

n = 15  15,8  13,4 = 3175,8;

(n 1)S x S y = 14  3,07  2,29 = 98,42;

r =

Отрицательное значение коэффициента корреляции может означать, что чем больше время реакции, тем ниже эффективность. Однако величина его слишком мала для того, чтобы можно было говорить о достоверной связи между этим двумя переменными.

nXY= ………

(n - 1)S X S Y = ……

Какой вывод можно сделать из этих результатов? Если вы считаете, что между переменными есть связь, то какова она - прямая или обратная? Достоверна ли она [см. табл. 4 (в дополнении Б. 5) с критическими значениями r ]?

Коэффициент корреляции рангов Спирмена r s

Этот коэффициент рассчитывать проще, однако результаты получаются менее точными, чем при использовании r. Это связано с тем, что при вычислении коэффициента Спирмена используют порядок следования данных, а не их количественные характеристики и интервалы между классами.

Дело в том, что при использовании коэффициента корреляции рангов Спирмена (r s ) проверяют только, будет ли ранжирование данных для какой-либо выборки таким же, как и в ряду других данных для этой выборки, попарно связанных с первыми (например, будут ли одинаково «ранжироваться» студенты при прохождении ими как психологии, так и математики, или даже при двух разных преподавателях психологии?). Если коэффициент близок к + 1, то это означает, что оба ряда практически совпадают, а если этот коэффициент близок к - 1, можно говорить о полной обратной зависимости.

Коэффициент r s вычисляют по формуле

где d- разность между рангами сопряженных значений признаков (независимо от ее знака), а n -число пар.

Обычно этот непараметрический тест используется в тех случаях, когда нужно сделать какие-то выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения слишком асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент r (в этих случаях бывает необходимо превратить количественные данные в порядковые).

Поскольку именно так обстоит дело с распределением значений эффективности и времени реакции в экспериментальной группе после воздействия, можно повторить расчеты, которые вы уже проделали для этой группы, только теперь не для коэффициента r , а для показателя r s . Это позволит посмотреть, насколько различаются эти два показателя*.

* Следует помнить, что

1) для числа попаданий 1-й ранг соответствует самой высокой, а 15-й-самой низкой результативности, тогда как для времени реакции 1-й ранг соответствует самому короткому времени, а 15-й-самому долгому;

2) данным ex aequo придается средний ранг.

Таким образом, как и в случае коэффициента r, получен положительный, хотя и недостоверный, результат. Какой же из двух результатов правдоподобнее: r = -0,48 или r s = +0,24? Такой вопрос может встать лишь в том случае, если результаты достоверны.

Хотелось бы еще раз подчеркнуть, что сущность этих двух коэффициентов несколько различна. Отрицательный коэффициент r указывает на то, что эффективность чаще всего тем выше, чем время реакции меньше, тогда как при вычислении коэффициента r s требовалось проверить, всегда ли более быстрые испытуемые реагируют более точно, а более медленные - менее точно.

Поскольку в экспериментальной группе после воздействия был получен коэффициент r s , равный 0,24, подобная тенденция здесь, очевидно, не прослеживается. Попробуйте самостоятельно разобраться в данных для контрольной группы после воздействия, зная, что d 2 = 122,5:

; достоверно ли?

Каков ваш вывод?………………………………… ……………………………………………………………

…………………………………………………………………………………………………………………….

Итак, мы рассмотрели различные параметрические и непараметрические статистические методы, используемые в психологии. Наш обзор был весьма поверхностным, и главная задача его заключалась в том, чтобы читатель понял, что статистика не так страшна, как кажется, и требует в основном здравого смысла. Напоминаем, что данные «опыта», с которыми мы здесь имели дело, - вымышленные и не могут служить основанием для каких-либо выводов. Впрочем, подобный эксперимент стоило бы действительно провести. Поскольку для этого опыта была выбрана сугубо классическая методика, такой же статистический анализ можно было бы использовать во множестве различных экспериментов. В любом случае нам кажется, что мы наметили какие-то главные направления, которые могут оказаться полезны тем, кто не знает, с чего начать статистический анализ полученных результатов.

Существуют три главных раздела статистики: описательная статистика, индуктивная статистика и корреляционный анализ.

В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).

Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).

Понятие о корреляционном анализе

Существует множество Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.

Понятие о ложности корреляции

При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.

В этом случае говорят о ложной корреляции.

Задачи корреляционного анализа

Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.

Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:

  • выявление факторов, оказывающих наибольшее влияние на результативный признак;
  • выявление неизученных ранее причин связей;
  • построение корреляционной модели с ее параметрическим анализом;
  • исследование значимости параметров связи и их интервальная оценка.

Связь корреляционного анализа с регрессионным

Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами. Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод

Условия использования метода

Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.

Правила отбора факторов корреляционного анализа

При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.

Отображение результатов

Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.

При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.

Трехмерное представление диаграммы разброса (рассеивания)

Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.

Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.

Оценка тесноты связи

Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.

Пример применения метода корреляционного анализа

В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.

Исходные данные для корреляционного анализа

Профессиональная группа

смертность

Фермеры, лесники и рыбаки

Шахтеры и работники карьеров

Производители газа, кокса и химических веществ

Изготовители стекла и керамики

Работники печей, кузнечных, литейных и прокатных станов

Работники электротехники и электроники

Инженерные и смежные профессии

Деревообрабатывающие производства

Кожевенники

Текстильные рабочие

Изготовители рабочей одежды

Работники пищевой, питьевой и табачной промышленности

Производители бумаги и печати

Производители других продуктов

Строители

Художники и декораторы

Водители стационарных двигателей, кранов и т. д.

Рабочие, не включенные в другие места

Работники транспорта и связи

Складские рабочие, кладовщики, упаковщики и работники разливочных машин

Канцелярские работники

Продавцы

Работники службы спорта и отдыха

Администраторы и менеджеры

Профессионалы, технические работники и художники

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

Использование ПО при проведении корреляционного анализа

Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный предполагает вычисление следующих парамет-ров с использованием функций:

1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ (массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.

Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию с теми же массивами.

Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».

После указания исходных данных получаем график.

2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).

3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.

В заключение

Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.

После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины. Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel. Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.

Коэффициент корреляции - это степень связи между двумя переменными. Его расчет дает представление о том, есть ли зависимость между двумя массивами данных. В отличие от регрессии, корреляция не позволяет предсказывать значения величин. Однако расчет коэффициента является важным этапом предварительного статистического анализа. Например, мы установили, что коэффициент корреляции между уровнем прямых иностранных инвестиций и темпом роста ВВП является высоким. Это дает нам представление о том, что для обеспечения благосостояния нужно создать благоприятный климат именно для зарубежных предпринимателей. Не такой уж и очевидный вывод на первый взгляд!

Корреляция и причинность

Пожалуй, нет ни одной сферы статистики, которая бы так прочно вошла в нашу жизнь. Коэффициент корреляции используется во всех областях общественных знаний. Основная его опасность заключается в том, что зачастую его высокими значениями спекулируют для того, чтобы убедить людей и заставить их поверить в какие-то выводы. Однако на самом деле сильная корреляция отнюдь не свидетельствует о причинно-следственной зависимости между величинами.

Коэффициент корреляции: формула Пирсона и Спирмана

Существует несколько основных показателей, которые характеризуют связь между двумя переменными. Исторически первым является коэффициент линейной корреляции Пирсона. Его проходят еще в школе. Он был разработан К. Пирсоном и Дж. Юлом на основе работ Фр. Гальтона. Этот коэффициент позволяет увидеть взаимосвязь между рациональными числами, которые изменяются рационально. Он всегда больше -1 и меньше 1. Отрицательно число свидетельствует об обратно пропорциональной зависимости. Если коэффициент равен нулю, то связи между переменными нет. Равен положительному числу - имеет место прямо пропорциональная зависимость между исследуемыми величинами. Коэффициент ранговой корреляции Спирмана позволяет упростить расчеты за счет построения иерархии значений переменных.

Отношения между переменными

Корреляция помогает найти ответ на два вопроса. Во-первых, является ли связь между переменными положительной или отрицательной. Во-вторых, насколько сильна зависимость. Корреляционный анализ является мощным инструментом, с помощью которого можно получить эту важную информацию. Легко увидеть, что семейные доходы и расходы падают и растут пропорционально. Такая связь считается положительной. Напротив, при росте цены на товар, спрос на него падает. Такую связь называют отрицательной. Значения коэффициента корреляции находятся в пределах между -1 и 1. Нуль означает, что зависимости между исследуемыми величинами нет. Чем ближе полученный показатель к крайним значениям, тем сильнее связь (отрицательная или положительная). Об отсутствии зависимости свидетельствует коэффициент от -0,1 до 0,1. Нужно понимать, что такое значение свидетельствует только об отсутствии линейной связи.

Особенности применения

Использование обоих показателей сопряжено с определенными допущениями. Во-первых, наличие сильной связи, не обуславливает того факта, что одна величина определяет другую. Вполне может существовать третья величина, которая определяет каждую из них. Во-вторых, высокий коэффициент корреляции Пирсона не свидетельствует о причинно-следственной связи между исследуемыми переменными. В-третьих, он показывает исключительно линейную зависимость. Корреляция может использоваться для оценки значимых количественных данных (например, атмосферного давления, температуры воздуха), а не таких категорий, как пол или любимый цвет.

Множественный коэффициент корреляции

Пирсон и Спирман исследовали связь между двумя переменными. Но как действовать в том случае, если их три или даже больше. Здесь на помощь приходит множественный коэффициент корреляции. Например, на валовый национальный продукт влияют не только прямые иностранные инвестиции, но и монетарная и фискальная политика государства, а также уровень экспорта. Темп роста и объем ВВП - это результат взаимодействия целого ряда факторов. Однако нужно понимать, что модель множественной корреляции основывается на целом ряде упрощений и допущений. Во-первых, исключается мультиколлинеарность между величинами. Во-вторых, связь между зависимой и оказывающими на нее влияние переменными считается линейной.

Области использования корреляционно-регрессионного анализа

Данный метод нахождения взаимосвязи между величинами широко применяется в статистике. К нему чаще всего прибегают в трех основных случаях:

  1. Для тестирования причинно-следственных связей между значениями двух переменных. В результате исследователь надеется обнаружить линейную зависимость и вывести формулу, которая описывает эти отношения между величинами. Единицы их измерения могут быть различными.
  2. Для проверки наличия связи между величинами. В этом случае никто не определяет, какая переменная является зависимой. Может оказаться, что значение обеих величин обуславливает какой-то другой фактор.
  3. Для вывода уравнения. В этом случае можно просто подставить в него числа и узнать значения неизвестной переменной.

Человек в поисках причинно-следственной связи

Сознание устроено таким образом, что нам обязательно нужно объяснить события, которые происходят вокруг. Человек всегда ищет связь между картиной мира, в котором он живет, и получаемой информацией. Часто мозг создает порядок из хаоса. Он запросто может увидеть причинно-следственную связь там, где ее нет. Ученым приходится специально учиться преодолевать эту тенденцию. Способность оценивать связи между данными объективно необходима в академической карьере.

Предвзятость средств массовой информации

Рассмотрим, как наличие корреляционной связи может быть неправильно истолковано. Группу британских студентов, отличающихся плохим поведением, опросили относительно того, курят ли их родители. Потом тест опубликовали в газете. Результат показал сильную корреляцию между курением родителей и правонарушениями их детей. Профессор, который проводил это исследование, даже предложил поместить на пачки сигарет предупреждение об этом. Однако существует целый ряд проблем с таким выводом. Во-первых, корреляция не показывает, какая из величин является независимой. Поэтому вполне можно предположить, что пагубная привычка родителей вызвана непослушанием детей. Во-вторых, нельзя с уверенностью сказать, что обе проблемы не появились из-за какого-то третьего фактора. Например, низкого дохода семей. Следует отметить эмоциональный аспект первоначальных выводов профессора, который проводил исследование. Он был ярым противником курения. Поэтому нет ничего удивительного в том, что он интерпретировал результаты своего исследования именно так.

Выводы

Неправильное толкование корреляции как причинно-следственной связи между двумя переменными может стать причиной позорных ошибок в исследованиях. Проблема состоит в том, что оно лежит в самой основе человеческого сознания. Многие маркетинговые трюки построены именно на этой особенности. Понимание различия между причинно-следственной связью и корреляцией позволяет рационально анализировать информацию как в повседневной жизни, так и в профессиональной карьере.

Коэффициент корреляции формула

В процессе хозяйственной деятельности человека постепенно сформировался целый класс задач по выявлению различных статистических закономерностей.

Требовалось оценивать степень детерминированности одних процессов другими, требовалось устанавливать тесноту взимозависимости между разными процессами, переменными.
Корреляция – это взаимосвязь переменных друг от друга.

Для оценки тесноты зависимости был введён коэффициент корреляции.

Физический смысл коэффициента корреляции

Чёткий физический смысл коэффициент корреляции имеет, если статистические параметры независимых переменных подчиняются нормальному распределению, графически такое распределение представляет кривую Гаусса. А зависимость линейна.

Коэффициент корреляции показывает, насколько один процесс детерминирован другим. Т.е. при изменении одного процесс как часто изменяется и зависимый процесс. Совсем не изменяется – нет зависимости, изменяется сразу каждый раз – полная зависимость.

Коэффициент корреляции может принимать значения в диапазоне [-1:1]

Нулевое значение коэффициента означает, что взаимосвязи между рассматриваемыми переменными нет.
Крайние значения диапазона означают полную зависимость между переменными.

Если значение коэффициента положительное, то зависимость прямая.

При отрицательном коэффициенте – обратная. Т.е. в первом случае при изменении аргумента функция пропорционально изменяется, во втором случае – обратно пропорционально.
При нахождении значения коэффициента корреляции в середине диапазона, т.е. от 0 до 1, либо от -1 до 0, говорят о неполной функциональной зависимости.
Чем ближе значение коэффициента к крайним показателям, тем большая взаимосвязь между переменными или случайными величинами. Чем ближе значение к 0, тем меньшая взаимозависимость.
Обычно коэффициент корреляции принимает промежуточные значения.

Коэффициент корреляции является безмерной величиной

Применяют коэффициент корреляции в статистике, в корреляционном анализе, для проверки статистических гипотез.

Выдвигая некоторую статистическую гипотезу зависимости одной случайной величины от другой – вычисляют коэффициент корреляции. По нему возможно вынести суждение — имеется ли взаимосвязь между величинами и насколько она плотная.

Дело в том, что не всегда можно увидеть взаимосвязь. Зачастую величины не связаны напрямую друг с другом, а зависят от многих факторов. Однако может оказаться, что через множество опосредованных связей случайные величины оказываются взаимозависимы. Конечно, это может не означать их непосредственную связь, так, к примеру, при исчезновении посредника может исчезнуть и зависимость.

В главе 4 мы рассмотрели основные одномерные описательные статисти­ки - меры центральной тенденции и изменчивости, которые применяются для описания одной переменной. В этой главе мы рассмотрим основные ко­эффициенты корреляции.

Коэффициент корреляции - двумерная описательная статистика, количе­ственная мера взаимосвязи (совместной изменчивости) двух переменных.

История разработки и применения коэффициентов корреляции для ис­следования взаимосвязей фактически началась одновременно с возникнове­нием измерительного подхода к исследованию индивидуальных различий - в 1870-1880 гг. Пионером в измерении способностей человека, как и автором самого термина «коэффициент корреляции», был Френсис Гальтон, а самые популярные коэффициенты корреляции были разработаны его последовате­лем Карлом Пирсоном. С тех пор изучение взаимосвязей с использованием коэффициентов корреляции является одним из наиболее популярных в пси­хологии занятием.

К настоящему времени разработано великое множество различных коэф­фициентов корреляции, проблеме измерения взаимосвязи с их помощью по­священы сотни книг. Поэтому, не претендуя на полноту изложения, мы рас­смотрим лишь самые важные, действительно незаменимые в исследованиях меры связи - /--Пирсона, r-Спирмена и т-Кендалла". Их общей особенностью является то, что они отражают взаимосвязь двух признаков, измеренных в ко­личественной шкале - ранговой или метрической.

Вообще говоря, любое эмпирическое исследование сосредоточено на изу­чении взаимосвязей двух или более переменных.

ПРИМЕРЫ

Приведем два примера исследования влияния демонстра­ции сцен насилия по ТВ на агрессивность подростков. 1. Изучается взаимосвязь двух переменных, измеренных в количественной (ранговой или метрической) шка­ле: 1)«время просмотра телепередач с насилием»; 2) «агрессивность».

Читается как тау-Кендалла.


ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

2. Изучается различие в агрессивности 2-х или более групп подростков, отличаю­щихся длительностью просмотра телепередач с демонстрацией сцен насилия.

Во втором примере изучение различий может быть представлено как исследование взаимосвязи 2-х переменных, одна из которых - номинативная (длительность про­смотра телепередач). И для этой ситуации также разработаны свои коэффициенты корреляции.

Любое исследование можно свести к изучению корреляций, благо изобре­тены самые различные коэффициенты корреляции для практически любой исследовательской ситуации. Но в дальнейшем изложении мы будем разли­чать два класса задач:

П исследование корреляций - когда две переменные представлены в чис­ловой шкале;

исследование различий - когда хотя бы одна из двух переменных пред­ставлена в номинативной шкале.


Такое деление соответствует и логике построения популярных компьютер­ных статистических программ, в которых в меню Корреляции предлагаются три коэффициента (/--Пирсона, r-Спирмена и х-Кендалла), а для решения других исследовательских задач предлагаются методы сравнения групп.

ПОНЯТИЕ КОРРЕЛЯЦИИ

Взаимосвязи на языке математики обычно описываются при помощи фун­кций, которые графически изображаются в виде линий. На рис. 6.1 изобра­жено несколько графиков функций. Если изменение одной переменной на одну единицу всегда приводит к изменению другой переменной на одну и ту же величину, функция является линейной (график ее представляет прямую линию); любая другая связь - нелинейная. Если увеличение одной перемен­ной связано с увеличением другой, то связь - положительная (прямая); если увеличение одной переменной связано с уменьшением другой, то связь - отрицательная (обратная). Если направление изменения одной переменной не меняется с возрастанием (убыванием) другой переменной, то такая функ­ция - монотонная; в противном случае функцию называют немонотонной.

Функциональные связи, подобные изображенным на рис. 6.1, являются иде-ализациями. Их особенность заключается в том, что одному значению одной переменной соответствует строго определенное значение другой переменной. Например, такова взаимосвязь двух физических переменных - веса и длины тела (линейная положительная). Однако даже в физических экспериментах эмпирическая взаимосвязь будет отличаться от функциональной связи в силу неучтенных или неизвестных причин: колебаний состава материала, погреш­ностей измерения и пр.

Рис. 6.1. Примеры графиков часто встречающихся функций

В психологии, как и во многих других науках, при изучении взаимосвязи признаков из поля зрения исследователя неизбежно выпадает множество воз­можных причин изменчивости этих признаков. Результатом является то, что даже существующая в реальности функциональная связь между переменными выступает эмпирически как вероятностная (стохастическая): одному и тому же значению одной переменной соответствует распределение различных значе­ний другой переменной (и наоборот). Простейшим примером является соотно­шение роста и веса людей. Эмпирические результаты исследования этих двух признаков покажут, конечно, положительную их взаимосвязь. Но несложно догадаться, что она будет отличаться от строгой, линейной, положительной - идеальной математической функции, даже при всех ухищрениях исследова­теля по учету стройности или полноты испытуемых. (Вряд ли на этом основа­нии кому-то придет в голову отрицать факт наличия строгой функциональ­ной связи между длиной и весом тела.)

Итак, в психологии, как и во многих других науках, функциональная вза­имосвязь явлений эмпирически может быть выявлена только как вероятно­стная связь соответствующих признаков. Наглядное представление о характере вероятностной связи дает диаграмма рассеивания - график, оси которого со­ответствуют значениям двух переменных, а каждый испытуемый представля­ет собой точку (рис. 6.2). В качестве числовой характеристики вероятностной связи используются коэффициенты корреляции.