Podczas nauki korelacje stara się ustalić, czy istnieje związek między dwoma wskaźnikami w tej samej próbie (na przykład między wzrostem i masą ciała dzieci lub między poziomem ILORAZ INTELIGENCJI i wynikami w szkole) lub pomiędzy dwiema różnymi próbami (np. przy porównywaniu par bliźniąt), a jeśli taka zależność istnieje, to czy wzrostowi jednego wskaźnika towarzyszy wzrost (korelacja dodatnia), czy spadek (korelacja ujemna) inny.

Inaczej mówiąc, analiza korelacji pomaga ustalić, czy możliwe jest przewidzenie możliwych wartości jednego wskaźnika, znając wartość innego.

Do tej pory, analizując wyniki naszych doświadczeń w badaniu działania marihuany, celowo ignorowaliśmy taki wskaźnik, jak czas reakcji. Tymczasem interesujące byłoby sprawdzenie, czy istnieje związek pomiędzy efektywnością reakcji a ich szybkością. Pozwoliłoby to na przykład stwierdzić, że im wolniejsza jest dana osoba, tym dokładniejsze i skuteczniejsze będą jej działania i odwrotnie.

W tym celu można zastosować dwie różne metody: parametryczną metodę obliczania współczynnika Bravais-Pearsona (R) oraz obliczenie współczynnika korelacji rang Spearmana (R S ), co dotyczy danych porządkowych, tj. jest nieparametryczne. Jednak najpierw zrozummy, czym jest współczynnik korelacji.

Współczynnik korelacji

Współczynnik korelacji to wartość, która może zmieniać się od -1 do 1. W przypadku całkowitej korelacji dodatniej współczynnik ten wynosi plus 1, a w przypadku korelacji całkowicie ujemnej wynosi minus 1. Na wykresie jest to odpowiada linii prostej przechodzącej przez punkty przecięcia wartości każdej pary danych:

Zmienny

Jeśli te punkty nie układają się w linii prostej, ale tworzą „chmurę”, współczynnik korelacji w wartości bezwzględnej staje się mniejszy niż jeden i po zaokrągleniu tej chmury zbliża się do zera:

Jeżeli współczynnik korelacji wynosi 0, obie zmienne są od siebie całkowicie niezależne.

W naukach humanistycznych korelację uważa się za silną, jeśli jej współczynnik jest większy niż 0,60; jeżeli przekracza 0,90, wówczas korelację uznaje się za bardzo silną. Aby jednak móc wyciągać wnioski na temat zależności pomiędzy zmiennymi, ogromne znaczenie ma liczebność próby: im większa próba, tym bardziej wiarygodna jest wartość uzyskanego współczynnika korelacji. Istnieją tabele z wartościami krytycznymi współczynnika korelacji Bravaisa-Pearsona i Spearmana dla różnych liczb stopni swobody (jest on równy liczbie par minus 2, tj. N-2). Tylko jeśli współczynniki korelacji są większe od tych wartości krytycznych, można je uznać za wiarygodne. Aby więc współczynnik korelacji na poziomie 0,70 był miarodajny, do analizy należy uwzględnić co najmniej 8 par danych ( = P - 2 = 6) przy obliczaniu R(Tabela B.4) i 7 par danych (= n - 2 = 5) przy obliczaniu R S (Tabela 5 w Załączniku B. 5).

Współczynnik Bravaisa-Pearsona

Aby obliczyć ten współczynnik, należy skorzystać z poniższego wzoru (może on wyglądać inaczej u różnych autorów):

gdzie  XY - suma iloczynów danych z każdej pary;

N - liczba par;

- średnia dla danej zmiennej X;

Średnia dla danych zmiennych Y;

S X - X;

S Y - odchylenie standardowe dla rozkładu ty

Możemy teraz wykorzystać ten współczynnik do ustalenia, czy istnieje związek pomiędzy czasem reakcji osób badanych a efektywnością ich działań. Weźmy na przykład poziom tła grupy kontrolnej.

N= 15  15,8  13,4 = 3175,8;

(N 1)S X S y = 14  3,07  2,29 = 98,42;

R =

Ujemny współczynnik korelacji może oznaczać, że im dłuższy czas reakcji, tym niższa wydajność. Jego wartość jest jednak zbyt mała, aby można było mówić o wiarygodnym związku pomiędzy tymi dwiema zmiennymi.

nXY=………

(N- 1) S X S Y = ……

Jaki wniosek można wyciągnąć z tych wyników? Jeśli uważasz, że istnieje związek między zmiennymi, czy jest on bezpośredni czy odwrotny? Czy jest to wiarygodne [zob tabela 4 (dodatkowo B. 5) z wartościami krytycznymi R]?

Współczynnik korelacji rang SpearmanaR S

Współczynnik ten jest łatwiejszy do obliczenia, ale wyniki są mniej dokładne niż przy użyciu R. Wynika to z faktu, że przy obliczaniu współczynnika Spearmana brana jest pod uwagę kolejność danych, a nie ich charakterystyki ilościowe i odstępy między klasami.

Rzecz w tym, że przy zastosowaniu współczynnika korelacji rang Włócznik(R S ) sprawdzają jedynie, czy ranking danych dla dowolnej próby będzie taki sam, jak w szeregu innych danych dla tej próby, parami w stosunku do pierwszej (np. czy uczniowie zostaną „uszeregowani” jednakowo, jeśli zdadzą zarówno psychologię, jak i matematykę, czy nawet z dwoma różnymi nauczycielami psychologii?). Jeśli współczynnik jest bliski +1, oznacza to, że oba szeregi są praktycznie identyczne, a jeśli współczynnik ten jest bliski -1, możemy mówić o zupełnej odwrotnej zależności.

Współczynnik R S obliczone według wzoru

Gdzie D- różnica między szeregami wartości cech sprzężonych (niezależnie od ich znaku) oraz N-liczba par

Zwykle ten test nieparametryczny stosuje się w przypadkach, gdy konieczne jest wyciągnięcie pewnych wniosków nie tyle na temat interwały pomiędzy danymi, ile o nich szeregi, a także wtedy, gdy krzywe rozkładu są zbyt asymetryczne i nie pozwalają na zastosowanie kryteriów parametrycznych, takich jak współczynnik R(w takich przypadkach może zaistnieć konieczność przekształcenia danych ilościowych na dane porządkowe).

Ponieważ tak jest w przypadku rozkładu wartości wydajności i czasu reakcji w grupie doświadczalnej po ekspozycji, możesz powtórzyć obliczenia, które już wykonałeś dla tej grupy, tylko teraz nie dla współczynnika R, i dla wskaźnika R S . Dzięki temu zobaczysz, jak bardzo różnią się te dwa elementy*.

*Warto o tym pamiętać

1) w przypadku liczby trafień ocena 1 oznacza wynik najwyższy, a wynik 15 najniższy, natomiast w przypadku czasu reakcji stopień 1 oznacza czas najkrótszy, a wynik 15 najdłuższy;

2) dane ex aequo otrzymują rangę średnią.

Zatem podobnie jak w przypadku współczynnika R, uzyskano wynik pozytywny, choć niewiarygodny. Który z dwóch wyników jest bardziej prawdopodobny: r =-0,48 lub R S = +0,24? To pytanie może powstać tylko wtedy, gdy wyniki są wiarygodne.

Jeszcze raz chciałbym podkreślić, że istota tych dwóch współczynników jest nieco inna. Współczynnik ujemny R wskazuje, że skuteczność jest często tym większa, im krótszy jest czas reakcji, natomiast przy obliczaniu współczynnika R S należało sprawdzić, czy osoby szybsze zawsze odpowiadają dokładniej, a wolniejsze – mniej trafnie.

Ponieważ w grupie eksperymentalnej po ekspozycji uzyskano współczynnik R S , równy 0,24, tutaj oczywiście podobnej tendencji nie widać. Spróbuj samodzielnie zrozumieć dane dla grupy kontrolnej po interwencji, wiedząc, że  D 2 = 122,5:

; Czy to jest niezawodne?

Jaki jest Twój wniosek? ……………………………………………………………………………………………………………

…………………………………………………………………………………………………………………….

Przyjrzeliśmy się więc różnym parametrycznym i nieparametrycznym metodom statystycznym stosowanym w psychologii. Nasza recenzja była bardzo powierzchowna, a jej głównym zadaniem było uświadomienie czytelnikowi, że statystyki nie są tak straszne, jak się wydaje, a wymagają przede wszystkim zdrowego rozsądku. Przypominamy, że dane „doświadczenia”, z którymi tu mieliśmy do czynienia, są fikcyjne i nie mogą służyć jako podstawa do jakichkolwiek wniosków. Jednak naprawdę warto byłoby przeprowadzić taki eksperyment. Ponieważ do tego eksperymentu wybrano technikę czysto klasyczną, tę samą analizę statystyczną można zastosować w wielu różnych eksperymentach. W każdym razie wydaje nam się, że nakreśliliśmy kilka głównych kierunków, które mogą przydać się tym, którzy nie wiedzą, od czego zacząć analizę statystyczną uzyskanych wyników.

Istnieją trzy główne gałęzie statystyki: statystyka opisowa, statystyka indukcyjna i analiza korelacji.

W badaniach naukowych często istnieje potrzeba znalezienia powiązania między zmiennymi wynikowymi a zmiennymi czynnikowymi (plonami upraw i ilością opadów, wzrostem i wagą osoby w jednorodnych grupach według płci i wieku, tętnem i temperaturą ciała). itp.).

Drugie to znaki, które przyczyniają się do zmian w tych z nimi związanych (pierwszy).

Pojęcie analizy korelacji

Jest ich wiele. Na podstawie powyższego można powiedzieć, że analiza korelacji to metoda służąca do sprawdzenia hipotezy o istotności statystycznej dwóch lub więcej zmiennych, jeśli badacz może je zmierzyć, ale nie może ich zmienić.

Istnieją inne definicje omawianego pojęcia. Analiza korelacji to metoda przetwarzania polegająca na badaniu współczynników korelacji między zmiennymi. W tym przypadku porównuje się współczynniki korelacji pomiędzy jedną parą lub wieloma parami cech w celu ustalenia statystycznych zależności pomiędzy nimi. Analiza korelacji to metoda badania zależności statystycznej między zmiennymi losowymi z opcjonalnym występowaniem ścisłego charakteru funkcjonalnego, w której dynamika jednej zmiennej losowej prowadzi do dynamiki matematycznych oczekiwań drugiej.

Pojęcie fałszywej korelacji

Prowadząc analizę korelacji należy wziąć pod uwagę, że można ją przeprowadzić w odniesieniu do dowolnego zbioru cech, często absurdalnych względem siebie. Czasami nie mają ze sobą żadnego związku przyczynowego.

W tym przypadku mówią o fałszywej korelacji.

Problemy analizy korelacji

W oparciu o powyższe definicje można sformułować następujące zadania opisywanej metody: uzyskanie informacji o jednej z poszukiwanych zmiennych za pomocą innej; określić bliskość związku pomiędzy badanymi zmiennymi.

Analiza korelacji polega na określeniu zależności pomiędzy badanymi cechami, dlatego też zadania analizy korelacji można uzupełnić o:

  • identyfikacja czynników mających największy wpływ na uzyskaną charakterystykę;
  • identyfikacja niezbadanych wcześniej przyczyn powiązań;
  • budowa modelu korelacji wraz z jego analizą parametryczną;
  • badanie znaczenia parametrów komunikacyjnych i ocena ich interwałów.

Związek analizy korelacji z regresją

Metoda analizy korelacji często nie ogranicza się do znalezienia bliskości zależności między badanymi wielkościami. Czasami uzupełnia się go zestawieniem równań regresji, które uzyskuje się za pomocą analizy o tej samej nazwie i które stanowią opis zależności korelacyjnej między wynikiem a cechą (cechami) czynnika (czynnika). Metoda ta wraz z analizowaną analizą stanowi metodę

Warunki stosowania metody

Czynniki skuteczne zależą od jednego do kilku czynników. Metodę analizy korelacji można zastosować w przypadku dużej liczby obserwacji dotyczących wartości wskaźników efektywnych i czynnikowych (czynników), przy czym badane czynniki muszą mieć charakter ilościowy i mieć odzwierciedlenie w konkretnych źródłach. Pierwszą z nich można wyznaczyć na podstawie prawa normalnego – w tym przypadku wynikiem analizy korelacji są współczynniki korelacji Pearsona lub, jeżeli cechy nie spełniają tego prawa, stosuje się współczynnik korelacji rang Spearmana.

Zasady doboru czynników analizy korelacji

Stosując tę ​​metodę, konieczne jest określenie czynników wpływających na wskaźniki wydajności. Dobiera się je z uwzględnieniem faktu, że pomiędzy wskaźnikami muszą istnieć związki przyczynowo-skutkowe. W przypadku tworzenia wieloczynnikowego modelu korelacji wybiera się te, które mają istotny wpływ na wynikowy wskaźnik, przy czym lepiej nie uwzględniać w modelu korelacji czynników współzależnych, których współczynnik korelacji par jest większy niż 0,85, a także tych, które dla których związek z parametrem wynikowym nie ma charakteru liniowego ani funkcjonalnego.

Wyświetlanie wyników

Wyniki analizy korelacji można przedstawić w formie tekstowej i graficznej. W pierwszym przypadku są one prezentowane jako współczynnik korelacji, w drugim – w formie diagramu punktowego.

W przypadku braku korelacji pomiędzy parametrami punkty na diagramie są rozmieszczone chaotycznie, średni stopień powiązania charakteryzuje się większym stopniem uporządkowania i charakteryzuje się mniej więcej równomierną odległością zaznaczonych znaków od mediany. Silne połączenie jest zwykle proste, a przy r=1 wykres punktowy jest linią płaską. Odwrotna korelacja różni się kierunkiem wykresu od lewego górnego do prawego dolnego rogu, korelacja bezpośrednia - od lewego dolnego rogu do prawego górnego rogu.

Reprezentacja 3D wykresu punktowego

Oprócz tradycyjnego wyświetlania wykresu punktowego 2D, obecnie używana jest graficzna reprezentacja analizy korelacji 3D.

Wykorzystywana jest również macierz wykresów rozrzutu, która wyświetla wszystkie sparowane wykresy na jednym rysunku w formacie macierzowym. Dla n zmiennych macierz zawiera n wierszy i n kolumn. Wykres znajdujący się na przecięciu i-tego wiersza i j-tej kolumny jest wykresem zmiennych Xi względem Xj. Zatem każdy wiersz i kolumna ma jeden wymiar, a pojedyncza komórka wyświetla wykres rozrzutu dwóch wymiarów.

Ocena szczelności połączenia

O bliskości powiązania korelacji decyduje współczynnik korelacji (r): silna – r = ±0,7 do ±1, średnia – r = ±0,3 do ±0,699, słaba – r = 0 do ±0,299. Klasyfikacja ta nie jest ścisła. Na rysunku przedstawiono nieco inny schemat.

Przykład zastosowania metody analizy korelacji

Ciekawe badanie przeprowadzono w Wielkiej Brytanii. Poświęcono je powiązaniu między paleniem tytoniu a rakiem płuc i przeprowadzono je na podstawie analizy korelacji. Obserwację tę przedstawiono poniżej.

Wstępne dane do analizy korelacji

Grupa profesjonalna

śmiertelność

Rolnicy, leśnicy i rybacy

Górnicy i pracownicy kamieniołomów

Producenci gazu, koksu i chemikaliów

Producenci szkła i ceramiki

Pracownicy pieców, kuźni, odlewni i walcowni

Pracownicy elektrycy i elektronicy

Zawody inżynierskie i pokrewne

Przemysł drzewny

Kaletnicy

Pracownicy tekstylni

Producenci odzieży roboczej

Pracownicy przemysłu spożywczego, napojów i tytoniowego

Producenci papieru i druku

Producenci innych produktów

Budowniczowie

Malarze i dekoratorzy

Kierowcy silników stacjonarnych, dźwigów itp.

Pracownicy nieuwzględnieni gdzie indziej

Pracownicy transportu i komunikacji

Pracownicy magazynów, magazynierzy, pakowacze i pracownicy maszyn rozlewniczych

Pracownicy biurowi

Sprzedawców

Pracownicy sportu i rekreacji

Administratorzy i menedżerowie

Profesjonaliści, technicy i artyści

Rozpoczynamy analizę korelacji. Dla przejrzystości lepiej zacząć rozwiązanie od metody graficznej, dla której skonstruujemy diagram punktowy.

Pokazuje bezpośrednie połączenie. Trudno jednak wyciągnąć jednoznaczny wniosek na podstawie samej metody graficznej. Dlatego będziemy kontynuować analizę korelacji. Poniżej przedstawiono przykład obliczenia współczynnika korelacji.

Korzystając z oprogramowania (na przykładzie MS Excel zostanie opisany poniżej) wyznaczamy współczynnik korelacji, który wynosi 0,716, co oznacza silny związek pomiędzy badanymi parametrami. Określmy wiarygodność statystyczną otrzymanej wartości korzystając z odpowiedniej tabeli, dla której od 25 par wartości należy odjąć 2, w rezultacie otrzymamy 23 i korzystając z tej linii w tabeli znajdujemy r krytyczne dla p = 0,01 (ponieważ są to dane medyczne, zależność bardziej rygorystyczna, w pozostałych przypadkach wystarczy p=0,05), co dla tej analizy korelacji wynosi 0,51. Na przykładzie pokazano, że obliczone r jest większe od r krytycznego, a wartość współczynnika korelacji uważa się za statystycznie wiarygodną.

Korzystanie z oprogramowania przy przeprowadzaniu analizy korelacji

Opisany rodzaj przetwarzania danych statystycznych może być realizowany przy wykorzystaniu oprogramowania, w szczególności MS Excel. Korelacja polega na obliczeniu następujących parametrów za pomocą funkcji:

1. Współczynnik korelacji wyznacza się za pomocą funkcji CORREL (tablica1; tablica2). Tablica1,2 - komórka przedziału wartości zmiennych wynikowych i czynnikowych.

Współczynnik korelacji liniowej nazywany jest także współczynnikiem korelacji Pearsona, dlatego począwszy od Excela 2007 można używać tej funkcji z tymi samymi tablicami.

Graficzne przedstawienie analizy korelacji w programie Excel odbywa się za pomocą panelu „Wykresy” z opcją „Wykres punktowy”.

Po podaniu danych początkowych otrzymujemy wykres.

2. Ocena istotności współczynnika korelacji parami za pomocą testu t-Studenta. Obliczoną wartość kryterium t porównuje się z tabelaryczną (krytyczną) wartością tego wskaźnika z odpowiedniej tabeli wartości rozpatrywanego parametru, biorąc pod uwagę określony poziom istotności i liczbę stopni swobody. Oszacowanie to przeprowadza się za pomocą funkcji STUDISCOVER(prawdopodobieństwo; stopnie_wolności).

3. Macierz współczynników korelacji par. Analizę przeprowadza się za pomocą narzędzia Analiza danych, w którym wybrana jest opcja Korelacja. Statystyczną ocenę współczynników korelacji par przeprowadza się poprzez porównanie jej wartości bezwzględnej z wartością tabelaryczną (krytyczną). Jeżeli obliczony współczynnik korelacji parami przekracza wartość krytyczną, to przy danym stopniu prawdopodobieństwa można powiedzieć, że hipoteza zerowa o istotności zależności liniowej nie zostaje odrzucona.

Wreszcie

Zastosowanie metody analizy korelacji w badaniach naukowych pozwala określić związek pomiędzy różnymi czynnikami a wskaźnikami efektywności. Należy wziąć pod uwagę, że z absurdalnej pary lub zbioru danych można uzyskać wysoki współczynnik korelacji, dlatego tego typu analizę należy przeprowadzić na odpowiednio dużym zbiorze danych.

Po uzyskaniu obliczonej wartości r wskazane jest porównanie jej z r krytycznym w celu potwierdzenia wiarygodności statystycznej określonej wartości. Analizę korelacji można przeprowadzić ręcznie za pomocą wzorów lub przy użyciu oprogramowania, w szczególności MS Excel. W tym miejscu można również skonstruować diagram punktowy w celu wizualnego przedstawienia związku pomiędzy badanymi czynnikami analizy korelacji a uzyskaną charakterystyką.

Współczynnik korelacji to stopień związku między dwiema zmiennymi. Jego obliczenie daje wyobrażenie o tym, czy istnieje związek między dwoma zbiorami danych. W przeciwieństwie do regresji, korelacja nie przewiduje wartości wielkości. Jednakże obliczenie współczynnika jest ważnym krokiem we wstępnej analizie statystycznej. Ustaliliśmy na przykład, że współczynnik korelacji między poziomem bezpośrednich inwestycji zagranicznych a dynamiką PKB jest wysoki. Daje nam to wyobrażenie, że aby zapewnić dobrobyt, konieczne jest stworzenie sprzyjającego klimatu specjalnie dla zagranicznych przedsiębiorców. Na pierwszy rzut oka nie jest to taki oczywisty wniosek!

Korelacja i przyczynowość

Być może nie ma ani jednego obszaru statystyki, który tak mocno ugruntował się w naszym życiu. Współczynnik korelacji stosowany jest we wszystkich obszarach wiedzy społecznej. Jego głównym niebezpieczeństwem jest to, że często spekuluje się na temat jego wysokich wartości, aby przekonać ludzi i przekonać ich do pewnych wniosków. Jednak w rzeczywistości silna korelacja wcale nie wskazuje na związek przyczynowo-skutkowy między wielkościami.

Współczynnik korelacji: wzór Pearsona i Spearmana

Istnieje kilka podstawowych wskaźników charakteryzujących związek pomiędzy dwiema zmiennymi. Historycznie rzecz biorąc, pierwszym jest współczynnik korelacji liniowej Pearsona. Uczy się tego w szkole. Został on opracowany przez K. Pearsona i J. Yule na podstawie pracy ks. Galtona. Współczynnik ten pozwala zobaczyć związek między liczbami wymiernymi, które zmieniają się racjonalnie. Jest zawsze większa niż -1 i mniejsza niż 1. Liczba ujemna oznacza zależność odwrotnie proporcjonalną. Jeśli współczynnik wynosi zero, wówczas nie ma związku między zmiennymi. Równy liczbie dodatniej - istnieje wprost proporcjonalna zależność między badanymi wielkościami. Współczynnik korelacji rang Spearmana pozwala uprościć obliczenia poprzez budowanie hierarchii wartości zmiennych.

Zależności między zmiennymi

Korelacja pomaga odpowiedzieć na dwa pytania. Po pierwsze, czy związek między zmiennymi jest dodatni czy ujemny. Po drugie, jak silne jest uzależnienie. Analiza korelacji to potężne narzędzie, które może dostarczyć tych ważnych informacji. Łatwo zauważyć, że dochody i wydatki rodziny spadają i rosną proporcjonalnie. Zależność tę należy uznać za pozytywną. I odwrotnie, gdy cena produktu rośnie, popyt na niego spada. Zależność tę nazywa się ujemną. Wartości współczynnika korelacji mieszczą się w przedziale od -1 do 1. Zero oznacza, że ​​pomiędzy badanymi wartościami nie ma związku. Im uzyskany wskaźnik jest bliższy wartościom ekstremalnym, tym silniejsza jest zależność (ujemna lub dodatnia). Brak zależności wskazuje współczynnik od -0,1 do 0,1. Musisz zrozumieć, że taka wartość wskazuje jedynie na brak zależności liniowej.

Funkcje aplikacji

Stosowanie obu wskaźników wiąże się z pewnymi założeniami. Po pierwsze, obecność silnego związku nie przesądza o tym, że jedna wielkość determinuje drugą. Być może istnieje trzecia wielkość, która definiuje każdą z nich. Po drugie, wysoki współczynnik korelacji Pearsona nie wskazuje na związek przyczynowo-skutkowy pomiędzy badanymi zmiennymi. Po trzecie, pokazuje wyłącznie zależność liniową. Korelację można zastosować do oceny znaczących danych ilościowych (np. ciśnienia barometrycznego, temperatury powietrza), a nie kategorii takich jak płeć czy ulubiony kolor.

Wielokrotny współczynnik korelacji

Pearson i Spearman zbadali związek między dwiema zmiennymi. Ale co zrobić, jeśli jest ich trzy lub nawet więcej. Tutaj na ratunek przychodzi współczynnik korelacji wielokrotnej. Na przykład na produkt narodowy brutto wpływają nie tylko bezpośrednie inwestycje zagraniczne, ale także polityka monetarna i fiskalna rządu oraz poziom eksportu. Tempo wzrostu i wielkość PKB są efektem współdziałania wielu czynników. Należy jednak zrozumieć, że model korelacji wielokrotnej opiera się na szeregu uproszczeń i założeń. Po pierwsze, wykluczona jest wieloliniowość pomiędzy wartościami. Po drugie, związek między zależnością a zmiennymi na nią wpływającymi uważa się za liniowy.

Obszary zastosowań analizy korelacji i regresji

Ta metoda znajdowania zależności między wielkościami jest szeroko stosowana w statystyce. Najczęściej stosuje się go w trzech głównych przypadkach:

  1. Aby przetestować związki przyczynowo-skutkowe pomiędzy wartościami dwóch zmiennych. W rezultacie badacz ma nadzieję odkryć zależność liniową i wyprowadzić wzór opisujący te zależności między wielkościami. Ich jednostki miary mogą się różnić.
  2. Aby sprawdzić związek między ilościami. W tym przypadku nikt nie określa, która zmienna jest zmienną zależną. Może się okazać, że o wartości obu wielkości decyduje jakiś inny czynnik.
  3. Aby wyprowadzić równanie W takim przypadku możesz po prostu zastąpić w nim liczby i znaleźć wartości nieznanej zmiennej.

Człowiek poszukujący związku przyczynowo-skutkowego

Świadomość jest zaprojektowana w taki sposób, że zdecydowanie musimy wyjaśnić zdarzenia, które dzieją się wokół nas. Człowiek zawsze szuka powiązania pomiędzy obrazem świata, w którym żyje, a informacjami, które otrzymuje. Mózg często tworzy porządek z chaosu. Z łatwością dostrzega związek przyczynowo-skutkowy tam, gdzie go nie ma. Naukowcy muszą w szczególności nauczyć się przezwyciężać tę tendencję. Umiejętność obiektywnej oceny relacji między danymi jest niezbędna w karierze akademickiej.

Stronniczość mediów

Zastanówmy się, jak obecność korelacji może zostać błędnie zinterpretowana. Grupę brytyjskich uczniów zachowujących się niewłaściwie zapytano, czy ich rodzice palą. Następnie test został opublikowany w gazecie. Wyniki wykazały silną korelację pomiędzy paleniem tytoniu przez rodziców a przestępczością ich dzieci. Profesor, który przeprowadził to badanie, zasugerował nawet umieszczenie ostrzeżenia o tym na paczkach papierosów. Jednakże z wnioskiem tym wiąże się wiele problemów. Po pierwsze, korelacja nie pokazuje, która z wielkości jest niezależna. Dlatego całkiem możliwe jest założenie, że szkodliwy nawyk rodziców jest spowodowany nieposłuszeństwem dzieci. Po drugie, nie można z całą pewnością stwierdzić, że oba problemy nie powstały na skutek jakiegoś trzeciego czynnika. Na przykład rodziny o niskich dochodach. Warto zwrócić uwagę na emocjonalny aspekt wstępnych ustaleń profesora prowadzącego badanie. Był zagorzałym przeciwnikiem palenia. Nic więc dziwnego, że w ten sposób zinterpretował wyniki swoich badań.

wnioski

Błędne interpretowanie korelacji jako związku przyczynowo-skutkowego pomiędzy dwiema zmiennymi może skutkować haniebnymi błędami badawczymi. Problem w tym, że leży to u samych podstaw ludzkiej świadomości. Wiele chwytów marketingowych opiera się na tej funkcji. Zrozumienie różnicy pomiędzy przyczyną a skutkiem oraz korelacją pozwala na racjonalną analizę informacji zarówno w życiu codziennym, jak i w karierze zawodowej.

Wzór na współczynnik korelacji

W procesie działalności gospodarczej człowieka stopniowo kształtowała się cała klasa zadań mających na celu identyfikację różnych wzorców statystycznych.

Należało ocenić stopień determinizmu jednych procesów przez inne, konieczne było ustalenie ścisłej współzależności pomiędzy różnymi procesami i zmiennymi.
Korelacja to wzajemny stosunek zmiennych.

Aby ocenić stopień powiązania, wprowadzono współczynnik korelacji.

Fizyczne znaczenie współczynnika korelacji

Współczynnik korelacji ma wyraźne znaczenie fizyczne, jeśli parametry statystyczne zmiennych niezależnych mają rozkład normalny; graficznie taki rozkład przedstawia krzywa Gaussa. A zależność jest liniowa.

Współczynnik korelacji pokazuje, jak jeden proces jest zdeterminowany przez inny. Te. Kiedy zmienia się jeden proces, jak często zmienia się proces zależny. To się w ogóle nie zmienia – nie ma zależności, zmienia się za każdym razem natychmiast – całkowita zależność.

Współczynnik korelacji może przyjmować wartości z zakresu [-1:1]

Współczynnik równy zero oznacza, że ​​pomiędzy rozpatrywanymi zmiennymi nie ma związku.
Skrajne wartości zakresu wskazują na całkowitą zależność pomiędzy zmiennymi.

Jeśli wartość współczynnika jest dodatnia, wówczas zależność jest bezpośrednia.

W przypadku współczynnika ujemnego jest odwrotnie. Te. w pierwszym przypadku, gdy zmienia się argument, funkcja zmienia się proporcjonalnie, w drugim przypadku zmienia się odwrotnie.
Gdy wartość współczynnika korelacji znajduje się w środku zakresu, tj. od 0 do 1 lub od -1 do 0 mówią o niepełnej zależności funkcjonalnej.
Im wartość współczynnika jest bliższa skrajnościom, tym większy jest związek między zmiennymi lub wartościami losowymi. Im wartość jest bliższa 0, tym mniejsza jest współzależność.
Zwykle współczynnik korelacji przyjmuje wartości pośrednie.

Współczynnik korelacji jest wielkością niemierzalną

Współczynnik korelacji wykorzystuje się w statystyce, w analizie korelacji, do testowania hipotez statystycznych.

Stawiając hipotezę statystyczną o zależności jednej zmiennej losowej od drugiej, oblicza się współczynnik korelacji. Na tej podstawie można ocenić, czy istnieje związek pomiędzy wielkościami i jak bardzo jest on zbliżony.

Faktem jest, że nie zawsze można zobaczyć związek. Często ilości nie są ze sobą bezpośrednio powiązane, ale zależą od wielu czynników. Może się jednak okazać, że poprzez wiele połączeń pośrednich zmienne losowe okazują się współzależne. Oczywiście nie może to oznaczać ich bezpośredniego połączenia, np. jeśli zniknie pośrednik, może zniknąć także uzależnienie.

W Rozdziale 4 przyjrzeliśmy się podstawowym jednoczynnikowym statystykom opisowym — miarom tendencji centralnej i zmienności używanym do opisu pojedynczej zmiennej. W tym rozdziale przyjrzymy się głównym współczynnikom korelacji.

Współczynnik korelacji- dwuwymiarowa statystyka opisowa, ilościowa miara związku (łącznej zmienności) dwóch zmiennych.

Historia rozwoju i zastosowania współczynników korelacji do badania zależności rozpoczęła się właściwie równocześnie z pojawieniem się podejścia pomiarowego do badania różnic indywidualnych – w latach 1870–1880. Pionierem pomiaru zdolności człowieka, a także autorem samego terminu „współczynnik korelacji” był Francis Galton, a najpopularniejsze współczynniki korelacji opracował jego naśladowca Karl Pearson. Od tego czasu badanie związków za pomocą współczynników korelacji jest jednym z najpopularniejszych zajęć w psychologii.

Do chwili obecnej opracowano wiele różnych współczynników korelacji, a zagadnieniu pomiaru relacji za ich pomocą poświęcono setki książek. Dlatego nie pretendując do kompletności, rozważymy tylko najważniejsze, naprawdę niezastąpione w badaniach miary powiązania - Pearsona, Spearmana i Kendalla. Ich wspólną cechą jest to, że odzwierciedlają związek pomiędzy dwiema cechami mierzonymi w skali ilościowej – rangą lub metryką.

Ogólnie rzecz biorąc, wszelkie badania empiryczne skupiają się na badaniu zależności pomiędzy dwiema lub większą liczbą zmiennych.

PRZYKŁADY

Podajmy dwa przykłady badań nad wpływem pokazywania scen przemocy w telewizji na agresywność młodzieży. 1. Bada się związek pomiędzy dwiema zmiennymi mierzonymi w skali ilościowej (rankingowej lub metrycznej): 1) „czas oglądania programów telewizyjnych zawierających przemoc”; 2) „agresja”.

Czyta się jak tau Kendalla.


ROZDZIAŁ 6. WSPÓŁCZYNNIKI KORELACJI

2. Bada się różnicę w agresywności 2 lub więcej grup młodzieży, różniących się czasem oglądania programów telewizyjnych zawierających sceny przemocy.

W drugim przykładzie badanie różnic można przedstawić jako badanie związku pomiędzy 2 zmiennymi, z których jedna ma charakter mianownikowy (czas oglądania programów telewizyjnych). Dla tej sytuacji opracowaliśmy również nasze własne współczynniki korelacji.

Każde badanie można sprowadzić do badania korelacji, na szczęście wynaleziono różnorodne współczynniki korelacji dla niemal każdej sytuacji badawczej. Jednak w poniższej prezentacji rozróżnimy dwie klasy problemów:

P badanie korelacji - gdy dwie zmienne są prezentowane na skali liczbowej;

badanie różnic - gdy przynajmniej jedna z dwóch zmiennych jest przedstawiona w skali mianownikowej.


Podział ten odpowiada także logice konstruowania popularnych komputerowych programów statystycznych, w których znajduje się menu Korelacje zaproponowano trzy współczynniki (r Pearsona, r Spearmana i x Kendalla) oraz zaproponowano metody porównań grupowych w celu rozwiązania innych problemów badawczych.

KONCEPCJA KORELACJI

Zależności w języku matematyki są zwykle opisywane za pomocą funkcji, które są graficznie przedstawiane w postaci linii. Na ryc. Rysunek 6.1 przedstawia kilka wykresów funkcji. Jeśli zmiana jednej zmiennej o jedną jednostkę zawsze powoduje zmianę innej zmiennej o tę samą wartość, funkcja jest taka liniowy(jego wykres przedstawia linię prostą); jakiekolwiek inne połączenie - nieliniowy. Jeśli wzrost jednej zmiennej jest powiązany ze wzrostem innej, wówczas związek taki jest pozytywny (bezpośredni); jeśli wzrost jednej zmiennej jest powiązany ze spadkiem innej, wówczas zależność taka jest negatywny (odwrotny). Jeżeli kierunek zmian jednej zmiennej nie zmienia się wraz ze wzrostem (spadkiem) innej zmiennej, to taka funkcja jest monotonny; w przeciwnym razie funkcja zostanie wywołana niemonotoniczny.

Połączenia funkcjonalne, podobne do tych pokazanych na rys. 6.1 to idealizacje. Ich osobliwością jest to, że jednej wartości jednej zmiennej odpowiada ściśle określona wartość innej zmiennej. Jest to na przykład związek pomiędzy dwiema zmiennymi fizycznymi – masą ciała i długością ciała (liniowo dodatni). Jednak nawet w eksperymentach fizycznych zależność empiryczna będzie się różnić od zależności funkcjonalnej z nieuwzględnionych lub nieznanych przyczyn: wahań w składzie materiału, błędów pomiarowych itp.

Ryż. 6.1. Przykłady wykresów często występujących funkcji

W psychologii, podobnie jak w wielu innych naukach, badając związek znaków, wiele możliwych przyczyn zmienności tych znaków nieuchronnie wypada z pola widzenia badacza. Rezultat jest taki, że nawet Funkcjonalne powiązanie między zmiennymi, które istnieje w rzeczywistości, działa empirycznie jako probabilistyczne (stochastyczne): ta sama wartość jednej zmiennej odpowiada rozkładowi różnych wartości innej zmiennej (i odwrotnie). Najprostszym przykładem jest stosunek wzrostu i masy ciała ludzi. Empiryczne wyniki badania tych dwóch cech wykażą oczywiście ich pozytywny związek. Ale łatwo się domyślić, że będzie się ona różnić od ścisłej, liniowej, dodatniej – idealnej funkcji matematycznej, nawet przy wszystkich chwytach badacza, aby uwzględnić smukłość lub otyłość badanych. (Jest mało prawdopodobne, aby na tej podstawie komukolwiek przyszło do głowy zaprzeczać istnieniu ścisłego związku funkcjonalnego między długością i masą ciała.)

Zatem w psychologii, podobnie jak w wielu innych naukach, funkcjonalny związek zjawisk można empirycznie zidentyfikować jedynie jako probabilistyczne połączenie odpowiednich cech. Jasne pojęcie o naturze probabilistycznego połączenia daje diagram rozproszenia - wykres, którego osie odpowiadają wartościom dwóch zmiennych, a każdy przedmiot reprezentuje punkt (ryc. 6.2). Współczynniki korelacji stosuje się jako liczbową charakterystykę zależności probabilistycznej.