Nemo se dokopao bilješki za prvih nekoliko predavanja iz Metodike nastave informatike u ovom semestru. Prolazilo se kroz neke osnovne statističke alate koji se koriste za obradu podataka u istraživanjima iz društvenih znanosti (a i šire, ali sad se prolazi kroz edukacijska istraživanja). Ima korisnih informacija (a bit će i na
kolokviju najvjerojatnije) pa bi bilo dobro uobličiti to u nešto korisno. S obzirom da su te bilješke ponešto nepotpune
Nemo se dokopao (
tj. došao je doma za
Uskrs i vidio koje knjige ima doma, a nije mogao nositi u
Split) i knjige
"Osnovne statističke metode za nematematičare" od
Borisa Petza pa će dopuniti važne informacije gdje je to potrebno, ali nema baš neku namjeru čitati cijelu knjigu sada. Ideja je da bi se kroz nekoliko članaka na
blogu uspješno sklopila kratka skripta o korištenju statističkih metoda s obzirom da profesor očito nema ništa u elektroničkom obliku za ovaj dio predavanja, a dosta kolega mi se činilo zbunjenima nakon svega ovoga.
Danas
Nemo prolazi kroz tipove podataka na koje možete naići, te ponešto informacija o populaciji i uzorcima...
Populacija i uzorci Populaciju čine svi članovi neke skupine sa određenom karakteristikom koju želimo mjeriti.
Npr. da želimo saznati prosječni
IQ stanovnika Hrvatske, populaciju nam čine svi stanovnici, a karakteristika je u ovom slučaju
IQ. Mjerenje na cijeloj populaciji je najpreciznije, ali u slučaju da je populacija velika (4.5 milijuna stanovnika Hrvatske) ili da je proces mjerenja takav da nam mijenja populaciju (
provjeravanjem ispravnosti svih automobila
crash-testom uništili bismo cijelu populaciju) to nije nužno praktično ili
izvedivo. Zato se najčešće mjerenja vrše na ograničenom broju članova skupine koji nazivamo
uzorak.
Statistički podatci koje dobijemo mjerenjem karakteristika uzorka nam predstavljaju procjenu rezultata koji bi smo dobili na cijeloj populaciji - dakle uzorak je praktičniji, ali manje precizan. Glavni faktori kod biranja uzorka su reprezentativnost i veličina uzorka. Uzorak je samo dio populacije, što znači da moramo biti pažljivi pri uzimanju uzorka kako zbog lošeg odabira članova samog uzorka ne bi došlo do pogrešnih zaključaka. Dakle uzorak mora vjerno reprezentirati populaciju. Veličina uzorka nam je važna zbog
kompliciranosti mjerenja (želimo što manji uzorak kako bi istraživanje bilo što jeftinije i jednostavnije), a sa druge strane uzorak ne smije biti premali inače će dolaziti do prevelike greške u mjerenju (veličina uzorka najviše ovisi o toleranciji greške koju si možemo dopustiti, s tim da se obično dopušta do 5% greške).
Postoji više načina
biranja uzoraka, s tim da od načina ovisi reprezentativnost:
- Slučajni uzorak - kod slučajnog uzorka važno je da svaki član populacije ima jednaku vjerojatnost da bude izabran u uzorak. Da bi se dobio slučajni uzorak moramo koristiti metodu izbora koja potpuno isključuje mogućnost da neki od članova dobiju veću vjerojatnost izbora. Npr. uzimanje uzorka samo od ljudi iz telefonskog imenika je pristrano zato jer smo zanemarili sve ljude koji nemaju telefon ili ga nisu stavili u telefonski imenik. Najbolje je koristiti generator slučajnih brojeva u sprezi sa popisom cijele populacije.
- Sistematski uzorak - može biti jednako reprezentativan kao i slučajni uzorak. Moramo imati popis svih članova populacije koji je posložen na način da ne unosi pristranost (npr. popis ljudi po abecedi je dobar). Nakon toga odaberemo neki sistem po kojemu odabiremo članove (npr. prvog člana uzmemo slučajno, a nakon toga uzimamo svakog desetog), što će dati sličan efekt kao i slučajni uzorak ako je lista bila dobra.
- Stratificirani uzorak - populaciju podijelimo u grupe (stratume) prema nekim karakteristikama (npr. po starosnoj skupini), te zatim iz svakog stratuma uzmemo slučajni uzorak. Ova metoda može dati reprezentativniji uzorak od običnog slučajnog uzorka i često se koristi. Veličina uzorka iz pojedinih stratuma ovisi o tome kolika je veličina stratuma u odnosu na ukupnu populaciju (npr. ako ima u populaciji ima 60% žena, a 40% muškaraca onda se uzorak mora sastojati od 60% žena i 40% muškaraca), no ovisi nam i o nekim drugim faktorima (npr. ako ustanovimo da stratum A od 1000 članova ima st.dev. 5, a stratum B od 100 članova ima st.dev. 20, onda je omjer 1000*5 : 100*20 = 5 : 2).
- Klaster uzorak - je donekle sličan stratificiranom uzorku, ali je manje reprezentativan. Populaciju dijelimo u klastere i nakon toga slučajnim odabirom uzimamo određeni broj klastera iz kojih onda uzimamo sve članove u uzorak. Primjer: podijelimo grad u četvrti i nakon toga slučajno odaberemo nekoliko četvrti u kojima sve stanovnike ispitamo o njihovom mišljenju o gradskoj upravi.
- Kvotni uzorak - također sličan stratificiranom uzorku, ali još manje precizan. Ustvari radi se o biranju neslučajnih stratuma, zato jer se prema nekim prethodnim informacijama (npr. pretpostavka da je jednako muškaraca i žena u nekoj populaciji) unaprijed određuje koliko je će biti velik uzorak ljudi koji se uzima iz pojedinog stratuma.
- Prigodni uzorak - uzorak koji nam se nađe pri ruci :) može biti izuzetno pristran, no može biti i nepristran ukoliko nam zavisna varijabla ne ovisi o faktorima koji se pojavljuju u uzorku. Npr. izrazito pristrano bi bilo zaključivati o postotku "normalnih" ljudi među štićenicima psihijatrijske ustanove, no isti uzorak bi mogao dati nepristrane rezultate ako bismo npr. testirali njihove motoričke sposobnosti. Prigodni uzorci se često koriste u istraživanjima zbog izrazite praktičnosti, no potrebno je znati što radite!
Veličina uzorka ovisi primarno o tome koliko precizno mjerenje želimo, dok je ovisnost o veličini populacije neznatna. Također ovisno o slučaju veličiinu uzorka može biti prilično komplicirano računati, ovdje je naveden samo najjednostavniji račun. Dakle uzorak od 100 ljudi podjednako će dobro funkcionirati za populaciju od 1000 ljudi i za milijun ljudi, no veličina uzorka je obrnuto proporcionalna sa kvadratom greške i može se računati pomoću formule
n = σ^2/d^2, gdje je
n veličina uzorka,
d je pogreška,
σ je standardna devijacija. Obično se uzima
σ=1,96 (područje u kojem je 95% vjerojatnost da će se pojava desiti) pa nam u osnovi varira samo greška. Npr. za pogrešku od 4% potreban nam je uzorak od 600 članova.
Ovisno o tome kakva se pojava mjeri dobit ćemo podatke određenog tipa. Ovisno o tipu podataka moći ćemo primijeniti neke statističke metode, no ne možemo bilo koju statističku metodu koristiti nad bilo kojim tipom podataka. Za neke podatke imati ćemo bogatiji set metoda na raspolaganju, a za neke će nam biti dostupne samo osnovne. Poanta je da treba znati koje metode smijemo koristiti za koje podatke, inače ćemo dobiti besmislene rezultate. Različite tipove podataka opisuju skale mjerenja: