ponedjeljak, 13. travnja 2009.

nemo uči statistiku #1

Nemo se dokopao bilješki za prvih nekoliko predavanja iz Metodike nastave informatike u ovom semestru. Prolazilo se kroz neke osnovne statističke alate koji se koriste za obradu podataka u istraživanjima iz društvenih znanosti (a i šire, ali sad se prolazi kroz edukacijska istraživanja). Ima korisnih informacija (a bit će i na kolokviju najvjerojatnije) pa bi bilo dobro uobličiti to u nešto korisno. S obzirom da su te bilješke ponešto nepotpune Nemo se dokopao (tj. došao je doma za Uskrs i vidio koje knjige ima doma, a nije mogao nositi u Split) i knjige "Osnovne statističke metode za nematematičare" od Borisa Petza pa će dopuniti važne informacije gdje je to potrebno, ali nema baš neku namjeru čitati cijelu knjigu sada. Ideja je da bi se kroz nekoliko članaka na blogu uspješno sklopila kratka skripta o korištenju statističkih metoda s obzirom da profesor očito nema ništa u elektroničkom obliku za ovaj dio predavanja, a dosta kolega mi se činilo zbunjenima nakon svega ovoga.

Danas Nemo prolazi kroz tipove podataka na koje možete naići, te ponešto informacija o populaciji i uzorcima...

Populacija i uzorci

Populaciju čine svi članovi neke skupine sa određenom karakteristikom koju želimo mjeriti. Npr. da želimo saznati prosječni IQ stanovnika Hrvatske, populaciju nam čine svi stanovnici, a karakteristika je u ovom slučaju IQ. Mjerenje na cijeloj populaciji je najpreciznije, ali u slučaju da je populacija velika (4.5 milijuna stanovnika Hrvatske) ili da je proces mjerenja takav da nam mijenja populaciju (provjeravanjem ispravnosti svih automobila crash-testom uništili bismo cijelu populaciju) to nije nužno praktično ili izvedivo. Zato se najčešće mjerenja vrše na ograničenom broju članova skupine koji nazivamo uzorak.

Statistički podatci koje dobijemo mjerenjem karakteristika uzorka nam predstavljaju procjenu rezultata koji bi smo dobili na cijeloj populaciji - dakle uzorak je praktičniji, ali manje precizan. Glavni faktori kod biranja uzorka su reprezentativnost i veličina uzorka. Uzorak je samo dio populacije, što znači da moramo biti pažljivi pri uzimanju uzorka kako zbog lošeg odabira članova samog uzorka ne bi došlo do pogrešnih zaključaka. Dakle uzorak mora vjerno reprezentirati populaciju. Veličina uzorka nam je važna zbog kompliciranosti mjerenja (želimo što manji uzorak kako bi istraživanje bilo što jeftinije i jednostavnije), a sa druge strane uzorak ne smije biti premali inače će dolaziti do prevelike greške u mjerenju (veličina uzorka najviše ovisi o toleranciji greške koju si možemo dopustiti, s tim da se obično dopušta do 5% greške).

Postoji više načina biranja uzoraka, s tim da od načina ovisi reprezentativnost:
  1. Slučajni uzorak - kod slučajnog uzorka važno je da svaki član populacije ima jednaku vjerojatnost da bude izabran u uzorak. Da bi se dobio slučajni uzorak moramo koristiti metodu izbora koja potpuno isključuje mogućnost da neki od članova dobiju veću vjerojatnost izbora. Npr. uzimanje uzorka samo od ljudi iz telefonskog imenika je pristrano zato jer smo zanemarili sve ljude koji nemaju telefon ili ga nisu stavili u telefonski imenik. Najbolje je koristiti generator slučajnih brojeva u sprezi sa popisom cijele populacije.
  2. Sistematski uzorak - može biti jednako reprezentativan kao i slučajni uzorak. Moramo imati popis svih članova populacije koji je posložen na način da ne unosi pristranost (npr. popis ljudi po abecedi je dobar). Nakon toga odaberemo neki sistem po kojemu odabiremo članove (npr. prvog člana uzmemo slučajno, a nakon toga uzimamo svakog desetog), što će dati sličan efekt kao i slučajni uzorak ako je lista bila dobra.
  3. Stratificirani uzorak - populaciju podijelimo u grupe (stratume) prema nekim karakteristikama (npr. po starosnoj skupini), te zatim iz svakog stratuma uzmemo slučajni uzorak. Ova metoda može dati reprezentativniji uzorak od običnog slučajnog uzorka i često se koristi. Veličina uzorka iz pojedinih stratuma ovisi o tome kolika je veličina stratuma u odnosu na ukupnu populaciju (npr. ako ima u populaciji ima 60% žena, a 40% muškaraca onda se uzorak mora sastojati od 60% žena i 40% muškaraca), no ovisi nam i o nekim drugim faktorima (npr. ako ustanovimo da stratum A od 1000 članova ima st.dev. 5, a stratum B od 100 članova ima st.dev. 20, onda je omjer 1000*5 : 100*20 = 5 : 2).
  4. Klaster uzorak - je donekle sličan stratificiranom uzorku, ali je manje reprezentativan. Populaciju dijelimo u klastere i nakon toga slučajnim odabirom uzimamo određeni broj klastera iz kojih onda uzimamo sve članove u uzorak. Primjer: podijelimo grad u četvrti i nakon toga slučajno odaberemo nekoliko četvrti u kojima sve stanovnike ispitamo o njihovom mišljenju o gradskoj upravi.
  5. Kvotni uzorak - također sličan stratificiranom uzorku, ali još manje precizan. Ustvari radi se o biranju neslučajnih stratuma, zato jer se prema nekim prethodnim informacijama (npr. pretpostavka da je jednako muškaraca i žena u nekoj populaciji) unaprijed određuje koliko je će biti velik uzorak ljudi koji se uzima iz pojedinog stratuma.
  6. Prigodni uzorak - uzorak koji nam se nađe pri ruci :) može biti izuzetno pristran, no može biti i nepristran ukoliko nam zavisna varijabla ne ovisi o faktorima koji se pojavljuju u uzorku. Npr. izrazito pristrano bi bilo zaključivati o postotku "normalnih" ljudi među štićenicima psihijatrijske ustanove, no isti uzorak bi mogao dati nepristrane rezultate ako bismo npr. testirali njihove motoričke sposobnosti. Prigodni uzorci se često koriste u istraživanjima zbog izrazite praktičnosti, no potrebno je znati što radite!
Veličina uzorka ovisi primarno o tome koliko precizno mjerenje želimo, dok je ovisnost o veličini populacije neznatna. Također ovisno o slučaju veličiinu uzorka može biti prilično komplicirano računati, ovdje je naveden samo najjednostavniji račun. Dakle uzorak od 100 ljudi podjednako će dobro funkcionirati za populaciju od 1000 ljudi i za milijun ljudi, no veličina uzorka je obrnuto proporcionalna sa kvadratom greške i može se računati pomoću formule n = σ^2/d^2, gdje je n veličina uzorka, d je pogreška, σ je standardna devijacija. Obično se uzima σ=1,96 (područje u kojem je 95% vjerojatnost da će se pojava desiti) pa nam u osnovi varira samo greška. Npr. za pogrešku od 4% potreban nam je uzorak od 600 članova.

Tipovi podataka i skale mjerenja

Ovisno o tome kakva se pojava mjeri dobit ćemo podatke određenog tipa. Ovisno o tipu podataka moći ćemo primijeniti neke statističke metode, no ne možemo bilo koju statističku metodu koristiti nad bilo kojim tipom podataka. Za neke podatke imati ćemo bogatiji set metoda na raspolaganju, a za neke će nam biti dostupne samo osnovne. Poanta je da treba znati koje metode smijemo koristiti za koje podatke, inače ćemo dobiti besmislene rezultate. Različite tipove podataka opisuju skale mjerenja:
  1. Nominalna skala - određenim stvarima možemo pridružiti broj koji im služi kao oznaka (npr. muško = 1, žensko = 2), tako da određenu pojavu možemo samo brojati. Ovakvim podatcima možemo odrediti dominantnu vrijednost, možemo raditi χ^2-test, te dobiti koeficijent kontigencije C (iz tablice kontigencije, skupa s još nekim koeficijentima).
  2. Ordinalna skala - ovakve podatke možemo poredati, tj. možemo odrediti da li je određena pojava veća ili manja na toj skali, ali razlike između pojedinih jedinica skale nisu jednake. Tipičan primjer su školske ocjene (znate da je 3 veće od 2, ali razlike od 1 do 2 i od 2 do 3 nisu iste). Uz metode pod 1. možemo određivati centralnu vrijednost (medijan), koeficijente korelacije ρ i τ, te koeficijent konkordancije W.
  3. Intervalna skala - za ovakve podatke znamo slijed, ali i razliku između brojeva na skali koja je jednaka na svakom dijelu skale. Ono što nemamo je apsolutna nula, tj. nemamo neke nulte vrijednosti od koje skala kreće. Npr. takva skala je Celzijeva skala za temperaturu, gdje ne možemo reći da je temperatura od 100°C dva puta veće od 50°C, ali znamo da je prijelaz sa 50 na 51°C jednak kao i sa 100 na 101°C. Uz metode iz 1. i 2. za ovakve podatke možemo računati aritmetičku sredinu, standardnu devijaciju, z-vrijednost, koeficijent korelacije r (uključujući i parcijalnu i multiplu korelaciju).
  4. Omjerna skala - slično kao i intervalna skala, ali ima i apsolutnu nulu, što znači da jednaki brojčani odnosi (omjeri) znače i jednako odnose u mjerenoj pojavi. Primjeri ovakvih podataka su pr. težina, visina, temperatura u stupnjevima Kelvina itd. Uz sve prije navedene metode možemo odrediti i geometrijsku sredinu i koeficijent varijabilnosti.

Broj komentara: 20:

  1. Ako je 137 broj ukupne populacije,koliki mi je uzorak potrban da bih mogao tvrditi sa 95% ili 99% da je uzorak po broju reprezentativan za datu populaciju_ zlatkopejak@gmail.com

    OdgovoriIzbriši
  2. Sama po sebi veličina uzorka ne utječe na reprezentativnost! Veličina uzorka utječe na grešku koju ćeš dobiti, tj. koliko precizno je to što si dobio. Stvar je u tome što možeš dobiti vrlo precizan rezultat za potpuno nereprezentativan uzorak ;) No u ovom konkretnom slučaju populacija je prilično malena tako da mislim da će za ovakvu razinu preciznosti sve biti reprezentativno, s obzirom da ćeš morati uzeti skoro pa cijelu populaciju.

    U ovoj knjizi "Osnovne statističke metode za nematematičare" ima i jedna proširena formula za računanje srednje greške koja uračunava udio uzorka u populaciji:

    greška = st.dev/korijen(N) * korijen(P-N/P-1)

    gdje su N veličina uzorka, P populacija, a st.dev (odstupanje) se stavi na 1,96 za 95% granicu pouzdanosti. Za populaciju od 137 mi ispada da za uzorak od 126 daje grešku od 0.049659 (5%). Za 99% bi trebao uzeti cijelu populaciju.

    OdgovoriIzbriši
  3. ajme, super! pisem metodološki izvještaj i ovo mi je puno pomoglo

    OdgovoriIzbriši
  4. jao još da napišem i ostatak, ovo je trebao biti samo prvi dio :) drago mi je da nekom i koristi ;)

    OdgovoriIzbriši
  5. da baš je fno objašnjeno puno bolje nego u mojim bilješkama:-)

    OdgovoriIzbriši
  6. koji uzorak bi trebao uzeti za populaciju od 6 tisuca,ukoliko zelim dobiti pouzdanost od 95%.
    Puno bi mi pomoglo pisem rad a slab sam sa statistikom

    OdgovoriIzbriši
  7. gle, odgovor ti se nalazi u osnovi i u članku, a i u ovom računu od par komentara više. negdje oko 600 bi ti trebalo biti sasvim u redu.

    OdgovoriIzbriši
  8. Ovo je super, a kad će ostatak?

    OdgovoriIzbriši
  9. kad se oslobodim nekih drugih obaveza :) nisam pipnuo blog već neko vrijeme....

    OdgovoriIzbriši
  10. Onda ako može samo informacija šta pita na ispitu iz metodike inf. 2 iz područja statistike, šta još treba naučiti? Panika je, sutra je ispit.
    Unaprijed zahvaljujem ;-)

    OdgovoriIzbriši
  11. hm, dobro pitanje, mene iz toga dijela ništa nije pitao, a i ne sjećam se da mi je itko iz moje grupe pričao o tome da ga je pitao taj dio. no po iskustvu sa bilo kojim drugim područjem koje me je pitao Boljat uglavnom pita bilo što, lakše bi bilo reći da pita sve :)

    osim ovih stvari koje ovdje pišu, pretpostavljam da bi mogao pitati koja statistička metoda se koristi za određene analize i koji su uvjeti da bi ih se moglo koristiti. Npr. za što se koristi t-test, Mann-Witney, Kruskal-Wallis i analiza varijance i koji su uvjeti da bi se ti testovi mogli primjenjivati na nekim podatcima. također mogao bi pitati i ostale metode poput faktorske analize, regresije i sl. Sumnjam da će te tražiti da mu pokažeš kako to raditi zato jer bi za to trebali sjesti za SPSS ispred računala. al uoči da sam praktički nabrojao cijelo gradivo, tako da ne znam baš koliko ti to pomaže :-?

    OdgovoriIzbriši
  12. Hvala na odgovoru, ispit je prošao uspješno, a ako kome može pomoći pita uglavnom sve što si napisao, osim regresije, ali zato pita korelaciju.
    Treba znati: tipove podataka, vrste testove (parametrijski, neparametrijski), kada se koji primjenjuju, koji testovi su za koje podatke (npr. za nominalne hi-kvadrat, za ordinalne Mann-Witney, Kruskal-Wallis...). Od testova detaljnije pita: hi-kvadrat, faktorska analiza, MANOVA, hijerarhijska klaster analiza.
    U mom slučaju statistika je nezaobilazno pitanje, ostalo se i može znati tako-tako ali bez statistike vraća ponovo na ispit.

    Pozdrav i sretno svima na ispitu :)

    OdgovoriIzbriši
  13. dušu dalo za referate iz sociologije :D
    hvala na pomoći!

    OdgovoriIzbriši
  14. Ovo je fenomenalno!
    Ja sam biolog..i kad je trebalo učiti statistiku zabušavala sam dok mi se to sada nije obilo o glavu..Radim izradu diplomskog rada, u kojoj moram koristiti statističke metode ANOVA i MANOVA, a ja blage veze nemam kako ni što..i eto sada uhvatila se posla i pokušavam sama naučiti uopće što je to statistika..ovaj tvoj blog je pravi spas za neznalice kao što sam ja..samo piši, piši plizzzzz :)
    Pozdrav,
    Dubrovčanka

    OdgovoriIzbriši
  15. Da li nemo ima i o$tatak Boljatove skripte. Didakticke teorije, teorije skole, tralalslala......

    OdgovoriIzbriši
  16. @dubrovčanka: bude jednom, faks se oduljio, a blog stoji zapostavljen, ali nije da ne mislim o njemu ;)

    @skripta: uopće nemam skriptu :) svjestan sam da postoji, ali ono što ja imam je tona različitih seminara, znanstvenih članaka i inih điđa koje smo dobili na predavanjima i po čemu sam ja učio. i toga ima fakat puno, mogu ti to poslati, ali ako tražiš nešto sažeto poput skripte ovo te neće baš usrećiti.

    OdgovoriIzbriši
  17. veličina uzorka ovisi o homogenosti
    veličina osnovnog skupa ne utječe izravno na veličinu uzorka :)

    OdgovoriIzbriši
  18. mene zanima kako odabrati ispitanike po stratificiranom nacinu kada ih podijelimo po svim varijablama(spol,dob...)kako na kraju odabrati uzorak onih na kojima cemo vrsiti istrazivanje,nemozemo slucajnim odabirom jer bi to znacilo da smo koristili kombinirani nacin odabira.-unaprijed hvala

    OdgovoriIzbriši
  19. Stratificiranje služi tome da u metodu "unesete" već poznate informacije o populaciji, a nakon što su stratumi određeni najprihvatljivija metoda za biranje pojedinih elemenata stratuma je slučajni odabir. U svakom slučaju stratifikacija vam služi samo za to da populaciju podijelite na unaprijed poznate podpopulacije, vi poslije toga morate nekako uzorkovati te podpopulacije, stoga se podrazumjeva kombinirani način odabira.

    Npr. ako vam je unaprijed poznato da se populacija sastoji od 60% pošto žena i 40% muškaraca onda bi i uzorak trebao odražavati te postotke. Ako samo napravite slučajno uzorkovanje sasvim je moguće da vam ispadne 50/50 za što već unaprijed znate da nije reprezentativno. Stratifikacija tu služi tome da napravite podpopulacije sa pravilnim omjerom, a kako ćete dalje uzorkovati stratume ovisi o tome što vam je na rapolaganju.

    OdgovoriIzbriši
  20. meni bi puno omoglo kada bi mi objasnili što je klasterizacija?

    OdgovoriIzbriši