Zamislite sebe kako brzinski prelećete pogledom preko ovakvih naslova: „Novi lek protiv raka daje pozitivne rezultate u 66% slučajeva“, „Procenat avionskih nesreća najviši u proteklih 50 godina“, „Srbija je sportska velesila: ispred SAD, Nemačke i Italije“. Prvi je nadahnjujuć, drugi zastrašujuć, a treći ispunjava ponosom. U realnim okolnostima često se zadržimo samo na naslovu, bez zalaženja u suštinu. Neka sada bude drugačije.
Bildovanje procenata
Pogledajmo prvu vest. Najpre se ispostavlja da istraživanje uopšte nije sprovođeno nad ljudima, već na miševima. Mediji ovakvu važnu informaciju o eksperimentu neretko prećute, kako bi tekst delovao relevantnije. Na Tviteru / Iksu postoji čak i nalog justsaysinmice koji dosledno opominje neodgovorne medije da jasno naglase kada su eksperimenti o kojima se izveštava izvedeni na miševima. U suprotnom, mogu se javiti nerealna očekivanja publike u vezi s naučnim progresom, ili se (nakon nekoliko „lažnih“ optimističnih objava) može javiti utisak da nas naučnici dovode u zabludu i da konstantno obećavaju nešto što ne mogu da ispune. U našoj vesti je, osim informacije o miševima, sakriven i podatak o tome šta se desilo sa preostalom trećinom laboratorijskih glodara. Ako su sve dve trećine izlečile, ali je jedna trećina umrla zbog primljene supstance, imamo li opravdanog razloga za slavlje?
U prvom videu pogledajmo primer manipulativnog „bildovanja“ procenata kojima se prikazuje navodna popularnost jednog proizvoda.
Apsolutno / relativno
Da vidimo i drugi naslov: „Procenat avionskih nesreća najviši u proteklih pedeset godina“. Kliknete, pročitate ceo tekst i shvatite da nije reč o procentu, već o apsolutnim brojevima. Drugim rečima, autor je pratio rast broja (pojedinačnih) nezgoda, tj. prebrojavao je nezgode godinu za godinom, a nije pratio udeo letova s nezgodama u ukupnom broju letova. Samim tim, nije nam dostavio ono što je obećao u naslovu. A zašto bi bilo važno da je to uradio? Pogledajmo na jednom hipotetičkom primeru:
Dakle, iako se ove godine desilo više nezgoda, njihov procentualni udeo je manji nego pre pet decenija, jer se tada letelo dvostruko ređe. Ovi podaci dati su tek da bismo jasnije prikazali problem mešanja apsolutnih brojeva i procenata. U stvarnosti, realan rizik od smrti usled letenja avionom daleko je manji. Recimo, 2021. godine iskorišćeno je 2,3 milijarde avionskih karata, a 176 putnika je nastradalo. To znači da je šansa za nesreću 0,0000076%, tj. jedan putnik na 13.068.181 putnika. Drugim rečima, ako biste leteli svaki dan, trebalo bi vam (čisto statistički gledano) 35.804 godina da nastradate usled leta.
Kada pričamo o rastu i padu – broja žrtava, obolelih, izlečenih, automobila, novoizgrađenih stanova ili mobilnih telefona – moramo znati od čega polazimo. Zamislimo da među 100 stanovnika jedne zgrade imamo jednu osobu koja se drogira. Sledeće godine, međutim, lošim putem krene još jedna osoba, pa ih je sad dve. Ako ostavimo postrani podatak o ukupnom broju stanovnika zgrade, mogli bismo kreirati naslove poput „Broj narkomana se udvostručio!“ ili „Broj narkomana porastao za 100%“ i oba bi – na matematičkom planu – bila validna. Međutim, da li bi takvi naslovi zaista pošteno odražavali realnu sliku? Ne, jer bi lako isprovocirali neutemeljene zaključke.
Sledeći primer govori o problemu koji može nastati kada zanemarimo važne elemente određene računice.
Šampionske nedoumice
Vratimo se sada na treći naslov iz uvoda ovog teksta: „Srbija je sportska velesila: ispred SAD, Nemačke i Italije“. U redu, znamo da je ovde činjenice veoma teško staviti ispred emocija i da je naslov najlepše prihvatiti takav kakav jeste. Međutim, da li je Srbija zaista bolja u sportu od tri navedene zemlje? Autor se služio podacima o broju osvojenih medalja po glavi stanovnika na prethodnim Olimpijskim igrama. Srbija je tu na 33. mestu, s jednom medaljom na 1.321.033 ljudi, Italija je četiri mesta iza nas, Nemačka je na 45, a SAD na 47. mestu. Deluje fer? Možda, dok ne pogledamo ko je iznad nas. Uzmimo primer šampiona: malena Grenada, nešto veća od Subotice, osvojila je dve medalje, tj. jednu medalju na 56.289 Grenađana. Da bi Srbija bila bolja od nje, morala bi da osvoji 118 medalja, što je na poslednjim igrama pošlo za rukom samo Amerikancima. Ako bi Indija, kao najmnogoljudnija zemlja na svetu, želela da se progura na lidersku poziciju, morala bi da osvoji oko 25.000 medalja, iako je maksimalan broj 1.044, pri čemu u mnogim disciplinama jedna zemlja može da osvoji samo jednu medalju. Ako zanemarimo tu činjenicu, Indija bi morala čitav jedan vek da osvaja sve medalje kako bi pomrsila konce Grenadi. Nažalost, nije baš na dobrom putu: u stvarnosti je osvojila samo jednu medalju više od Srbije.
Da li je onda prikazani model zaista pogodan za rangiranje „sportskih velesila“? Da li su Olimpijske igre jedini reprezentativni događaj za takvu vrstu računice? Šta je sa Zimskim olimpijskim igrama, na kojima Srbija nikada nije osvojila nijednu medalju? Hoćemo li računati i sva svetska i kontinentalna prvenstva? Uzimamo li u obzir i mušku i žensku konkurenciju? Da li u jednačinu ulaze i (za nas) egzotični sportovi poput ragbija i korfbola? Treba li proveriti kako se stranci snalaze u boćanju? A šta je sa paraolimpijcima? Na kraju krajeva, zašto pri određivanju liste „velesila“ ne uzmemo u obzir i rekreativni sport? Eto: što više razmišljamo, zadatak je sve zamršeniji. Iako je broj medalja po glavi stanovnika u načelu interesantna ideja, koja treba da ublaži uticaj veličine populacije, taj koncept je daleko od savršenog.
Prosek, mod i medijana
Prosek, čak i kada je tačno izračunat, često ostavlja pogrešan utisak: to je možda najvidljivije kada se u medijima pojave informacije o visini prosečne zarade. Često ćemo ispod takvih objava naći duhovite komentare poput „Jedna polovina građana jede kupus, a druga polovina meso. U proseku jedemo sarmu“. Kako bismo bolje razumeli recept za tu sarmu, pogledajmo jedan hipotetički primer. Ovde imamo devet osoba, kao i informacije o stanju na njihovom računu. Svi oni zajedno imaju 299.000 dinara.
Želimo li da izračunamo prosek, podelićemo dobijeni zbir sa devet. Dakle, prosečna vrednost je 33.222 dinara. Međutim, deluje da taj broj… nije fer? Osmoro od ovih devetoro ljudi ima daleko više od tih tridesetak hiljada. Jasno je da ovde problem pravi Časlav, koji je u velikom minusu: čak pola miliona dinara. Budući da njegova pozicija remeti ovu statističku sliku i značajno utiče na prosečnu vrednost, Časlav je zapravo „outlier“, odnosno „štrčak“.
Ako bismo Časlava isključili iz računice, prosečna suma na računu bila bi 99.875, što deluje daleko bliže pojedinačnim sumama preostalih osmoro ljudi. Međutim, statistika je takva: ako hoćemo prosek, moramo uključiti i Časlava. A šta bi tek bilo da on ima višemilionski dug?
Ako želimo realniju sliku, možemo se opredeliti za medijanu. Nju ćemo dobiti ako poređamo ljude spram stanja na računu, od najvećeg do najnižeg iznosa, a potom pogledamo ko stoji u sredini. To je u našem slučaju Dragana: četvoro ljudi ima više novca od nje, a četvoro (uključujući i Časlava) manje od nje.
Na kraju, pomenimo i mod: to je vrednost koja se najčešće pojavljuje u nekom skupu podataka. U našem slučaju, mod bi bila suma od 101.000 dinara, jer se pojavljuje tri puta.
Kada koristimo statistiku, moramo biti oprezni u njenom tumačenju i uvek sagledati širu sliku. Nije dovoljno samo pogledati brojeve: važno je razumeti kontekst, način na koji su podaci prikupljeni, i odabrati pravi metod za njihovu analizu. Bilo da čitamo medijske naslove, naučne radove ili poslovne izveštaje, kritičko razmišljanje i poznavanje osnovnih statističkih koncepata pomoći će nam da donosimo bolje zaključke i izbegnemo zamke površnog tumačenja. Što bi rekao pisac Čarls Braun: „Neće vas u nevolju dovesti ono što ne znate, već ono u šta ste ubeđeni da je tačno – a nije“.
Test
Nakon što ste savladali ovu lekciju, pokušajte da rešite ovaj test sa deset pitanja. Svi oni koji uspešno reše sva tri testa Tragačevog kursa o brojevima i statistici – dobiće sertifikat na kućnu adresu!
Sledeća lekcija: Razumevanje grafikona