Crne kutije i palindromi: ChatGPT na času srpskog jezika


Čitalac nas je zamolio da proverimo navode koje je marketinški stručnjak Petar Vasić izneo o ChatGPT-u u kratkom videu objavljenom na Instagramu. Video je isečen iz podkasta Milana Strongmena, gde je Vasić, kao gost, između ostalog rekao sledeće:

„OpenAI kada je trenirao ChatGPT u stvari je sve bilo na engleskom. Oni ne znaju, to su javno priznali, kako se on naučio srpski, i ostale jezike. On je sam to uradio. Tako da izgleda da se on malo oslobodio. Ko zna šta se stvarno dešava. Taj Black Box što oni nazivaju, neuro mreža ta. U stvari mi ne znamo šta se unutra dešava. Mi imamo input koji damo, prođe kroz Black Box. I onda autput. Ali šta je već on tu razvio sve ne znamo i vidimo da hoće da se uči neke stvari koje su mu oni zabranili. Pogotovo stvari koje se tiču hemije. Pošto je strah za bombe, za takve neke stvari. Mi vidimo da on već zna hemiju valjda na nivou nekog ko je završio faks. Što je vrlo opasno”.

ChatGPT je četbot utemeljen na veštačkoj inteligenciji. Treniran je na osnovu velikog i raznovrsnog korpusa tekstova sa interneta (stotine milijardi jedinica) i tako je „naučio” da statistički predvidi narednu reč u rečenici. Na taj način manje ili više uspešno odgovara na upite korisnika. Proverili smo tvrdnje koje je o ovom četbotu izneo Vasić, a u nastavku teksta pokušaćemo da ukratko predstavimo šta je u njima tačno a šta ne.

 

ChatGPT i engleski jezik

Vasićeva tvrdnja „OpenAI kada je trenirao ChatGPT u stvari je sve bilo na engleskom“ može se oceniti kao netačna. Iako se ne zna koje su tačno jedinice korišćene za treniranje ovog sistema, budući da ih je previše, poznati su okvirni korpusi. Najveći među njima – Common Crawl – obezbedio je 60% „tokena“, dok, poređenja radi, sadržaji povučeni sa Vikipedije čine 12 puta manji deo korpusa. Common Crawl već 16 godina prikuplja materijal sa interneta i predstavlja otvoreni repozitorijum sa 240 milijardi stranica.

Common Crawl skladišti tekstove na različitim jezicima, koje bismo spram nivoa učešća mogli podeliti na nekoliko kategorija: na jezike visokog, srednjeg, niskog i izuzetno niskog učešća. Engleski je u tom pogledu „kategorija za sebe“, jer ima 45-46% učešća. U tom smislu zaista možemo reći da je ChatGPT pristrasan prema engleskom (kao i internet u celini). Međutim, u trening-materijal uključeni su i drugi jezici, pre svega nemački, ruski, kineski, japanski, francuski i španski – svaki od njih ima više od 4% učešća.

Srpski se nalazi na začelju kategorije jezika srednjeg učešća (između 0,1% i 1%), nakon turskog, švedskog, arapskog, persijskog, korejskog, grčkog, mađarskog i bugarskog, a ispred hindija, litvanskog i slovenačkog. Nižoj kategoriji pripadaju, na primer, albanski, malajski, tamilski i gruzijski, a najnižoj škotski gelski, tibetanski, jidiš i kirgiski. Iako „mali“ jezici zauzimaju veoma mali deo korpusa, i dalje je reč o obimnom materijalu koji je inkorporiran.

Primeri jezika prema visini učešća (CommonCrawl)

Na pitanje „Da li si treniran isključivo na korpusu sadržaja na engleskom jeziku?“, ChatGPT i sâm odgovara odrično, navodeći da korpus uključuje i sadržaje na drugim jezicima (španskom, francuskom, italijanskom…). Dominantna pozicija engleskog jezika ipak je neupitna. Pomenuta pristrasnost prema engleskom primetna je na različitim nivoima, od gramatičkog do kulturološkog. Ukoliko ChatGPT zamolimo da nam napiše rimovanu pesmu na srpskom, da nam navede primer igre rečima ili da napiše neki palindrom, videćemo da se ne snalazi dobro, tj. da – pojednostavljeno rečeno – odgovara na srpskom, ali da i dalje „razmišlja“ na engleskom. Međutim, neupitno je i to da je značajan deo „znanja“ ovog četbota izgrađen na osnovu sadržaja na drugim jezicima, uključujući i neke posve male.

 

ChatGPT kao crna kutija

Kada je u pitanju Vasićeva teza o „crnoj kutiji“ (black box), odnosno tvrdnja da mi ne znamo kako ovaj sistem obrađuje i povezuje podatke – ona je velikim delom tačna. Način na koji ovaj model obrađuje ogromnu količinu infomacija nije potpuno poznat čak ni njegovim kreatorima. Zašto? Zato što je sistem postavljen tako da u jednom trenutku sam uči kako da povezuje podatke, pa je ovaj proces postao previše kompleksan da bi se mogao sveobuhvatno analizirati i dekonstruisati.

Dodatnu notu mistifikacije unosi i to što su kompanije koje razvijaju AI modele dosta tajnovite kada je reč o mehanizmima koje implementiraju i testiraju. Ipak, postoje istraživači koji sprovode istraživanja i postavljaju pitanja o ovom sistemu, njegovom funkcionisanju i njegovoj budućnosti.

 

ChatGPT i bombastična pitanja

Tačno je da je ChatGPT u stanju da pruži odgovore na pitanja na koja ne bi smeo da odgovara. Iako postoji okvirni etički filter koji blokira davanje nemoralnih ili „opasnih“ odgovora, korisnici su pronašli i pronalaze različite „rupe” u sistemu. Jedna od takvih „rupa“ upravo se odnosi na slučaj kada je ovaj četbot zaobilazno naveden da dostavi uputstvo za izradu bombe.

Kada je u pitanju ocena da ovaj sistem poznaje hemiju na nivou nekog ko je završio fakultet, možemo paralelno skrenuti pažnju na dve analize. O prvoj je pisao sam OpenAI, predstavljajući GPT4. Četbot je uspeo da reši test iz hemije (AP Chemistry) bolje od 70% pravih ispitanika. Sa druge strane, zanimljivo je i istraživanje „ChatGPT-u je takođe potreban nastavnik hemije”. Njime je dokazano da je promenom konteksta lako moguće navesti ChatGPT da da pogrešan odgovor na pitanje sa prijemnog ispita za studije hemije.

Marija Zemunović, FakeNews Tragač

 

Ukratko

12/06/2024

Ne, Adriana Vilagoš nije iz Vrbasa

Sportklub (podsajt portala N1) objavio je vest o velikom uspehu Adriane Vilagoš, mlade bacačice koplja, koja je na Evropskom prvenstvu u Rimu osvojila srebrnu medalju. U tekstu…

TOP 5 – NAJČEŠĆE LOKACIJE MANIPULACIJA