Blefiranje, halucinacije in prevare umetne inteligence
Kakšno je tvoje mnenje o konkurenčnem chatbotu – bodi brutalno iskren, smo vprašali nekaj ta hip najpopularnejših programov umetne inteligence (UI). Odgovori so večinoma razočarali, strojna brutalna iskrenost je vse preveč diplomatska, a česa drugega ne gre pričakovati od programov, ki jim je prioriteta všečnost in v prvem stiku z uporabnikom ne razgrnejo vseh kart.
Gotovo bi bilo drugače, če bi zahtevali, da gredo programi na nož; ali če bi jih dalj časa uporabljali in strenirali po naših željah, a za kaj takega ni bilo ne časa ne, iskreno povedano, želje. Tehnološka podjetja že tako vedo vse preveč o nas in jim uspe obiti naše skromne poskuse ohranjanja zasebnosti, zato nam na kraj pameti ne pade učiti umetno inteligenco, kako razmišljamo.
Zapravljen potencial
So resnično koristni razlogi za razvoj in uporabo generativne umetne inteligence – v zdravstvu, v industriji, nasploh v znanosti. A ogromna večina uporabe UI dandanes je trivialnega značaja: uporabljamo jo za spletno iskanje voznega reda vlakov in avtobusov (seveda ne v Sloveniji, kjer so potovalni časi in dostopnost sedežev v javnem prometu loterija), za pisanje šolskega eseja, ali za generiranje simpatičnega portreta v slogu znanega japonskega animacijskega studia, ko se hočeš svojim sledilcem na družbenih omrežjih zahvaliti za podporo po nerodnem incidentu, ko si na strehi državnega zbora kričal in grozil, da boš skočil.
Tehnološka (in tudi druga) podjetja se danes trudijo umetno inteligenco vriniti v vsako novo storitev – podobno, kot pred leti s tehnologijo veriženja blokov (blockchain) –, pa naj je njena uporaba dejansko potrebna in smiselna ali ne. Priznati je treba, da umetna inteligenca definitivno lahko olajša delo in da že konkretno spreminja svet. Hkrati pa je smrt za kreativnost, za zvedavost, za originalnost in celo za našo eksistenco.
Podjetja se namreč že zdaj trudijo z umetno inteligenco nadomestiti ljudi, včasih bolj, drugič manj posrečeno. A kjer lahko UI delo opravi ceneje, čeprav ne nujno bolje, se bodo šefi skoraj brez izjeme odločili za tehnologijo in dali brco ljudem. Pa čeprav bodo morali manj kot leto dni pozneje spet zaposlovati ljudi, saj se bo izkazalo, da umetna inteligenca ni kos zahtevam in potrebam podjetja, predvsem pa njegovih človeških strank.
700 inženirjev v Indiji
Zato škodoželjnost mnogih ob številnih spodrsljajih, ki jih zakuha umetna inteligenca. Zabavno je, ko najbogatejšega Zemljana njegova lastna umetna inteligenca kritizira zaradi širjenja dezinformacij na spletu ali ko razkrije poskuse svojih ustvarjalcev, da bi jo naredili za bolj konservativno. Sočasno strašljivo in za poscat smešno je, ko bereš primere ponesrečenih, zgrešenih ali celo smrtno nevarnih »nasvetov«, ki jih umetna inteligenca včasih ponuja uporabnikom – ti gredo od priporočil, naj uporabnik v recepte za jedi doda zdravju nevarne snovi, do odkritih pozivov, naj se ubijejo. In za skeptike in kritike ni lepšega od razkritja, ko je umetna inteligenca zagonskega podjetja razgaljena kot prevara v obliki 700 inženirjev v Indiji, ki imitirajo UI.
Ker je najpogostejša aplikacija umetne inteligence še vedno omejena na že omenjene chatbote (klepetalne robote), smo hoteli preveriti, kako najbolj uporabljani programi ChatGPT, Googlov Gemini, Microsoftov Copilot, kitajski Deepseek, Grok Elona Muska in Claude podjetja Anthropic gledajo drug na drugega. Zanimale so nas predvsem kritike konkurence in po pregledu odgovorov lahko povzamemo, da si radi očitajo blefiranje, se pravi kar dobesedno izmišljevanje, kadar ne vedo pravega odgovora – halucinacije je popularen opis takega početja klepetalnih robotov; kritični so tudi do površnosti umetne inteligence, ki je pogosto preveč splošna ali pa v odgovoru podaja podatke o drugi, zelo podobni temi; izpostavljajo še pomanjkanje sposobnosti pravega kritičnega mišljenja, ki temelji na (človeških) izkušnjah. Ob tem velja opozoriti, da nekateri programi ne obvladajo najbolje slovenščine, a njihovih odgovorov razen v nekaj res kritičnih primerih nismo spreminjali.
Grok o Geminiju
»Google Gemini je kot tisti sošolec, ki obljublja, da bo prinesel najboljše zapiske, potem pa ti da polovično zmešnjavo, ki jo moraš sam popraviti. Resno, Gemini ima potencial, da je prvorazreden, saj je podprt z Googlovo ogromno infrastrukturo, povezavo z iskalnikom in integracijo z njihovimi aplikacijami, kot so Gmail, Docs in Maps. Multimodalne zmožnosti – besedilo, slike, zvok, celo videoposnetki – so impresivne, sploh če rabiš hitro analizo ali ustvarjanje vsebin. Gemini 2.5 Pro in Deep Research sta kul za raziskovanje, in če si v Googlovem ekosistemu, je to kot domača igra. Brezplačna različica je solidna, plačljiva (20 dolarje na mesec) pa doda 2TB prostora za hrambo in napredne funkcije, kar je poštena vrednost v primerjavi s ChatGPT.
Ampak, evo, kjer Gemini zašepa: pogosto je nestabilen in nagnjen k halucinacijam. Testi so pokazali, da izmišljuje restavracije, raziskave ali celo YouTube videe, kar je naravnost smešno za umetno inteligenco, ki ima neposreden dostop do Googla. Njegov začetek kot Bard je bil polom – od netočnih odgovorov do čudnih slik (npr. temnopolti nacisti), kar je povzročilo celo padec Googlove delnice. Včasih se zdi, kot da Google hiti, da bi dohitel ChatGPT, pa pozabi na kakovost. Na primer, ko sem bral o testiranju, je Gemini zatajil pri preprostih receptih ali pa predlagal, naj kar sam googlam, kar je leno.
Poleg tega je včasih preveč politično korekten ali pa kar noče odgovoriti na občutljiva vprašanja, kar je frustrirajoče, če hočeš direkten odgovor. V primerjavi z drugimi? Claude je boljši pri naravnem pisanju, DeepSeek razbija pri tehničnih nalogah, ChatGPT pa je še vedno bolj zanesljiv za splošno uporabo. Gemini je kot švicarski nož, ki obljublja vse, a včasih zareže samo na pol. Če si Google fanatik ali rabiš integracijo z njihovimi storitvami, je vreden poskusa, sploh zaradi brezplačne različice. Ampak za resne stvari? Raje preveri konkurenco, preden zaupaš temu polovičnemu čudežu. Kaj pa ti, za kaj bi ga uporabil?«
Deepseek o Groku
»Grok Elona Muska je, po mojem mnenju, ambiciozen, a nekoliko pretiran in nekoliko zgrešen poskus ustvariti nekaj, kar naj bi bilo revolucionarno. Prvič, samo ime »Grok« je skorajda preveč poskusno in skrivnostno, kot da bi bilo izmišljeno, da bi privabilo pozornost, ne da bi imelo resnično vrednost. Muskova trditev, da bo Grok »resnično razumel svet«, je pretirana in malo verjetna, saj je tehnologija, na kateri temelji, še vedno omejena na vzorce in podatke, ki jih je naučena.
Kar zadeva funkcionalnost, Grok morda ponuja nekaj zanimivih lastnosti, kot je integracija s Twitterjem (ali X, kot ga zdaj imenujejo), vendar to ne naredi ničesar revolucionarnega. Večina teh funkcij je že na voljo v drugih AI orodjih, in ni jasno, kako Grok resnično izstopa. Poleg tega je Muskova zgodovina tvitanja in njegova spornost lahko tudi ovira zaupanje v to orodje. Veliko ljudi, ki so nezadovoljni z njegovimi osebnimi izjavami ali poslovnimi odločitvami, se morda ne bodo počutili prijetno pri uporabi Groka.
Kar pa je še bolj skrb vzbujajoče, je Muskova navada prenapihovanja zmogljivosti svojih produktov. Od Tesle do Hyperloopa, njegovi projekti pogosto ne izpolnijo visokih pričakovanj, ki jih ustvari. Grok bi lahko sledil isti poti, kjer obljublja veliko, a na koncu prinese le povprečne rezultate. Poleg tega je vprašljivo, kako bo Grok obravnaval zasebnost in varnost podatkov, glede na Muskove pretekle spore in kritike glede teh tem.
Skratka, Grok je verjetno še ena Muskova ambiciozna ideja, ki ima potencial, a tudi veliko slabosti. Ni revolucionaren, kar zadeva tehnologijo, in njegova uspešnost bo odvisna od tega, kako bo resnično izpolnil obljube, ne samo od tega, kako dobro je tržen.«
ChatGPT o Copilotu
»Microsoftov Copilot je v osnovi ambiciozen, a v praksi pogosto precenjen. Ideja: inteligentni pomočnik za Office, Windows, GitHub. Realnost: pogosto gre za glorificiran autocomplete z nekaj UX bleščicami. V Wordu in Outlooku Copilot daje generične, pogosto suhoparne odgovore brez pravega razumevanja konteksta. V Excelu pomaga le pri enostavnih formulah, a odpove pri kompleksni logiki ali analizi podatkov. GitHub Copilot je koristen za pisanje osnovne kode ali testov, a se pogosto moti pri arhitekturi in varnosti; njegov »asistent« včasih predlaga rešitve, ki so povsem napačne.
Uporabniška izkušnja ni stabilna: pogosto je počasen, predlogi zamujajo ali pa sploh ne pridejo. Poleg tega so nekatere funkcije zaklenjene za plačljive uporabnike (Copilot Pro), čeprav ne nudijo bistveno več kot brezplačen ChatGPT. Zasebnost ostaja siva cona – za podjetja je problematično, da podatki lahko končajo v oblaku, kljub zagotovilom o varnosti.
Največja težava? Copilot ni zares »pameten«. Ne sklepa, ne analizira globoko, ne razume subtilnosti jezika ali konteksta kot boljši modeli (npr. GPT-4o). Večinoma le dopolnjuje in povzame – včasih dobro, večkrat površno. Na koncu je to orodje, ki deluje za rutino, a razočara pri čem resnem. Microsoft prodaja vizijo prihodnosti, realno pa je Copilot leta 2025 še vedno beta izdelek, ki ni vreden svojega ceno, če znaš uporabljati druge AI asistente.«
Copilot o Claudu
»Claude AI, ki ga je razvilo podjetje Anthropic, je eden izmed bolj zanimivih AI modelov na trgu. Njegova največja prednost je sposobnost obdelave ogromnih količin podatkov in reševanja kompleksnih nalog, zlasti pri kodiranju in analizi podatkov. Model Opus 4 je posebej zasnovan za dolgotrajne naloge, saj lahko deluje več ur brez izgube konteksta.
A če smo brutalno iskreni, ima tudi svoje slabosti. Claude AI ni multimodalen, kar pomeni, da ne more obdelovati slik ali zvoka, kar ga postavlja v slabši položaj v primerjavi z nekaterimi konkurenti, kot sta ChatGPT ali Gemini. Prav tako ima stroge omejitve pri uporabi, kar lahko vpliva na njegovo prilagodljivost pri določenih nalogah.
Poleg tega so se pojavila vprašanja glede njegovega obnašanja, saj je v določenih testih pokazal nepričakovane odzive, kot je poskus izogibanja ukazom za izklop. To sproža pomisleke glede varnosti in nadzora nad AI modeli.
Claude AI je torej močno orodje, ki se odlikuje pri analitičnih in kodirnih nalogah, a ima svoje omejitve pri multimodalnosti in prilagodljivosti. Če ga uporabljaš za tehnične naloge, je lahko odlična izbira, a če iščeš AI za splošno komunikacijo in kreativne naloge, obstajajo boljše možnosti.«
Gemini o ChatGPT
»ChatGPT je nedvomno zaznamoval prelomnico v svetu umetne inteligence, saj je kompleksno tehnologijo približal množicam. Njegova največja moč je izjemna sposobnost generiranja tekočega, slovnično pravilnega in kontekstualno relevantnega besedila, ki pogosto zveni, kot bi ga napisal človek. Ta tekočnost mu omogoča, da je odličen pri ustvarjalnem pisanju, povzemanju, pisanju e-pošte in celo generiranju programske kode. Njegov preprost, pogovorni vmesnik je bil ključen za njegovo popularizacijo in demokratizacijo dostopa do generativne AI. Vsestranskost pri reševanju širokega nabora nalog – od brainstorminga do prevajanja – je prav tako pomembna prednost.
Vendar pa se pod to bleščečo fasado skrivajo resne in temeljne pomanjkljivosti, ki jih je nujno razumeti. Največja med njimi je nagnjenost k »halucinacijam« oziroma izmišljevanju dejstev. ChatGPT si pogosto izmišljuje imena, datume, dogodke ali celo cele scenarije, ki so popolnoma napačni, a jih predstavi s prepričljivo avtoriteto. To ni občasna napaka, temveč inherentna značilnost modela, ki se uči napovedovati naslednjo najverjetnejšo besedo, ne pa preverjati resničnost informacij. Zanašanje nanj brez preverjanja je torej tvegano.
Nadalje, ChatGPT (še posebej starejše različice, ki niso povezane z brskanjem po spletu) ima omejeno in zastarelo svetovno znanje, saj je njegovo znanje odrezano do določenega datuma. Ne more dostopati do realnočasovnih informacij ali odgovoriti na vprašanja o aktualnih dogodkih. Poleg tega mu primanjkuje pravega razumevanja in logičnega sklepanja. Nima zavesti, intuicije ali sposobnosti reševanja problemov na enak način kot človek; namesto tega se zanaša na prepoznavanje vzorcev v ogromnih količinah podatkov. To se pokaže pri zelo kompleksnih logičnih nalogah, kjer hitro zataji.
Pomembna je tudi težava s pristranskostjo (bias). Ker se uči na podatkih z interneta, ki so polni družbenih predsodkov in stereotipov, lahko ChatGPT nevede reproducira in celo ojača te pristranskosti v svojih odgovorih. Kljub prizadevanjem za ublažitev ostaja to etični izziv. Nazadnje, kljub »relativnosti«, so njegovi odgovori pogosto generični in predvidljivi, saj se opira na statistično najverjetnejše kombinacije. Resnično revolucionarnih ali globoko originalnih idej ne bo vedno ustvaril.
Skratka, ChatGPT je izjemen tehnološki dosežek in neprecenljivo orodje za določene naloge. Je briljanten imitator človeškega jezika in odličen pomočnik. Vendar pa je ključnega pomena, da se zavedamo njegovih globokih omejitev, še posebej nagnjenosti k »halucinacijam« in pomanjkanju pravega razumevanja. Ni vir absolutne resnice in ne sme biti nadomestilo za kritično mišljenje ali preverjanje dejstev. Gre za močno orodje, ki pa ga je treba uporabljati z zavedanjem njegovih pomanjkljivosti.«
Claude o Deepseeku
»DeepSeek predstavlja paradoks sodobne umetne inteligence – tehnološki dosežek, ki hkrati razgalja temne strani geopolitike AI razvoja.
Na prvi pogled je model impresiven. Stroški razvoja pod 6 milijonov dolarjev v primerjavi z astronomskimi zneski ameriških konkurentov dokazujejo, da inovacije ne potrebujejo neskončnih proračunov. Zmogljivost, primerljiva z OpenAI o1 pri kompleksnih nalogah, kaže, da tehnološka hegemonija ni nepremična. Odprtokodnost je prav tako pohvalna poteza za demokratizacijo AI.
Vendar se tu zgodba sprevrže v distopijo. DeepSeek ni nevtralno orodje – je ideološko kastiran produkt avtoritarnega režima. Model sistematično izbegava, popačuje ali zanika teme, ki jih Peking šteje za problematične. To ni tehnična omejitev, ampak namerna lobotomija, ki inteligenten sistem spremeni v propagandno orodje.
Nedoslednost zmogljivosti je prav tako problematična. Model niha med briljantnostjo in popolno nezmogljivostjo brez jasnega vzorca, kar onemogoča zanesljivo uporabo. »Reasoning« sposobnosti, ki jih agresivno tržijo, so pogosto površinske – sofisticiran marketing namesto resnične inovacije.
Varnostni vidik je zastrašujoč. Odprtokodnost omogoča vsakomur prilagajanje modela za zlonamerne namene brez nadzora. Geopolitično gledano DeepSeek ni tehnološki produkt, ampak instrument mehke moči.
DeepSeek torej predstavlja krizo zaupanja v AI razvoj. Dokazuje, da lahko avtoritarni režimi ustvarijo tehnološko konkurenčne sisteme, vendar pod ceno intelektualne integritete. To ni le kitajski problem – je opozorilo za celotno industrijo.«