Kad jautājām ļoti spējīgajai un populārajai mākslīgā intelekta valodas sistēmai GPT-3, vai tā izmantos karti no papīra vai akmeni, lai pavēdinātu to virs kvēlojošām oglēm grilā un atkal iekurtu liesmu, GPT-3 izvēlējās akmeni. Un vai saburzīta krekla izgludināšanai labāk izmantot siltu termosu vai matu saspraudi? GPT-3 teica, lai ņemam saspraudi. Un ko darīt, ja vajadzīga galvassega, jo tu strādā ātrās ēdināšanas restorānā? Vai labāk šo funkciju pildīs sviestmaižu ietinamais papīrs vai burgera bulciņa? GPT-3 izvēlējās bulciņu. Kāpēc GPT-3 izvēles bija tik dīvainas scenārijos, kur vairums cilvēku izvēlētos otru variantu? Tāpēc, ka GPT-3 nesaprot valodu tā, kā to saprot cilvēki.

Vārdi bez miesas

Viens no šī raksta autoriem ir psiholoģijas pētnieks, kurš pirms vairāk nekā 20 gadiem izdomāja augstāk minētajiem līdzīgus scenārijus, lai pārbaudītu tā laika datorizēto valodu modeļu spējas. Arī toreiz tie nespēja veikt loģiskas izvēles situācijās, kas cilvēkiem šķiet pašsaprotamas, un tā vietā grilā uguns "uzpūšanai" kvēlojošās oglēs izvēlējās akmeni, nevis papīra karti.

Otrs raksta autors ir kognitīvo zinātņu doktorants, viens no komandas, kas nesen šādi pārbaudīja GPT-3. Kaut GPT-3 tika galā labāk nekā vecāki valodu modeļi, tas atbildēja krietni ačgārnāk nekā cilvēki, tostarp pilnīgi griezi uz ievadā minētajiem scenārijiem.

GPT-3 ir valodas modelis, kas darbināja pirmo "ChatGPT" versiju. Tas mācās par valodu, no triljoniem piemēru secinot, kuri vārdi parasti mēdz sekot noteiktiem citiem vārdiem. Teikumos ir atrodamas statistiskas regularitātes, kas ļauj GPT-3 iemācīties visai daudz par pašu valodu. Un šīs zināšanas par vārdu secību bieži ļāva "ChatGPT" ģenerēt sakarīgus teikumus, esejas, dzeju un pat programmatūras kodu.
Kaut GPT-3 ļoti labi spēj apgūt, kas seko kam cilvēku valodā, tam nav ne mazākās nojausmas par to, ko šie vārdi cilvēkam patiesi nozīmē. Un kā gan lai tam šāda nojausma būtu?
Cilvēki ir bioloģiskas būtnes, attīstījušās ar ķermeni, kam jāfunkcionē fiziskajā pasaulē un sociālajā vidē, lai kaut ko paveiktu. Valoda ir līdzeklis, kas cilvēkiem palīdz sasniegt mērķus. Savukārt GPT-3 ir mākslīgi radīta programmatūra, kas vienkārši prognozē katru nākamo vārdu. Tai nav ar šīm prognozēm nekas jāiesāk un jāpanāk reālajā pasaulē.

Es esmu, tātad saprotu


Vārdu vai teikumu nozīme ir cieši saausta ar cilvēka ķermeni: cilvēka spēju rīkoties, apjaust, sajust emocijas. Cilvēka kognīciju iespējo fakts, ka tā ir iemiesota. Kad cilvēki domā par tādu jēdzienu kā "sviestmaižu ietinamais papīrs", šī domāšana jau ietver izpratni, kā priekšmets izskatās, kāda ir sajūta, to turot rokā, cik daudz tas sver, un secīgi – kā mēs to varam izmantot. Piemēram, lai ietītu sviestmaizi. Un ne tikai. Cilvēki arī izprot, kā šo priekšmetu var lietot citiem nolūkiem – saņurcīt to bumbiņā, lai iemestu grozā. Vai izmantot kā galvassegu.

"ChatGPT" iet secen daudz zināšanu, kas palīdz iepazīt pasauli. Piemēram, kā smaržo tase svaigi pagatavotas kafijas?


Visi šie pielietojumi mums nāk prātā tikai tāpēc, ka spējam priekšmetu sajust ar savu ķermeni un ka mums ir noteiktas vajadzības. Cilvēkiem ir rokas, lai papīru saņurcītu. Ir galva ar matiem, kas ir apmēram tādā pašā izmērā kā ietinamā papīra loksne. Un mums ir vajadzība strādāt, tātad arī sekot zināmiem noteikumiem (piemēram, ka darba vietā jāvelk galvassega). Cilvēki izprot, kā lietot priekšmetus, un šīs zināšanas valodas statistiska analīze nespēj dot.

GPT-3 un tā pēctecis GPT-4, kā arī tādi šo valodu modeļu "brālēni "kā "Bard", "Chinchilla" un "LLaMA" ir bez ķermeņiem. Tie paši par sevi nespēj noteikt, kurus objektus var salocīt, un kādas citas īpašības tiem varētu piemist. Psihologs Džeimss Gibsons tās dēvēja par "pielaidēm" (proti, kādas darbības ar konkrētu objektu iespējams veikt – red.). Tā kā cilvēkiem ir plaukstas un rokas, tie papīra karti var izmantot, lai vēdinātu gaisu virs gruzdošām oglēm un iedegtu liesmu, kā arī ar termosu var izrullēt krokas saburzītā kreklā.

Bez rokām un arī bez jebkādas vajadzības uz darbu vilkt mugurā nesaburzītas drēbes GPT-3 nespēj noteikt objektu pielietojumu. Tas var vienīgi viltot šo izpratni gadījumos, ja iepriekš internetā esošo vārdu virknēs ir saskāries ar ko līdzīgu.

Vai lielie valodu modeļi jebkad izpratīs valodu tā, kā to izprot cilvēki? Mūsu ieskatā tas nav iespējams bez cilvēkiem līdzīga ķermeņa, maņām, mērķiem un dzīvesveida.

Virzībā uz izpratni


GPT-4 ir apmācīts ne tikai ar tekstu, bet arī ar attēliem. Tādējādi tas spēj jau noteikt statistiskas sakarības starp vārdiem un pikseļiem. Pagaidām nevaram GPT-4 veikt tādu pašu analīzi kā iepriekš, jo tas šobrīd neizvada datus par varbūtību, ko tas piešķir vārdiem teikumos.

Tomēr, kad uzdevām GPT-4 trīs ievadā minētos jautājumus, tas atbildēja pareizi. Iespējams, valodas modelis mācījies no iepriekšējiem ievades datiem. Varbūt palīdzēja tas, ka apmācībā izmantoti arī vizuāli dati.

Taču aizvien var konstruēt jaunus scenārijus, lai to apmuļķotu un liktu tam domāt, ka dažādiem priekšmetiem ir pārsteidzošas īpašības un pielietojumi, ar kuriem valodas modelis iepriekš tekstā nekad nebija saskāries. Piemēram, GPT-4 apgalvo, ka krūzīte ar nogrieztu apakšdaļu būs labāk piemērota ūdens uzglabāšanai nekā spuldze ar nogrieztu apakšdaļu.
Mākslīgā intelekta valodas modeli, kam ir piekļuve attēliem, var salīdzināt ar bērnu, kas mācās par valodu un pasauli tikai no televīzijas. Tas ir vieglāk nekā to pašu apgūt tikai no radio pārraidēm, taču patiesai izpratnei būs nepieciešamas spējas fiziski mijiedarboties ar pasauli.
Gluži kā tad, ja cilvēka vienīgā saikne ar realitāti būtu izolēti attēli un skaņas no televizora, arī "ChatGPT" spējas iepazīt pasauli ir ierobežotas. Tas nespēj sajust smaržas, ko sajūt bērns, sēžot pļavā. Tas nespēj dzirdēt vēja čaboņu un putnu čivināšanu.


Nesen veikti pētījumi šajā virzienā, un valodas modeļi apmācīti mijiedarboties ar fizisko vidi. Tomēr iemiesota izpratne par valodu aizvien varētu būt visai tālā nākotnē. Taču šādi interaktīvi multisensorie projekti ir būtisks solis ceļā uz šo mērķi.

"ChatGPT" ir fascinējošs rīks, kas bez šaubām tiks izmantots kā labiem, tā ne tik labiem nolūkiem. Tomēr neļaujiet sevi apmuļķot, ka tas patiesi saprot paša ģenerēto vārdu nozīmi. Kur nu vēl – ka tam ir apziņa.

--

Šis raksts ir pārpublicēts no "The Conversation" saskaņā ar "Creative Commons" licenci un autoru atļauju. Visu rakstu oriģinālvalodā var lasīt vietnē "The Conversation".

Raksta autori ir Arturs Glenbergs (Arthur Glenberg) Arizonas Štata universitātes (Arizona State University) emeritētais profesors psiholoģijā un Kamerons Roberts Džounss (Cameron Robert Jones), Kalifornijas Universitātes Sandjego (University of California, Sandiego) kognitīvo zinātņu doktorants.

Seko "Delfi" arī Instagram vai YouTube profilā – pievienojies, lai uzzinātu svarīgāko un interesantāko pirmais!