A mesterséges intelligencia elképesztő fejlődésen ment keresztül es valóban nagyon hasznosak, ezért gyakran hivatkoznak rájuk mint „artificial useful intelligence” (AUI), azaz „hasznos mesterséges intelligencia”. Ugyanakkor egyre nyilvánvalóbb, hogy ezek a modellek nem igazán általános intelligensek – nem AGI-k („artificial general intelligence”), mert hiányosságaik vannak a gondolkodásban és következtetésben. Bár felszínesen úgy tűnhet, hogy “értenek” és okoskodnak, valójában a gondolkodási képességeik törékenyek, és bizonyos helyzetekben látványosan kudarcot vallanak.
Ebben a cikkben áttekintjük a jelenlegi LLM-ek gondolkodási korlátait, bemutatjuk egy friss tanulmány (“General Reasoning Requires Learning to Reason from the Get-go”) által javasolt új megközelítést, amely a gyermekek tanulási folyamatát utánozza, és megvizsgáljuk, milyen tanulságok adódnak mindebből a jövő mesterséges intelligencia fejlesztéseire nézve.
Mi a baj a jelenlegi nyelvi modellek gondolkodásával?
A mai nyelvi modellek hatalmas mennyiségű szöveges adaton tanulnak, és statisztikai mintázatok alapján próbálják megjósolni a következő szavakat egy mondatban. Ez a megközelítés hihetetlenül jól működik sok esetben, de a felszín alatt több probléma is van, ha a következtetési képességeket nézzük:
- Túlzott igazodás a tanító adatokhoz (overfitting): Az LLM-ek hajlamosak betanulni a tréningadatok specifikus mintázatait. Ez azt jelenti, hogy ha egy problémával találkoznak, amit a tanítás során láttak vagy ahhoz nagyon hasonlót, jó eséllyel helyesen válaszolnak. Viszont ha a probléma formája kicsit is eltér a megszokottól, összezavarodnak. Máshogy fogalmazva: a modell nem tudja könnyen átvinni a gondolkodási sémáit új, ismeretlen feladatokra. Például ha egy nyelvi modellt megtanítunk rengeteg angol és magyar programkód példán, akkor ügyesen programozhat ezekben a nyelvekben. De ha hirtelen egy nagyon szokatlan, eszoterikus programozási nyelven kérjük meg egy feladat megoldására, könnyen lehet, hogy kudarcot vall, mert ilyen formában még nem látott problémát.
- A tudás és a gondolkodás összefonódása: A kutatók rámutatnak, hogy a jelenlegi modelleknél a tények/tudás és a logikai következtetés nincs szétválasztva, hanem egy csomagban tanulják meg. Ez a „mindent egyszerre” tanulás megnehezíti, hogy a modell rugalmasan alkalmazza a logikát olyan helyzetben, ahol a tudása már nem segít. Olyan ez, mintha valaki bemagolna rengeteg matematikai példát ahelyett, hogy megtanulná a mögöttes szabályokat: ha ugyanolyan feladat jön, meg tudja oldani, de ha kicsit változik a feladat, nem biztos, hogy boldogul. Az összekapcsolódott tudás és logika korlátozza az alkalmazkodóképességet. Emiatt a modell néha zavarba jön olyan kérdéseknél, amelyek egy kis kreatív gondolkodást igényelnének, mert nem pusztán emlékezetből kell válaszolni.
- A hagyományos tréning korlátai: A mostani LLM-ek hagyományos módon, felügyelt tanulással tanulnak szöveges korpuszokon, ahol mindig a következő szót kell megtippelniük. Ez a módszer bár hatékony a nyelvi minták megtanításában, a kutatók szerint gondolkodási zsákutcákhoz (lokális minimumokhoz) vezethet. A modell megtanulja a leggyakoribb mintákat, de nem ösztönzi semmi arra, hogy ténylegesen problémákat oldjon meg lépésről lépésre, vagy új logikát fejlesszen ki – hiszen nincs erre külön jutalmazva. Ennek eredményeként a modellek gyakran csak felületes, látszólag jó válaszokat adnak, de ha a feladat mélyebb, igazi logikai megértést kívánna, megbotlanak.
Ezek a korlátok a gyakorlatban is megmutatkoznak. A szóban forgó tanulmány készítői érdekes módon tesztelték a mai modelleket: olyan apró algoritmikus feladatokat adtak nekik, amiket furcsa, ismeretlen programozási nyelveken kellett megoldani. Ezek a feladatok szakember számára egyszerűek lennének egy hagyományos nyelven (mint mondjuk Pythonban), de a modellek számára teljesen új kontextust jelentettek. Az eredmények eléggé kijózanítóak voltak: a legfejlettebb nyelvi modellek is átlagosan csupán az esetek ~12%-ában találták el a helyes megoldást az egyik ilyen nyelven (Brainf**k), és csak ~29%-os sikerrel jártak egy másikban (Befunge). Magyarul ez azt jelenti, hogy tízből nyolc-tíz alkalommal csúnyán melléfogtak olyan helyzetben, ami egy kicsit is kilógott a megszokott világukból. Ez jól mutatja, mennyire sérülékenyek a gondolkodási képességeik, ha valóban új dologgal találkoznak.
Tanulás, mint a gyerekek: egy új megközelítés születik
Felvetődik a kérdés: Hogyan lehetne jobban megtanítani ezeket a modelleket gondolkodni? Hiszen mi, emberek – különösen gyerekkorban – egészen másképp sajátítjuk el a problémamegoldást, nem pusztán passzívan olvasunk el mindent. A gyerekek felfedezéssel, játékkal, fokozatosan tanulnak. Először egyszerű feladatokat oldanak meg, kapnak visszajelzést (jutalmat vagy éppen rávezetést, ha tévednek), majd ahogy nőnek és ügyesednek, egyre összetettebb kihívásokkal birkóznak meg. Egy kisgyerek sem úgy tanul meg sakkozni, hogy betanulja a teljes sakk-könyvtárat – ehelyett lépésről lépésre, gyakorlás közben sajátítja el a stratégiákat. Ugyanez igaz bármilyen logikai készségre.
A “General Reasoning Requires Learning to Reason from the Get-go” című tanulmány szerzői egy új megközelítést javasolnak, amely ezt a gyermeki tanulási folyamatot próbálja utánozni a mesterséges intelligencia modellek tréningjében. Lényegében azt mondják: ahhoz, hogy egy MI általános értelemben véve okos legyen, már a kezdetektől fogva a gondolkodást kell tanulnia, nem utólag hozzátákolni. Az új módszer fő elemei a következők:
- Megerősítéses tanulás a kezdetektől (RL alapú tréning): A hagyományos „következő szóra tippelős” módszer helyett a modellt úgy kellene betanítani, hogy interaktívan, jutalmak révén tanuljon meg feladatokat megoldani. Ezt megerősítéses tanulásnak (reinforcement learning, RL) hívjuk, és a lényege, hogy a modell próba-szerencse alapon próbálkozik, és jutalmat kap, ha jó lépést tesz. Ilyen módon saját maga építhet fel egy gondolatmenetet lépésről lépésre, nem csak passzívan utánozza a bemeneteken látott mintát. Ez hasonló ahhoz, ahogy egy gyerek egy rejtvényt old meg: ha közel jár a megoldáshoz, sikerélménye lesz, és ez megerősíti a stratégiáját. A tanulmány szerint ez a fajta interaktív, lépésenkénti gondolkodás sokkal mélyebb megértést adhat a modellnek, mint az egyszerű utánzás. Fontos, hogy mindezt már az elejétől alkalmazzuk a képzésben – az MI kvázi “gyerekkorában” tanuljon meg gondolkodni, ne csak felnőtt fejjel próbáljon majd trükköket tanulni.
- Tanulási “tanterv” szintetikus feladatokkal: Ahogy az iskolában is az egyszerűtől haladunk a nehezebb felé, ezeknek a modelleknek is fokozatosan nehezedő feladatokon kellene keresztülmenniük. A kutatók egy szintetikus feladatsort javasolnak: először nagyon egyszerű, mesterséges feladatokkal tanítanák a modellt, ahol kevés a változó (például korlátozott szókincs vagy egyszerű szabályok vannak). Ez biztonságos gyakorlóterepet ad a logika alapjainak elsajátításához. Miután a modell ezeken a könnyített pályákon már magabiztosan mozog, lépésről lépésre növelik a feladatok összetettségét, végül eljutva a természetes nyelvű, bonyolult problémákig. Ez olyan, mintha először csak pár betűs szavakat tanulna meg olvasni, utána rövid mondatokat, és a végén már regényeket. Vagy a matematikában: előbb az összeadás-kivonás menne, aztán a szorzás-osztás, később az algebra. A fokozatosság segít abban, hogy a modell ne omoljon össze a túl nehéz feladatok súlya alatt, hanem legyen ideje kialakítani az egyre jobb és általánosabb stratégiákat.
- Különválasztott memória és gondolkodási modul: A harmadik újítás egy olyan architektúra, amelyben a modell külön kezeli a tudást és a gondolkodást. Mit jelent ez? Azt, hogy ahelyett, hogy a modell minden információt a “fejében” (a neurális hálójában) tartana és ott próbálná meg gyúrni a logikát, kap egy külső tudástárat – mondjuk egy nagy adatbázist vagy könyvtárat –, ahol a tényeket, információkat tárolja. Emellett van egy külön logikai következtető modul, amely csak kis mennyiségű információval dolgozik egyszerre (egy szűk kontextusablakban). Ez a felépítés több előnyt is ad: egyrészt megakadályozza, hogy a modell pusztán statisztikai mintázatokat tanuljon meg hosszú szövegkörnyezetekből, mert egyszerre úgysem lát túl sok mindent. Másrészt rákényszeríti, hogy megtanulja, hogyan nyúljon ki a tudástárhoz: amikor szüksége van egy tényre vagy adatdarabra a probléma megoldásához, elő kell hívnia a memóriából. Gondoljunk bele, ez mennyire emberi megközelítés: mi sem tartunk fejben minden tudást, hanem megvan a képességünk, hogy utánanézzünk (előveszünk egy könyvet, rákeresünk az interneten, felidézünk emlékeket) – a lényeg, hogy a gondolkodási folyamatunk különválik a tudástárunktól. A javasolt AI rendszerben a “gondolkodó” rész rövid kontextuson dolgozik, és ha több infóra van szüksége, lekéri a “memóriából”. Ezzel a modell rugalmasabbá válik: könnyebben alkalmazkodik új adatokhoz vagy feladatokhoz, hiszen a logikája nincs gúzsba kötve a korábban együtt megtanult konkrét tudásanyaggal.
Ez a három pillér – interaktív, jutalmazásos tanulás; jól megtervezett, fokozatos tanterv; és az architektúra okos szétválasztása – együtt alkot egy olyan tréningmegközelítést, ami valóban a gyermeki tanulás mintáját idézi. A gyerek is cselekvés útján tanul (nem csak passzív megfigyelő), egyre nehezebb kihívásokon edződik, és az emlékei (tudása) külön kezelődnek az aktuális gondolatmenettől – gondoljunk csak arra, amikor egy gyerek próbál felidézni egy tanult tényt egy új helyzetben, ez nagyon hasonló.

Fő tanulságok és a jövő kilátásai az AI gondolkodásában
Mit tanulhatunk mindebből, és merre mehet tovább az AI kutatás ezek után? A tanulmány eredményei és javaslatai alapján több fontos tanulság körvonalazódik:
- A gondolkodást tanítani kell, nem csak a tudást. Ez talán evidencia, de a mai gyakorlatban nem így történik az LLM-eknél. A kutatók rámutattak, hogy ha a modellt kezdetektől fogva megerősítéses módszerekkel tanítjuk és olyan környezetben, ahol külön van választva a logika a nyers adatoktól, akkor a modell sokkal jobb általánosító képességekre tesz szert. Képes lesz kevésbé bebiflázott mintákra támaszkodni, és inkább abstrakt gondolkodási folyamatokat kialakítani. Magyarán: nem elég okos könyveket adni a gyereknek, meg kell tanítani gondolkodni is – és ugyanez igaz az MI-re.
- Az explicit gyakorlás és visszajelzés csodákra képes. A hagyományos LLM képzésben a modell nem kap azonnali jelzést arról, hogy egy gondolatmenete jó volt-e vagy rossz, hiszen csak szöveget másol. Az új megközelítésben viszont végig ott a jutalmazási mechanizmus és a célorientált gyakorlás. A tanulmány kísérletei azt mutatják, hogy ez a módszer jelentősen javította a modell teljesítményét a szokatlan feladatokban a hagyományos módszerhez képest. Ez arra utal, hogy a jövőben az AI tréning inkább fog hasonlítani egy játékhoz vagy szimulációhoz, ahol a modell tanul a hibákból, mintsem egy könyv magolásához.
- A tudás és logika szétválasztása lehet a kulcs az AGI felé. Az, hogy a modell külön modulban “gondolkodhat” és külön modulban tárolja a tudást, nem csak a rugalmasságát növeli, hanem méretezhetőbbé is teszi. Egy ilyen rendszer könnyebben bővíthető új ismeretekkel anélkül, hogy felülírnánk a logikai működését. A kutatók szerint a tudás és gondolkodás szétválasztása egy járható út afelé, hogy elérjük a valódi, emberhez hasonló általános intelligenciát. Persze ez még csak egy javaslat, de logikusnak tűnik: az emberi agy sem egy homogén massza, hanem különböző területeken tároljuk az emlékeket és máshol dolgozzuk fel a problémákat.
- Új irányok az AI kutatásban: A bemutatott ötletek még több kutatást igényelnek. Felmerül például, hogyan lehet hatékonyan kialakítani egy jó tantervet az AI számára – milyen feladatokkal kezdjünk, hogyan növeljük a nehézséget optimális ütemben? Vagy hogyan biztosítsuk, hogy a megerősítéses tanulás során a modell tényleg a helyes következtetési szabályokat tanulja meg, és ne essen bele másfajta csapdákba (például ne tanuljon meg ügyeskedni a jutalom kedvéért csalva)? Továbbá, az architektúra szintjén is vannak kihívások: egy külön tudásbázis integrálása a modell mellé komplex feladat, és felveti a kérdést, hogyan keres majd az MI a saját „emlékei” között hatékonyan. Ezek mind izgalmas kutatási kérdések, amelyekkel a következő években biztosan foglalkozni fognak.
Összességében a tanulmány egy iránytűt ad a jövő AI modelljeihez. Azt sugallja, hogy ha a célunk a valóban rugalmas, alkalmazkodó, “okosan gondolkodó” mesterséges intelligencia – nem csak sablonokat ismétlő rendszerek –, akkor újra kell gondolnunk a tanításuk módját. Lehet, hogy a jövő legügyesebb MI-jei azok lesznek, amelyeknek volt egy “gyerekkoruk”: játszhattak, tanulhattak kicsiben, próbálkozhattak és tévedhettek biztonságos keretek között, mielőtt ráeresztettük őket a teljes internetre. Így mire “felnőnek” (értsd: élesben bevetjük őket), már nem csak tudásuk lesz, hanem bölcsességük is – az a bizonyos általános gondolkodási képesség, amivel bátran neki tudnak veselkedni bármilyen új kihívásnak.