Az OpenAI legújabb modelljei: Amikor az AI átveszi az irodai munkát
Március 5-én az OpenAI bejelentette, hogy a GPT-5.4 75 százalékos sikerességgel végez el valódi asztali feladatokat – amely felülmúlja az átlagember 72,4 százalékos teljesítményét. Ez nem a valamikori ChatGPT, amely csak szöveget generált. Ez egy olyan AI-rendszer, amely látja a képernyőt, mozgatja az egeret, billentyűzetet üt, és autonóm módon végez munkát: kitöltéseket, böngészést, dokumentumszerkesztést és adatbevitelt.
A frontier AI-kutatás már nem a tudásról vagy a kreativitásról szól, hanem az agentic execution, vagyis a valódi munka elvégzésének képességéről.
Az ugrás, amely megváltoztat mindent
Az előző verzió, a GPT-5.2 az OSWorld-Verified benchmarkon 47,3 százalékos sikerességet ért el. A GPT-5.4 erre 75 százalékra ugrott. Ez nem fokozatos javulás, hanem a fejlődés gyorsulásának kezdete.
- OSWorld-Verified benchmark: 75,0% – az első frontier modell, amely meghaladja az emberi baselinét (72,4%).
- Kontextus-ablak: 1 millió token (922K input, 128K output) – az OpenAI történetének legnagyobb kontextusa.
- Faktikus hibák: 33%-os csökkenés a GPT-5.2-höz képest.
- Tool Search rendszer: 47%-os token-csökkentés az eszköz-nehéz munkafolyamatok során.
- Képernyő-alapú működtetés: natív computer-use képességek – képernyő-feldolgozás, egér, billentyűzet.
Mit tud a GPT-5.4, és mit nem?
Az „asztali munka” nem absztrakt koncepció. Az OSWorld-Verified benchmark valódi, szimuláció nélküli feladatokkal tesztel:
- Webes kitöltések: navigálás az input mezők megtalálásához és azok helyes kitöltése.
- Menü-navigáció: olyan alkalmazások használata, amelyeket az AI nem tanult kifejezetten.
- Hiba-helyreállítás: ha egy alkalmazás összeomlik vagy váratlan állapotban van, az AI helyreállít belőle.
- Több lépcsős munkafolyamatok: például egy Excel-táblázat kitöltése, szűrése és diagram létrehozása.
Ám van egy fontos korlát: a GPT-5.4 még nem teljesen autonóm ügynök a chatbot-felületen kívül. A Codex-verzió (az API-n keresztül) képes hosszabb lánc-munkafolyamatokat végezni, de a ChatGPT verzióban még szükséges a felhasználó jóváhagyása bizonyos pontokon.
A valódi átpörgetés: GPT-5.5
Április 23-án megjelent a GPT-5.5, amely az OSWorld-Verified-en 78,7 százalékra kúszott fel, a GDPval benchmarkon pedig – amely valódi tudásmunkát szimulál – 84,9 százalékot ért el. Ez már olyan szintű autonóm munkavégzést jelent, mint:
- Banki elemző: Excel-modellek építése, feltételezések módosítása, értékelések futtatása.
- Ügyfélszolgálat: Problémamegoldás anélkül, hogy szakembernek kellene adatbázist frissítenie.
- Programozó: Kódírás, tesztelés és commitolás, akár egy junior fejlesztő helyettesítése.
A GPT-5.5 egy harmadába kerül a Claude Opus 4.7-nek, miközben jobb benchmark-teljesítményt nyújt. Ez nem csak technika – ez ekonomika.
Miért ez a fordulópont?
Az AI eddig főleg augmentációs eszköz volt, amely segített az embereknek jobbá tenni a munkájukat. A GPT-5.4 és a GPT-5.5 már egy másik kategória: helyettesítési eszköz. Ez nem filozófiai különbség, hanem munkapiaci.
A kérdés már nem az, hogy az AI képes-e elvégezni a munkát – ez már megtörténik. A kérdés az, hogy az ember mit fog csinálni, amikor az AI jobban végzi a munkát, mint ő. Ez az a kérdés, amelyre az OpenAI nem ad választ a keynote-ban.
HOZZÁSZÓLÁSOK
Jelentkezz be a hozzászóláshoz!
Még nincs hozzászólás. Légy az első!