Jó játék és hasznos is a különböző képek generálása mesterséges intelligencia segítségével. Színesíthetjük vele a tanórákat és egy jó prompttal pontosan az aktuális tananyaghoz és osztályhoz igazíthatjuk az órai illusztrációkat. Ha azonban próbáltál már feliratos képeket generálni igazából bármilyen AI programmal, akkor nagy a valószínűsége, hogy ezen a területen nem sok sikerélményben volt részed.
Hogyan lehetséges, hogy az intelligens applikációk nem tudnak egy ilyen egyszerűnek látszó feladattal megbirkózni?
Megkérdeztük a témában leginkább érintett szereplőt, a Chat GPT-t.
A ChatGPT válasza:
„Igen, ennek technikai okai vannak. Az általam használt képgeneráló modell, a DALL-E, nagyszerűen képes képeket létrehozni, de jelenleg nehézségei vannak a precíz szövegek pontos elhelyezésében és megjelenítésében. A szöveg sokszor torzul vagy helytelenül jelenik meg, különösen, ha bonyolultabb vagy nemzetközi karakterekkel van dolgunk, mint például a magyar nyelv ékezetes betűi.”
És hogy mégis mi az oka a jelenségnek? A feliratok összevisszaságát azért tapasztaljuk, mert a DALL-E és a hasonló képgenerátorok eredetileg nem szöveg-specifikus generálásra lettek optimalizálva, hanem inkább a vizuális elemek és az általános kompozíció létrehozására. Szöveges elemek kezelése közben a modell sokszor képként kezeli a szöveget is, így nem tudja azt pontosan és olvashatóan megjeleníteni azt. Még ha a szöveg beillesztése célzott is, a végeredmény gyakran torz vagy olvashatatlan lehet, főként hosszabb és komplex szövegek esetében, vagy olyan sokféle karakterből álló nyelvek esetében, mint amilyen a magyar is.
Marad tehát a kézi szerkesztés, a jó öreg Paint és Power Point, vagy bátrabbaknak az online Canva – főleg magyar nyelven. Mivel azonban a technológia honapról-hónapra rohamléptekben fejlődik, ezért mi továbbra is bizakodók vagyunk, hogy hamarosan az itt található látványos képekhez hasonlókat készíthetünk, pár pillanat alatt, csak immár helyesen.
Kassa Tünde írása