Miért nem tud a mesterséges intelligencia feliratos képeket generálni?

Írta: Neteducatio Dátum: 2024. december 05.

Jó játék és hasznos is a különböző képek generálása mesterséges intelligencia segítségével. Színesíthetjük vele a tanórákat és egy jó prompttal pontosan az aktuális tananyaghoz és osztályhoz igazíthatjuk az órai illusztrációkat. Ha azonban próbáltál már feliratos képeket generálni igazából bármilyen AI programmal, akkor nagy a valószínűsége, hogy ezen a területen nem sok sikerélményben volt részed.

Hogyan lehetséges, hogy az intelligens applikációk nem tudnak egy ilyen egyszerűnek látszó feladattal megbirkózni?

Megkérdeztük a témában leginkább érintett szereplőt, a Chat GPT-t.

A ChatGPT válasza:

„Igen, ennek technikai okai vannak. Az általam használt képgeneráló modell, a DALL-E, nagyszerűen képes képeket létrehozni, de jelenleg nehézségei vannak a precíz szövegek pontos elhelyezésében és megjelenítésében. A szöveg sokszor torzul vagy helytelenül jelenik meg, különösen, ha bonyolultabb vagy nemzetközi karakterekkel van dolgunk, mint például a magyar nyelv ékezetes betűi.”

És hogy mégis mi az oka a jelenségnek? A feliratok összevisszaságát azért tapasztaljuk, mert a DALL-E és a hasonló képgenerátorok eredetileg nem szöveg-specifikus generálásra lettek optimalizálva, hanem inkább a vizuális elemek és az általános kompozíció létrehozására. Szöveges elemek kezelése közben a modell sokszor képként kezeli a szöveget is, így nem tudja azt pontosan és olvashatóan megjeleníteni azt. Még ha a szöveg beillesztése célzott is, a végeredmény gyakran torz vagy olvashatatlan lehet, főként hosszabb és komplex szövegek esetében, vagy olyan sokféle karakterből álló nyelvek esetében, mint amilyen a magyar is.

Marad tehát a kézi szerkesztés, a jó öreg Paint és Power Point, vagy bátrabbaknak az online Canva – főleg magyar nyelven. Mivel azonban a technológia honapról-hónapra rohamléptekben fejlődik, ezért mi továbbra is bizakodók vagyunk, hogy hamarosan az itt található látványos képekhez hasonlókat készíthetünk, pár pillanat alatt, csak immár helyesen.

Kassa Tünde írása

IKT start az iskolában – bevezetés a mesterséges intelligencia és a digitális oktatási eszközök használatába

Olvasószoba

Kosár

Elindultunk!

Önfejlesztő tanári klub hétről-hétre

Most 2023-as áron

Idén is Modern Pedagógus Konferencia

Kanapéképzések

Kredit otthonról

Újdonságok

Minden pedagógusnak

Miért nem tud a mesterséges intelligencia feliratos képeket generálni?

Olvasószoba

Telefon:	06-30-954-67-67
E-mail:	info@neteducatio.hu
Cím:	1118 Budapest, Ugron Gábor u. 88. fszt. 2.

Adatvédelmi áttekintés

Süti beállítások

Harmadik féltől származó sütik

Szükséges sütik

Elindultunk!

Önfejlesztő tanári klub hétről-hétre

Most 2023-as áron

Idén is Modern Pedagógus Konferencia

Kanapéképzések

Kredit otthonról

Újdonságok

Minden pedagógusnak

Miért nem tud a mesterséges intelligencia feliratos képeket generálni?

Olvasószoba

A chat robot írja a házit? 7 kérdés és válasz a ChatGPT-ről pedagógusoknak

Mi a különbség a BTMN és az SNI között?