Google és társai: hol tart ma a gépi fordítás?
A tegnap ismertetett nyelvtechnológia körébe tartoznak például a beszédfelismerő és a gépi felolvasó rendszerek, az intelligens keresők, az automatikus szövegkivonatolók és a mesterséges intelligencia nyelvi vonatkozású részei is. De mindennapi életünkben elsősorban a gépi fordítókkal és a helyesírás-ellenőrzőkkel találkozunk. Az anyanyelvápoló.hu-n Dömötör Andrea foglalta össze, hogy hol tart ma a gépi fordítás.
„Ez a lehetőség arra, hogy egy ilyen győzelem tetejére divat napszemüveg! Ne le a nyári fogás felkészületlen!” Ilyen és hasonló magyarságú – vagy inkább magyartalanságú – hirdetésekkel nap mint nap találkozhatunk az interneten. Tudjuk, nem ember írta, hanem egy automatikus fordító. Az viszont már kevésbé ismert, hogy a gépi fordítás immár 60 éves múltra tekint vissza. Ezek után persze felmerülhet a kérdés: és még mindig csak ennyire képes?
A gépi fordítást kezdetben szabályalkalmazások sorozataként képzelték el. Ezek a forrásnyelvi szöveget először morfológiai elemzésnek vetik alá, majd szótár segítségével lefordítják a szavakat, ebből végül rendezéssel jön létre a célnyelvi szöveg. A mostani szabály alapú gépi fordítók az előbbi továbbfejlesztését, az úgynevezett transzfer módszert alkalmazzák, amely már nem csak szavakat fordít, hanem mondatszerkezeteket, frázisokat is.
A gyorsaság és költséghatékonyság igénye azonban létrehozta a másik fő irányvonalat, a statisztikai gépi fordítást. Bármily meglepő, a jelenleg működő gépi fordítók nagy része nem, vagy alig használ nyelvi ismereteket, ehelyett matematikai elven működik. Ennek lényege, hogy a rendszert nagy mennyiségű minta adattal (mondatpárokkal) betanítják, az algoritmus ebből építi fel magának a fordítási modellt (melyik forrásnyelvi mondatnak mi a jó fordítása) és a nyelvmodellt (milyen a jó célnyelvi mondat). A módszer gyors és egyszerű, nagy hátránya viszont, hogy amire nincs minta, azzal nem boldogul. Továbbá nem mindig az a jó fordítás, ami a gyakoribb. Klasszikus példa erre a postás és a kutya esete:
„A postás megharapta a kutyát.” bing-fordítása: “The dog bit the Mailman.”
Azaz a fordító szerint a kutya harapta meg a postást, elvégre ez az eset jóval gyakoribb, nyelvi elemző modul pedig nincs, ami eldönthetné, mi itt az alany, és mi a tárgy.
Az anyanyelvápoló.hu-n megjelent cikk részletes elemzést is közöl, melyben három rendszert teszteltek. Ebből kettő statisztikai alapú: a talán legismertebb Google Fordító és a Microsoft által fejlesztett Bing. Velük versenyzik a Morphologic elemző modult is tartalmazó hibrid rendszere, amely a webforditas.hu oldalon érhető el. Aki kíváncsi a részletes teszteredményre, keresse fel az oldalt, összességében viszont elmondható, hogy azt mindenképp látni kell, hogy a gépi fordítók nem arra valók, hogy Shakespeare-t fordítsanak, de még csak arra sem, hogy elkészítsék a házi feladatunkat vagy az önéletrajzunkat. Ezekre a rendszerekre azért van szükség, hogy segítsenek feldolgozni a minket körülvevő rengeteg információt. Az elsődleges kérdés tehát az, hogy a akkor is megértjük-e, mi áll egy angol nyelvű hírben, ha nem tudunk angolul. Persze, szeretnénk tökéletes, szép magyar mondatokat olvasni, de addig még hosszú az út.
Az eredeti adás 2018. febr. 27-én hangzott el a Kolozsvári Rádióban.