Bár a Google Translate is egyre jobb, azért még mindig nagyon jókat lehet szórakozni azon, ha megpróbálnak a gépek magyarra fordítani egy írott vagy beszélt szöveget. A magyar nyelvet azonban mindössze 15 millióan beszélik világszerte, így a nagy tech cégek és a fejlesztőik számára nem is ez az első számú prioritás, miközben azért mindenki szívesebben beszélne az anyanyelvén chatbotokkal és automatizált alkalmazásokban.
A Pécsi Tudományegyetem (PTE) Alkalmazott Adattudományi és Mesterséges Intelligencia-csapata erre a problémára talált megoldást, és Microsoft Azure mesterséges intelligencia és az ONNX Runtime megoldások alkalmazásával megépítette és betanította saját BERT-large modelljét magyar nyelven.
A modell működéséhez 3,5 milliárd szót tartalmazó folyószöveg szükséges, amit ahelyett, hogy innen-onnan az internetről ollóztak volna össze, az alapokat inkább a Nyelvtudományi Kutatóközpont szakemberei segítségével készítették elő, aztán a Microsoft Azure és a Microsoft ONNX Runtime DeepSpeed könyvtár segített.
Ez a világon az eddigi legolcsóbb BERT-large, kevesebb mint ezer euróba került
– mondta a projektről Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője. A modell jelentős lehetőségeket rejt magában az írott és beszélt szöveg feldolgozása, az intelligens keresés, az entitásérzékelés, a dokumentációs klasszifikáció terén, valamint újabb, jobb teljesítményű chatbotok létrehozásában.
Mindez pedig segítheti a magyarokat a könnyen érthető, releváns információkhoz való hozzáférésben, különösen a Covid-19 körüli félretájékoztatás elleni küzdelemben. Számos egészségügyi és kormányzati szereplő is érdeklődött már a HILBERT-large modell iránt.
Hogy mi mindenben segíthet a mesterséges intelligencia például egy sima hivatali ügyintézésnél, és hogy egyáltalán hogy állnak a fejlesztésekkel a nagyhatalmak, és ehhez képest mit jelent számunkra ez az egész, arról nem olyan régen beszélgettünk a Lángoló Podcastjében.
Lángoló Podcastek – A jövő zenéje SE01E02 | Mesterség/és intelligencia