Tisztított adatbázis készítése nagy nyelvi modelekhez

Konzulens:
Dr. Szemenyei Márton
Tárgy:
Önálló laboratórium - Szoftverfejlesztés és rendszertervezés specializáció, BSc Info.
Önálló laboratórium - Irányítórendszerek ágazat, BSc Vill.
Önálló laboratórium 1 - Irányítórendszerek főspecializáció, MSc Vill.
Önálló laboratórium 2 - Irányítórendszerek főspecializáció, MSc Vill.
Önálló laboratórium 1 - Vizuális informatika főspecializáció, MSc Info.
Önálló laboratórium 2 - Vizuális informatika főspecializáció, MSc Info.
Önálló laboratórium 1 - Intelligens beágyazott mecha. rendsz. szakir., MSc Mecha.
Önálló laboratórium 1 - Irányító és látórendszerek MSc. főspec.
Önálló laboratórium 1 - Vizuális informatika MSc. főspec.
Önálló laboratórium 2 - Irányító és látórendszerek MSc. főspec.
Önálló laboratórium 2 - Vizuális informatika MSc. főspec.
Hallgatói létszám:
1
Folytatás:
Szakdolgozat / Diplomaterv
TDK dolgozat
Leírás:
Nagy Nyelvi Modellek tanításához elengedhetetlen a nagy mennyiségű és jó minőségű tanító adat. A kutatási célokra elérhető adathalmazok nagyrészt angol nyelvűek, így az ezeken tanított modellek magyar nyelvű képességei elmaradnak az angol nyelvhez képest. A feladat célja a magyar nyelvű interneten található szövegek összegyűjtésére alkalmas szoftver készítése, ami a Common Crawl archív fájljaiból kigyűjti és előszűri a magyar nyelvű szövegeket. A szoftver képes az elosztott működésre, akár különálló számítógépeken is.