|
A hazai felsőoktatásban elsőként a
szövegbányászat oktatása külön tantárgy formájában kezdődött
meg a Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Karán. Több felsőoktatási
intézmény esetében megfigyelhető volt már eddig is a
szövegbányászati alapismeretek oktatása (pl. adatbányászat,
nyelvtechnológia, gépi tanulás, alkalmazott matematika, stb.
témájú előadások keretében), azonban ez az első eset, amikor
a szövegbányászat külön tantárgyként jelenik meg hazai a
felsőoktatásban. Interjút készítettünk a Szövegbányászat
tantárgy oktatójával, Dr. Tikk Domonkossal , aki egyben a
tantárgy tematikájának kidolgozója is, a BME Távközlési és
Médiainformatikai Tanszékének oktató-kutatója.
Milyen tényezők motiválták a Szövegbányászat
tantárgy beindítására?
A szövegbányászat világszerte egyre fontosabb kutatási
területté növi ki magát, az erre vonatkozó visszajelzések
nemcsak az akadémiai szférából érkeznek, hanem az ipari
szegmensből is; egyre nagyobb igény mutatkozik nemzetközi
szinten, de hazai viszonylatban is olyan megoldásokra,
amelyek hatékonyan képesek szövegek intelligens
feldolgozására. Magyarországon tudásom szerint nem volt
eddig kimondottan szövegbányászattal foglalkozó tantárgy,
általában az adatbányászattal foglalkozó tantárgyakon belül
szentelnek a témának hosszabb-rövidebb időt. Ezért, egyrészt
a téma jelentősége, másrészt a hazai mérnöki- és kutatógárda
utánpótlásának biztosítása miatt úgy véltem, hogy fontos és
hasznos lenne önálló tantárgyat indítani.
Milyen tudományterületek ismeretére
volt szüksége, hogy a tantárgy tematikáját ki tudja
dolgozni, és hol volt lehetősége ezt az ismeretanyagot
elsajátítania?
A szövegbányászat határtudomány, mivel műveléséhez nem
kizárólag mérnöki és matematikusi előképzettség szükséges,
de előnyös némi affinitás a nyelvekhez, esetleg a
nyelvtudományokhoz is. Ezért attól függően, hogy milyen
háttérrel rendelkezik a területtel foglalkozó vezető kutató,
külföldi egyetemeken is elég változatos azoknak a
tanszékeknek a fő szakterülete, ahol szövegbányászattal
foglalkoznak. Egyébként ez a megnevezés is inkább a mérnöki
szemléletet tükrözi, ezen kívül hasonló tematikájú tárgyakat
még hívnak számítógépes nyelvészetnek, természetes
nyelvfeldolgozásnak, de gyakran szerepel információ
visszakereséssel, gépi tanulással foglalkozó tárgyak
tematikájában is. Jómagam inkább a
informatikusi/matematikusi oldalról közelítettem a témához,
ezen belül többféle területen való előismeret hasznos, mint
pl. statisztika, valószínűségszámítás, gépi tanulási
módszerek, mintafelismerési eljárások, de emellett mindig is
érdekeltek a nyelvek és a nyelvészet.
Milyen volt a tantárgy fogadtatása a
hallgatók körében, milyen visszajelzések érkeztek Önhöz?
Ez egy választható tárgy, amelyet viszonylag kevés
hallgató vett fel. Örömmel tapasztaltam azonban, hogy nem
volt lemorzsolódás a körükben, sőt mostanában olyan
hallgatók is bejárnak, akiknek korábban időpontütközés miatt
ez nem volt lehetséges. Azt hiszem ezt mindenképpen pozitív
visszajelzésként lehet értékelni. Az órák meglehetősen
interaktívak, tehát gyakran előfordul, hogy valamely
problémát az ismert megoldások bemutatása előtt közösen
megtárgyalunk. Szerintem az érdeklődés annak köszönhető
elsősorban, hogy informatikával foglalkozók között mindenki
találkozik a hétköznapokban is szövegbányászati
problémákkal, pl. az internetes kereséseknél.
Mi a véleménye a szövegbányászat hazai
lehetőségeiről, a magyar nyelvben meglévő nyelvi
sajátosságokról, és a hazai szövegbányász szakemberek hazai
és nemzetközi esélyeiről?
Idén már harmadszor rendezik meg Szegeden decemberben a
Magyar Számítógépes Nyelvészeti konferenciát, és egyre
nagyobb a résztvevők száma. Míg korábban ezzel a területtel
csak néhány kutatócsoport vagy cég foglalkozott, manapság,
részben a piaci igények megjelenése miatt is, egyre többen
vannak ilyenek. A magyar nyelvi sajátosságok természetesen
megnehezítik a feldolgozást, mondjuk az angolhoz képest,
azonban mostanában már elérhetővé váltak olyan szabad
forráskodú szoftverek, amelyek az alapvető nyelvi
feldolgozást támogatják (pl. szótevesítő, morfológiai
elemző), tehát amire bárki építhet. Az esélyekről szólva,
egyrészt azt tudni kell, hogy a nyelvfeldolgozás, azaz a
nyelvspecifikusság, a szövegbányászati feladatoknak
általában csak a kezdeti lépését jelentik, a problémák másik
része már nyelvfüggetlen. Ezért mindenkinek meg van az
esélye arra, hogy nemzetközi szinten is érvényesüljön. (Erre
jó példa, hogy egy kicsit hazabeszéljek, hogy az idei
legrangosabb adatbányászati versenyen az ACM által rendezett
KDD kupán csapatunk második helyezést ért internetes
keresőkifejezések [query] osztályozásának pontossági és
kreativitási versenyén, és meghívtak előadni a Chicagóban
rendezett konferenciára.) Másrészt a magyar nyelv nehézsége
nyelvészeti körökben is közismert, ezért ha valamely
probléma a mi nyelvünkre megoldható, akkor az általában más
nyelv esetében sem jelenthet nehézséget, sőt szerencsés
esetben korlátozva, de átvihető.
Mik jelenleg azok a legjobban kutatott
szövegbányászati területek, amelyek a tudományterület
legnagyobb kihívásainak számítanak?
Jelzés értékűnek tekinthető, hogy a KDD kupán idén
szövegbányászati feladat volt. Itt egyébként általában olyan
problémákat tűznek ki, amelyek legaktuálisabbak a
szakterületen. Tehát az egyik ilyen feladat a nagyon rövid
szövegek, mint pl. internetes keresések szövege, vagy
tetszőleges keresőkifejezés osztályozása, főleg úgy hogy
nincsen rendelkezésre álló tanuló adat. Egy más nagyságrendű
feladat az automatikus fordítás, illetve fordítástámogatás
megoldása, amely talán a legnagyobb kihívásnak tekinthető.
Ehhez részben kapcsolódik a szintén az érdeklődés
középpontjában lévő többnyelvű információ-visszakeresés
(cross language information retrieval), de a szakterület
fiatalsága miatt a legtöbb aprónak tűnő problémának a
megoldásán még lehet javítani.
Vázsonyi Miklós
BME
Információ- és Tudásmenedzsment Tanszék |