Magyarország közérdekű szövegbányászati portálja. Friss hírek, aktív piaci, akadémiai és nonprofit szereplők, pályázat és konferencia figyelés, szakirodalmi segédanyagok, szövegbányászat vonatkozású linkgyűjtemény.

| Hírlevél | Csatlakozz kutatócsoportunkhoz! | Ajánlj minket |  In English |

2005.09.01. Beindult a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszékén a Szövegbányászat tantárgy oktatása.

A hazai felsőoktatásban elsőként a szövegbányászat oktatása külön tantárgy formájában kezdődött meg a Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Karán. Több felsőoktatási intézmény esetében megfigyelhető volt már eddig is a szövegbányászati alapismeretek oktatása (pl. adatbányászat, nyelvtechnológia, gépi tanulás, alkalmazott matematika, stb. témájú előadások keretében), azonban ez az első eset, amikor a szövegbányászat külön tantárgyként jelenik meg hazai a felsőoktatásban. Interjút készítettünk a Szövegbányászat tantárgy oktatójával, Dr. Tikk Domonkossal , aki egyben a tantárgy tematikájának kidolgozója is, a BME Távközlési és Médiainformatikai Tanszékének oktató-kutatója.

Milyen tényezők motiválták a Szövegbányászat tantárgy beindítására?
A szövegbányászat világszerte egyre fontosabb kutatási területté növi ki magát, az erre vonatkozó visszajelzések nemcsak az akadémiai szférából érkeznek, hanem az ipari szegmensből is; egyre nagyobb igény mutatkozik nemzetközi szinten, de hazai viszonylatban is olyan megoldásokra, amelyek hatékonyan képesek szövegek intelligens feldolgozására. Magyarországon tudásom szerint nem volt eddig kimondottan szövegbányászattal foglalkozó tantárgy, általában az adatbányászattal foglalkozó tantárgyakon belül szentelnek a témának hosszabb-rövidebb időt. Ezért, egyrészt a téma jelentősége, másrészt a hazai mérnöki- és kutatógárda utánpótlásának biztosítása miatt úgy véltem, hogy fontos és hasznos lenne önálló tantárgyat indítani.

Milyen tudományterületek ismeretére volt szüksége, hogy a tantárgy tematikáját ki tudja dolgozni, és hol volt lehetősége ezt az ismeretanyagot elsajátítania?
A szövegbányászat határtudomány, mivel műveléséhez nem kizárólag mérnöki és matematikusi előképzettség szükséges, de előnyös némi affinitás a nyelvekhez, esetleg a nyelvtudományokhoz is. Ezért attól függően, hogy milyen háttérrel rendelkezik a területtel foglalkozó vezető kutató, külföldi egyetemeken is elég változatos azoknak a tanszékeknek a fő szakterülete, ahol szövegbányászattal foglalkoznak. Egyébként ez a megnevezés is inkább a mérnöki szemléletet tükrözi, ezen kívül hasonló tematikájú tárgyakat még hívnak számítógépes nyelvészetnek, természetes nyelvfeldolgozásnak, de gyakran szerepel információ visszakereséssel, gépi tanulással foglalkozó tárgyak tematikájában is. Jómagam inkább a informatikusi/matematikusi oldalról közelítettem a témához, ezen belül többféle területen való előismeret hasznos, mint pl. statisztika, valószínűségszámítás, gépi tanulási módszerek, mintafelismerési eljárások, de emellett mindig is érdekeltek a nyelvek és a nyelvészet.

Milyen volt a tantárgy fogadtatása a hallgatók körében, milyen visszajelzések érkeztek Önhöz?
Ez egy választható tárgy, amelyet viszonylag kevés hallgató vett fel. Örömmel tapasztaltam azonban, hogy nem volt lemorzsolódás a körükben, sőt mostanában olyan hallgatók is bejárnak, akiknek korábban időpontütközés miatt ez nem volt lehetséges. Azt hiszem ezt mindenképpen pozitív visszajelzésként lehet értékelni. Az órák meglehetősen interaktívak, tehát gyakran előfordul, hogy valamely problémát az ismert megoldások bemutatása előtt közösen megtárgyalunk. Szerintem az érdeklődés annak köszönhető elsősorban, hogy informatikával foglalkozók között mindenki találkozik a hétköznapokban is szövegbányászati problémákkal, pl. az internetes kereséseknél.

Mi a véleménye a szövegbányászat hazai lehetőségeiről, a magyar nyelvben meglévő nyelvi sajátosságokról, és a hazai szövegbányász szakemberek hazai és nemzetközi esélyeiről?
Idén már harmadszor rendezik meg Szegeden decemberben a Magyar Számítógépes Nyelvészeti konferenciát, és egyre nagyobb a résztvevők száma. Míg korábban ezzel a területtel csak néhány kutatócsoport vagy cég foglalkozott, manapság, részben a piaci igények megjelenése miatt is, egyre többen vannak ilyenek. A magyar nyelvi sajátosságok természetesen megnehezítik a feldolgozást, mondjuk az angolhoz képest, azonban mostanában már elérhetővé váltak olyan szabad forráskodú szoftverek, amelyek az alapvető nyelvi feldolgozást támogatják (pl. szótevesítő, morfológiai elemző), tehát amire bárki építhet. Az esélyekről szólva, egyrészt azt tudni kell, hogy a nyelvfeldolgozás, azaz a nyelvspecifikusság, a szövegbányászati feladatoknak általában csak a kezdeti lépését jelentik, a problémák másik része már nyelvfüggetlen. Ezért mindenkinek meg van az esélye arra, hogy nemzetközi szinten is érvényesüljön. (Erre jó példa, hogy egy kicsit hazabeszéljek, hogy az idei legrangosabb adatbányászati versenyen az ACM által rendezett KDD kupán csapatunk második helyezést ért internetes keresőkifejezések [query] osztályozásának pontossági és kreativitási versenyén, és meghívtak előadni a Chicagóban rendezett konferenciára.) Másrészt a magyar nyelv nehézsége nyelvészeti körökben is közismert, ezért ha valamely probléma a mi nyelvünkre megoldható, akkor az általában más nyelv esetében sem jelenthet nehézséget, sőt szerencsés esetben korlátozva, de átvihető.

Mik jelenleg azok a legjobban kutatott szövegbányászati területek, amelyek a tudományterület legnagyobb kihívásainak számítanak?
Jelzés értékűnek tekinthető, hogy a KDD kupán idén szövegbányászati feladat volt. Itt egyébként általában olyan problémákat tűznek ki, amelyek legaktuálisabbak a szakterületen. Tehát az egyik ilyen feladat a nagyon rövid szövegek, mint pl. internetes keresések szövege, vagy tetszőleges keresőkifejezés osztályozása, főleg úgy hogy nincsen rendelkezésre álló tanuló adat. Egy más nagyságrendű feladat az automatikus fordítás, illetve fordítástámogatás megoldása, amely talán a legnagyobb kihívásnak tekinthető. Ehhez részben kapcsolódik a szintén az érdeklődés középpontjában lévő többnyelvű információ-visszakeresés (cross language information retrieval), de a szakterület fiatalsága miatt a legtöbb aprónak tűnő problémának a megoldásán még lehet javítani.

Vázsonyi Miklós
BME Információ- és Tudásmenedzsment Tanszék

 

Partnereink


Legyen a parnerünk!

| Copyright 2005 http://www.szovegbanyaszat.hu - Minden jog fenntartva |