|
2005. augusztus 21. és 24. között Chicagoban
megrendezésre került az adat- és szövegbányászat
tudományterület legrangosabb nemzetközi megmérettetése, a
KDD (Knowledge Discovery and Data Mining) Cup 2005 kupa,
amely az iparág és a tématerület kutatóinak nyújt
lehetőséget arra, hogy tudásukat az adat- és szövegbányászat
legnagyobb problémáinak leküzdésével mérjék össze. A verseny
keretében a nevező csapatoknak olyan aktuális kihívásokkal
kell megküzdeniük minden évben, amelyek megoldása eddig is
jelentősen hozzájárult a tudományterület fejlődéséhez. A
kitűzött feladatok általában igazi kihívást jelentenek a
szakterület neves képviselőinek is. A verseny népszerűsége
az elmúlt néhány évben igen jelentősen megnövekedett.
Az idei versenyen a feladat a szövegbányászat
területéhez közeli volt. 800.000 internetes keresőkifejezést
kellett automatikusan besorolni (kleszterizálni,
osztályozni) 67 előre megadott kategóriába tartalmuk
szerint. A verseny kiírói abban bíztak, hogy a verseny során
keletkező eredmények nagyban hozzájárulnak az internetes
keresések és információ-visszakeresési technológiák
hatékonyságának javításához, új ötletek és módszerek
kivitelezéséhez. A feladat több szempontból is feladta a
leckét a résztvevő csapatoknak. Egyrészt a kiindulásként
kapott adatok minősége igen rossznak volt mondható, másrészt
az adatok mennyisége igen nagy volt. Nem állt továbbá
rendelkezésre tanító adat, ami a mesterséges intelligencia
módszerek többségében szükséges ahhoz, hogy a módszer
alapján az algoritmusokat finomhangolni lehessen, ezáltal
felkészítve a módszert az új problémák megoldására. Ráadásul
a szervezők menet közben megváltoztatták a besorolásnál
használandó kategóriarendszert is, amelynek lekezelése a
csapatok részéről nagyfokú rugalmasságot és gyors adaptációt
igényelt. A versenyre összesen 140 csapat regisztrált, ebből
azonban csak 32 csapat volt képes beadni megoldást.
Dr. Tikk Domonkos, a BME Távközlési és
Médiainformatikai Tanszékének oktató-kutatója a versenyről
az alábbi összefoglalást közölte:
A TMIT csapatának megoldása két
részből állt. Kidolgoztuk és megvalósítottuk a Fürkész
algoritmust, amely kategóriarendszereket képes
összekapcsolni szemantikai összefüggések alapján. Ennek
segítségével tanulóadatokat gyűjtöttünk a célként
megadott 67 kategóriához olyan internetes
keresőszolgáltatások felhasználásával, amelyek számunkra
használható kategóriarendszert is alkalmaztak a
dokumentumok keresése során. Ezzel a módszerrel kb. a
800.000 keresőkifejezés feléhez tudtunk kategóriát
rendelni. A második lépésben az így szerzett
tanulóadatokkal betanítottuk a HITEC hierarchikus
szövegosztályozót a 67 kategória felismerésére, és a
maradék mintegy 400.000 keresőkifejezés kategóriáira az
osztályozó segítségével következtettünk. A módszer
részletes leírását ld. a lenti linkeknél.
Kapcsolódó linkek:
Vázsonyi Miklós
BME
Információ- és Tudásmenedzsment Tanszék |