Magyarország közérdekű szövegbányászati portálja. Friss hírek, aktív piaci, akadémiai és nonprofit szereplők, pályázat és konferencia figyelés, szakirodalmi segédanyagok, szövegbányászat vonatkozású linkgyűjtemény.

| Hírlevél | Csatlakozz kutatócsoportunkhoz! | Ajánlj minket |  In English |

2005.08.24. BME sikerek a KDD Cup 2005 rangos nemzetközi adat- és szövegbányászat versenyen.

2005. augusztus 21. és 24. között Chicagoban megrendezésre került az adat- és szövegbányászat tudományterület legrangosabb nemzetközi megmérettetése, a KDD (Knowledge Discovery and Data Mining) Cup 2005 kupa, amely az iparág és a tématerület kutatóinak nyújt lehetőséget arra, hogy tudásukat az adat- és szövegbányászat legnagyobb problémáinak leküzdésével mérjék össze. A verseny keretében a nevező csapatoknak olyan aktuális kihívásokkal kell megküzdeniük minden évben, amelyek megoldása eddig is jelentősen hozzájárult a tudományterület fejlődéséhez. A kitűzött feladatok általában igazi kihívást jelentenek a szakterület neves képviselőinek is. A verseny népszerűsége az elmúlt néhány évben igen jelentősen megnövekedett.

Az idei versenyen a feladat a szövegbányászat területéhez közeli volt. 800.000 internetes keresőkifejezést kellett automatikusan besorolni (kleszterizálni, osztályozni) 67 előre megadott kategóriába tartalmuk szerint. A verseny kiírói abban bíztak, hogy a verseny során keletkező eredmények nagyban hozzájárulnak az internetes keresések és információ-visszakeresési technológiák hatékonyságának javításához, új ötletek és módszerek kivitelezéséhez. A feladat több szempontból is feladta a leckét a résztvevő csapatoknak. Egyrészt a kiindulásként kapott adatok minősége igen rossznak volt mondható, másrészt az adatok mennyisége igen nagy volt. Nem állt továbbá rendelkezésre tanító adat, ami a mesterséges intelligencia módszerek többségében szükséges ahhoz, hogy a módszer alapján az algoritmusokat finomhangolni lehessen, ezáltal felkészítve a módszert az új problémák megoldására. Ráadásul a szervezők menet közben megváltoztatták a besorolásnál használandó kategóriarendszert is, amelynek lekezelése a csapatok részéről nagyfokú rugalmasságot és gyors adaptációt igényelt. A versenyre összesen 140 csapat regisztrált, ebből azonban csak 32 csapat volt képes beadni megoldást.

Dr. Tikk Domonkos, a BME Távközlési és Médiainformatikai Tanszékének oktató-kutatója a versenyről az alábbi összefoglalást közölte:

A TMIT csapatának megoldása két részből állt. Kidolgoztuk és megvalósítottuk a Fürkész algoritmust, amely kategóriarendszereket képes összekapcsolni szemantikai összefüggések alapján. Ennek segítségével tanulóadatokat gyűjtöttünk a célként megadott 67 kategóriához olyan internetes keresőszolgáltatások felhasználásával, amelyek számunkra használható kategóriarendszert is alkalmaztak a dokumentumok keresése során. Ezzel a módszerrel kb. a 800.000 keresőkifejezés feléhez tudtunk kategóriát rendelni. A második lépésben az így szerzett tanulóadatokkal betanítottuk a HITEC hierarchikus szövegosztályozót a 67 kategória felismerésére, és a maradék mintegy 400.000 keresőkifejezés kategóriáira az osztályozó segítségével következtettünk. A módszer részletes leírását ld. a lenti linkeknél.

Kapcsolódó linkek:

Vázsonyi Miklós
BME Információ- és Tudásmenedzsment Tanszék

 

Partnereink


Legyen a parnerünk!

| Copyright 2005 http://www.szovegbanyaszat.hu - Minden jog fenntartva |