Zusammenfassung:
|
U svetu u kome ˇzivimo, internet i digitalni zapis uˇcinili su da ogromne
koliˇcine sirovih podataka postanu dostupne ˇsirokoj javnosti. Jedan ameriˇcki
menadˇzer je joˇs davno izjavio: "Raˇcunari su nam obe´cali fontanu mudrosti,
a ovo ˇsto smo dobili je poplava podataka" [20]. Sirovi podaci, neadekvatno
strukturirani i razliˇcitih formata, sadrˇzaja i kvaliteta su retko od koristi.
Neophodno ih je pripremiti, analizirati i na osnovu toga do´ci do informacija
i znanja koja na taj naˇcin stiˇcu neprocenjivu vrednost.
Istraˇzivanje podataka (eng. data mining) je interdisciplinarno polje infor-
matike koje se bavi automatskim ili polu-automatskim otkrivanjem znanja
u podacima. Njegov osnovni zadatak je netrivijalna ekstrakcija informa-
cija iz podataka, i to informacija koje su implicitne, prethodno nepoznate
i potencijalno korisne. Koriste se metode koje su u preseku veˇstaˇcke in-
teligencije, maˇsinskog uˇcenja, statistike i sistema baza podataka [97]. Zadaci
koji se reˇsavaju u okviru Istraˇzivanja podataka mogu biti prediktivni (klasi-
fikacija, regresija, analiza vremenskih serija) ili deskriptivni (klasterovanje,
sumarizacija, pravila pridruˇzivanja, analiza redosleda, otkrivanje anomalija).
U okviru ove doktorske disertacije bavimo se problemom klasifikacije tek-
stova na osnovu njihovog sadrˇzaja. Smatra se da je preko 80% dostupnih
informacija saˇcuvano u tekstualnom obliku. Ve´cina informacija je zapisana
prirodnim jezikom, odnosno jezikom koji koriste ljudi za svakodnevnu ko-
munikaciju. Za oˇcekivati je da ´ce tehnologije automatske obrade podataka
zapisanih prirodnim jezikom postati vode´ce u svetu. Glavni doprinos di-
sertacije ogleda se u predstavljanju novih metoda za klasifikaciju tekstual-
nih dokumenata. Prva metoda predstavlja unapredenje metode razvijene u
cilju otkrivanja autorstva teksta [38]. Metoda je zasnovana na predstavlja-
nju dokumenta kao profila koji sadrˇzi fiksiran broj n-grama bajtova koji se
pojavljuju u dokumentu, i meri razliˇcitosti pomo´cu koje se odreduje klasa
kojoj dokument pripada. Ova metoda je jeziˇcki nezavisna i ne zahteva
nikakvu prethodnu obradu teksta niti predznanje o sadrˇzaju teksta ili jeziku
na kome je tekst napisan. Druga metoda se zasniva na odabranim koncep-
tima kao predstavnicima klasa koji se dobijaju iz srpskog wordnet-a, leksiˇcko
semantiˇcke mreˇze za srpski jezik. Deo rezultata iz ove disertacije je sadrˇzan
u radovima [23, 27, 22, 21, 56, 26, 25, 24] koji su objavljeni, predati za ob-
javljivanje ili su u fazi pripreme.
Disertacija je organizovana na slede´ci naˇcin.
U glavi 1 je prikazan uvod u oblast klasifikacije podataka, u okviru koga su
prikazane vrste klasifikacije, procena kvaliteta klasifikacije i primeri primene.
Poseban osvrt dat je na klasifikaciju tekstualnih dokumenata. Prikazani su
razliˇciti naˇcini predstavljanja dokumenata kao jednog od najvaˇznijiih koraka
u procesu klasifikacije. Predoˇceni su i mnogi problemi i izazovi koji se javlja-
ju. Prikazani su korpusi klasifikovanih tekstova na srpskom, engleskom, ki-
neskom i arapskom jeziku koji ´ce biti koriˇs´ceni u daljem istraˇzivanju. Uvodna
glava zavrˇsava se jednim filozofskim pogledom na proces klasifikacije.
Glava 2 daje pregled postoje´cih leksiˇckih resursa za srpski jezik [17] koji
se razvijaju u okviru Grupe za jeziˇcke tehnologije na Matematiˇckom fakul-
tetu Univeziteta u Beogradu. Ideja je da se ukljuˇcivanjem morfoloˇskih, sin-
taksiˇckih i semantiˇckih informacija sadrˇzanih u resursima unapredi proces
klasifikacije tekstova na srpkom jeziku, kao jednom od morfoloˇski bogatijih
jezika. Predstavljeni su korpusi srpskog jezika, elektronski reˇcnik i srpski
wordnet kao i raznovrsne tehnologije koje se koriste za njihovu obradu a koje
se razvijaju u okviru Grupe.
U glavi 3 su prikazane postoje´ce metode maˇsinskog uˇcenja koje su do
sada imale veoma uspeˇsnu primenu u procesu klasifikacije. Prikazane su
metode zasnovane na drvetima odluˇcivanja, metode zasnovane na pravilima
i rastojanju, statistiˇcki zasnovane metode, metode zasnovane na neuronskim
mreˇzama i metode zasnovane na podrˇzavaju´cim vektorima.
Nove metode za klasifikaciju teksta prikazane su u glavi 4. U okviru prve
metode zasnovane na n-gramima bajtova, uvedeni su nova mera razliˇcitosti i
novi teˇzinski faktori u odnosu na osnovnu varijantu metode. Teˇzinski faktori
su dodeljeni n-gramima u okviru profila klasa, reflektuju´ci znaˇcaj koji n-grami
imaju za pripadaju´cu klasu. Smatra se da n-grami koji imaju ve´cu frekvenciju
a pripadaju manjem broju klasa imaju ve´ci znaˇcaj za klasu kojoj pripadaju.
Uvodenje ovih teˇzinskih faktora rezultovalo je modifikacijom metode na dva
naˇcina: modifikacija na nivou mere razliˇcitosti i modifikacija na nivou profila
klase. Druga metoda se odnosi na koriˇs´cenje informacija sadrˇzanih u srpskom
wordnetu i srpskom elektronskom reˇcniku u cilju klasifikacije teksta na srp-
skom jeziku. Ova metoda zasniva se na pridruˇzivanju odabranih koncepata iz
srpskog wordnet-a klasama, na osnovu kojih se izraˇcunava mera pripadnosti
klasi i vrˇsi pridruˇzivanje dokumenta nekoj od klasa.
Rezultati prikazanih novih metoda sumirani su u okviru glave 5. Na srp-
skom korpusu je prikazano poredenje prve metode i njenih modifikacija zas-
novanih na n-gramima bajtova, karaktera i reˇci. Osnovna varijanta metode i
njene modifikacije za n-grame bajtova, testirani su na korpusima na srpskom,
engleskom, kineskom i arapskom jeziku, ˇcime je demonstrirana jeziˇcka neza-
visnost metode. U okviru Priloga 1 dodatno su predstavljeni svi rezultati
dobijeni testiranjem metode za razliˇcite vrednosti parametara, za sve pred-
stavljene mere razliˇcitosti, na svim pomenutim korpusima. Druga metoda
testirana je samo na korpusu na srpskom jeziku.
Poredenje prikazanih rezultata sa drugim rezultataima iz ove oblasti dato
je u glavi 6 a glava 7 prikazuje zakljuˇcke i pravce daljeg rada. |