PRILOG METODAMA KLSIFIKACIJE TEKSTA: MATEMATIČKI MODELI I PRIMENE

Zur Langanzeige

Titel:	PRILOG METODAMA KLSIFIKACIJE TEKSTA: MATEMATIČKI MODELI I PRIMENE
Autor:	Graovac, Jelena
Zusammenfassung:	U svetu u kome ˇzivimo, internet i digitalni zapis uˇcinili su da ogromne koliˇcine sirovih podataka postanu dostupne ˇsirokoj javnosti. Jedan ameriˇcki menadˇzer je joˇs davno izjavio: "Raˇcunari su nam obe´cali fontanu mudrosti, a ovo ˇsto smo dobili je poplava podataka" [20]. Sirovi podaci, neadekvatno strukturirani i razliˇcitih formata, sadrˇzaja i kvaliteta su retko od koristi. Neophodno ih je pripremiti, analizirati i na osnovu toga do´ci do informacija i znanja koja na taj naˇcin stiˇcu neprocenjivu vrednost. Istraˇzivanje podataka (eng. data mining) je interdisciplinarno polje infor- matike koje se bavi automatskim ili polu-automatskim otkrivanjem znanja u podacima. Njegov osnovni zadatak je netrivijalna ekstrakcija informa- cija iz podataka, i to informacija koje su implicitne, prethodno nepoznate i potencijalno korisne. Koriste se metode koje su u preseku veˇstaˇcke in- teligencije, maˇsinskog uˇcenja, statistike i sistema baza podataka [97]. Zadaci koji se reˇsavaju u okviru Istraˇzivanja podataka mogu biti prediktivni (klasi- fikacija, regresija, analiza vremenskih serija) ili deskriptivni (klasterovanje, sumarizacija, pravila pridruˇzivanja, analiza redosleda, otkrivanje anomalija). U okviru ove doktorske disertacije bavimo se problemom klasifikacije tek- stova na osnovu njihovog sadrˇzaja. Smatra se da je preko 80% dostupnih informacija saˇcuvano u tekstualnom obliku. Ve´cina informacija je zapisana prirodnim jezikom, odnosno jezikom koji koriste ljudi za svakodnevnu ko- munikaciju. Za oˇcekivati je da ´ce tehnologije automatske obrade podataka zapisanih prirodnim jezikom postati vode´ce u svetu. Glavni doprinos di- sertacije ogleda se u predstavljanju novih metoda za klasifikaciju tekstual- nih dokumenata. Prva metoda predstavlja unapredenje metode razvijene u cilju otkrivanja autorstva teksta [38]. Metoda je zasnovana na predstavlja- nju dokumenta kao profila koji sadrˇzi fiksiran broj n-grama bajtova koji se pojavljuju u dokumentu, i meri razliˇcitosti pomo´cu koje se odreduje klasa kojoj dokument pripada. Ova metoda je jeziˇcki nezavisna i ne zahteva nikakvu prethodnu obradu teksta niti predznanje o sadrˇzaju teksta ili jeziku na kome je tekst napisan. Druga metoda se zasniva na odabranim koncep- tima kao predstavnicima klasa koji se dobijaju iz srpskog wordnet-a, leksiˇcko semantiˇcke mreˇze za srpski jezik. Deo rezultata iz ove disertacije je sadrˇzan u radovima [23, 27, 22, 21, 56, 26, 25, 24] koji su objavljeni, predati za ob- javljivanje ili su u fazi pripreme. Disertacija je organizovana na slede´ci naˇcin. U glavi 1 je prikazan uvod u oblast klasifikacije podataka, u okviru koga su prikazane vrste klasifikacije, procena kvaliteta klasifikacije i primeri primene. Poseban osvrt dat je na klasifikaciju tekstualnih dokumenata. Prikazani su razliˇciti naˇcini predstavljanja dokumenata kao jednog od najvaˇznijiih koraka u procesu klasifikacije. Predoˇceni su i mnogi problemi i izazovi koji se javlja- ju. Prikazani su korpusi klasifikovanih tekstova na srpskom, engleskom, ki- neskom i arapskom jeziku koji ´ce biti koriˇs´ceni u daljem istraˇzivanju. Uvodna glava zavrˇsava se jednim filozofskim pogledom na proces klasifikacije. Glava 2 daje pregled postoje´cih leksiˇckih resursa za srpski jezik [17] koji se razvijaju u okviru Grupe za jeziˇcke tehnologije na Matematiˇckom fakul- tetu Univeziteta u Beogradu. Ideja je da se ukljuˇcivanjem morfoloˇskih, sin- taksiˇckih i semantiˇckih informacija sadrˇzanih u resursima unapredi proces klasifikacije tekstova na srpkom jeziku, kao jednom od morfoloˇski bogatijih jezika. Predstavljeni su korpusi srpskog jezika, elektronski reˇcnik i srpski wordnet kao i raznovrsne tehnologije koje se koriste za njihovu obradu a koje se razvijaju u okviru Grupe. U glavi 3 su prikazane postoje´ce metode maˇsinskog uˇcenja koje su do sada imale veoma uspeˇsnu primenu u procesu klasifikacije. Prikazane su metode zasnovane na drvetima odluˇcivanja, metode zasnovane na pravilima i rastojanju, statistiˇcki zasnovane metode, metode zasnovane na neuronskim mreˇzama i metode zasnovane na podrˇzavaju´cim vektorima. Nove metode za klasifikaciju teksta prikazane su u glavi 4. U okviru prve metode zasnovane na n-gramima bajtova, uvedeni su nova mera razliˇcitosti i novi teˇzinski faktori u odnosu na osnovnu varijantu metode. Teˇzinski faktori su dodeljeni n-gramima u okviru profila klasa, reflektuju´ci znaˇcaj koji n-grami imaju za pripadaju´cu klasu. Smatra se da n-grami koji imaju ve´cu frekvenciju a pripadaju manjem broju klasa imaju ve´ci znaˇcaj za klasu kojoj pripadaju. Uvodenje ovih teˇzinskih faktora rezultovalo je modifikacijom metode na dva naˇcina: modifikacija na nivou mere razliˇcitosti i modifikacija na nivou profila klase. Druga metoda se odnosi na koriˇs´cenje informacija sadrˇzanih u srpskom wordnetu i srpskom elektronskom reˇcniku u cilju klasifikacije teksta na srp- skom jeziku. Ova metoda zasniva se na pridruˇzivanju odabranih koncepata iz srpskog wordnet-a klasama, na osnovu kojih se izraˇcunava mera pripadnosti klasi i vrˇsi pridruˇzivanje dokumenta nekoj od klasa. Rezultati prikazanih novih metoda sumirani su u okviru glave 5. Na srp- skom korpusu je prikazano poredenje prve metode i njenih modifikacija zas- novanih na n-gramima bajtova, karaktera i reˇci. Osnovna varijanta metode i njene modifikacije za n-grame bajtova, testirani su na korpusima na srpskom, engleskom, kineskom i arapskom jeziku, ˇcime je demonstrirana jeziˇcka neza- visnost metode. U okviru Priloga 1 dodatno su predstavljeni svi rezultati dobijeni testiranjem metode za razliˇcite vrednosti parametara, za sve pred- stavljene mere razliˇcitosti, na svim pomenutim korpusima. Druga metoda testirana je samo na korpusu na srpskom jeziku. Poredenje prikazanih rezultata sa drugim rezultataima iz ove oblasti dato je u glavi 6 a glava 7 prikazuje zakljuˇcke i pravce daljeg rada.
URI:	http://hdl.handle.net/123456789/3746
Datum:	2014