PRILOG METODAMA KLSIFIKACIJE TEKSTA: MATEMATIČKI MODELI I PRIMENE

eBibliothek Repositorium

 
 

PRILOG METODAMA KLSIFIKACIJE TEKSTA: MATEMATIČKI MODELI I PRIMENE

Zur Kurzanzeige

dc.contributor.advisor Pavlović-Lažetić, Gordana
dc.contributor.author Graovac, Jelena
dc.date.accessioned 2014-06-04T08:57:23Z
dc.date.available 2014-06-04T08:57:23Z
dc.date.issued 2014
dc.identifier.uri http://hdl.handle.net/123456789/3746
dc.description.abstract U svetu u kome ˇzivimo, internet i digitalni zapis uˇcinili su da ogromne koliˇcine sirovih podataka postanu dostupne ˇsirokoj javnosti. Jedan ameriˇcki menadˇzer je joˇs davno izjavio: "Raˇcunari su nam obe´cali fontanu mudrosti, a ovo ˇsto smo dobili je poplava podataka" [20]. Sirovi podaci, neadekvatno strukturirani i razliˇcitih formata, sadrˇzaja i kvaliteta su retko od koristi. Neophodno ih je pripremiti, analizirati i na osnovu toga do´ci do informacija i znanja koja na taj naˇcin stiˇcu neprocenjivu vrednost. Istraˇzivanje podataka (eng. data mining) je interdisciplinarno polje infor- matike koje se bavi automatskim ili polu-automatskim otkrivanjem znanja u podacima. Njegov osnovni zadatak je netrivijalna ekstrakcija informa- cija iz podataka, i to informacija koje su implicitne, prethodno nepoznate i potencijalno korisne. Koriste se metode koje su u preseku veˇstaˇcke in- teligencije, maˇsinskog uˇcenja, statistike i sistema baza podataka [97]. Zadaci koji se reˇsavaju u okviru Istraˇzivanja podataka mogu biti prediktivni (klasi- fikacija, regresija, analiza vremenskih serija) ili deskriptivni (klasterovanje, sumarizacija, pravila pridruˇzivanja, analiza redosleda, otkrivanje anomalija). U okviru ove doktorske disertacije bavimo se problemom klasifikacije tek- stova na osnovu njihovog sadrˇzaja. Smatra se da je preko 80% dostupnih informacija saˇcuvano u tekstualnom obliku. Ve´cina informacija je zapisana prirodnim jezikom, odnosno jezikom koji koriste ljudi za svakodnevnu ko- munikaciju. Za oˇcekivati je da ´ce tehnologije automatske obrade podataka zapisanih prirodnim jezikom postati vode´ce u svetu. Glavni doprinos di- sertacije ogleda se u predstavljanju novih metoda za klasifikaciju tekstual- nih dokumenata. Prva metoda predstavlja unapredenje metode razvijene u cilju otkrivanja autorstva teksta [38]. Metoda je zasnovana na predstavlja- nju dokumenta kao profila koji sadrˇzi fiksiran broj n-grama bajtova koji se pojavljuju u dokumentu, i meri razliˇcitosti pomo´cu koje se odreduje klasa kojoj dokument pripada. Ova metoda je jeziˇcki nezavisna i ne zahteva nikakvu prethodnu obradu teksta niti predznanje o sadrˇzaju teksta ili jeziku na kome je tekst napisan. Druga metoda se zasniva na odabranim koncep- tima kao predstavnicima klasa koji se dobijaju iz srpskog wordnet-a, leksiˇcko semantiˇcke mreˇze za srpski jezik. Deo rezultata iz ove disertacije je sadrˇzan u radovima [23, 27, 22, 21, 56, 26, 25, 24] koji su objavljeni, predati za ob- javljivanje ili su u fazi pripreme. Disertacija je organizovana na slede´ci naˇcin. U glavi 1 je prikazan uvod u oblast klasifikacije podataka, u okviru koga su prikazane vrste klasifikacije, procena kvaliteta klasifikacije i primeri primene. Poseban osvrt dat je na klasifikaciju tekstualnih dokumenata. Prikazani su razliˇciti naˇcini predstavljanja dokumenata kao jednog od najvaˇznijiih koraka u procesu klasifikacije. Predoˇceni su i mnogi problemi i izazovi koji se javlja- ju. Prikazani su korpusi klasifikovanih tekstova na srpskom, engleskom, ki- neskom i arapskom jeziku koji ´ce biti koriˇs´ceni u daljem istraˇzivanju. Uvodna glava zavrˇsava se jednim filozofskim pogledom na proces klasifikacije. Glava 2 daje pregled postoje´cih leksiˇckih resursa za srpski jezik [17] koji se razvijaju u okviru Grupe za jeziˇcke tehnologije na Matematiˇckom fakul- tetu Univeziteta u Beogradu. Ideja je da se ukljuˇcivanjem morfoloˇskih, sin- taksiˇckih i semantiˇckih informacija sadrˇzanih u resursima unapredi proces klasifikacije tekstova na srpkom jeziku, kao jednom od morfoloˇski bogatijih jezika. Predstavljeni su korpusi srpskog jezika, elektronski reˇcnik i srpski wordnet kao i raznovrsne tehnologije koje se koriste za njihovu obradu a koje se razvijaju u okviru Grupe. U glavi 3 su prikazane postoje´ce metode maˇsinskog uˇcenja koje su do sada imale veoma uspeˇsnu primenu u procesu klasifikacije. Prikazane su metode zasnovane na drvetima odluˇcivanja, metode zasnovane na pravilima i rastojanju, statistiˇcki zasnovane metode, metode zasnovane na neuronskim mreˇzama i metode zasnovane na podrˇzavaju´cim vektorima. Nove metode za klasifikaciju teksta prikazane su u glavi 4. U okviru prve metode zasnovane na n-gramima bajtova, uvedeni su nova mera razliˇcitosti i novi teˇzinski faktori u odnosu na osnovnu varijantu metode. Teˇzinski faktori su dodeljeni n-gramima u okviru profila klasa, reflektuju´ci znaˇcaj koji n-grami imaju za pripadaju´cu klasu. Smatra se da n-grami koji imaju ve´cu frekvenciju a pripadaju manjem broju klasa imaju ve´ci znaˇcaj za klasu kojoj pripadaju. Uvodenje ovih teˇzinskih faktora rezultovalo je modifikacijom metode na dva naˇcina: modifikacija na nivou mere razliˇcitosti i modifikacija na nivou profila klase. Druga metoda se odnosi na koriˇs´cenje informacija sadrˇzanih u srpskom wordnetu i srpskom elektronskom reˇcniku u cilju klasifikacije teksta na srp- skom jeziku. Ova metoda zasniva se na pridruˇzivanju odabranih koncepata iz srpskog wordnet-a klasama, na osnovu kojih se izraˇcunava mera pripadnosti klasi i vrˇsi pridruˇzivanje dokumenta nekoj od klasa. Rezultati prikazanih novih metoda sumirani su u okviru glave 5. Na srp- skom korpusu je prikazano poredenje prve metode i njenih modifikacija zas- novanih na n-gramima bajtova, karaktera i reˇci. Osnovna varijanta metode i njene modifikacije za n-grame bajtova, testirani su na korpusima na srpskom, engleskom, kineskom i arapskom jeziku, ˇcime je demonstrirana jeziˇcka neza- visnost metode. U okviru Priloga 1 dodatno su predstavljeni svi rezultati dobijeni testiranjem metode za razliˇcite vrednosti parametara, za sve pred- stavljene mere razliˇcitosti, na svim pomenutim korpusima. Druga metoda testirana je samo na korpusu na srpskom jeziku. Poredenje prikazanih rezultata sa drugim rezultataima iz ove oblasti dato je u glavi 6 a glava 7 prikazuje zakljuˇcke i pravce daljeg rada. en_US
dc.description.provenance Submitted by Slavisha Milisavljevic (slavisha) on 2014-06-04T08:57:23Z No. of bitstreams: 1 PhD_JelenaGraovac.pdf: 3870513 bytes, checksum: 743e01bc5b9c6dd98bf4424b31858680 (MD5) en
dc.description.provenance Made available in DSpace on 2014-06-04T08:57:23Z (GMT). No. of bitstreams: 1 PhD_JelenaGraovac.pdf: 3870513 bytes, checksum: 743e01bc5b9c6dd98bf4424b31858680 (MD5) Previous issue date: 2014 en
dc.format.mimetype PDF en_US
dc.language.iso sr en_US
dc.publisher Univerzitet u Beogradu en_US
dc.title PRILOG METODAMA KLSIFIKACIJE TEKSTA: MATEMATIČKI MODELI I PRIMENE en_US
mf.author.birth-date 1979-12-14
mf.author.birth-place Priština en_US
mf.author.birth-country Serbia en_US
mf.author.residence-state Serbia en_US
mf.author.citizenship Serbian en_US
mf.author.nationality Serbian en_US
mf.subject.area Računarstvo en_US
mf.subject.keywords klasifikacija teksta, obrada prirodnih jezika, n-grami, Word-net en_US
mf.subject.subarea Računarska obrada teksta en_US
mf.contributor.committee Vitas, Duško
mf.contributor.committee Obradović, Ivan
mf.university.faculty Mathematical Faculty en_US
mf.document.references 97 en_US
mf.document.pages 183 en_US
mf.document.location Belgrade en_US
mf.document.genealogy-project No en_US
mf.author.parent Branislav en_US
mf.university Belgrade University en_US

Dateien zu dieser Ressource

Dateien Größe Format Anzeige
PhD_JelenaGraovac.pdf 3.870Mb PDF Öffnen

Das Dokument erscheint in:

Zur Kurzanzeige