OZNAČEVALNIK

Tagger Če želite preizkusiti delovanje oblikoskladenjskega označevalnika, kliknite na sličico na levi ali na povezavo. Program lahko tudi prenesete na svoj računalnik in označite svoje besedilo.

KAJ JE OBLIKOSLOVNI OZNAČEVALNIK?

Označevalnik je računalniški program, s katerim poljubno besedilo razdelimo na enote in posameznim besedam pripišemo dodatne informacije, npr. besedno vrsto, v katero spada, in kakšne so njene lastnosti, ali njeno osnovno obliko, če gre za besedo, ki ima več pregibnih oblik. Označevalnik Obeliks (ob-likoslovni označ-e-valnik za s-lovenščino), ki smo ga izdelali v okviru projekta Sporazumevanje v slovenskem jeziku, je sestavljen iz treh komponent: iz segmentacijskega in tokenizacijskega modula, ki besedilo razdeli na stavke in besede, samega oblikoslovnega označevalnika, ki besedam pripiše besedno vrsto in njene lastnosti, ter lematizatorja, ki jim pripiše njihovo osnovno obliko (npr. delam -> delati, mizama -> miza). Delovanje označevalnika lahko preizkusite na povezavi zgoraj.

KAKO NATANČEN JE OZNAČEVALNIK?

Obeliks pripisuje kategorije in lastnosti glede na specifikacije, ki so bile definirane v okviru projekta Jezikoslovno označevanje slovenščine (JOS). Vseh oznak glede na vse možne kombinacije kategorij in lastnosti je po tej tabeli 1.902, kar za označevalnik predstavlja izjemen izziv, saj je denimo pri angleščini, ki je oblikoslovno gledano razmeroma preprosta, takih oznak manj kot 100, tipično okrog šestdeset. Ker gre za strojno pripisovanje oznak, ki temelji na statistični verjetnosti izbire med več možnimi oznakami, označevalnik seveda ne more pravilno uganiti prav vsake oznake ali osnovne oblike. Kategorije in vse lastnosti besed (spol, sklon, število itd.) Obeliks pripisuje z 91,34-odstotno natančnostjo, samo besedno vrsto (ali gre za samostalnik, glagol, pridevnik itd.) pa z 98,30-odstotno natančnostjo. Natančnost pripisovanja osnovnih oblik besed je 97,88 % ob upoštevanju velike začetnice ter 98,55 % na ravni črkovnega niza osnovne oblike, torej ne glede na velike ali male črke.

KJE LAHKO PREIZKUSIM DELOVANJE OZNAČEVALNIKA?

Označevalnik lahko preizkusite na spletni strani označevalnik.slovenščina.eu. Spletni servis je namenjen predvsem označevanju krajših besedil oz. kot prikaz delovanja označevalnika. Rezultat označevanja si lahko ogledate v dveh formatih. Prvi je format XML-TEI (Text Encoding Initiative), ki je namenjen nadaljnji obdelavi z računalniškimi orodji ali uvozu v konkordančnike. Drugi je namenjen ogledu na spletu in v tabelarni obliki prikazuje tri podatke: besedno obliko, lemo in oznako. Ob pomiku miške preko oznake se nad njo izpiše razlaga oznake – na sliki spodaj si denimo lahko ogledate razlago za samostalnik “skupščina” v stavku “Generalna skupščina razglaša to splošno…”. Za označevanje večje količine besedil je na isti spletni strani za prenos na lastni računalnik na voljo tudi prosto dostopna programska oprema.

Primer označenega besedila v spletnem formatu: začetek besedila Splošne deklaracije človekovih pravic (OZN).

KAKO SPLOH DELUJE OZNAČEVALNIK?

Delovanje označevalnika – kot sestavne komponente Obeliksa – temelji na principu nadzorovanega strojnega učenja (supervised machine learning), kar pomeni, da se označevanja nauči na ročno označenih primerih iz učnega korpusa. Označevalnik v fazi učenja zgradi model znanja, ki mu nato omogoča označevanje novih, še neoznačenih besed. Osnovne komponente označevalnika so: (i) drevo končnic (suffix trie), (ii) algoritem za tvorjenje vektorjev značilk (feature vectors), (iii) algoritem za učenje in (iv) algoritem za označevanje. Za učenje potrebujemo ročno označeni korpus in leksikon, iz katerih najprej zgradimo drevo končnic. Nato za vsako besedo iz učnega korpusa tvorimo vektor značilk. Ti vektorji značilk so označeni z oblikoslovnimi oznakami pripadajočih besed in zato lahko uporabimo algoritem za nadzorovano učenje, ki na podlagi označenih vektorjev tvori model znanja. Model znanja vsebuje informacijo o tem, katere lastnosti (tj. pari značilka=vrednost) združujejo določene oblikoslovne kategorije in jih hkrati ločujejo od ostalih. Algoritem, ki ga Obeliks uporablja za učenje, temelji na principu maksimalne entropije (maximum entropy) in se pogosto uporablja za označevanje sekvenc. Podrobnejšo strokovno razlago si lahko preberete v članku ali predavanju o označevalniku.

LICENCA IN PRENOS

Označevalnik Obeliks je prosto dostopen kot spletni servis in kot program, ki ga je mogoče namestiti na računalnik kot samostojno aplikacijo in z njim označiti večjo količino besedila. Označevalnik kot program je dostopen za prenos na dveh spletnih straneh: na projektni spletni strani označevalnika in na portalu SourceForge. Licenca, pod katero je označevalnik dostopen za uporabo, je Lesser General Public License version 3.0 (LGPLv3).

AVTORJI

Označevalnik Obeliks kot programska oprema: Miha Grčar, Matjaž Juršič, Jan Rupnik, Simon Krek, Kaja Dobrovoljc

SODELAVCI (po komponentah)

Oblikoslovni označevalnik: Miha Grčar, Matjaž Juršič in Jan Rupnik
Segmentacijska, tokenizacijska in lematizacijska pravila: Simon Krek, Kaja Dobrovoljc in Miha Grčar.
Lematizator: Matjaž Juršič (lematizator kot samostojni program)

BIBLIOGRAFIJA

Članki, monografije:

Miha Grčar, Simon Krek, Kaja Dobrovoljc (2012): Obeliks: statistični oblikoskladenjski označevalnik in lematizator za slovenski jezik. V T. Erjavec, J. Žganec Gros (ur.): Zbornik Osme konference Jezikovne tehnologije. Ljubljana: Institut Jožef Stefan.

Videolectures:

Miha Grčar: Oblikoskladenjski označevalnik SSJ, predstavitev na konferenci Korpusi, več kot le statistika (Fakulteta za družbene vede, Ljubljana, 5. februar 2010)