OPIS
Če želite preveriti oblike slovenskih besed v Sloleksu, kliknite na sličico na levi ali na povezavo. Sloleks vsebuje več kot 100.000 besed oz. lem. |
KAJ JE SLOLEKS?
Sloleks je leksikon besednih oblik za slovenski jezik. To pomeni, da v strukturirani bazi podatkov (v formatu XML) vsebuje osnovne podatke o slovenskih besedah, predvsem v katero besedno vrsto spadajo in kakšne so njihove lastnosti. Pri vsaki besedi so v bazi zabeležene tudi vse njene pregibne oblike. Ker je slovenščina oblikoslovno izjemno bogat jezik, je takih besed in njihovih oblik zelo veliko. Pregibajo se samostalniki, pridevniki, zaimki, števniki, glagoli in prislovi. Besedne vrste in njihove lastnosti so v bazi opredeljene glede na specifikacije projekta Jezikoslovno označevanje slovenščine (JOS), kot je pojasnjeno v nadaljevanju.
ZAKAJ POTREBUJEMO SLOLEKS?
Leksikon besednih oblik Sloleks je zasnovan tako, da zadovolji dva cilja: rabo leksikona (a) v okviru jezikovnotehnoloških aplikacij in (b) pri spremljevalnih aplikacijah slogovnega priročnika. Sledenje tem dvem ciljem vsebino leksikona postavlja pred dve nasprotujoči tendenci: v jezikovnotehnoloških aplikacijah mora leksikon čim bolj uspešno opredeljevati oblikoslovne lastnosti vseh leksikonskih enot (besed), ki jih srečamo v realnih besedilih, vključno z govorjenimi besedili, in omogočiti preprosto strojno berljivost podatkov. Pri slogovnem priročniku pa mora omogočiti uspešno predstavljanje informacij o normativnih vidikih besedišča, primerjanih s sodobno realnostjo slovenskega jezika.
Za strukturiranje podatkov v leksikonu je bil izbran format ISO standard Lexical Markup Framework, ki je zadnji rezultat dolge tradicije projektov na področju standardizacije zapisa leksikalnih podatkov za evropske (in druge) jezike. Leksikon kot del jezikovnotehnoloških aplikacij mora biti usklajen še z dvema deloma projekta, ki se združujejo v tesno povezan sklop: učni korpus ter oblikoslovni označevalnik. Besedne vrste (oz. kategorije) in njihove lastnosti pri obeh izhajajo iz specifikacij projeka JOS in so torej identične tako v učnem korpusu kot v leksikonu besednih oblik. Enake oznake pri avtomatskem označevanju besedil uporablja tudi oblikoslovni označevalnik, kar pomeni, da so podatki v leksikonu neposredno povezljivi z oznakami v korpusih Gigafida in Kres. V bazi leksikona so zato lahko dodani tudi podatki o pogostosti pojavljanja določene oblike v korpusu Gigafida. V spletnem iskalniku Sloleks pa sta obe bazi povezani na ta način, da si lahko rezultat ogledamo tudi neposredno v korpusu, če kliknemo na povezavo v stolpcu “pogostost”.
LEKSIKON V ŠTEVILKAH
Leksikon Sloleks obsega 100.784 gesel in 2.791.919 posameznih besednih oblik z opisanimi slovničnimi lastnostmi.
element | opis | število | besedna vrsta | število | |
<LexicalEntry> | leksikonska enota | 100.784 | samostalniki | 54.254 | |
<Lemma> | osnovna oblika besede | 100.784 | pridevniki | 26.597 | |
<WordForm> | podatki o besedni obliki | 2.773.511 | glagoli | 10.242 | |
<FormRepresentation> | zapis besedne oblike | 2.791.919 | prislovi | 6.906 | |
<RelatedForm> | (besedotvorno) povezana oblika | 65.951 | števniki | 2.240 | |
<Sense> | element s semantičnimi podatki | 74 | zaimki | 169 | |
<Definition> | element, ki vsebuje razlago | 74 | predlogi | 96 | |
<ListOfComponents> | element z deli večbesedne zveze | 3 | medmeti | 85 | |
<MWELex> | element z večbesedno zvezo | 2 | okrajšave | 70 | |
<MWENode> | del leksikona z večbesednimi zvezami | 1 | členki | 68 | |
<Lexicon> | korenski element leksikona | 1 | vezniki | 54 | |
večbesedne enote | 3 | ||||
Skupaj | 100.784 |
AVTORJI
Leksikon Sloleks kot podatkovna zbirka: Peter Holozan, Simon Krek, Kaja Dobrovoljc, Tomaž Erjavec, Miro Romih
SODELAVCI (po nalogah)
Izdelava leksikona: Peter Holozan, Simon Krek, Kaja Dobrovoljc, Miro Romih
Strojna obdelava leksikona: Peter Holozan, Miha Arčan
Ročna obdelava leksikona: Kaja Dobrovoljc
Format LMF in validacija XML: Tomaž Erjavec
Izdelava iskalnika: Gašper Černavšek, Rok Rejc
BIBLIOGRAFIJA
Elaborati
Simon Krek, Tomaž Erjavec, Peter Holozan (2008): Specifikacije za leksikon besednih oblik (kazalnik 3). Projekt Sporazumevanje v slovenskem jeziku.
Članki in monografije
Špela Arhar, Učni korpus SSJ in leksikon besednih oblik za slovenščino, Jezik in slovstvo 54/3–4, 2009, 43–56.