OPIS

Leksikon_001 Če želite preveriti oblike slovenskih besed v Sloleksu, kliknite na sličico na levi ali na povezavo. Sloleks vsebuje več kot 100.000 besed oz. lem.

KAJ JE SLOLEKS?

Sloleks je leksikon besednih oblik za slovenski jezik. To pomeni, da v strukturirani bazi podatkov (v formatu XML) vsebuje osnovne podatke o slovenskih besedah, predvsem v katero besedno vrsto spadajo in kakšne so njihove lastnosti. Pri vsaki besedi so v bazi zabeležene tudi vse njene pregibne oblike. Ker je slovenščina oblikoslovno izjemno bogat jezik, je takih besed in njihovih oblik zelo veliko. Pregibajo se samostalniki, pridevniki, zaimki, števniki, glagoli in prislovi. Besedne vrste in njihove lastnosti so v bazi opredeljene glede na specifikacije projekta Jezikoslovno označevanje slovenščine (JOS), kot je pojasnjeno v nadaljevanju.

ZAKAJ POTREBUJEMO SLOLEKS?

Leksikon besednih oblik Sloleks je zasnovan tako, da zadovolji dva cilja: rabo leksikona (a) v okviru jezikovnotehnoloških aplikacij in (b) pri spremljevalnih aplikacijah slogovnega priročnika. Sledenje tem dvem ciljem vsebino leksikona postavlja pred dve nasprotujoči tendenci: v jezikovnotehnoloških aplikacijah mora leksikon čim bolj uspešno opredeljevati oblikoslovne lastnosti vseh leksikonskih enot (besed), ki jih srečamo v realnih besedilih, vključno z govorjenimi besedili, in omogočiti preprosto strojno berljivost podatkov. Pri slogovnem priročniku pa mora omogočiti uspešno predstavljanje informacij o normativnih vidikih besedišča, primerjanih s sodobno realnostjo slovenskega jezika.

Za strukturiranje podatkov v leksikonu je bil izbran format ISO standard Lexical Markup Framework, ki je zadnji rezultat dolge tradicije projektov na področju standardizacije zapisa leksikalnih podatkov za evropske (in druge) jezike. Leksikon kot del jezikovnotehnoloških aplikacij mora biti usklajen še z dvema deloma projekta, ki se združujejo v tesno povezan sklop: učni korpus ter oblikoslovni označevalnik. Besedne vrste (oz. kategorije) in njihove lastnosti pri obeh izhajajo iz specifikacij projeka JOS in so torej identične tako v učnem korpusu kot v leksikonu besednih oblik. Enake oznake pri avtomatskem označevanju besedil uporablja tudi oblikoslovni označevalnik, kar pomeni, da so podatki v leksikonu neposredno povezljivi z oznakami v korpusih Gigafida in Kres. V bazi leksikona so zato lahko dodani tudi podatki o pogostosti pojavljanja določene oblike v korpusu Gigafida. V spletnem iskalniku Sloleks pa sta obe bazi povezani na ta način, da si lahko rezultat ogledamo tudi neposredno v korpusu, če kliknemo na povezavo v stolpcu “pogostost”.

LEKSIKON V ŠTEVILKAH

Leksikon Sloleks obsega 100.784 gesel in 2.791.919 posameznih besednih oblik z opisanimi slovničnimi lastnostmi.

element opis število   besedna vrsta število
<LexicalEntry> leksikonska enota 100.784   samostalniki 54.254
<Lemma> osnovna oblika besede 100.784 pridevniki 26.597
<WordForm> podatki o besedni obliki 2.773.511   glagoli 10.242
<FormRepresentation> zapis besedne oblike 2.791.919   prislovi 6.906
<RelatedForm> (besedotvorno) povezana oblika 65.951   števniki 2.240
<Sense> element s semantičnimi podatki 74   zaimki 169
<Definition> element, ki vsebuje razlago 74   predlogi 96
<ListOfComponents> element z deli večbesedne zveze 3   medmeti 85
<MWELex> element z večbesedno zvezo 2   okrajšave 70
<MWENode> del leksikona z večbesednimi zvezami 1   členki 68
<Lexicon> korenski element leksikona 1   vezniki 54
večbesedne enote 3
Skupaj 100.784

AVTORJI

Leksikon Sloleks kot podatkovna zbirka: Peter Holozan, Simon Krek, Kaja Dobrovoljc, Tomaž Erjavec, Miro Romih

SODELAVCI (po nalogah)

Izdelava leksikona: Peter Holozan, Simon Krek, Kaja Dobrovoljc, Miro Romih
Strojna obdelava leksikona: Peter Holozan, Miha Arčan
Ročna obdelava leksikona: Kaja Dobrovoljc
Format LMF in validacija XML: Tomaž Erjavec
Izdelava iskalnika: Gašper Černavšek, Rok Rejc

BIBLIOGRAFIJA

Elaborati

Simon Krek, Tomaž Erjavec, Peter Holozan (2008): Specifikacije za leksikon besednih oblik (kazalnik 3). Projekt Sporazumevanje v slovenskem jeziku.

Članki in monografije

Špela Arhar, Učni korpus SSJ in leksikon besednih oblik za slovenščino, Jezik in slovstvo 54/3–4, 2009, 43–56.