LEKSIKALNA BAZA ZA SLOVENŠČINO

Leksikalna_001 Če si želite ogledati vizualizacijo gesel iz leksikalne baze v poskusnem Spletnem slovarju slovenskega jezika, kliknite na sličico na levi ali na povezavo.

KAJ JE LEKSIKALNA BAZA?

Leksikalna baza za slovenščino je nastala v okviru projekta Sporazumevanje v slovenskem jeziku med leti 2008 in 2012 in predstavlja izčrpen pomenski in skladenjski opis izbranega nabora slovenskih besed, ki je izdelan izključno na podlagi analize referenčnih besedilnih korpusov.

Izbor besed v leksikalni bazi temelji na geslovniku 5.000 najpogostejših besed v korpusih FidaPLUS in Gigafida, upoštevali pa smo tudi izbor besed iz osnovno- in srednješolskih učbenikov, da bi se čim bolj približali realnim problemom šolarjev in dijakov.

Namen izdelave leksikalne baze za slovenščino je dvojen. Primarno želi zapolniti vrzel na področju celovitega leksikalnega opisa slovenske leksike tako z vidika aktualnih pomenskih sprememb v besedišču kot z vidika vključevanja sodobnih leksikografskih postopkov. Kot taka ponuja splošnim uporabnikom, šolarjem in učencem slovenščine kot tujega jezika podatke o pomenu besed, njihovem tipičnem okolju, stilnih, registrskih in pragmatičnih posebnostih rabe, stalnih zvezah in frazeologiji. Vsi »človeškemu« uporabniku namenjeni podatki so ubesedeni na način, ki ga uporabnik pozna iz vsakodnevne komunikacije. Drugi poglavitni namen leksikalne baze je zagotoviti jezikovne podatke v obliki, ki služi primarno računalniški obdelavi in razvoju sodobnih jezikovnotehnoloških aplikacij za slovenščino.

LEKSIKALNA BAZA V ŠTEVILKAH

Leksikalna baza obsega 2.500 gesel oziroma 10.946 leksikalnih enot, tj. pomenov, podpomenov, stalnih zvez in frazeoloških enot.

 

gesla 2.500   leksikalne enote 10.946   kolokacije 44.626
samostalniki 1.288   pomeni 4.371   razširjene kolokacije 4.602
glagoli 528   podpomeni 3.076   skladenjske zveze 8.298
pridevniki 546   stalne zveze 2.053   stavčni vzorci 7.151
prislovi 138   frazeološke enote 1.446   zgledi 152.996
            oznake 1.197
            slovnične omejitve 716

 

KAKO JE LEKSIKALNA BAZA ZASNOVANA IN KAJ VSEBUJE?

Zasnova leksikalne baze temelji na dobrih praksah sorodnih projektov v evropskih jezikih, hkrati pa sledi specifičnim lastnostim slovenščine. V slovenski prostor prinaša nov način pomenskega opisa besed s poudarkom na tipičnem sobesedilu, ki temelji izključno na realni podobi sodobne slovenščine.

Baza je oblikovana kot mreža med seboj povezanih pomenskih in skladenjskih podatkov o posamezni besedi. Osnovna ali hierarhično najvišja enota je pomen oz. leksikalna enota, kamor štejemo posamezne pomene besede v iztočnici, stalne zveze in frazeološke enote. Vsak pomen je opisan s kratkim pomenskim indikatorjem in/ali stavčno definicijo, predstavljen v tipičnem stavčnem okolju s številom, obliko in semantično zapolnitvijo vezljivostnih mest (pomenska shema), zajet v nizu besednozveznih skladenjskih struktur ter pripadajočih kolokacij. Vse naštete informacije so potrjene z izborom več korpusnih zgledov.

Stalne zveze in frazeološke enote so od posameznih pomenov neodvisne in imajo svojo lastno notranjo zgradbo, ki predvideva vse elemente na enak način kot posamezni pomeni besede v iztočnici.

Največja pozornost je v leksikalni bazi namenjena dejstvu, da pomenskega opisa ni mogoče strogo ločiti od skladenjskega okolja besede. Tu smo sprejeli za slovenščino največ novih leksikografskih rešitev, kot je na primer zapisovanje pomenskih shem v obliki stavčnih razlag, ki vsebujejo SEMANTIČNE TIPE udeležencev na predvidljivih vezljivostnih mestih.

KOMU JE LEKSIKALNA BAZA NAMENJENA?

Podatki so v leksikalni bazi organizirani tako, da jih je mogoče med seboj kombinirati, do njih dostopati v različnih stopnjah abstraktnosti in glede na različne nivoje zahtevnosti končnega uporabnika.

Splošnemu in šolskemu uporabniku so namenjeni pomenski opisi besed v obliki kratkih pomenskih indikatorjev, ki tvorijo pomenske menije za lažjo navigacijo po večpomenskem geslu, ter pomenske sheme, ki vsebujejo stavčne razlage.

Kolokacije in realni korpusni zgledi prikazujejo besede v njihovem realnem in najbolj tipičnem besedilnem okolju, zato predstavljajo neposredno informacijo o življenjskem okolju besed, ki je zlasti pomembna za učenje slovenščine kot tujega jezika.

Jezikoslovec bo sposoben prepoznati temeljne vezljivostne vzorce v stavčno oblikovanih razlagah in jih povezati z različnimi možnimi skladenjskimi realizacijami, ki jih govorci slovenščine najpogosteje uporabljamo v pisni komunikaciji.

Jezikovnim tehnologom so na voljo kodirane skladenjske strukture in stavčni vzorci za vsak registrirani pomen ali podpomen besede, kar je predpogoj za izboljšanje avtomatskega označevanja slovenskih besedil na oblikoskladenjski, skladenjski in pomenski ravni ter za razvoj jezikovnotehnoloških aplikacij za slovenščino.

LEKSIKALNA BAZA KOT PODATKOVNA ZBIRKA

Avtorji: Polona Gantar, Simon Krek, Iztok Kosem, Mojca Šorli, Polonca Kocjančič, Katja Grabnar, Olga Yerošina, Petra Zaranšek, Nina Drstvenšek

SODELAVCI (po fazah)

Izdelava baze:

Tehnična podpora: Rok Rejc, Polonca Kocjančič

Administrativna podpora: Karmen Kosem

BIBLIOGRAFIJA

Elaborati

GANTAR, Polona, GRABNAR, Katja, KOCJANČIČ, Polona, KREK, Simon, POBIRK, Olga, REJC, Rok, ŠORLI, Mojca, ŠUSTER, Simon, ZARANŠEK, Petra, 2009: Specifikacije za izdelavo leksikalne baze za slovenščino: standard za izdelavo posamezne leksikalne enote v leksikalni bazi. Projekt »Sporazumevanje v slovenskem jeziku« ESS in MŠŠ.

GANTAR, Polona, GRABNAR, Katja, KOCJANČIČ, Polona, KREK, Simon, POBIRK, Olga, REJC, Rok, ŠORLI, Mojca, ŠUSTER, Simon, ZARANŠEK, Petra, 2009: Specifikacije za izdelavo leksikalne baze za slovenščino: opis analize referenčnega korpusa. Projekt »Sporazumevanje v slovenskem jeziku« ESS in MŠŠ.

Članki

FIŠER, Darja, GANTAR, Polona, KREK, Simon, 2012: Using explicitly and implicitly encoded semantic relations to map Slovene wordnet and Slovene lexical database. V: 8th International Conference on Language Resources and Evaluation, 21-27 May 2012, Istanbul, Turkey. LREC 2012 : proceedings (Workshops: Semantic relations II). Istanbul: ELRA, 2012. Str. 77-84.

GANTAR, Polona, 2011: Leksikalna baza za slovenščino: komu, zakaj in kako (naprej)?. Jezikoslovni zapiski, 2011, 17, št. 2. Str. 77-92.

GANTAR, Polona, 2010: K uporabniku usmerjeni slovnično-leksikalni opisi slovenskega jezika. V: GORJANC, Vojko (ur.), ŽELE, Andreja (ur.). Izzivi sodobnega jezikoslovja, (Zbirka Razprave FF). Ljubljana: Znanstvena založba Filozofske fakultete, 2010 Str. 35-51.

GANTAR, Polona, 2009: Leksikalna baza: vse, kar ste vedno želeli vedeti o jeziku. Jezik in slovstvo, letn. 54, št. ¾. Str. 69-94.

GANTAR, Polona, KREK, Simon, 2011: Slovene lexical database. V: Majchraková, D., Garabík, R. (ur.). Natural language processing, multilinguality: sixth international conference, Modra, Slovaška, 20-21. Oktober 2011. Str. 72-80.

GANTAR, Polona, KREK, Simon,  2009: Drugačen pogled na slovarske definicije: opisati, pojasniti, razložiti?. V: STABEJ, Marko (ur.). Infrastruktura slovenščine in slovenistike, Obdobja, Simpozij, = Symposium, 28). Ljubljana: Znanstvena založba Filozofske fakultete. Str. 151-159.

GRABNAR, Katja, 2010: Slikar slika, slikarka ilustrira? Vprašanje  ženskih poimenovanj oseb v opisu sodobne slovenščine. V: VINTAR, Špela (ur.). Slovenske korpusne raziskave, (Zbirka Prevodoslovje in uporabno jezikoslovje). Ljubljana: Znanstvena založba Filozofske fakultete. Str.

KOCJANČIČ, Polonca, ZARANŠEK, Petra, 2009: The Slovene Lexical Database: The Organizing Principles of the Argument Structure. V: Sánchez Pérez, A., P. Cantos Gómez: A survey on corpus-based research [Elektronski vir] = Panorama de investigaciones basadas en corpus. Murcia: AELINCO. Str. 293-206.

KOSEM, Iztok, GANTAR, Polona, KREK, Simon, 2012: Avtomatično luščenje leksikalnih podatkov iz korpusa. V: T. Erjavec, J. Gros (ur.) Zbornik konference Jezikovne tehnologije. Institut Jožef Stefan, 8.-9.oktober 2012, Ljubljana.

KOSEM, Iztok, HUSÁK, Miloš, MCCARTHY, Diana, 2011: GDEX for Slovene. V: Kosem, I., Kosem K. (ur.): Electronic Lexicography in the 21st Century: New applications for new users. Proceedings of eLex 2011, Bled, 10-12 November 2011. Ljubljana: Trojina, zavod za uporabno slovenistiko. Str. 151-159.

KREK, Simon, 2012: New Slovene sketch grammar for automatic extraction of lexical data. SKEW3, tretja mednarodna delavnica orodja Sketch Engine, Brno, Češka, 21-22. marec 2012.

ŠORLI, Mojca, 2011: Pragmatic Components in the Slovene Lexical Database Descriptions. V: Kosem, I., Kosem K. (ur.): Electronic lexicography in the 21st century: new applications for new users. Proceedings of eLex 2011, 10-12 November 2011, Bled, Slovenia. Ljubljana: Trojina, Institute for Applied Slovene Studies. Str. 251-259.

ŠORLI, Mojca, 2010: The retrieval of data for Slovene-X dictionaries. V: Proceedings of the XIV Euralex International Congress. Leeuwarden, 6-10 July 2010. Ljouwert: Fryske Akademy. Str. 849-854.

ŠORLI, Mojca,  2009: Pridobivanje podatkov o slovenščini za izdelavo slovensko-tujejezičnih slovarjev. V: STABEJ, Marko (ur.). Infrastruktura slovenščine in slovenistike, Obdobja, Simpozij, = Symposium, 28. Ljubljana: Znanstvena založba Filozofske fakultete.  Str. 359-369.

Predavanja

GANTAR, Polona, 2012: Večbesedne leksikalne enote v leksikalni bazi za slovenščino : [predavanje na mednarodni konferenci Europhras 2012, Maribor, 27.-31. 7. 2012]. Maribor, 2012.

GANTAR, Polona, KREK, Simon, 2009: The “communication in Slovene” language resources project : [predavanje na mednarodni konferenci "Mondilex", Bratislava, 15.-16. 4. 2009]. Bratislava.

GANTAR, Polona, KREK, Simon, 2009: Slovene lexical database for NLP and lexicographic purposes : [predavanje na konferenci "eLexicography in the 21st century", Louvain-la-Neuve, Belgija, 22.-24. 10. 2009]. Louvain-la-Neuve.

Videolectures

KOSEM, Iztok, 2011: GDEX for Slovene. Predavanje na konferenci: Electronic lexicography in the 21st century: new applications for new users (eLex2011).

GANTAR, Polona, 2011: Kjer se srečata pomen in skladnja: Leksikalna baza za slovenščino kot vir podatkov za pedagoško korpusno slovnico. Predavanje na konferenci “Slovnica, več kot le sistem”, Ljubljana, 4. 2. 2011.

GANTAR, Polona, 2009: Leksikalna baza: vse, kar ste vedno želeli vedeti o jeziku. Predavanje na konferenci “Slovarji več kot le besede”, Ljubljana, 6. 2. 2009.