LEKSIKALNA BAZA ZA SLOVENŠČINO
Če si želite ogledati vizualizacijo gesel iz leksikalne baze v poskusnem Spletnem slovarju slovenskega jezika, kliknite na sličico na levi ali na povezavo. |
KAJ JE LEKSIKALNA BAZA?
LEKSIKALNA BAZA V ŠTEVILKAH
Leksikalna baza obsega 2.500 gesel oziroma 10.946 leksikalnih enot, tj. pomenov, podpomenov, stalnih zvez in frazeoloških enot.
gesla | 2.500 | leksikalne enote | 10.946 | kolokacije | 44.626 | ||
samostalniki | 1.288 | pomeni | 4.371 | razširjene kolokacije | 4.602 | ||
glagoli | 528 | podpomeni | 3.076 | skladenjske zveze | 8.298 | ||
pridevniki | 546 | stalne zveze | 2.053 | stavčni vzorci | 7.151 | ||
prislovi | 138 | frazeološke enote | 1.446 | zgledi | 152.996 | ||
oznake | 1.197 | ||||||
slovnične omejitve | 716 |
KAKO JE LEKSIKALNA BAZA ZASNOVANA IN KAJ VSEBUJE?
Baza je oblikovana kot mreža med seboj povezanih pomenskih in skladenjskih podatkov o posamezni besedi. Osnovna ali hierarhično najvišja enota je pomen oz. leksikalna enota, kamor štejemo posamezne pomene besede v iztočnici, stalne zveze in frazeološke enote. Vsak pomen je opisan s kratkim pomenskim indikatorjem in/ali stavčno definicijo, predstavljen v tipičnem stavčnem okolju s številom, obliko in semantično zapolnitvijo vezljivostnih mest (pomenska shema), zajet v nizu besednozveznih skladenjskih struktur ter pripadajočih kolokacij. Vse naštete informacije so potrjene z izborom več korpusnih zgledov.
Stalne zveze in frazeološke enote so od posameznih pomenov neodvisne in imajo svojo lastno notranjo zgradbo, ki predvideva vse elemente na enak način kot posamezni pomeni besede v iztočnici.
KOMU JE LEKSIKALNA BAZA NAMENJENA?
Podatki so v leksikalni bazi organizirani tako, da jih je mogoče med seboj kombinirati, do njih dostopati v različnih stopnjah abstraktnosti in glede na različne nivoje zahtevnosti končnega uporabnika.
Splošnemu in šolskemu uporabniku so namenjeni pomenski opisi besed v obliki kratkih pomenskih indikatorjev, ki tvorijo pomenske menije za lažjo navigacijo po večpomenskem geslu, ter pomenske sheme, ki vsebujejo stavčne razlage.
Kolokacije in realni korpusni zgledi prikazujejo besede v njihovem realnem in najbolj tipičnem besedilnem okolju, zato predstavljajo neposredno informacijo o življenjskem okolju besed, ki je zlasti pomembna za učenje slovenščine kot tujega jezika.
Jezikoslovec bo sposoben prepoznati temeljne vezljivostne vzorce v stavčno oblikovanih razlagah in jih povezati z različnimi možnimi skladenjskimi realizacijami, ki jih govorci slovenščine najpogosteje uporabljamo v pisni komunikaciji.
Jezikovnim tehnologom so na voljo kodirane skladenjske strukture in stavčni vzorci za vsak registrirani pomen ali podpomen besede, kar je predpogoj za izboljšanje avtomatskega označevanja slovenskih besedil na oblikoskladenjski, skladenjski in pomenski ravni ter za razvoj jezikovnotehnoloških aplikacij za slovenščino.
LEKSIKALNA BAZA KOT PODATKOVNA ZBIRKA
Avtorji: Polona Gantar, Simon Krek, Iztok Kosem, Mojca Šorli, Polonca Kocjančič, Katja Grabnar, Olga Yerošina, Petra Zaranšek, Nina Drstvenšek
SODELAVCI (po fazah)
Izdelava baze:
Tehnična podpora: Rok Rejc, Polonca Kocjančič
Administrativna podpora: Karmen Kosem
BIBLIOGRAFIJA
Elaborati
GANTAR, Polona, GRABNAR, Katja, KOCJANČIČ, Polona, KREK, Simon, POBIRK, Olga, REJC, Rok, ŠORLI, Mojca, ŠUSTER, Simon, ZARANŠEK, Petra, 2009: Specifikacije za izdelavo leksikalne baze za slovenščino: standard za izdelavo posamezne leksikalne enote v leksikalni bazi. Projekt »Sporazumevanje v slovenskem jeziku« ESS in MŠŠ.
GANTAR, Polona, GRABNAR, Katja, KOCJANČIČ, Polona, KREK, Simon, POBIRK, Olga, REJC, Rok, ŠORLI, Mojca, ŠUSTER, Simon, ZARANŠEK, Petra, 2009: Specifikacije za izdelavo leksikalne baze za slovenščino: opis analize referenčnega korpusa. Projekt »Sporazumevanje v slovenskem jeziku« ESS in MŠŠ.
Članki
FIŠER, Darja, GANTAR, Polona, KREK, Simon, 2012: Using explicitly and implicitly encoded semantic relations to map Slovene wordnet and Slovene lexical database. V: 8th International Conference on Language Resources and Evaluation, 21-27 May 2012, Istanbul, Turkey. LREC 2012 : proceedings (Workshops: Semantic relations II). Istanbul: ELRA, 2012. Str. 77-84.
GANTAR, Polona, 2011: Leksikalna baza za slovenščino: komu, zakaj in kako (naprej)?. Jezikoslovni zapiski, 2011, 17, št. 2. Str. 77-92.
GANTAR, Polona, 2010: K uporabniku usmerjeni slovnično-leksikalni opisi slovenskega jezika. V: GORJANC, Vojko (ur.), ŽELE, Andreja (ur.). Izzivi sodobnega jezikoslovja, (Zbirka Razprave FF). Ljubljana: Znanstvena založba Filozofske fakultete, 2010 Str. 35-51.
GANTAR, Polona, 2009: Leksikalna baza: vse, kar ste vedno želeli vedeti o jeziku. Jezik in slovstvo, letn. 54, št. ¾. Str. 69-94.
GANTAR, Polona, KREK, Simon, 2011: Slovene lexical database. V: Majchraková, D., Garabík, R. (ur.). Natural language processing, multilinguality: sixth international conference, Modra, Slovaška, 20-21. Oktober 2011. Str. 72-80.
GANTAR, Polona, KREK, Simon, 2009: Drugačen pogled na slovarske definicije: opisati, pojasniti, razložiti?. V: STABEJ, Marko (ur.). Infrastruktura slovenščine in slovenistike, Obdobja, Simpozij, = Symposium, 28). Ljubljana: Znanstvena založba Filozofske fakultete. Str. 151-159.
GRABNAR, Katja, 2010: Slikar slika, slikarka ilustrira? Vprašanje ženskih poimenovanj oseb v opisu sodobne slovenščine. V: VINTAR, Špela (ur.). Slovenske korpusne raziskave, (Zbirka Prevodoslovje in uporabno jezikoslovje). Ljubljana: Znanstvena založba Filozofske fakultete. Str.
KOCJANČIČ, Polonca, ZARANŠEK, Petra, 2009: The Slovene Lexical Database: The Organizing Principles of the Argument Structure. V: Sánchez Pérez, A., P. Cantos Gómez: A survey on corpus-based research [Elektronski vir] = Panorama de investigaciones basadas en corpus. Murcia: AELINCO. Str. 293-206.
KOSEM, Iztok, GANTAR, Polona, KREK, Simon, 2012: Avtomatično luščenje leksikalnih podatkov iz korpusa. V: T. Erjavec, J. Gros (ur.) Zbornik konference Jezikovne tehnologije. Institut Jožef Stefan, 8.-9.oktober 2012, Ljubljana.
KOSEM, Iztok, HUSÁK, Miloš, MCCARTHY, Diana, 2011: GDEX for Slovene. V: Kosem, I., Kosem K. (ur.): Electronic Lexicography in the 21st Century: New applications for new users. Proceedings of eLex 2011, Bled, 10-12 November 2011. Ljubljana: Trojina, zavod za uporabno slovenistiko. Str. 151-159.
KREK, Simon, 2012: New Slovene sketch grammar for automatic extraction of lexical data. SKEW3, tretja mednarodna delavnica orodja Sketch Engine, Brno, Češka, 21-22. marec 2012.
ŠORLI, Mojca, 2011: Pragmatic Components in the Slovene Lexical Database Descriptions. V: Kosem, I., Kosem K. (ur.): Electronic lexicography in the 21st century: new applications for new users. Proceedings of eLex 2011, 10-12 November 2011, Bled, Slovenia. Ljubljana: Trojina, Institute for Applied Slovene Studies. Str. 251-259.
ŠORLI, Mojca, 2010: The retrieval of data for Slovene-X dictionaries. V: Proceedings of the XIV Euralex International Congress. Leeuwarden, 6-10 July 2010. Ljouwert: Fryske Akademy. Str. 849-854.
ŠORLI, Mojca, 2009: Pridobivanje podatkov o slovenščini za izdelavo slovensko-tujejezičnih slovarjev. V: STABEJ, Marko (ur.). Infrastruktura slovenščine in slovenistike, Obdobja, Simpozij, = Symposium, 28. Ljubljana: Znanstvena založba Filozofske fakultete. Str. 359-369.
Predavanja
GANTAR, Polona, 2012: Večbesedne leksikalne enote v leksikalni bazi za slovenščino : [predavanje na mednarodni konferenci Europhras 2012, Maribor, 27.-31. 7. 2012]. Maribor, 2012.
GANTAR, Polona, KREK, Simon, 2009: The “communication in Slovene” language resources project : [predavanje na mednarodni konferenci "Mondilex", Bratislava, 15.-16. 4. 2009]. Bratislava.
GANTAR, Polona, KREK, Simon, 2009: Slovene lexical database for NLP and lexicographic purposes : [predavanje na konferenci "eLexicography in the 21st century", Louvain-la-Neuve, Belgija, 22.-24. 10. 2009]. Louvain-la-Neuve.
Videolectures
KOSEM, Iztok, 2011: GDEX for Slovene. Predavanje na konferenci: Electronic lexicography in the 21st century: new applications for new users (eLex2011).
GANTAR, Polona, 2011: Kjer se srečata pomen in skladnja: Leksikalna baza za slovenščino kot vir podatkov za pedagoško korpusno slovnico. Predavanje na konferenci “Slovnica, več kot le sistem”, Ljubljana, 4. 2. 2011.
GANTAR, Polona, 2009: Leksikalna baza: vse, kar ste vedno želeli vedeti o jeziku. Predavanje na konferenci “Slovarji več kot le besede”, Ljubljana, 6. 2. 2009.