PROSTE ZBIRKE

KAJ STA KORPUSA ccGIGAFIDA IN ccKRES?

Za slovenski jezik obstaja več korpusov, tako referenčnih kot specializiranih, vendar iskanje po njih pri veliki večini poteka zgolj prek spletnih konkordančnikov. Uporaba korpusa prek konkordančnika je omejena, saj jo določa zmogljivost konkordančnikovega poizvedovalnega jezika, pa tudi obseg rezultatov poizvedb ima dostikrat vnaprej določene meje. Kljub temu je za jezikoslovne študije tak dostop v večini primerov zadosten. Tega pa ne moremo reči za uporabo korpusov v namene razvoja jezikovnih tehnologij, ker tam potrebujemo dostop do celotnega korpusa kot podatkovne baze, saj ga šele tako lahko uporabimo za učenje oz. testiranje različnih programov za obdelavo jezika, med njimi npr. modelov oblikoskladenjskega označevanja in lematizacije.

Zaradi navedenega smo iz korpusa slovenskega jezika Gigafida in njenega uravnoteženega dela, tj. korpusa Kres, vzorčili dva podkorpusa: korpus ccGigafida, ki vsebuje približno 9 % korpusa Gigafida oz. 100 milijonov besed, in ccKres, ki vsebuje približno 9 % korpusa Kres oz. 10 milijonov besed. Njuna struktura je enaka strukturi korpusov, iz katerih sta nastala.

S korpusoma ccGigafida in ccKRES omogočamo tretjim osebam, tudi raziskovalcem v tujini, da pod čim bolj liberalnimi pogoji poglobljeno raziskujejo slovenski jezik tako z jezikoslovnega kot računalniškega oz. jezikovnotehnološkega vidika.

KAJ POLEG BESEDIL ŠE VSEBUJETA ccGIGAFIDA IN ccKRES?

Korpusa vsebujeta tudi druge vrste informacij. Vsak posamezni dokument, ki jih je v v korpusu ccGigafida 31.722, v ccKres pa 9.376, vsebuje informacijo o viru (npr. Mladina, Delo, Dnevnik), letu nastanka, vrsti besedila (npr. leposlovje, revija), naslovu in avtorju, če je ta znan. Poleg tega sta korpusa jezikoslovno označena, kar pomeni, da sta prav vsaki besedi v korpusu pripisana še dva podatka. Prvi je osnovna oblika besede ali lema (npr. jagode, jagodi, jagodam = jagoda), drugi je t.i. oblikoskladenjska oznaka. Ta oznaka opisuje, v katero besedno vrsto spada beseda (samostalnik, glagol, pridevnik itd.) in kakšne so njene lastnosti (npr. spol, število, sklon). Ker gre za ogromne količine besedil, je označevanje potekalo povsem avtomatsko s pomočjo statističnega označevalnika Obeliks, ki je bil ravno tako izdelan v okviru projekta Sporazumevanje v slovenskem jeziku. Delovanje označevalnika lahko preizkusite tudi na spletu. Tabela oblikoskladenjskih oznak, ki je bila uporabljena pri označevanju korpusov, je opisana na strani projekta Jezikoslovno označevanje slovenščine. Korpusa sta zapisana v formatu XML TEI (Text Encoding Initiative P5), ki je opisan na spletni strani Korpusi SSJ.

LICENCA IN PRENOS

Lastnik korpusov ccGigafida in ccKres je Ministrstvo za izobraževanje, znanost in šport Republike Slovenije. Pogodba med Ministrstvom in izvajalci projekta določa, da se za prenos baz podatkov na tretje osebe in označevanje avtorskih del uporabi licenca »priznanje avtorstva« + »nekomercialno« + »deljenje pod istimi pogoji«, ki dovoli uporabnikom avtorsko delo in njegove predelave reproducirati, distribuirati, dajati v najem, priobčiti javnosti in predelovati samo pod pogojem, da navedejo avtorja, da ne gre za komercialno uporabo in da tudi oni naprej širijo izvirna dela ali predelave pod istimi pogoji.

Creative Commons licenca
To delo je ponujeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Deljenje pod enakimi pogoji 2.5 Slovenija

1. Korpus ccGigafida je dostopen v repozitoriju CLARIN.SI: http://hdl.handle.net/11356/1035.

2. Korpus ccKres je dostopen v repozitoriju CLARIN.SI: http://hdl.handle.net/11356/1034.

KORPUS ccGIGAFIDA KOT PODATKOVNA ZBIRKA

Avtorji: Nataša Logar Berginc, Tomaž Erjavec, Simon Krek, Miha Grčar, Peter Holozan
Leto izdelave: 2012

KORPUS ccKRES KOT PODATKOVNA ZBIRKA

Avtorji: Nataša Logar Berginc, Tomaž Erjavec, Simon Krek, Miha Grčar, Peter Holozan
Leto izdelave: 2012

SODELAVCI (po nalogah)

Vodenje zbiranja besedil za korpus Gigafida in Kres: Nataša Logar Berginc
Zbiranje besedil: Simon Šuster, Matic Korošec, Teja Roglič, Mateja Grča, Urška Sančanin, Tamara Ambrožič, Mitja Knapič, Nataša Gliha Komac
Pretvorba besedil: Simon Šuster
Pajkanje spletnih besedil: Miha Grčar
Jezikoslovno označevanje: označevalnik Obeliks (Miha Grčar, Matjaž Juršič, Simon Krek, Kaja Dobrovoljc)
Shema XML, validacija s TEI in vzorčenje korpusov ccGigafida in ccKRES: Tomaž Erjavec

BIBLIOGRAFIJA

Članki, monografije

Tomaž Erjavec in Nataša Logar Berginc (2012): Referenčni korpusi slovenskega jezika (cc)Gigafida in (cc)KRES. V T. Erjavec, J. Žganec Gros (ur.): Zbornik Osme konference Jezikovne tehnologije. Ljubljana: Institut Jožef Stefan.

Nataša Logar Berginc, Miha Grčar, Marko Brakus, Tomaž Erjavec, Špela Arhar Holdt in Simon Krek (2012): Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba. Ljubljana: Trojina, zavod za uporabno slovenistiko; Fakulteta za družbene vede.