UČNI KORPUS

KAJ JE UČNI KORPUS?

Učni korpus je strukturirana zbirka besedil, ki vsebuje ročno pregledane podatke jezikoslovne narave, ki so dodani izvornemu besedilu. Ti podatki se uporabljajo pri učenju računalniških programov za strojno analizo besedil, ki iz njih zgradijo statistični model, ali pa služijo za preverjanje pravilnosti analize pri programih, ki za analizo uporabljajo pravila. Pri statističnih programih tak na učnem korpusu naučeni model uporabljamo za analiziranje novih, neznanih besedil.

KAKO SMO NAREDILI UČNI KORPUS?

Učni korpus ssj500k temelji na obeh učnih korpusih, izdelanih v okviru projekta JOS. Sestavljata ga celotni korpus jos100k ter dodatnih 400.000 besed iz enomilijonskega korpusa jos1M. Pri izdelavi učnega korpusa moramo besedilo, ki ga sestavlja niz znakov (črk, številk, predsledkov, simbolov itd.), najprej eksplicitno razdeliti na smiselne enote, kot so odstavki, stavki, besede in ločila. Temu postopku pravimo segmentacija (prepoznavanje stavkov) in tokenizacija (prepoznavanje pojavnic, tj. besed in ločil). Poleg tega vsaki besedi dodamo še dva podatka: osnovno obliko ali lemo (jagodam, jagodami -> jagoda) in oblikoskladenjsko oznako. Ta je oblikovana kot zapis, v katerem je vsebovana informacija o besedni vrsti in lastnosti besede v tej besedni vrsti, npr. Somei = samostalnik, občno ime, moški spol, ednina, imenovalnik. V učnem korpusu ssj550k uporabljamo tabelo oznak JOS, ki vsebuje natanko 1.902 možni oznaki s kombinacijami kategorij in lastnosti, po specifikacijah, izdelanih v okviru istega projekta.

Poleg omenjenih učni korpus lahko vsebuje tudi druge vrste podatkov, npr. o skladenjski sestavi stavkov (kaj je v stavku osebek, povedek, predmet, prislovno določilo itd.), imenskih entitetah (npr. Peter, Državni zbor, NASA, Mestna občina Ljubljana), povezavi med zaimenskimi elementi in njihovimi referenti itd. Učni korpus ssj500k vsebuje ročno pregledane podatke na nivojih segmentacije, tokenizacije, lematizacije, oblikoskladenjskega označevanja, skladenjskega razčlenjevanja (11.411 stavkov) in razpoznavanja imenskih entitet (osebno, zemljepisno, stvarno ime).

Vsi jezikoslovni metapodatki (oznake, leme, pojavnice) so bili ob prehodu iz jos100k oz. jos1M v korpusu ssj500k še enkrat ročno pregledani, povečana je bila množica skladenjsko označenih in ročno pregledanih povedi. V delu, ki ga zajema korpus jos100k, so bile dodane informacije o lastnih imenih za potrebe strojnih razpoznavalnikov imenskih entitet. Za razliko od korpusov jos100k in jos1M je bila v korpusu ssj500k v celoti ročno pregledana in popravljena tudi stavčna segmentacija in tokenizacija, kar omogoča tudi preverjanje uspešnosti algoritmov pri teh dveh postopkih. Številčni podatki o elementih v korpusu ssj500k so navedeni spodaj v tabeli.

Oznaka Opis Število
<div> besedilo 1.677
<p> odstavek 8.137
<s> stavek oz. poved 27.829
<w> beseda 500.295
<c> ločilo/simbol 85.953
<w> + <c> pojavnica 586.248
<links> element s skladenjskimi povezavami 11.411
<link> skladenjska povezava 235.865
<chunks> element s povezavami na imenske entitete 2.178
<chunk> imenska entiteta 4.398


LICENCA IN PRENOS

Lastnik učnega korpusa ssj500k je Ministrstvo za izobraževanje, znanost in šport Republike Slovenije. Pogodba med Ministrstvom in izvajalci projekta določa, da se za prenos baz podatkov na tretje osebe in označevanje avtorskih del uporabi licenca »priznanje avtorstva« + »nekomercialno« + »deljenje pod istimi pogoji«, ki dovoli uporabnikom avtorsko delo in njegove predelave reproducirati, distribuirati, dajati v najem, priobčiti javnosti in predelovati samo pod pogojem, da navedejo avtorja, da ne gre za komercialno uporabo in da tudi oni naprej širijo izvirna dela ali predelave pod istimi pogoji.

Creative Commons licenca
To delo je ponujeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Deljenje pod enakimi pogoji 2.5 Slovenija

Učni korpus ssj500k je dostopen v repozitoriju CLARIN.SI: http://hdl.handle.net/11356/1029.

AVTORJI

Učni korpus ssj500k kot podatkovna zbirka: Simon Krek, Tomaž Erjavec, Kaja Dobrovoljc, Nanika Holz, Nina Ledinek, Sara Može

SODELAVCI (po nalogah)

Vodenje oblikoslovnega in skladenjskega označevanja ter označevanja imenskih entitet: Simon Krek
Oblikoslovno označevanje: Kristina Bizjak, Živa Blaževič, Klara Canzutti, Lea Cibrič, Kaja Dobrovoljc, Tadeja Dušej, Ivana Fekeža, Nanika Holz, Urška Kamenšek, Andreja Košir, Robert Kuret, Andrej Lovšin, Boštjan Marhold, Nina Mikulin, Barbara Modrijan, Tanja Novak, Lea Peršič, Tanja Radovič, Simona Šinkovec, Urška Vranjek, Jerneja Umer, Petra Žalodec
Skadenjsko označevanje: Kaja Dobrovoljc, Nanika Holz, Nina Ledinek, Sara Može
Označevanje imenskih entitet: Nanika Holz
Preverjanje segmentacije in tokenizacije: Kaja Dobrovoljc
Redakcija zapisa TEI: Tomaž Erjavec

BIBILOGRAFIJA

Elaborati

Peter Holozan, Simon Krek, Matej Pivec, Simon Rigač, Simon Rozman, Aleš Velušček, 2008: Specifikacije za učni korpus. Projekt »Sporazumevanje v slovenskem jeziku« ESS in MŠŠ.

Videolectures

Špela Arhar Holdt: Jezikovne tehnologije in nove metode. Slovarji, več kot le besede, 2009.