GOS

Gos_270_68 Če želite brskati po korpusu Gos v spletnem konkordančniku, kliknite na sličico na levi ali na povezavo.

KAJ JE GOS?

GOS je korpus GOvorjene Slovenščine. Obsega transkripcije okrog 120 ur posnetkov (po)govora v najrazličnejših situacijah, ki smo jim izpostavljeni vsak dan: od radijskih in televizijskih oddaj prek šolskih ur in predavanj do zasebnih pogovorov med prijatelji ali v krogu družine ter raznih delovnih sestankov, svetovanj, pogovora ob prodaji, storitvah ipd. Zapis govora na posnetkih je narejen v dveh različicah, standardizirani in pogovorni, ter obsega več kot milijon besed. Po korpusu lahko iščemo prek spletnega vmesnika, za vsak izpis iz korpusa pa je mogoče tudi slišati pripadajoči del posnetka.

ZAKAJ SMO ZGRADILI GOS?

Zato ker vemo zelo malo o tem, kako govorimo v vsakdanjem življenju. V slovnicah, slovarjih, šolskih učbenikih slovenščine in pri pouku slovenščine se v glavnem ukvarjamo s tem, kako slovenščino pišemo in kako naj bi jo govorili v njeni standardni različici. Dialektologija na drugi strani ve precej o tem, kakšni so (bili) glasoslovni sestavi, oblikoslovne paradigme in besedje »čistih« narečij, ki jih govorijo stari ljudje in ki danes bliskovito izginjajo. Toda niti predpisane standardizirane slovenščine niti čistega narečja v vsakdanjem življenju ne slišimo pogosto in le redko kdo med nami zna govoriti eno ali drugo. Kakšno slovenščino torej v resnici govorimo? To lahko izvemo le tako, da jo posnamemo v njeni čim bolj avtentični različici, jo zapišemo ter nato raziščemo in poslušamo. Zato smo zgradili GOS.

KOMU JE GOS NAMENJEN?

Seveda vsem tistim, ki želijo raziskovati govorjeno slovenščino, bodisi z jezikoslovnega bodisi s kakega drugega, recimo sociološkega ali jezikovnotehnološkega vidika. Toda krog uporabnikov je širši: GOS-ov spletni vmesnik je uporabniško nadvse prijazen in enostaven, zato da bi ga uporabljali tudi učitelji v šoli pri pouku slovenščine ali v jezikovnih tečajih za tujce, lektorji govora na radiu, televiziji ali v gledališču, tolmači, pisci in drugi, ki se tako ali drugače srečajo z vprašanji, povezanimi z govorjeno slovenščino.

KAKO JE GOS SESTAVLJEN?

Posnetki govora, zajeti v GOS, so zbrani tako, da bi bil korpus čim bolj reprezentativen za današnjo govorjeno slovenščino v najpogostejših vsakdanjih situacijah. Tabela 1 prikazuje, kako je bila zasnovana in kako realizirana vsebina GOS-a.

Tabela 1: Besedilnovrstni kriteriji za zajem gradiv in dejanska pokritost posameznih kategorij v GOS-u. Stanje na dan 6.11.2012.

Poseben podsklop korpusa GOS (10% korpusa) predstavlja šolski diskurz, ki je v tabeli 1 predstavljen pod kategorijami javni izobraževalni, osebni stik. Zasnovan in realiziran je bil tako, kot prikazuje tabela 2.

Tabela 2: Kriteriji in pokritost šolskega diskurza v korpusu GOS. Stanje na dan 6.11.2012.

V korpusu GOS so zajeti predvsem posnetki iz let 2008-2010, kot prikazuje tabela 3.


Tabela 3: Zajem posnetkov za GOS po letih. Stanje na dan 6.11.2012.

Poleg reprezentativnosti situacij je bil pri snemanju gradiv za GOS upoštevan tudi kriterij reprezentativnosti govorcev, zato je v tistem delu, ki zajema posnetke zasebnih pogovorov, zajet ustrezen delež govorcev iz različnih regij, obeh spolov, različnih starosti ter različnih izobrazbenih ravni, kot prikazuje tabela 4.

Tabela 4: Demografski kriteriji za zajem gradiv in dejanska pokritost posameznih kategorij v GOS-u. Stanje na dan 6.11.2012.

Seveda pa se je ob tem treba zavedati, da bi bil za pravo reprezentativnost korpusa potreben veliko večji vzorec, kot je obstoječih 120 ur govora. Pravi reprezentativni korpusi obsegajo po več 100 milijonov besed, GOS le 1 milijon. Zato upamo, da bo v prihodnosti še rasel.

KORPUS GOS KOT BAZA PODATKOV: KAJ VSEBUJE?

1)      posnetke govora

2)      pogovorni zapis govora, tj. zapis po načelu »zapiši, kot slišiš« (primer: tko)

3)      standardizirani zapis govora, tj. zapis po načelu »zapiši, kot pišemo« (isti primer: tako)

4)      standardiziranemu zapisu avtomatsko dodane podatke o osnovni obliki in oblikoslovnih lastnostih besed

5)      podatke o situaciji, kjer je bil narejen posnetek

6)      podatke o govorcu

LASTNIŠTVO IN PRENOS

Lastnik korpusa Gos je Ministrstvo za izobraževanje, znanost in šport Republike Slovenije. Pogodba med Ministrstvom in izvajalci projekta določa, da se za prenos baz podatkov na tretje osebe in označevanje avtorskih del uporabi licenca »priznanje avtorstva« + »nekomercialno« + »deljenje pod istimi pogoji«, ki dovoli uporabnikom avtorsko delo in njegove predelave reproducirati, distribuirati, dajati v najem, priobčiti javnosti in predelovati samo pod pogojem, da navedejo avtorja, da ne gre za komercialno uporabo in da tudi oni naprej širijo izvirna dela ali predelave pod istimi pogoji.

Creative Commons licenca
To delo je ponujeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Deljenje pod enakimi pogoji 2.5 Slovenija

Korpus Gos je dostopen v repozitoriju CLARIN.SI: http://hdl.handle.net/11356/1040.

KORPUS GOS KOT PODATKOVNA ZBIRKA

Avtorji: Ana Zwitter Vitez, Jana Zemljarič Miklavčič, Simon Krek, Marko Stabej, Tomaž Erjavec

KONKORDANČNIK ZA KORPUS GOS (projekt Spletni konkordančnik za nacionalni govorni korpus slovenskega jezika)

Avtorji: Darinka Verdonik, Ana Zwitter Vitez, Rok Rejc, Simon Rigač, Špela Arhar Holdt, Iztok Kosem, Simon Krek

SODELAVCI (po nalogah)

Specifikacije korpusa Gos: Simon Krek, Agnes Pisanski Peterlin, Marko Stabej, Tina Verovnik, Jana Zemljarič Miklavčič, Ana Zwitter Vitez
Snemanje: Ana Zwitter Vitez, Brigita Bec, Mojca Bizjak, Rebeka Dragič, Aja Barbo Gruden, Jernej Golobič, Andreja Gregorič, Pija Kapitanovič, Ana Kočevar, Katja Krapež, Jaruška Majovski, Iztok Mikulan, Alenka Mirkac, Dusán Mukics, Barbara Omahen, Neža Pahovnik, Tomaž Potočnik, Lucija Ramovš, Lucija Rap, Erika M. Roblek, Mateja Strmšek, Ivana Šlaus, Maja Štefančič, Jure Tompa, Andrej Tomše, Slavka Vesenjak, Pija Vrezner
Urejanje posnetkov: Rebeka Dragič
Transkribiranje – pogovorni zapis: Aja Barbo Gruden, Mariša Bizjak, Mojca Bizjak, Jernej Golobič, Ana Gorinšek, Katja Krapež, Jaruška Majovski, Iztok Mikulan, Alenka Mirkac, Barbara Omahen, Neža Pahovnik, Tomaž Potočnik, Erika M. Roblek, Mateja Strmšek, Maja Štefančič, Maja Šučur, Andrej Tomše, Bojana Zevnik
Kontrola transkripcij – pogovorni zapis: Mariša Bizjak, Alenka Mirkac, Tomaž Potočnik, Andrej Tomše
Validacija transkripcij – pogovorni zapis: Ana Zwitter Vitez
Transkribiranje – standardizirani zapis: Ana Zwitter Vitez
Izdelava XML-sheme za tekstovni del korpusa: Tomaž Erjavec

Vodja projekta Spletni konkordančnik za nacionalni govorni korpus slovenskega jezika: Darinka Verdonik
Procesiranje datotek: Amebis, d. o. o., Kamnik, Fakulteta za elektrotehniko, računalništvo in informatiko, Univerza v Mariboru
Izdelava konkordančnika GOS: Rok Rejc, Simon Rigač

PUBLIKACIJE

VERDONIK, Darinka, KOSEM, Iztok, ZWITTER VITEZ, Ana, KREK, Simon, STABEJ, Marko. Compilation, transcription and usage of a reference speech corpus: The case of the Slovene corpus GOS. Language resources and evaluation, ISSN 1574-020X, Dec. 2013, vol. 47, iss. 4, str. 1031-1048, doi: 10.1007/s10579-013-9216-5. [COBISS.SI-ID 16771606]

Verdonik, Darinka, Zwitter Vitez, Ana, 2011: Slovenski govorni korpus Gos. Ljubljana: Trojina, zavod za uporabno slovenistiko.

Zemljarič Miklavčič, Jana, Stabej, Marko, Krek, Simon, Zwitter Vitez, Ana, 2009: Kaj in zakaj v referenčni govorni korpus slovenščine. Stabej, Marko (ur.): Obdobja 28: Infrastruktura slovenščine in slovenistike. Ljubljana: Znanstvena založba Filozofske fakultete Univerze v Ljubljani. 437–442.

Zwitter Vitez, Ana, Zemljarič Miklavčič, Jana, Stabej, Marko, Krek, Simon, 2009: Načela transkribiranja in označevanja posnetkov v referenčnem govornem korpusu slovenščine. Stabej, Marko (ur.): Obdobja 28: Infrastruktura slovenščine in slovenistike. Ljubljana: Znanstvena založba Filozofske fakultete Univerze v Ljubljani. 437–442.

Zwitter Vitez, Ana, 2010: Kako in zakaj uporabljati govorni korpus slovenskega jezika. Predstavitev na konferenci Korpusi, več kot le statistika, Ljubljana, FDV.

Verdonik, Darinka, Zwitter Vitez, Ana, Romih, Miro, Krek, Simon, 2010: Konkordančnik za govorni korpus GOS. Erjavec, Tomaž, Žganec Gors, Jerneja (ur.): Zbornik Sedme konference Jezikovne tehnologije – IS 2010. Ljubljana: Institut Jožef Stefan. 12-15.

Verdonik, Darinka, 2011: Govorni korpus kot lektorjev priročnik. Krakar Vogel, Boža (ur.): Slavistika v regijah – Maribor: Zbornik Slavističnega društva Slovenije. Ljubljana: Zveza društev Slavistično društvo Slovenije. 171-173.

Zwitter Vitez, Ana, 2011: Korpus Gos in njegova uporaba v raziskovalne, didaktične in ljubiteljske namene. Kranjc, Simona (ur.): Meddisciplinarnost v slovenistiki – Obdobja 30. Ljubljana: Center za slovenščino kot drugi/tuji jezik. 559-564.