Metodologija

Sortiranje

Prikaži vse zapisi

A   B   C   D   E   F   G   H  I   J   K   L   M   N   O   P   Q  R   S   T   U   V   W  X  Y  Z  


Tipizacija (Citiranje)

Tipizacija georeferenciranih jezikovnih podatkov spada med temeljne zahteve projekta. Zato bodo, kjer je to mogoče, iz vhodnih podatkov po transkripciji v prvem koraku izločeni členi (posamezne besede) in vneseni v polje podatkovne zbirke z enakim imenom.
V središču zanimanja VerbeAlpine je morfološka tipizacija zbranega jezikovnega gradiva. Morfološki tip je pri tem definiran z ujemanjem tehle značilnosti: jezikovna družina – besedna vrsta – netvorjena beseda nasproti tvorjenki – spol – leksikalni osnovni tip. Osnovna oblika morfološkega tipa se končno ravna po ustreznih lemah izbrane referenčne leksike (gl. spodaj).

Z uvrstitvijo k skupnemu leksikalnemu osnovnemu tipu postane jasna pripadnost vseh združenih morfološko-leksikalnih tipov – tudi čez jezikovne meje. Tako se da tele (tu ne podrobneje opisane) samostalniške besede in glagole dodeliti enemu samemu osnovnemu tipu malga: malga (PLANINA, ČREDA), malgaro (PAŠNIK), malghese (PASTIR), immalgare (ITI NA PLANINO), dismalgare (ZAPUSTITI PLANINO). Seveda pa leksikalni osnovni tip ne pove nič o besedni zgodovini posameznega morfološko-leksikalnega tipa: če tip z latinsko-romanskim etimonom, ki je danes izpričan v germanskem ali slovenskem jezikovnem območju, kot npr. slovensko bajta ‘preprosta hiša’, izvira iz starega lokalnega substrata ali pa iz novejšega romanskega jezikovnega stika, je treba raziskati vsak primer posebej. Zato se oznaki »etimon«, ki se praviloma nanaša na neposredno zgodovinsko predstopnjo kake besede, v tem kontekstu izogibamo – čeprav je v mnogih primerih leksikalni osnovni tip dejansko tudi etimon morfološko-leksikalnega tipa.

Morfološko-leksikalni tipi tvorijo vodilne kategorije upravljanja z jezikovnimi podatki; primerjati jih je mogoče z iztočnicami v slovaropisju. S pomočjo prej navedenih, robustnih in dobro uporabnih meril se da npr. štiri fonetične tipe barga, bark, margun, bargun s pomenom PLANŠARSKA KOČA, PLANŠARSKI HLEV skrčiti na tri morfološke tipe.





Pripadnost morfološko-leksikalnega tipa k besedni družini (germanski, romanski, slovanski) je odvisna od vsakokratnega vira; izkaže se samodejno z vsakokratnim informatorjem in je ustrezno vpisana v zbirko podatkov. Pri podatkih, ki jih VerbaAlpina pridobi sama s crowdsourcingom, se jezikovna oz. narečna pripadnost informatorjev predvideva in v najboljšem primeru kvantitativno potrdi; število potrjujočih informatorjev tako postane orodje preverjanja podatkov.

Morfološko-leksikalni tipi so omejeni na eno jezikovno družino. Tako se postavi vprašanje, v kateri obliki naj bo predstavljen morfološko-leksikalni tip v iskalni funkciji interaktivne karte. Pri germanski in slovanski jezikovni družini je odgovor prej ko slej lahek, saj je vsaka zastopana le z enim standardnim jezikom (nemščino [deu] oz. slovenščino [slo]). Morfološko-leksikalni tipi lahko nastopajo v obliki različic v standardnem jeziku, seveda pod pogojem, da so v njem ustreznice tega tipa; tako se da iskati na primer vse ustrezne fonetične tipe alemanščine in bavarščine, ki so različice standardne oblike, pod prav to obliko. Če standardnih različic ni, so uporabljene iztočnice velikih referenčnih slovarjev (idiotikon, WBÖ).

Pri romanski jezikovni družini je položaj zaradi številnih, delno nezadostno standardiziranih mikrojezikov veliko kompleksnejši. Iz pragmatičnih razlogov smo tu ubrali tákole pot: vsi morflološko-leksikalni tipi, če nastopajo, so predstavljeni s francoskimi in italijanskimi standardnimi oblikami; tako se da npr. vse fonetične tipe, ki so različice k beurre/burro ‘maslo’, najti pod tema dvema oblikama; za referenčna slovarja služita TLF in Treccani. Če ima ustrezno različico le eden od teh dveh standardnih jezikov, nastopa le ta, kot v primeru ricotta (pripadnost italijanščini se kaže z dogovornim zapisom -/ricotta). Če različice tipa ni v nobenem od obeh romanskih referenčnih jezikov, je treba poseči po iztočnici kakega narečnega referenčnega slovarja, recimo LSI. Če v narečnih slovarjih ni zanesljivega podatka, predlaga VerbaAlpina osnovni tip skupaj z grafično predstavitvijo (»VA«).

V celotni zasnovi in v tehnični pretvorbi je fonetična tipizacija jezikovnega gradiva, ki pa je obrobna in zato ni izpeljana dosledno. Ustrezna kategorija je nepogrešljiva predvsem zato, ker dokumentirajo jezikovni atlasi včasih (npr. SDS in VALTS) in slovarji izključno fonetične tipe. Pri fonetični tipizaciji z VerboAlpino so členi po merilih zgodovinske fonetike razdeljeni v fonetične tipe (polje podatkovne zbirke ‘phon_typ’); avtomatizacijo fonetične tipizacije na osnovi Levenštajnovega algoritma in algoritma soundex proučujemo in jo bomo uporabili, če bo mogoče.

S tipizacijo (tvorjenjem razredov) je raznovrstnost podatkov čedalje bolj pregledna; velja torej pravilo: število členov > število fonetičnih tipov > število morfološko-leksikalnih tipov > osnovni tip. Vendar pa je treba upoštevati skrajni primer enega samega primera (enkratnice), ki ustreza enemu členu, enemu fonetičnemu tipu in enemu morfološko-leksikalnemu tipu kot edinemu zastopniku osnovnega tipa. Morda je take enkratne oblike v predstavitvi smiselno izpustiti.

(auct. Stephan Lücke | Thomas Krefeld - trad. Peter Weiss)

Tags: Lingvistika



Transkripcija (Citiranje)

Jezikovno gradivo je grafično predstavljeno na dva načina, da bi bilo zadoščeno nasprotujočima si načeloma zvestobe viru in lahke primerljivosti:

(1) Vhodna različica v izvirni transkripciji
Na portalu VerbeAlpine so zbrani viri, ki izhajajo iz različnih strokovnih izročil (romanistika, germanistika, slavistika) in ki predstavljajo zgodovinsko različne stopnje dialektoloških raziskav; mnogi slovarski podatki so bili zapisani v začetku 20. stoletja (GPSR) in drugi šele pred nekaj leti (ALD). Zato je znanstvenozgodovinsko treba kar se da upoštevati izvirno transkripcijo. Iz tehničnih razlogov pa je nekatera določila nemogoče ohranjati nespremenjena; to velja še posebej za navpične kombinacije osnovnih znakov (»črk«) in diakritičnih znakov, torej takrat, ko naglasno znamenje stoji nad znakom za dolžino nad samoglasnikom nad še enim znakom (Betacode). Te konvencije so bile v vsakokrat definiranih tehničnih transkripcijah pretvorjene v linearna zaporedja znakov, pri čemer so bili uporabljeni izključno znaki ASCII (tako imenovani Betacode). Do določene stopnje je mogoče pri sistemu Betacode izkoristiti intuitivno razumljive grafične podobnosti med izvirnimi diakritičnimi znaki in njihovimi ustrezniki v sistemu ASCII; mnemotehnično so primerni in koristni.

(2) Izhodna različica v mednarodni fonetični abecedi (IPA)
Zaradi primerljivosti in tudi prijaznosti do uporabnika je poleg tega zaželen izhodni zapis v enotni transkripciji. Vsi zapisi v sistemu Betacode so zato z ustreznimi zamenjevalnimi postopki pretvorjeni v znake IPA. Nekatera redka neskladja, ki pa so neizogibna, se pokažejo predvsem takrat, kadar enemu osnovnemu znaku, ki je v vhodni transkripciji specificiran zaradi diakritičnega znaka, v sistemu IPA ustrezata dva različna osnovna znaka. To velja predvsem za odprtostne stopnje samoglasnikov, kjer npr. v palatalni vrsti oba osnovna znaka <i> in <e> v povezavi z zaprtostno piko v eni ali dveh kljukicah, ki pomenita odprtost, omogočata tvorjenje šestih odprtostnih stopenj; v sistemu Betacode so to: i – i( – i((– e?-- e – e(– e((. Za to so v sistemu IPA na razpolago le štirje osnovni znaki: i – ɪ – e – ɛ.


(auct. Thomas Krefeld - trad. Peter Weiss)

Tags: Lingvistika Informacijska tehnologija