Kalbos studijų vienareikšmiškumo apibrėžimas

Į lingvistika, aiškinimas yra procesas, kuriuo nustatoma, kuri a prasmė žodį yra naudojamas konkrečiai kontekste. Taip pat žinomas kaip leksinis aiškinimas.

Kompiuterinėje lingvistikoje šis diskriminacinis procesas vadinamas žodžio prasmės išaiškinimas (WSD).

Pavyzdžiai ir pastebėjimai

„Taip atsitinka, kad mūsų bendravimas, skirtinguose kalbomis vienodai leidžia naudoti tą pačią žodžio formą, reiškiančią skirtingus dalykus atskiruose komunikaciniuose sandoriuose. To pasekmė yra ta, kad atliekant tam tikrą sandorį reikia išsiaiškinti numatyto žodžio reikšmę tarp galimai susijusių prasmių. Kol neaiškumų kylančios iš tokių daugialypės formos reikšmių asociacijų yra ties leksinis lygiu, jie dažnai turi būti sprendžiami naudojant platesnį kontekstą iš diskursas įterpiant žodį. Taigi skirtingas žodžio „paslauga“ reikšmes būtų galima atskirti tik tuo atveju, jei būtų galima pažvelgti toliau, nei pats žodis, kaip priešingai žaidėjo paslauga Vimbldone“ su „padavėjo paslauga Sheraton“. Šis žodžių reikšmių nustatymo procesas diskurse paprastai yra žinomas kaip

instagram viewer

žodžio prasmė išaiškinimas (WSD).“ (Oi Yee Kwong, Naujos skaičiavimo ir pažinimo strategijų perspektyvos, skirtos žodžio prasmei išaiškinti. Springer, 2013)

Leksinis nužymėjimas ir žodžio prasmės nužymėjimas (WSD)

„Leksikos išaiškinimas plačiausias apibrėžimas yra ne kas kita, kaip kiekvieno žodžio reikšmės nustatymas kontekste, o tai žmonėms atrodo iš esmės nesąmoningas procesas. Kaip skaičiavimo problema, ji dažnai apibūdinama kaip „AI-užbaigta“, tai yra problema, kurios sprendimas reikalauja užbaigti natūralioji kalba supratimas arba sveiko proto samprotavimai (Ide ir Véronis 1998).

"Skaičiavimo lingvistikos srityje problema paprastai vadinama žodžio prasmės išaiškinimu (WSD) ir apibrėžiama kaip problema skaičiuojant, kuri žodžio „prasmė“ suaktyvinama naudojant žodį konkrečiame kontekste. WSD iš esmės yra klasifikavimo užduotis: žodžio pojūčiai yra klasės, kontekstas suteikia įrodymai, o kiekvienas žodžio pasireiškimas priskiriamas vienai ar kelioms galimoms klasėms remiantis įrodymai. Tai yra tradicinis ir įprastas WSD apibūdinimas, kuris mato jį kaip aiškų aiškinimo procesą, atsižvelgiant į fiksuotą žodžio pojūčių sąrašą. Manoma, kad žodžiai turi ribotą ir atskirą pojūčių rinkinį iš a žodynas, leksinė žinių bazė arba ontologija (pastarojoje prasme prasmės atitinka sąvokas, kurias žodis leksikalizuoja). Taip pat gali būti naudojami konkrečios programos inventoriai. Pavyzdžiui, naudojant mašininio vertimo (MT) nustatymą, žodžių vertimus galima traktuoti kaip žodžio prasmes, an požiūris, kuris tampa vis labiau įgyvendinamas, nes yra didelės daugiakalbės kalbos lygiagrečiai korpusai kurie gali būti naudojami kaip treniruočių duomenys. Fiksuotas tradicinio WSD inventorius sumažina problemos sudėtingumą, tačiau yra alternatyvių laukų.. ..“ (Eneko Agirre ir Philip Edmonds, „Įvadas“. Žodžio prasmės išaiškinimas: algoritmai ir programos. Springeris, 2007)

Homonimija ir dviprasmiškumas

„Leksikos išaiškinimas puikiai tinka ypač tais atvejais homonimija, pavyzdžiui, įvykis bosas turi būti susietas su bet kuriuo iš leksinių elementų bass₁ arba bosas₂, priklausomai nuo numatomos reikšmės.

„Leksinis aiškinimas reiškia pažintinį pasirinkimą ir yra užduotis, kuri slopina supratimo procesus. Jį reikėtų skirti nuo procesų, lemiančių žodžio pojūčių diferenciaciją. Pirmoji užduotis atliekama gana patikimai ir neturint daug kontekstinės informacijos, o antroji – ne (plg. Veronis 1998, 2001). Taip pat buvo įrodyta, kad homoniminiai žodžiai, kuriuos reikia išaiškinti, sulėtina leksinę prieigą, o daugiareikšmiai žodžiai, suaktyvinantys daugybę žodžių pojūčių, pagreitina leksinę prieigą (Rodd e.a. 2002).

„Tačiau tiek produktyvus semantinių reikšmių modifikavimas, tiek paprastas pasirinkimas tarp leksiškai skirtingų elementų bendra, kad jiems reikia papildomos neleksinės informacijos.“ (Peter Bosch, „Produktyvumas, polisemija ir predikatų indeksiškumas“. Logika, kalba ir skaičiavimas: 6-asis tarptautinis Tbilisio logikos, kalbos ir skaičiavimo simpoziumas, red. pateikė Balder D. dešimt Cate'as ir Henkas W. Zeevat. Springeris, 2007)

Leksinės kategorijų išaiškinimas ir tikimybės principas

"Corley ir Crocker (2000) pateikia plataus aprėpties modelį leksinė kategorijaišaiškinimas remiantis Tikimybės principas. Tiksliau, jie tai siūlo sakiniui, kurį sudaro žodžiai w₀... w_n, sakinių procesorius priima greičiausiai kalbos dalis seka t₀... t_n. Tiksliau, jų modelis naudoja dvi paprastas tikimybes: (i) sąlyginė žodžio tikimybė w_i duota tam tikra kalbos dalis t_i, ir (ii) tikimybė t_i pateiktą ankstesnę kalbos dalį t_i-1. Kai sutinkamas kiekvienas sakinio žodis, sistema jam priskiria tą kalbos dalį t_i, kuris maksimaliai padidina šių dviejų tikimybių sandaugą. Šis modelis pasinaudoja daugelio įžvalgomis sintaksė dviprasmybės turi leksinį pagrindą (MacDonald ir kt., 1994), kaip nurodyta (3):

(3) Sandėlio kainos / markės yra pigesnės nei kitų.

„Šie sakiniai laikinai yra dviprasmiški tarp skaitymo, kuriame kainos arba daro yra Pagrindinis veiksmažodis arba dalis a sudėtinis daiktavardis. Išmokęs naudoti didelį korpusą, modelis numato labiausiai tikėtiną kalbos dalį kainos, teisingai įvertinant tai, kad žmonės supranta kaina kaip daiktavardis bet daro kaip veiksmažodis (žr. Crocker & Corley, 2002 ir jame nurodytas nuorodas). Modelis ne tik atspindi daugybę nuorodų, kurios yra įsišaknijusios leksinėje kategorijoje dviprasmiškumas, tai taip pat paaiškina, kodėl apskritai žmonės labai tiksliai sprendžia tokius neaiškumus. (Matthew W. Crocker, „Racionalūs supratimo modeliai: sprendžiant veiklos paradoksą“. Dvidešimt pirmojo amžiaus psicholingvistika: keturi kertiniai akmenys, red. pateikė Anne Cutler. Lawrence'as Erlbaumas, 2005)