Mis on jaotushüpotees?

Jaotuse hüpotees esitab idee, et sama tähendusega sõnad on tekstide sees rühmitatud. Idee uurib sõnade tähendusi ja nende levikut tekstis. Seejärel võrreldakse seda sarnaste või seotud tähendustega sõnade jaotustega. Sellised uuringud teevad kindlaks, et sõnad esinevad kontekstis koos nende sarnase või seotud tähenduse tõttu.

Jaotuse hüpoteesi pakkus esmakordselt välja Briti keeleteadlane JR Firth. Ta on tuntud kõige kuulsama tsitaadi poolest, mis puudutab ideed “Te teate selle ettevõtte järgi, mida see hoiab.” Firth, kes on tuntud ka oma prosoodia-alaste uuringute poolest, uskus, et ükski süsteem ei suuda kunagi selgitada, kuidas keel töötab. Selle asemel uskus ta, et vaja on mitut kattuvat süsteemi.

Ameerika keeleteadlane Zellig Harris tugines Firthi tööle. Ta soovis kasutada matemaatikat keeleandmete uurimiseks ja analüüsimiseks. Tema ideed matemaatika panuse kohta sellistesse uuringutesse on olulised, kuid ta on tuntud ka selle poolest, et ta on oma elu jooksul käsitlenud mitmesuguseid keelelisi ideid.

Jaotushüpoteesi uurimine on osa lingvistika uurimisest. Suure hulga keeleandmete sõelumiseks kasutatakse matemaatilisi ja statistilisi meetodeid, mitte keelelisi. See tähendab seega, et jaotushüpotees on osa arvutuslingvistikast ja statistilisest semantikast. See on seotud ka keeleteadlaste ja keelefilosoofide ideedega laste emakeelte arengu kohta, mida nimetatakse keele omandamiseks.

Statistiline semantika kasutab sõnade leviku uurimiseks matemaatilisi algoritme. Need tulemused filtreeritakse seejärel tähenduse järgi ja neid uuritakse edasi, et selgitada välja tähenduse järgi seotud sõnade jaotus. Statistilisel semantikal on kaks peamist meetodit: jaotus sõnaklastrite ja tekstipiirkondade järgi.

Sõnade leviku uurimist seotud tähenduste klastrite järgi nimetatakse hüperruumi keele analoogiks (HAL). HAL uurib tekstis kokku koondunud sõnade seoseid. See võib olla lause või lõigu sees, kuid harva sellest kaugemal. Sõnade semantilise jaotuse määrab see, kui sageli sõnad kõrvuti esinevad.
Tervetes tekstiuuringutes kasutatakse varjatud semantilist analüüsi (LSA). See on loomulik keeletöötlusmeetod. Lähedase tähendusega sõnad esinevad kogu tekstis üksteise lähedal. Selliseid tekste uuritakse klastrite osas, kasutades matemaatilist meetodit nimega Singular Value Decompression (SVD).

Jaotushüpoteesi uuringutest kogutud andmeid kasutatakse semantika ja sõnasuhete ehitusplokkide uurimiseks. Strukturalistlikust lähenemisest kaugemale liikudes saab hüpoteesi rakendada tehisintellekti (AI) puhul. See aitaks arvutiprogrammidel paremini mõista sõnade seost ja levikut. See mõjutab ka seda, kuidas lapsed sõnu töötlevad ning sõnaühendusi ja lauseid loovad.