Mis on stoppsõna?

Arvutus- ja võrgurakendustes on stoppsõna sõna, mis filtreeritakse välja teatud tüüpi teksti töötlemisel, näiteks võrguotsingu algatamisel. Seda tüüpi filtreerimise idee, mida tuntakse loomuliku keele töötlemise või NLP ühe komponendina, on aidata otsinguid kiirendada, jättes päringust välja tavalised kõneartiklid. Selle asemel kasutab otsingumootor lihtsat markerit, et märkida sõna olemasolu tekstistringis, kuid see ei takista selle markeri olemasolu kaasamast seda lehte otsingutulemustesse.

Üks võimalus mõista, kuidas stoppsõnad võivad otsingumootorite funktsiooni keerulisemaks muuta, on arvestada asjaoluga, et otsingu tegemisel võtab mootor arvesse iga sõna, mis sisaldub kasutaja esitatud otsingupäringus. Selle kaalutluse osana otsib mootor iga sõna sisaldavaid lehti. See tähendab, et kui otsingupäring sisaldab kolme sõna, teeb mootor Internetis kolm korda, andes lõpuks prioriteediks leheküljed, mis sisaldavad kõiki kolme sõna.

Näiteks selline otsing nagu „maja mäel” nõuab, et mootor otsiks jada iga sõna, mõned isegi otsiksid peatamissõna „the” kaks korda. See võtab aega ja ressursse, mida saab suunata muudele märksõnaotsingutele, mida teised lõppkasutajad praegu teevad. Kui kasutate otsingu ajal “the” ja “on” asendamiseks markereid, saab mootor pühendada vähem ressursse ja siiski tagastada tulemusi, mis tõenäoliselt lõppkasutajat rahuldavad.

Ehkki stoppsõna nimetatakse mõnikord mürgisõnaks, pole sõnaartiklite lisamises otsingute läbiviimiseks kasutatavasse teksti tegelikult midagi halba. Lõppsõna või -sõnade kasutamine otsingupäringu osana võib otsingukriteeriumitele vastavate andmete hankimisel otsingumootori indekseerimise protsessi keerulisemaks muuta. Siiski ei näe lõppkasutaja tõenäoliselt palju erinevusi teabe hankimisel, mis lõpuks tagastatakse.

Kõik otsingumootorid kasutavad universaalselt ühtki kindlat ja kiiret peatamissõnaloendit. Tegelikult ei kasuta mõned otsingumootorid loomuliku keele töötlemise ülesande osana üldse ühtegi tüüpi stoppsõnade loendit. Teised mootorid kasutavad aga ohtralt stoppsõnade loendit kui vahendit ressursside tõhusamaks jaotamiseks, tagastades samal ajal otsingumootori tulemused, mis on täpsed ja tõenäoliselt väga sobivad otsingupäringute jaoks, mille on esitanud igaüks, kes kasutab konkreetset mootor.