Noisy channel model

Het noisy channel model is een raamwerk dat wordt gebruikt in natuurlijke taalverwerking (NLP) om het juiste woord te identificeren in situaties waar het onduidelijk is. Het framework helpt bij het detecteren van bedoelde woorden voor spellingscontroleprogramma's, virtuele assistenten, vertaalprogramma's, systemen voor het beantwoorden van vragen en spraak-naar-tekstsoftware.

Ruis, in deze context, is alles wat signalen en gegevens vertroebelt. Het model van het kanaal met ruis wordt zo genoemd omdat het oorspronkelijke signaal - het bedoelde woord - tijdens de transmissie aan het oog wordt onttrokken wanneer storingen of fouten ruis veroorzaken in het kanaal. In dit geval kan de ruis bijvoorbeeld bestaan uit een spelfout in geschreven taal of uit omgevingsgeluiden, verkeerde uitspraak of onduidelijke spraak in gesproken taal.

Hier volgt een basisvoorbeeld van hoe het ruiskanaalmodel zou kunnen werken met een spellingscontroleprogramma:

Wanneer een woord niet in het woordenboek van de spellingcontrole voorkomt, wordt het als een spelfout geĆÆdentificeerd en worden kandidaat-woorden voorgesteld op basis van hun waarschijnlijkheid dat ze het bedoelde woord zijn, meestal als gevolg van hoe dicht deze woorden bij de spelfout liggen. In de regel zullen de meest waarschijnlijke kandidaten een enkele wijziging betreffen, en er zijn vier verschillende soorten fouten door een enkele wijziging: schrapping, invoeging, vervanging en omkering. If the misspelled word is acress, for example, acres could have been intended but an extra s added; actress could have been intended but the t missed; across could have been intended but e typed instead of o; caress could have been intended but the first two letters typed in the wrong sequence. Thus, if the user types acress, the spell check program might suggest those four words.

Due to the vagaries of human speech and the potential for actual noise, speech recognition software has additional challenges to text-based systems. However, the basic framework is similar.