Part-of-speech tagger (PoS tagger)

Een part-of-speech (PoS) tagger is een softwareprogramma dat woorden labelt in een van verschillende categorieën om de functie van het woord in een bepaalde taal te identificeren. In de Engelse taal, woorden vallen in een van de acht of negen delen van meningsuiting. De categorieën van de spraakdelen zijn: zelfstandig naamwoord, werkwoord, lidwoord, bijvoeglijk naamwoord, voorzetsel, voornaamwoord, bijwoord, voegwoord en tussenwerpsel.

PoS-taggers gebruiken algoritmen om termen in tekstlichamen te labelen. Deze taggers maken meer complexe categorieën dan die gedefinieerd als basis PoS, met tags zoals "naamwoord-voud" of nog complexere labels. Part-of-speech categorisatie wordt onderwezen aan schoolgaande kinderen in de Engelse grammatica, waar kinderen basis PoS tagging uitvoeren als onderdeel van hun opleiding.

PoS taggers categoriseren termen in PoS types door hun relationele positie in een zin, relatie met nabijgelegen termen en door de definitie van het woord. PoS taggers vallen uiteen in die welke stochastische methoden gebruiken, die welke op waarschijnlijkheid zijn gebaseerd en die welke op regels zijn gebaseerd.

Een van de eerste PoS taggers die werd ontwikkeld was de E. Brill tagger, een op regels gebaseerde tagging tool. E. Brill wordt vandaag de dag nog steeds veel gebruikt. Andere gereedschappen die PoS tagging uitvoeren zijn Stanford Log-linear Part-Of-Speech Tagger, Tree Tagger, en Microsoft's POS Tagger. Part-of-speech tagging wordt ook wel aangeduid als woordcategorie disambiguatie of grammaticale tagging.

PoS tagging wordt gebruikt in natuurlijke taalverwerking (NLP) en natuurlijk taalbegrip (NLU).