Fuzzy search

Een fuzzy search is een proces dat webpagina's lokaliseert die waarschijnlijk relevant zijn voor een zoekargument, zelfs wanneer het argument niet precies overeenkomt met de gewenste informatie. Een fuzzy search wordt uitgevoerd door middel van een fuzzy matching-programma, dat een lijst met resultaten op basis van waarschijnlijke relevantie retourneert, ook al komen de woorden en schrijfwijzen van het zoekargument misschien niet exact overeen. Exacte en zeer relevante overeenkomsten verschijnen bovenaan de lijst.

Een fuzzy matching programma kan werken als een spellingscontrole en spelfoutcorrector. Bijvoorbeeld, als een gebruiker typt "Misissippi" in Yahoo of Google (die beide fuzzy matching gebruiken), een lijst van hits wordt geretourneerd samen met de vraag: "Bedoelde u Mississippi?" Alternatieve spellingen, en woorden die hetzelfde klinken maar anders zijn gespeld, worden gegeven. Een fuzzy matching-programma kan gewone tikfouten in de invoer compenseren, evenals fouten die worden geïntroduceerd door optische tekenherkenning (OCR) bij het scannen van gedrukte documenten. Het programma kan treffers teruggeven met inhoud die een gespecificeerd basiswoord bevat samen met voor- en achtervoegsels. Als bijvoorbeeld "planeet" als zoekwoord wordt ingevoerd, zullen er treffers zijn voor sites met woorden als "protoplanet" of "planetary". Het programma kan ook synoniemen en verwante termen vinden, waarbij het werkt als een online thesaurus of een encyclopedisch kruisverwijzingstool. In de Ask Jeeves zoekmachine, als het woord "sterrenstelsel" wordt ingevoerd, krijg je hits als "Galaxy Photography," "Milky Way," en "The Nine Planets Solar System Tour."

Fuzzy matching programma's geven meestal zowel irrelevante als relevante hits. Overbodige resultaten komen waarschijnlijk voor bij termen met meerdere betekenissen, waarvan er maar één de betekenis is die de gebruiker bedoelt. Als de gebruiker slechts een vaag of algemeen idee heeft van het onderwerp, of niet precies weet waarnaar hij moet zoeken, is de verhouding relevante treffers/ irrelevante treffers meestal laag. (De verhouding is echter nog lager wanneer in deze situatie een exact matchend programma wordt gebruikt.)

Fuzzy search is veel krachtiger dan exact zoeken wanneer het wordt gebruikt voor onderzoek en recherche. Fuzzy search is vooral nuttig bij het zoeken naar onbekende, anderstalige of ingewikkelde termen, waarvan de juiste spelling niet algemeen bekend is. Fuzzy search kan ook worden gebruikt om personen te lokaliseren op basis van onvolledige of gedeeltelijk onnauwkeurige identificatiegegevens.