Apache Lucene

Apache Lucene is een vrij beschikbare software bibliotheek voor het opzoeken van informatie, die werkt met tekstvelden in documentbestanden. Deze zich ontwikkelende onderneming wordt ook wel het Apache Lucene Project genoemd. Apache is een server die wordt gedistribueerd onder een open source licentie.

De Lucene application program interface (API) blijft hetzelfde, ongeacht het formaat van het te indexeren bestand. Op voorwaarde dat de tekstinformatie kan worden teruggevonden en geëxtraheerd, kan Lucene praktisch elk type tekst bevattend document indexeren. Lucene is populair geworden voor gebruik in Internet zoekmachines, alsmede voor single-site zoekoperaties.

Het Apache Lucene Project bestaat uit vier hoofdcomponenten:

  • Lucene Core: Indexeren, zoeken, spellingcontrole, treffer markering, en tokenization.
  • PyLucene: Python port voor Lucene Core.
  • Solr: Extensible Markup Language (XML), Hypertext Transfer Protocol (HTTP), en API's voor Javascript Object Notation (JSON), Python, en Ruby, evenals hit highlighting, faceted search, caching, replicatie, en een interface voor websitebeheerders.
  • Open Relevance Project: Gratis distributie van materiaal voor performance testing en relevantie evaluatie.