Data labeling

Data labeling, in de context van machine learning, is het proces van het detecteren en labelen van datamonsters. Het proces kan handmatig zijn, maar wordt meestal uitgevoerd of ondersteund door software.

Waarvoor wordt data labeling gebruikt?

Data labeling is een belangrijk onderdeel van data preprocessing voor ML, met name voor supervised learning, waarbij zowel input- als outputdata worden gelabeld voor classificatie om een leerbasis te bieden voor toekomstige dataverwerking.

Een systeem dat traint om dieren in afbeeldingen te identificeren, kan bijvoorbeeld meerdere afbeeldingen van verschillende soorten dieren krijgen, waarvan het de gemeenschappelijke kenmerken leert, zodat het de dieren in ongelabelde afbeeldingen correct kan identificeren.

Data labeling wordt ook gebruikt bij het construeren van ML-algoritmen voor autonome voertuigen. Autonome voertuigen, zoals zelfrijdende auto's, moeten het verschil kunnen zien tussen objecten in hun baan, zodat ze de buitenwereld kunnen verwerken en veilig kunnen rijden. Data labeling wordt gebruikt om de kunstmatige intelligentie (AI) van de auto in staat te stellen het verschil te zien tussen een persoon, de straat, een andere auto en de lucht door de belangrijkste kenmerken van die objecten of datapunten te labelen en te zoeken naar overeenkomsten daartussen.

Hoe werkt data labeling?

L- en deep learning-systemen hebben vaak enorme hoeveelheden gegevens nodig om een basis te leggen voor betrouwbare leerpatronen. De gegevens die ze gebruiken om het leren te informeren, moeten worden gelabeld of geannoteerd op basis van gegevenskenmerken die het model helpen de gegevens te organiseren in patronen die een gewenst antwoord opleveren.

De labels die worden gebruikt om gegevenskenmerken te identificeren, moeten informatief, discriminerend en onafhankelijk zijn om een kwaliteitsalgoritme te produceren. Een goed gelabelde dataset biedt een grondwaarheid die het ML-model gebruikt om zijn voorspellingen te controleren op nauwkeurigheid en om zijn algoritme te blijven verfijnen.

Een kwaliteitsalgoritme is zowel nauwkeurig als van hoge kwaliteit. Nauwkeurigheid verwijst naar de nabijheid van bepaalde labels in de dataset bij de grondwaarheid. De kwaliteit heeft betrekking op de consistente nauwkeurigheid van de gehele dataset.

Fouten in de datalabeling schaden de kwaliteit van de trainingsdataset en de prestaties van de voorspellende modellen waarvoor deze wordt gebruikt. Om dit te beperken, kiezen veel organisaties voor een HITL-aanpak (Human-in-the-Loop), waarbij mensen betrokken blijven bij het trainen en testen van datamodellen tijdens hun iteratieve groei.

Methodieken voor gegevenslabeling

Een onderneming kan verschillende methoden gebruiken om haar gegevens te structureren en te labelen. De opties variëren van het gebruik van intern personeel tot crowdsourcing en data labeling services. Deze opties zijn onder meer de volgende:

  • Crowdsourcing. Een platform van derden geeft een onderneming toegang tot veel werknemers tegelijk.
  • Contractors. Een onderneming kan tijdelijke freelancers inhuren om gegevens te verwerken en te labelen.
  • Managed teams. Een onderneming kan een beroep doen op een managed team om gegevens te verwerken. Managed teams worden getraind, geëvalueerd en beheerd door een externe organisatie.
  • In-house personeel. Een onderneming kan haar bestaande werknemers gebruiken om gegevens te verwerken.

Er is niet één optimale methode voor het labelen van gegevens. Ondernemingen moeten de methode of combinatie van methoden gebruiken die het beste bij hun behoeften past. Enkele criteria die moeten worden overwogen bij het kiezen van een methode voor het labelen van gegevens zijn de volgende:

  • de grootte van de onderneming;
  • de grootte van de dataset die moet worden gelabeld;
  • het vaardigheidsniveau van de medewerkers in dienst;
  • de financiële beperkingen van de onderneming; en
  • het doel van het ML-model dat wordt aangevuld met gelabelde gegevens.

Een goed gegevenslabelingsteam zou idealiter domeinkennis moeten hebben van de bedrijfstak die een onderneming bedient. Gegevensetiketteerders die zich door een externe context laten leiden, zijn nauwkeuriger. Ze moeten ook flexibel en wendbaar zijn, omdat gegevenslabeling en ML iteratieve processen zijn, die altijd veranderen en evolueren naarmate meer informatie wordt opgenomen.

Belang van gegevenslabeling

Uit een recent rapport van AI-onderzoeks- en adviesbureau Cognilytica blijkt dat meer dan 80% van de tijd die bedrijven aan AI-projecten besteden, opgaat aan het voorbereiden, opschonen en labelen van gegevens. Handmatige gegevenslabeling is de meest tijdrovende en dure methode, maar kan gerechtvaardigd zijn voor belangrijke toepassingen.

Critici van AI speculeren dat automatisering laaggekwalificeerde banen zoals callcenterwerk en vrachtwagen- en Uber-rijden in gevaar zal brengen, omdat routinetaken steeds eenvoudiger door machines kunnen worden uitgevoerd. Sommige deskundigen zijn echter van mening dat het labelen van gegevens een nieuwe laaggeschoolde baan kan bieden om de banen te vervangen die door automatisering teniet worden gedaan, omdat er een steeds groeiend overschot aan gegevens is en machines die deze moeten verwerken om de taken uit te voeren die nodig zijn voor geavanceerde ML en AI.