Datahygiëne zijn de collectieve processen die worden uitgevoerd om de zuiverheid van gegevens te waarborgen. Gegevens worden als schoon beschouwd als ze relatief vrij van fouten zijn. Vuile gegevens kunnen worden veroorzaakt door een aantal factoren, waaronder dubbele records, onvolledige of verouderde gegevens, en de onjuiste parsing van recordvelden uit ongelijksoortige systemen. Fouten kunnen in elk stadium worden geïntroduceerd wanneer gegevens worden ingevoerd, opgeslagen en beheerd.
Gegevenskwaliteit is van cruciaal belang voor operationele en transactionele processen binnen de onderneming en voor de betrouwbaarheid van business analytics (BA) / business intelligence (BI) rapportages.
Data scrubbing, ook wel data cleansing genoemd, is het proces van wijzigen of verwijderen van gegevens in een database die onjuist, onvolledig, onjuist geformatteerd of gedupliceerd zijn. Het proces omvat meestal het bijwerken, standaardiseren en ontdubbelen van records om één enkel beeld van de gegevens te krijgen, zelfs als deze in meerdere ongelijksoortige systemen zijn opgeslagen.