Site scraper

Een site scraper is een type software dat wordt gebruikt om inhoud van een website te kopiëren.

Site scrapers werken op vergelijkbare wijze als web crawlers, die in wezen dezelfde functie vervullen voor het indexeren van websites. Web crawlers bestrijken echter het hele web, in tegenstelling tot site scrapers, die zich richten op door de gebruiker gespecificeerde websites.

Afhankelijk van het specifieke scraper programma en de specificaties van de gebruiker, kan de software alle gegevens downloaden, inclusief hele websites, en links volgen naar andere inhoud voor verdere downloads. De verkregen gegevens kunnen worden opgeslagen als tekst-, CSV-, HTML- of XML-bestanden; sommige scraperprogramma's kunnen ook worden geëxporteerd naar een compatibele database.

Content scraping heeft tal van legitieme doeleinden, maar wordt ook vaak gebruikt voor gegevensdiefstal en plagiaat. Websites met content die van andere sites is geschraapt, worden scrapersites genoemd.

Voorbeelden van site scrapers zijn Web Content Extractor, Wget, ScrapeGoat en Scraper, een Chrome-extensie.  

Asheesh Laroia legt in deze video uit hoe web scraping werkt: