Chaos Monkey is een software tool die is ontwikkeld door Netflix engineers om de veerkracht en herstelbaarheid van hun Amazon Web Services (AWS) te testen.
De software simuleert storingen van instances van services die draaien binnen Auto Scaling Groups (ASG) door een of meer van de virtuele machines uit te schakelen. Volgens de ontwikkelaars is Chaos Monkey vernoemd naar de manier waarop het ravage aanricht als een wilde en gewapende aap losgelaten in een datacenter.
Chaos Monkey werkt volgens het principe dat de beste manier om grote storingen te voorkomen is om constant te falen. Echter, in tegenstelling tot onverwachte storingen, die op de slechtst mogelijke momenten lijken voor te komen, is de software standaard opt-out. Het kan ook worden geconfigureerd voor opt-in.
Chaos Monkey heeft een configureerbaar schema dat gesimuleerde storingen laat optreden op tijdstippen waarop ze nauwlettend kunnen worden gevolgd. Op deze manier is het mogelijk om je voor te bereiden op grote onverwachte fouten in plaats van gewoon te wachten tot de catastrofe toeslaat en te zien hoe goed je je kunt redden.
Chaos Monkey was het oorspronkelijke lid van Netflix's Simian Army, een verzameling softwaretools ontworpen om de AWS-infrastructuur te testen. De software is open source zodat andere gebruikers van clouddiensten het kunnen aanpassen voor hun gebruik.
Andere Simian Army-leden zijn toegevoegd om storingen te creëren en te controleren op abnormale omstandigheden, configuraties en beveiligingsproblemen. Chaos Gorilla, een ander lid van het Simian Army, simuleert uitval voor hele regio's.
Netflix-ingenieurs zijn van plan om meer apen aan het leger toe te voegen, sommige op basis van suggesties van de gemeenschap.