Nederlands

Dit is een post mortem over de storing van Brandweerrooster op 16/2/2022. Onze systemen waren offline voor 41 minuten en daarvóór waren er periodieke storingen. We weten dat dit onze gebruikers aanzienlijke problemen en stress heeft bezorgd, evenals voor ons team. Onze oprechte excuses hiervoor. We zullen er alles aan doen om te voorkomen dat dit nog een keer gebeurt.

Wat is er gebeurd?

Ons team werd om 20:52 uur automatisch gealarmeerd vanwege een hoog foutenpercentage. Het systeem keerde terug naar normale werking om 20:56 uur en werkte correct tot 21:15 uur. Daarna was het systeem moeilijk tot niet bereikbaar tot 21:51.

Na verschillende van onze checklists te hebben geprobeerd, ontdekten we dat een kritieke infrastructuurcomponent faalde dat connectiviteit tussen onze applicatie en onze databases mogelijk maakt (een load balancer). Dit onderdeel wordt onderhouden en beheerd door onze provider, die we onmiddellijk hebben geïnformeerd. Om de oplossing te versnellen, hebben we besloten het onderdeel volledig te vervangen. Dit loste het probleem op.

Wat gaan we doen om dit te voorkomen?

Elke keer dat we een significante fout tegenkomen, doen we ons best om hiervan te leren en te verbeteren. We werken momenteel samen met onze provider om manieren te vinden om dit onderdeel beter te monitoren en om problemen sneller op te sporen. Daarnaast onderzoeken we hoe we dit onderdeel redundant en minder foutgevoelig kunnen maken.

Voor meer informatie kunt u contact opnemen met info@brandweerrooster.nl. We beantwoorden graag al uw vragen of twijfels.

English

This is a post mortem about the outage of Brandweerrooster (our Dutch system) on 16/2/2022. Our systems were offline for 41 minutes, and there were intermittent outages before this. We know this caused our users significant problems and stress, as it did to our team as well. Our sincere apologies for this. We will work hard to prevent this from happening again.

What happened?

Our team was alerted of a high error rate at 20:52. The system returned to normal operation at 20:56, and worked correctly until 21:15. We then had significant downtime until 21:51.

After trying several of our emergency checklists, we discovered that a critical infrastructure component was failing which provides connectivity between our application and our databases (a load balancer). This component is maintained and operated by our provider, who we immediately informed. To speed up the fix, we decided to replace the component entirely. This solved the problem.

What we will do to prevent this?

Every time we encounter a significant error, we do our best to learn from this and improve. We are currently working with our provider to find ways to better monitor this component, and to detect issues faster. In addition, we are looking into ways to make this component redundant and less sensitive to errors.

For more information, please contact info@brandweerrooster.nl. We’re happy to answer any questions or doubts you may have.

Posted Feb 17, 2022 - 01:37 UTC

Resolved

This incident has been resolved.

Posted Feb 17, 2022 - 00:09 UTC

Update

We are continuing to monitor for any further issues.

Posted Feb 16, 2022 - 21:05 UTC

Update

We are continuing to monitor for any further issues.

Posted Feb 16, 2022 - 21:05 UTC

Monitoring

A fix has been implemented and we are monitoring the results.

Posted Feb 16, 2022 - 20:54 UTC

Identified

The issue has been identified and a fix is being implemented.

Posted Feb 16, 2022 - 20:52 UTC

Investigating

We are currently investigating this issue.

Posted Feb 16, 2022 - 20:44 UTC

This incident affected: Brandweerrooster (Netherlands) (Brandweerrooster Primary Systems).