Reliability

Fault Tolerance

Error Handling

Detect, log, and handle errors through structured mechanisms

#ExceptionHandling #Logging #ErrorManagement #Resilience

Availability

Redundancy

Deploy multiple instances of critical components or systems

#FaultTolerance #Failover #HighAvailability #Spare

Fault Tolerance

Exceptions

Use exceptions for signaling and handling error states

#ExceptionHandling #ErrorHandling #Robustness #DefensiveProgramming

Maturity

Also supports: Availability

Checklists

Process steps and requirements systematically

#Checklists #Reliability #QualityAssurance

Availability

Also supports: Recoverability, Analyzability

Runbooks

Provide detailed instructions for processing tasks and incidents

#ProcessStandardization #ErrorMinimization #OperationalEfficiency #TeamCoordination

Fault Tolerance, Recoverability

Error Logging

Record errors with structured formats, severity levels, and stack traces

#Logging #ErrorDiagnosis #ErrorTracking #ErrorAnalysis

Availability

Also supports: Analyzability

Monitoring

Collect metrics, configure alerts, and detect anomalies systematically

#SystemMonitoring #Alerting #Metrics

Availability

Also supports: Capacity, Operability

Monitoring System Utilization

Track CPU, memory, disk, and network metrics for capacity decisions

#Monitoring #CapacityPlanning #PerformanceOptimization #ResourceManagement

Maturity

Also supports: Reusability, Replaceability

Boring Technologies

Use proven and mature technologies

#BoringTechnology #RiskReduction #Stability #Longevity

Fault Tolerance, Recoverability

Also supports: Availability

Resilience

Remain operational under adverse conditions or faults

#SelfHealing #Resilience #FaultIsolation #StabilityPatterns

Recoverability

Disaster Recovery

Restore operations after disasters or major disruptions

#DisasterRecovery #Backup #Recovery #BusinessContinuity

Recoverability

On-Call Duty

Ensure employees are available to respond quickly to incidents

#OnCallDuty #IncidentManagement #Availability

Availability

Also supports: Capacity

Load Balancing

Distribute workload across multiple resources

#LoadBalancing #Scalability #HighAvailability #NetworkInfrastructure

Fault Tolerance, Recoverability

Chaos Engineering

Introduce disruptions intentionally to test system resilience

#Resilience #FaultInjection #SystemStability

Availability

Also supports: Time-behaviour, Capacity

Elastic Resource Utilization

Adjust resources automatically based on current load

#Elasticity #AutoScaling #ResourceOptimization #CloudComputing

Availability

Also supports: Time-behaviour, Capacity

Proactive Capacity Management

Forecast and plan required resources based on growth predictions

#CapacityPlanning #Scaling #GrowthForecasts #ResourceOptimization

Availability

Also supports: Time-behaviour, Capacity

Service Level Agreements

Define expectations for software availability and performance

#UpTime #ResponseTimes #QualityContracts #ServiceLevel

Availability, Maturity

Service Level Objectives

Define measurable goals for system reliability and performance

#ReliabilityGoals #PerformanceAgreements #ContinuousImprovement #ServiceLevel

Availability

Also supports: Time-behaviour

Service Level Indicators

Track key metrics of software reliability and performance

#Monitoring #Measurement #ServiceLevel

Availability, Fault Tolerance

Data Replication

Create and synchronize copies of data across multiple systems

#Replication #DataAvailability #Resilience #DataSynchronization

Availability, Fault Tolerance

Failover Mechanisms

Detect component failures and redirect operations to standby replacements

#Failover #FaultTolerance #Redundancy #HighAvailability

Availability

Also supports: Analyzability

Self-Monitoring and Diagnosis

Enable a system to monitor its own state and detect issues

#SelfMonitoring #SelfDiagnosis #ProactiveMonitoring

Fault Tolerance, Availability

Isolation of Faulty Components

Develop mechanisms to isolate faulty components

#FaultIsolation #ErrorContainment #SelfHealing #ResilientSystems

Fault Tolerance

Also supports: Analyzability, Adaptability

Environment Parity

Ensure consistency between development, test, and production environments

#EnvironmentParity #Containerization #DevOps

Availability

Production Environment Maintenance

Inspect and care for production infrastructure through scheduled checks

#SystemMaintenance #PreventiveMaintenance #OperationalContinuity

Availability

Also supports: Testability

Site Reliability Engineering (SRE)

Apply engineering principles for stable system operations

#OperationalExcellence #DevOps #Automation #ContinuousImprovement

Availability, Fault Tolerance

Graceful Degradation

Operate with reduced functionality during failures or overload

#GracefulDegradation #Availability #FaultTolerance #Reliability

Fault Tolerance, Availability

Circuit Breaker

Protect distributed systems from error cascades and overload

#ErrorProtection #OverloadProtection #ResilientSystems #Microservices

Fault Tolerance, Availability

Also supports: Capacity, Modularity

Bulkhead

Divide a system into isolated areas to limit fault propagation

#FaultIsolation #ResourceSeparation #Scalability #Microservices

Fault Tolerance

Also supports: Analyzability

Self-Test

Enable components to check their own state and functionality

#SelfDiagnosis #EarlyErrorDetection #AutonomousSystems #TestAutomation

Availability

Ping

Send requests actively to a component to check its availability

#ActiveMonitoring #ReachabilityCheck #ProactiveErrorDetection

Availability

Heartbeat

Transmit a component's heartbeat regularly to a monitoring instance

#PassiveMonitoring #Heartbeat #DecentralizedFaultDetection

Fault Tolerance

Also supports: Integrity

Transactions

Group multiple operations into an atomic, consistent unit

#DataIntegrity #ACID #ErrorHandling #DatabaseManagement

Fault Tolerance

Retry

Retry failed operations to handle transient errors

#Retries #ErrorHandling #Resilience #SelfHealing

Availability, Fault Tolerance

Watchdog

Detect and handle system errors or failures via a watchdog component

#Monitoring #ErrorDetection #SelfHealing #AutonomousSystems

Fault Tolerance, Maturity

Smoke Testing

Perform basic tests to verify core functionality of a system

#BasicTests #QuickFeedback #EarlyErrorDetection #StabilityCheck

Availability

Nonstop Forwarding

Forward requests continuously despite failures or errors

#ContinuousForwarding #FaultTolerance #Redundancy #HighAvailability

Recoverability

Also supports: Analyzability, Integrity

Timestamping

Add timestamps to data or events for temporal tracking

#Timestamp #EventLogging #Auditing #Debugging

Availability

Also supports: Analyzability

Status Monitoring

Track service health, uptime, and component availability continuously

#Monitoring #ProactiveMaintenance #EarlyWarningSystem #PerformanceMonitoring

Availability, Fault Tolerance

Failover Cluster

Group servers into a cluster with shared storage and automatic primary takeover

#HighAvailability #Reliability #LoadBalancing #Clustering

Availability

Also supports: Capacity

Redundant Data Storage

Store data on multiple media or systems

#DataSecurity #Reliability #Replication #Backup

Recoverability, Availability

Rollback Mechanisms

Revert changes and return to a previous stable state

#Recovery #VersionControl #RiskMitigation

Recoverability, Fault Tolerance

Blue-Green Deployment

Operate two parallel production environments to minimize downtime

#ParallelOperation #MinimizeDowntime #Recoverability #DeploymentStrategy

Recoverability, Fault Tolerance

Also supports: Modifiability, Adaptability

Feature Toggles

Activate and deactivate features for flexible rollouts

#Flexibility #FeatureToggles #Modifiability #DeploymentStrategy

Fault Tolerance

Also supports: Modifiability

Rolling Updates

Update servers or instances stepwise without full downtime

#StagedRollouts #MinimizeDowntime #FaultTolerance #DeploymentStrategy

Availability

Also supports: Fault Tolerance, Maturity

Dark Launches

Deploy new features hidden to a controlled user subset

#DarkLaunches #BlastRadius #GradualRollout #FaultContainment

Availability, Fault Tolerance

Canary Releases

Introduce changes gradually for a limited user group

#PerUserIntroduction #RiskReduction #DeploymentStrategy

Fault Tolerance

Also supports: Correctness

Fault-Tolerant Data Structures

Employ data structures that remain operational despite errors

#FaultTolerance #DataStructures #SelfStabilization #ErrorCorrection

Fault Tolerance

Also supports: Modularity

Fault Containment

Limit the impact of faults to a small part of the system

#FaultContainment #Modularization #LooseCoupling

Fault Tolerance

Also supports: Maturity

Error Correction Codes

Use codes to detect and correct errors in data

#ErrorCorrection #DataIntegrity #Redundancy #EncodingMethods

Fault Tolerance

Also supports: Analyzability

Error Reporting and Analysis

Prioritize errors by impact, track resolution, and communicate outcomes

#ErrorManagement #ErrorAnalysis #RootCauseAnalysis #ContinuousImprovement

Fault Tolerance

Also supports: Integrity

Checksums

Calculate checksums to detect data errors or changes

#Checksums #DataIntegrity #ErrorChecking #ConsistencyChecking

Fault Tolerance, Maturity

Redundant Checksums

Use multiple different checksum algorithms

#Redundancy #Checksums #ErrorDetection #DataIntegrity

Maturity, Availability

Continuous Data Verification

Verify data integrity regularly during storage or transmission

#ContinuousVerification #DataIntegrity #ErrorDetection #Monitoring

Maturity, Fault Tolerance

Plausibility Checks

Check inputs, data, or states for validity to detect errors early

#PlausibilityCheck #InputValidation #ErrorDetection #DataIntegrity

Recoverability

Restore Points

Regularly back up the system state

#RestorePoints #SystemBackup #ErrorResolution #Checkpoints

Fault Tolerance

Also supports: Integrity

Monitoring System Integrity

Verify integrity of system components, configurations, and data continuously

#SystemIntegrity #IntegrityCheck #ConsistencyCheck #EarlyWarningSystem

Maturity

Also supports: Time-behaviour, Capacity

Load Testing

Evaluate system performance and stability under high load

#PerformanceTest #LoadTest #StabilityTest #Scalability

Recoverability

Regular Backups

Back up data and system states regularly

#DataBackup #Recovery #FailureProtection #DisasterRecovery

Availability

Also supports: Modifiability

Incident Management

Handle disruptions and failures through a structured process

#IncidentHandling #FailureManagement #Escalation #RootCauseAnalysis

Fault Tolerance

Also supports: Analyzability

Root Cause Analysis

Systematically analyze the causes of failures

#RootCauseAnalysis #ErrorResolution #QualityImprovement

Availability

High Availability Architectures

Design architectures for maximum availability and fault tolerance

#HighAvailability #FaultTolerance #Redundancy #Failover

Fault Tolerance

Also supports: Analyzability

Error Logs

Analyze recorded log data for patterns, trends, and recurring anomalies

#LogAnalysis #ErrorManagement #PatternRecognition #ProactiveIssueResolution

Maturity

Also supports: Integrity, Correctness

Data Integrity

Ensure data accuracy, consistency, and reliability

#DataConsistency #DataQuality #DataValidation #Checksums #ACID

Availability

Also supports: Integrity, Fault Tolerance

Secure Software

Prevent reliability incidents caused by security vulnerabilities

#InputValidation #AccessControls #AttackPrevention #SystemStability

Maturity

Also supports: Integrity, Modifiability

Regular Maintenance and Updates

Apply software patches, security fixes, and version updates on a defined schedule

#SystemMaintenance #PatchManagement #UpdateProcess

Maturity

Also supports: Modifiability, Integrity

Continuous Integration and Delivery

Automate software integration, testing, and deployment continuously

#ContinuousIntegration #ContinuousDelivery #Automation #DevOps

Fault Tolerance

Also supports: Availability

Immutable Infrastructure

Replace infrastructure components with new versions instead of modifying them

#ImmutableInfrastructure #InfrastructureAsCode #CloudComputing

Maturity

Also supports: Testability

Automated Tests

Verify functionality automatically at various test levels

#TestAutomation #RegressionTesting #ContinuousTesting #QualityAssurance

Maturity, Availability

Error Budgets

Quantify acceptable unreliability to balance feature velocity and reliability

#ErrorBudgets #SRE #ServiceLevelObjectives #ReliabilityEngineering

Maturity

Also supports: Analyzability

Blameless Postmortems

Learn from incidents systematically, focusing on systemic improvements

#BlamelessPostmortems #IncidentManagement #LearningCulture #SRE

Availability, Maturity

Health Check Endpoints

Expose standardized health check APIs for load balancers and orchestrators

#HealthCheck #LivenessProbe #ReadinessProbe #ServiceMonitoring

Fault Tolerance, Availability

Timeout Management

Define and enforce timeouts on all external calls against indefinite blocking

#TimeoutManagement #FaultTolerance #ResourceProtection #CascadingFailures

Availability, Fault Tolerance

Rate Limiting

Control incoming request rates against system overload during traffic spikes

#RateLimiting #TrafficManagement #OverloadProtection #APIGateway

Availability, Fault Tolerance

Load Shedding

Drop low-priority requests under overload to preserve critical capacity

#LoadShedding #AdmissionControl #BackpressureManagement #OverloadProtection

Fault Tolerance, Recoverability

Idempotency Design

Design safely retryable operations without unintended side effects

#Idempotency #RetryLogic #DistributedSystems #DataConsistency

Fault Tolerance, Recoverability

Saga Pattern

Manage distributed transactions through local transaction sequences with compensation

#SagaPattern #DistributedTransactions #CompensatingActions #EventChoreography

Fault Tolerance, Recoverability

Dead Letter Queue

Route failed messages to a dedicated queue for later reprocessing

#DeadLetterQueue #MessageProcessing #ErrorHandling #EventDrivenArchitecture

Recoverability, Fault Tolerance

Write-Ahead Logging

Record changes in a durable append-only log before applying them

#WriteAheadLog #CrashRecovery #DataDurability #AppendOnlyLog

Tactics (80)

Error Handling

Redundancy

Exceptions

Checklists

Runbooks

Error Logging

Monitoring

Monitoring System Utilization

Boring Technologies

Resilience

Disaster Recovery

On-Call Duty

Load Balancing

Chaos Engineering

Elastic Resource Utilization

Proactive Capacity Management

Service Level Agreements

Service Level Objectives

Service Level Indicators

Data Replication

Failover Mechanisms

Self-Monitoring and Diagnosis

Isolation of Faulty Components

Environment Parity

Production Environment Maintenance

Site Reliability Engineering (SRE)

Graceful Degradation

Circuit Breaker

Bulkhead

Self-Test

Ping

Heartbeat

Transactions

Retry

Watchdog

Smoke Testing

Nonstop Forwarding

Timestamping

Status Monitoring

Failover Cluster

Redundant Data Storage

Rollback Mechanisms

Blue-Green Deployment

Feature Toggles

Rolling Updates

Dark Launches

Canary Releases

Fault-Tolerant Data Structures

Fault Containment

Error Correction Codes

Error Reporting and Analysis

Checksums

Redundant Checksums

Continuous Data Verification

Plausibility Checks

Restore Points

Monitoring System Integrity

Load Testing

Regular Backups

Incident Management

Root Cause Analysis

High Availability Architectures

Error Logs

Data Integrity

Secure Software

Regular Maintenance and Updates

Continuous Integration and Delivery

Immutable Infrastructure

Automated Tests

Error Budgets

Blameless Postmortems

Health Check Endpoints

Timeout Management

Rate Limiting

Load Shedding

Idempotency Design

Saga Pattern

Dead Letter Queue

Write-Ahead Logging