Scenario: Your API retries failed payments three times instantly. Stripe goes down and your app collapses.

How do you redesign the retry strategy?

Use exponential backoff with jitter, add a circuit breaker, and move payment retries to an async queue. This prevents user-facing collapse and lets the system recover without a retry storm.

Reliability & Resilience Patterns | Amir Brooks

Software Architecture & Decision Patterns/Lesson 7

Preview lesson

Reliability & Resilience Patterns

Design for failure with retries, timeouts, circuit breakers, and bulkheads

reading55 min2 min readFree

Reliability & Resilience Patterns

Every distributed system fails. The only question is how it fails: gracefully or catastrophically.

The Core Resilience Toolkit

Timeouts: never wait forever
Retries (with backoff): recover from transient failures
Circuit breakers: stop hammering a broken dependency
Bulkheads: isolate failures to one component
Idempotency: safe to retry without side effects

Decision Pattern: “Fail Fast vs Fail Soft”

Ask: Is it better to return an error quickly or degrade gracefully?

Examples:

Checkout: fail fast if payment fails
Recommendations: fail soft and return empty results

Error Budgets

Reliability is a tradeoff. SRE teams use error budgets to decide how much instability is acceptable before slowing feature work.

If your SLO is 99.9%, you get ~43 minutes of error per month. Spend it wisely.

🧠 Knowledge Check

Q: Why are retries dangerous without backoff and jitter?

<details> <summary>💡 Reveal Answer</summary>

Without backoff, many services retry simultaneously, creating a thundering herd that overwhelms the dependency. Jitter spreads retries over time, giving the system a chance to recover.

</details>

✍️ Recall Cards

Front: A circuit breaker prevents ______ failures. <details><summary>Back</summary>Cascading</details>
Front: Idempotency makes retries ______. <details><summary>Back</summary>Safe</details>
Front: Error budgets tie reliability to ______ tradeoffs. <details><summary>Back</summary>Feature velocity</details>

🔨 Try It Yourself (Hands‑On)

Audit one critical dependency:

List a downstream service your app calls
Define a timeout
Define a retry policy (max attempts + backoff)
Decide the fallback behavior if it fails

Write this as a short “resilience contract.”

🤔 What Would You Do?

<details> <summary>Best approach</summary> </details>

Resources

Full access

Continue the full course

Unlock all 12 lessons, templates, and resources for Software Architecture & Decision Patterns. Free.

Start learning free All-access membership

Back to course Member login

Idea	Remember This
Failure is normal	Architect for it, don’t hope it away
Resilience patterns	Timeouts, retries, breakers, bulkheads
Fail fast/soft	Decide based on user impact
Error budgets	Reliability has a cost

Reliability & Resilience Patterns

Reliability & Resilience Patterns

The Core Resilience Toolkit

Decision Pattern: “Fail Fast vs Fail Soft”

Error Budgets

🧠 Knowledge Check

✍️ Recall Cards

🔨 Try It Yourself (Hands‑On)

🤔 What Would You Do?

Resources

Continue the full course

📋 Key Takeaways