Planned Outage SRE Book: Chapter 4

2 min readAug 11, 2024

From the Google SRE book, Chapter 4.

Chubby, Google’s lock service with a 99.99% SLO (4.32 minutes downtime per month, 13 minutes per quarter). For example, Apache Zookeeper is an open-source lock server.

It includes Local Chubby serves consistent data within a Google Datacenter and Global Chubby, this is a consistent global data storage.

𝗧𝗵𝗲 𝗚𝗹𝗼𝗯𝗮𝗹 𝗖𝗵𝘂𝗯𝗯𝘆 𝗣𝗹𝗮𝗻𝗻𝗲𝗱 𝗢𝘂𝘁𝗮𝗴𝗲

𝘞𝘳𝘪𝘵𝘵𝘦𝘯 𝘣𝘺 𝘔𝘢𝘳𝘤 𝘈𝘭𝘷𝘪𝘥𝘳𝘦𝘻

𝘊𝘩𝘶𝘣𝘣𝘺 [𝘉𝘶𝘳06] 𝘪𝘴 𝘎𝘰𝘰𝘨𝘭𝘦’𝘴 𝘭𝘰𝘤𝘬 𝘴𝘦𝘳𝘷𝘪𝘤𝘦 𝘧𝘰𝘳 𝘭𝘰𝘰𝘴𝘦𝘭𝘺 𝘤𝘰𝘶𝘱𝘭𝘦𝘥 𝘥𝘪𝘴𝘵𝘳𝘪𝘣𝘶𝘵𝘦𝘥 𝘴𝘺𝘴𝘵𝘦𝘮𝘴. 𝘐𝘯 𝘵𝘩𝘦 𝘨𝘭𝘰𝘣𝘢𝘭 𝘤𝘢𝘴𝘦, 𝘸𝘦 𝘥𝘪𝘴𝘵𝘳𝘪𝘣𝘶𝘵𝘦 𝘊𝘩𝘶𝘣𝘣𝘺 𝘪𝘯𝘴𝘵𝘢𝘯𝘤𝘦𝘴 𝘴𝘶𝘤𝘩 𝘵𝘩𝘢𝘵 𝘦𝘢𝘤𝘩 𝘳𝘦𝘱𝘭𝘪𝘤𝘢 𝘪𝘴 𝘪𝘯 𝘢 𝘥𝘪𝘧𝘧𝘦𝘳𝘦𝘯𝘵 𝘨𝘦𝘰𝘨𝘳𝘢𝘱𝘩𝘪𝘤𝘢𝘭 𝘳𝘦𝘨𝘪𝘰𝘯. 𝘖𝘷𝘦𝘳 𝘵𝘪𝘮𝘦, 𝘸𝘦 𝘧𝘰𝘶𝘯𝘥 𝘵𝘩𝘢𝘵 𝘵𝘩𝘦 𝘧𝘢𝘪𝘭𝘶𝘳𝘦𝘴 𝘰𝘧 𝘵𝘩𝘦 𝘨𝘭𝘰𝘣𝘢𝘭 𝘪𝘯𝘴𝘵𝘢𝘯𝘤𝘦 𝘰𝘧 𝘊𝘩𝘶𝘣𝘣𝘺 𝘤𝘰𝘯𝘴𝘪𝘴𝘵𝘦𝘯𝘵𝘭𝘺 𝘨𝘦𝘯𝘦𝘳𝘢𝘵𝘦𝘥 𝘴𝘦𝘳𝘷𝘪𝘤𝘦 𝘰𝘶𝘵𝘢𝘨𝘦𝘴, 𝘮𝘢𝘯𝘺 𝘰𝘧 𝘸𝘩𝘪𝘤𝘩 𝘸𝘦𝘳𝘦 𝘷𝘪𝘴𝘪𝘣𝘭𝘦 𝘵𝘰 𝘦𝘯𝘥 𝘶𝘴𝘦𝘳𝘴. 𝘈𝘴 𝘪𝘵 𝘵𝘶𝘳𝘯𝘴 𝘰𝘶𝘵, 𝘵𝘳𝘶𝘦 𝘨𝘭𝘰𝘣𝘢𝘭 𝘊𝘩𝘶𝘣𝘣𝘺 𝘰𝘶𝘵𝘢𝘨𝘦𝘴 𝘢𝘳𝘦 𝘴𝘰 𝘪𝘯𝘧𝘳𝘦𝘲𝘶𝘦𝘯𝘵 𝘵𝘩𝘢𝘵 𝘴𝘦𝘳𝘷𝘪𝘤𝘦 𝘰𝘸𝘯𝘦𝘳𝘴 𝘣𝘦𝘨𝘢𝘯 𝘵𝘰 𝘢𝘥𝘥 𝘥𝘦𝘱𝘦𝘯𝘥𝘦𝘯𝘤𝘪𝘦𝘴 𝘵𝘰 𝘊𝘩𝘶𝘣𝘣𝘺 𝘢𝘴𝘴𝘶𝘮𝘪𝘯𝘨 𝘵𝘩𝘢𝘵 𝘪𝘵 𝘸𝘰𝘶𝘭𝘥 𝘯𝘦𝘷𝘦𝘳 𝘨𝘰 𝘥𝘰𝘸𝘯. 𝘐𝘵𝘴 𝘩𝘪𝘨𝘩 𝘳𝘦𝘭𝘪𝘢𝘣𝘪𝘭𝘪𝘵𝘺 𝘱𝘳𝘰𝘷𝘪𝘥𝘦𝘥 𝘢 𝘧𝘢𝘭𝘴𝘦 𝘴𝘦𝘯𝘴𝘦 𝘰𝘧 𝘴𝘦𝘤𝘶𝘳𝘪𝘵𝘺 𝘣𝘦𝘤𝘢𝘶𝘴𝘦 𝘵𝘩𝘦 𝘴𝘦𝘳𝘷𝘪𝘤𝘦𝘴 𝘤𝘰𝘶𝘭𝘥 𝘯𝘰𝘵 𝘧𝘶𝘯𝘤𝘵𝘪𝘰𝘯 𝘢𝘱𝘱𝘳𝘰𝘱𝘳𝘪𝘢𝘵𝘦𝘭𝘺 𝘸𝘩𝘦𝘯 𝘊𝘩𝘶𝘣𝘣𝘺 𝘸𝘢𝘴 𝘶𝘯𝘢𝘷𝘢𝘪𝘭𝘢𝘣𝘭𝘦, 𝘩𝘰𝘸𝘦𝘷𝘦𝘳 𝘳𝘢𝘳𝘦𝘭𝘺 𝘵𝘩𝘢𝘵 𝘰𝘤𝘤𝘶𝘳𝘳𝘦𝘥.

When a service relies on the global version of Chubby, any outage in Chubby means that service could also go down. This can lead to big problems, like data corruption, servers running out of memory, or multiple products failing at once. Simply telling people not to rely on Chubby isn’t enough, a more robust solution is needed to prevent these issues from happening.

𝘛𝘩𝘦 𝘴𝘰𝘭𝘶𝘵𝘪𝘰𝘯 𝘵𝘰 𝘵𝘩𝘦 𝘊𝘩𝘶𝘣𝘣𝘺 𝘱𝘳𝘰𝘣𝘭𝘦𝘮 𝘪𝘴 𝘱𝘳𝘰𝘢𝘤𝘵𝘪𝘷𝘦: 𝘚𝘙𝘌 𝘦𝘯𝘴𝘶𝘳𝘦𝘴 𝘊𝘩𝘶𝘣𝘣𝘺 𝘮𝘦𝘦𝘵𝘴 𝘪𝘵𝘴 𝘴𝘦𝘳𝘷𝘪𝘤𝘦 𝘨𝘰𝘢𝘭𝘴 𝘣𝘶𝘵 𝘥𝘰𝘦𝘴𝘯’𝘵 𝘦𝘹𝘤𝘦𝘦𝘥 𝘵𝘩𝘦𝘮. 𝘐𝘧 𝘊𝘩𝘶𝘣𝘣𝘺’𝘴 𝘢𝘷𝘢𝘪𝘭𝘢𝘣𝘪𝘭𝘪𝘵𝘺 𝘴𝘵𝘢𝘺𝘴 𝘵𝘰𝘰 𝘩𝘪𝘨𝘩, 𝘵𝘩𝘦𝘺 𝘥𝘦𝘭𝘪𝘣𝘦𝘳𝘢𝘵𝘦𝘭𝘺 𝘵𝘢𝘬𝘦 𝘪𝘵 𝘥𝘰𝘸𝘯 𝘵𝘰 𝘦𝘹𝘱𝘰𝘴𝘦 𝘢𝘯𝘺 𝘩𝘪𝘥𝘥𝘦𝘯 𝘥𝘦𝘱𝘦𝘯𝘥𝘦𝘯𝘤𝘪𝘦𝘴. 𝘛𝘩𝘪𝘴 𝘧𝘰𝘳𝘤𝘦𝘴 𝘴𝘦𝘳𝘷𝘪𝘤𝘦 𝘰𝘸𝘯𝘦𝘳𝘴 𝘵𝘰 𝘢𝘥𝘥𝘳𝘦𝘴𝘴 𝘵𝘩𝘦𝘴𝘦 𝘪𝘴𝘴𝘶𝘦𝘴 𝘦𝘢𝘳𝘭𝘺, 𝘱𝘳𝘦𝘱𝘢𝘳𝘪𝘯𝘨 𝘵𝘩𝘦𝘮 𝘧𝘰𝘳 𝘵𝘩𝘦 𝘳𝘦𝘢𝘭𝘪𝘵𝘪𝘦𝘴 𝘰𝘧 𝘥𝘪𝘴𝘵𝘳𝘪𝘣𝘶𝘵𝘦𝘥 𝘴𝘺𝘴𝘵𝘦𝘮𝘴.

Ideal for:

𝟭. So reliable that they seem always up.

𝟮. Crucial because many important systems depend on them.

𝟯. Able to handle outages with fallback options.

The goal is to promote building fault-tolerant systems rather than ones with shared failure risks.

#Learning #Google #SRE #SiteReliabilityEngineering #PlatformEngineering

Planned Outage SRE Book: Chapter 4

Written by Ankit Kumar

No responses yet