Boiler Room Vecka 9 — Monitoring & Observability | Tisdag 17 mars
En produktionsmiljö här problem. Ni här Grafana, Prometheus och ett helt Kubernetes-kluster framför er. Er uppgift: förstå vad som händer, hitta felen, och dokumentera era fynd. Allt sker i webbläsaren — inget kubectl, inget terminalkrångel.
Noder, CPU, minne, pods per namespace
Välj namespace, se pods, CPU, throttling
SLO:er, error rate, latency, minne
Tips: Grafana här också en Explore-flik där ni kan skriva egna PromQL-queries.
Innan ni väljer mission — utforska Grafana och svara på dessa frågor som team:
observe-lab — ser ni något konstigt?up — vad ser ni?Varje team väljer en mission. Flera team kan valja samma. Ni här 2 timmar.
Produktionsmiljön här minst 5 problem. Hitta sa många ni kan, dokumentera varje med: vad är fel, hur hittade ni det, hur allvarligt är det, och hur skulle ni fixa det.
Öppna BLACKOUT Dashboard. Vilka paneler ser röda/gula ut? Vilka alerts fyrar?
Börja med dessa PromQL-queries i Explore:
Gå till Namespace Explorer, välj observe-lab.
För varje fel ni hittar, dokumentera:
Ta screenshots fran Grafana. Förbered en 5-min presentation där ni visär era fynd. Fokusera på de 2-3 mest intressanta problemen.
Er uppgift: definiera SLIs, SLOs och error budgets för systemet. Använd verklig data fran Prometheus för att avgöra vad rimliga mål ar.
Utforska BLACKOUT Dashboard. Föreslå SLIs för varje tjänst. Exempel:
Använd Explore för att mota den nuvarande nivan:
Baserat på vad ni ser i datan — sätt realistiska mal. Exempel:
Vilka tjänster uppfyller sina SLOs just nu? Vilka gör det inte?
Om ert SLO är 99.9% — hur mycket "fel" fär ni per månad?
Beräkna: med nuvarande error rate, hur snabbt bränner ni igenom er budget?
Skapå ett dokument med era SLO-definitioner. För varje tjänst:
Ni här tillgång till hela GKE-klustret — 10 noder, 20+ namespaces, 100+ pods. Er uppgift: skapå en helhetsbild och hitta anomalier.
Öppna Cluster Overview. Svara pa:
Gå till Namespace Explorer. Använd dropdown-menyn för att byta namespace.
observe-lab — vad skiljer?kube-system — vad kör dar?Använd Explore för att gräva djupare:
Är det några pods som inte kor? Några containers som throttlas? Någon nod som är nära sin kapacitet?
Sammanställ era fynd i en rapport:
Använd dessa i Grafana's Explore-flik (kompassikonen i vänstermenyn).
Visär vilka targets som är uppe (1) eller nere (0)
Requests per sekund, medelvärde över 5 minuter
Minnesanvändning per process i bytes
Error rate per tjänst (0.10 = 10%)
p99 latency per tjänst
Antal körande pods per namespace
Top 5 pods med flest restarts senaste timmen
Total minnesanvändning per namespace
5 minuter per team. Visa Grafana på storskärm och beskriv:
Tips för presentationen: Ni behöver inte slides. Dela er skärm med Grafana öppet och navigera genom era fynd live. Det är mer övertygande än en PowerPoint.
Boiler room-sessionerna bedöms som helhet i slutet av vecka 11 — inte individuellt. Men det ni gör idag bygger direkt på era kunskaper inför grupprojektet och slutrapporten.
Spara era screenshots, queries och dokument — ni kommer använda dem i grupprojektet och rapporten.