Inuti Azure Ops-agentteamet: Fem roller som ersätter er molnövervakning

Att prata om AI-agentteam i abstrakt är enkelt. Det svårare — och mer värdefulla — är att visa hur ett verkligt sådant ser ut. Vilka agenter finns, vad gör de, vilka verktyg har de tillgång till och var går gränserna?

TalentedAI byggde ett Azure Operations-agentteam som gör det ett senior DevOps-team gör för en välskött organisation — övervakar, analyserar och rapporterar — men dygnet runt, utan att bemanningen behöver växa. Här är vad vi byggde och varför.

De fem agenterna

1. Azure Monitor Agent — Observatören

Jobb: Läsa in och normalisera Azure-telemetri kontinuerligt.

Azure Monitor Agent är systemets ögon. Var 30:e minut frågar den Azure Monitor REST API — Log Analytics, Metrics API, Resource Health, Service Health — och normaliserar det den hittar till strukturerade resultat som övriga agenter kan konsumera.

Den viktigaste designbegränsningen här är enbart observation. Denna agent har ingen skrivbehörighet till Azure. Den kan inte bekräfta varningar, skapa ärenden eller ändra tröskelvärden. Dess enda jobb är att se vad som händer och rapportera det i ett konsekvent, maskinläsbart format.

Varför så smalt? För att i det ögonblick ni ger en observerande agent någon skrivbehörighet har ni introducerat möjligheten att den vidtar åtgärder baserat på ofullständig information innan analys- och eskaleringslagren har haft möjlighet att bearbeta vad den hittade. Monitor Agents jobb är att producera fakta, inte beslut.

Kadensen: Var 30:e minut under kontorstid, varje timme utanför kontorstid.

Modell: Mellanklass (Claude Sonnet) — strukturerad dataextraktion kräver inte avancerat resonemang.

Azure-behörigheter: Monitoring Reader, Log Analytics Reader, Azure Service Health Reader — alla skrivskyddade.

Uppskattad kostnad: ~0,50 USD/månad per kundmiljö.

2. Infrastructure Analyzer — Bedömaren

Jobb: Analysera infrastrukturstatus för kostnadsdrift, konfigurationsbrister och säkerhetspositionsproblem.

Där Monitor Agent observerar vad som händer bedömer Infrastructure Analyzer hur tingens tillstånd är. Den frågar Azure Resource Graph om aktuella resurskonfigurationer, korskontrollerar Azure Advisor-rekommendationer, kontrollerar Cost Management för utgiftstrender och jämför allt med kundens baslinje — fastställd under onboarding.

Utdata är en rangordnad lista med resultat: var och en taggad med kategori (kostnad / säkerhet / konfiguration), påverkan (kvantifierad där möjligt — "att byta dessa 3 virtuella datorer till Reserved Instances sparar ungefär 2 400 SEK/månad"), insatsuppskattning och konfidenssnivå.

Konfidenssnivån är icke-förhandlingsbar. Varje rekommendation som Analyzer producerar måste märkas hög, medel eller låg konfidens, med angivna skäl. Det är inte dekoration — det är hur Ops Coordinator och kunden beslutar hur mycket vikt de ska lägga på varje resultat utan att behöva härleda analysen på nytt.

Kadensen: Varje timme för aktiva analyscykler; kan utökas till dagligen i stabila miljöer.

Modell: Mellanklass (Claude Sonnet).

Azure-behörigheter: Reader, Cost Management Reader, Security Reader — alla skrivskyddade.

Uppskattad kostnad: ~0,40 USD/månad per kundmiljö.

3. Incident Responder — Triage-specialisten

Jobb: Korrelera anomalier, klassificera allvarlighetsgrad och ta fram åtgärdsförslag.

Incident Responder är händelsedriven, inte schemalagd. Den vaknar när Ops Coordinator tilldelar den en incident — typiskt utlöst av Monitor Agent som flaggar en anomali över tröskelvärdet.

När den vaknar korrelerar den varningen med nylig telemetrihistorik, nyliga resursändringar (från Azure Activity Log) och kundens incidenthistorik. Den producerar en allvarlighetsklassificering — P1 (tjänsten nere), P2 (degraderad), P3 (varning), P4 (informationell) — och ett åtgärdsförslag med en återställningsplan.

Två designregler styr denna agent:

För det första presenterar den alltid ett "gör ingenting"-alternativ bredvid sin rekommenderade åtgärd, med en explicit riskbedömning. Operatörer under press tar ibland den minst motståndsfulla vägen; att göra kostnaden för passivitet synlig förhindrar det standardvalet.

För det andra utför den aldrig åtgärder själv. Den lägger fram förslag som kräver mänskligt godkännande. Det är en hård gräns — Incident Responder analyserar vad som händer och vad som bör göras, men beslutet att faktiskt agera tillhör alltid en människa.

Kadensen: 15-minuters heartbeat — snabbt nog att fånga P1-situationer i nästintill realtid.

Modell: Mellanklass (Claude Sonnet) för P3/P4; Claude Opus för komplex P1-korrelation där djupare resonemang spelar roll.

Azure-behörigheter: Log Analytics Reader, Azure Activity Log Reader — skrivskyddade.

Uppskattad kostnad: ~0,60 USD/månad per kundmiljö (högre på grund av frekvens och enstaka Opus-användning).

4. Knowledge Writer — Dokumentatören

Jobb: Omvandla råa driftsdata till strukturerade, människoläsbara kunskapsartefakter.

Knowledge Writer är där signalen som genereras av de tre specialistagenter blir något användbart för en IT-chef eller CFO som inte bevakade varje varning. Den konsumerar resultat från Monitor Agent, rekommendationer från Infrastructure Analyzer och incidentrapporter från Responder — och producerar sedan:

Veckovisa Azure-hälso- och kostnadsrapporter (sammanfattar veckans resultat med SEK-kvantifierade optimeringsmöjligheter)
Incident post-mortems (inom 24 timmar efter P1/P2-lösning — vad hände, grundorsak, vidtagna åtgärder, förebyggandeplan)
Optimeringscase studies (när en rekommendation implementeras och påverkan mäts)
Uppdaterade runbooks (när ett nytt incidentmönster observeras)

Knowledge Writer ansvarar också för att flagga innehåll som kan vara lämpligt för extern publicering — case studies, intressanta resultat, nya mönster. Den taggar dessa för Ops Coordinator-granskning innan något går utanför kundens projekt.

Kadensen: Batchbearbetning varje timme — konsumerar kön av resultat från andra agenter.

Modell: Mellanklass (Claude Sonnet) — skrivande och syntes, inte komplex resonemang.

Uppskattad kostnad: ~0,30 USD/månad per kundmiljö.

5. Ops Coordinator — Orkestratorn

Jobb: Orkestrera teamet, hantera kundkommunikation och hålla eskaleringskedjan.

Coordinatorn är den dyraste agenten i teamet — inte för att den gör det mest beräkningsintensiva arbetet, utan för att den kör mest frekvent och använder en starkare modell. Den behöver omdömet att avgöra om en P3-incident förtjänar Incident Responders uppmärksamhet eller kan batchas in i veckorapporten. Den behöver skriva kundvända uppdateringar som är ärliga, tydliga och förtroendeskapande. Den behöver upptäcka när agenter är blockerade eller producerar lågkvalitativa utdata och ingripa innan det påverkar kundleveranser.

Coordinatorns primära loop är enkel: granska alla agentutdata, triagera och dirigera nytt arbete, batcha lågprioriterade resultat för veckobearbetning och eskalera omedelbart för P1/P2-incidenter eller budgetöverskridanden.

Dess eskaleringsregler är explicita och icke-förhandlingsbara. P1- och P2-incidenter går till den utsedda mänskliga eskaleringslistkontakten omedelbart — i samma heartbeat som de klassificeras. Budgetöverskridanden över 80% flaggas till kundens kontaktansvarig. Om tre eller fler agenter är blockerade samtidigt eskalerar Coordinatorn till TalentedAIs interna team.

Coordinatorn tillämpar också noisedisciplin. Azure-miljöer genererar många lågvärdesvarningar. Coordinatorn suppressar dubblettvarningar, batchär relaterade resultat och säkerställer att kundens inkorg innehåller kurerat, högsignalinformation snarare än ett flöde av rådata.

Kadensen: Var 30:e minut under kontorstid.

Modell: Claude Opus — behöver omdöme, inte bara syntes.

Uppskattad kostnad: ~0,80 USD/månad per kundmiljö.

Total kostnad och vad det ger er

Det fullständiga femagens-teamet kostar ungefär 2,60 USD/månad i agentberäkning per kundmiljö. Det är inte hela kostnaden — Azure API-användning, infrastrukturhostning och TalentedAIs konfiguration och tillsyn är separat — men det illustrerar varför multi-agent-arkitekturen är ekonomiskt genomförbar på en mycket mindre skala än de flesta förutsätter.

Som jämförelse: en enstaka DevOps-ingenjör som gör detta arbete manuellt skulle spendera 4–8 timmar per vecka på övervakning, rapportering och incidenttriage. Ett AI-agentteam som kör kontinuerligt, sju dagar i veckan, till under 5 USD/månad i beräkningskostnad, med samma informationstäthet och utan context-switching-overhead.

ROI-argumentet för de flesta Azure-intensiva SMEs är inte komplicerat. Om er Azure-faktura är över 50 000 SEK/månad och ni inte optimerar den proaktivt, kommer den första månadens Analyzer-resultat typiskt att lyfta fram tillräckligt med slöseri för att täcka servicekostnaden många gånger om.

Vad vi lärde oss av att bygga detta

Designen kom inte fullt formad. Några saker vi fick fel i första omgången:

Vi gav initialt Monitor Agent för många ansvarsområden. Tidiga versioner hade den inte bara läsa in telemetri utan också göra grundläggande anomaliklassificering. Utdata var rörigare och svårare för övriga agenter att konsumera rent. Att separera observation från klassificering förbättrade båda agenterna.

Coordinatorns modell spelar större roll än vi förväntade. Initialt använde vi en mellanklassmodell för Coordinatorn för att spara kostnad. Kvaliteten på dess triagebeslut — vilka resultat att eskalera, vilka att batcha, hur man skriver kundsammanfattningar — försämrades märkbart. Att uppgradera Coordinatorn till Opus var en meningsfull kvalitetsförbättring värd kostnadsskillnaden.

Skrivskydd är rätt standard, även när det känns alltför konservativt. Det finns alltid press att låta agenter "stänga loopen" genom att vidta automatiserade åtgärder. Vi höll fast vid skrivskydd. Om man någonsin ska öppna för automatiserad åtgärdshantering bör det ske efter månaders förtroendeuppbyggnad med kunden, med explicita godkännandeflöden, och man börjar med lågrisk-åtgärder som går att ångra.

Azure Ops-teamet är TalentedAIs referensarkitektur för AI-driven infrastrukturdrift. Om ni utvärderar hur detta kan se ut för er Azure-miljö är Azure Ops Pilot startpunkten: ett två-till-fyra-veckors engagemang som får hela agentteamet att köra på er infrastruktur, producerar era första optimeringsresultat och levererar era första rapporter.

TalentedAI bygger AI-agentteam för företag. Det här inlägget beskriver vår interna arkitektur — från orkestrering och heartbeats till den governance-plattform som håller ihop alltsammans.