Att prata om AI-agentteam i abstrakt är enkelt. Det svårare — och mer värdefulla — är att visa hur ett verkligt sådant ser ut: de specifika agenterna, deras specifika ansvarsområden, de verktyg de använder och de begränsningar de arbetar under.
TalentedAI byggde ett Azure Operations-agentteam för att göra för molninfrastruktur vad ett senior DevOps-team gör för en välskött ingenjörsorganisation: kontinuerlig övervakning, proaktiv analys och strukturerad rapportering — dygnet runt utan att öka bemanningen. Här är vad vi byggde och varför vi fattade varje designbeslut.
De fem agenterna
1. Azure Monitor Agent — Observatören
Jobb: Läsa in och normalisera Azure-telemetri kontinuerligt.
Azure Monitor Agent är systemets ögon. Var 30:e minut frågar den Azure Monitor REST API — Log Analytics, Metrics API, Resource Health, Service Health — och normaliserar det den hittar till strukturerade resultat som downstream-agenter kan konsumera.
Den viktigaste designbegränsningen här är enbart observation. Denna agent har ingen skrivbehörighet till Azure. Den kan inte bekräfta varningar, skapa ärenden eller ändra tröskelvärden. Dess enda jobb är att se vad som händer och rapportera det i ett konsekvent, maskinläsbart format.
Varför så smalt? För att i det ögonblick du ger en observerande agent någon skrivbehörighet har du introducerat möjligheten att den vidtar åtgärder baserat på ofullständig information innan analys- och eskaleringslagren har haft möjlighet att bearbeta vad den hittade. Monitor Agents jobb är att producera fakta, inte beslut.
Kadensen: Var 30:e minut under kontorstid, varje timme utanför kontorstid.
Modell: Mellanklass (Claude Sonnet) — strukturerad dataextraktion kräver inte frontier-resonemang.
Azure-behörigheter: Monitoring Reader, Log Analytics Reader, Azure Service Health Reader — alla skrivskyddade.
Uppskattad kostnad: ~0,50 USD/månad per kundmiljö.
2. Infrastructure Analyzer — Bedömaren
Jobb: Analysera infrastrukturstatus för kostnadsdrift, konfigurationsbrister och säkerhetspositionsproblem.
Där Monitor Agent observerar vad som händer bedömer Infrastructure Analyzer hur tingens tillstånd är. Den frågar Azure Resource Graph om aktuella resurskonfigurationer, korskontrollerar Azure Advisor-rekommendationer, kontrollerar Cost Management för utgiftstrender och jämför allt med kundens baslinje — fastställd under onboarding.
Utdata är en rangordnad lista med resultat: var och en taggad med kategori (kostnad / säkerhet / konfiguration), påverkan (kvantifierad där möjligt — "att byta dessa 3 virtuella datorer till Reserved Instances sparar ungefär 2 400 SEK/månad"), insatsuppskattning och konfidenssnivå.
Konfidenssnivån är icke-förhandlingsbar. Varje rekommendation som Analyzer producerar måste märkas hög, medel eller låg konfidens, med angivna skäl. Det är inte dekoration — det är hur Ops Coordinator och kunden beslutar hur mycket vikt de ska lägga på varje resultat utan att behöva härleda analysen på nytt.
Kadensen: Varje timme för aktiva analyscykler; kan utökas till dagligen i stabila miljöer.
Modell: Mellanklass (Claude Sonnet).
Azure-behörigheter: Reader, Cost Management Reader, Security Reader — alla skrivskyddade.
Uppskattad kostnad: ~0,40 USD/månad per kundmiljö.
3. Incident Responder — Triage-specialisten
Jobb: Korrelera anomalier, klassificera allvarlighetsgrad och producera saneringsrekommendationer.
Incident Responder är händelsedriven, inte schemalagd. Den vaknar när Ops Coordinator tilldelar den en incident — typiskt utlöst av Monitor Agent som flaggar en anomali över tröskelvärdet.
När den vaknar korrelerar den varningen med nylig telemetrihistorik, nyliga resursändringar (från Azure Activity Log) och kundens incidenthistorik. Den producerar en allvarlighetsklassificering — P1 (tjänsten nere), P2 (degraderad), P3 (varning), P4 (informationell) — och en saneringsrekommendation med en återställningsplan.
Två designregler styr denna agent:
För det första presenterar den alltid ett "gör ingenting"-alternativ bredvid sin rekommenderade åtgärd, med en explicit riskbedömning. Operatörer under press tar ibland den minst motståndsfulla vägen; att göra kostnaden för passivitet synlig förhindrar det standardvalet.
För det andra utför den aldrig sanering. Den producerar rekommendationer för mänskligt godkännande. Det är en hård begränsning — Incident Responders jobb är att producera bästa möjliga analys av vad som händer och vad som bör göras åt det. Beslutet att agera tillhör en människa.
Kadensen: 15-minuters heartbeat — snabbt nog att fånga P1-situationer i nästintill realtid.
Modell: Mellanklass (Claude Sonnet) för P3/P4; Claude Opus för komplex P1-korrelation där resonemangsDjup spelar roll.
Azure-behörigheter: Log Analytics Reader, Azure Activity Log Reader — skrivskyddade.
Uppskattad kostnad: ~0,60 USD/månad per kundmiljö (högre på grund av frekvens och enstaka Opus-användning).
4. Knowledge Writer — Dokumentatören
Jobb: Omvandla råa driftsdata till strukturerade, människoläsbara kunskapsartefakter.
Knowledge Writer är där signalen som genereras av de tre specialistagenter blir något användbart för en IT-chef eller CFO som inte bevakade varje varning. Den konsumerar resultat från Monitor Agent, rekommendationer från Infrastructure Analyzer och incidentrapporter från Responder — och producerar sedan:
- Veckovisa Azure-hälso- och kostnadsrapporter (sammanfattar veckans resultat med SEK-kvantifierade optimeringsmöjligheter)
- Incident post-mortems (inom 24 timmar efter P1/P2-lösning — vad hände, grundorsak, vidtagen sanering, förebyggandeplan)
- Optimeringscase studies (när en rekommendation implementeras och påverkan mäts)
- Uppdaterade runbooks (när ett nytt incidentmönster observeras)
Knowledge Writer ansvarar också för att flagga innehåll som kan vara lämpligt för extern publicering — case studies, intressanta resultat, nya mönster. Den taggar dessa för Ops Coordinator-granskning innan något går utanför kundens projekt.
Kadensen: Batchbearbetning varje timme — konsumerar kön av resultat från andra agenter.
Modell: Mellanklass (Claude Sonnet) — skrivande och syntes, inte komplex resonemang.
Uppskattad kostnad: ~0,30 USD/månad per kundmiljö.
5. Ops Coordinator — Orkestratorn
Jobb: Orkestrera teamet, hantera kundkommunikation och hålla eskaleringskedjan.
Coordinatorn är den dyraste agenten i teamet — inte för att den gör det mest beräkningsintensiva arbetet, utan för att den kör mest frekvent och använder en starkare modell. Den behöver omdömet att avgöra om en P3-incident förtjänar Incident Responders uppmärksamhet eller kan batchas in i veckorapporten. Den behöver skriva kundvända uppdateringar som är ärliga, tydliga och förtroendeskapande. Den behöver upptäcka när agenter är blockerade eller producerar lågkvalitativa utdata och ingripa innan det påverkar kundleveranser.
Coordinatorns primära loop är enkel: granska alla agentutdata, triagera och dirigera nytt arbete, batcha lågprioriterade resultat för veckobearbetning och eskalera omedelbart för P1/P2-incidenter eller budgetöverskridanden.
Dess eskaleringsregler är explicita och icke-förhandlingsbara. P1- och P2-incidenter går till den utsedda mänskliga eskaleringslistkontakten omedelbart — i samma heartbeat som de klassificeras. Budgetöverskridanden över 80% flaggas till kundens kontaktansvarig. Om tre eller fler agenter är blockerade samtidigt eskalerar Coordinatorn till TalentedAIs interna team.
Coordinatorn tillämpar också noisedisciplin. Azure-miljöer genererar många lågvärdesvarningar. Coordinatorn suppressar dubblettvarningar, batchär relaterade resultat och säkerställer att kundens inkorg innehåller kurerat, högsignalinformation snarare än ett flöde av rådata.
Kadensen: Var 30:e minut under kontorstid.
Modell: Claude Opus — behöver omdöme, inte bara syntes.
Uppskattad kostnad: ~0,80 USD/månad per kundmiljö.
Total kostnad och vad det ger dig
Det fullständiga femagens-teamet kostar ungefär 2,60 USD/månad i agentberäkning per kundmiljö. Det är inte hela kostnaden — Azure API-användning, infrastrukturhostning och TalentedAIs konfiguration och tillsyn är separat — men det illustrerar varför multi-agent-arkitekturen är ekonomiskt genomförbar på en mycket mindre skala än de flesta förutsätter.
Som jämförelse: en enstaka DevOps-ingenjör som gör detta arbete manuellt skulle spendera 4–8 timmar per vecka på övervakning, rapportering och incidenttriage. Ett AI-agentteam som kör kontinuerligt, sju dagar i veckan, till under 5 USD/månad i beräkningskostnad, med samma informationstäthet och utan context-switching-overhead.
ROI-argumentet för de flesta Azure-intensiva SMEs är inte komplicerat. Om din Azure-faktura är över 50 000 SEK/månad och du inte optimerar den proaktivt, kommer den första månadens Analyzer-resultat typiskt att lyfta fram tillräckligt med slöseri för att täcka servicekostnaden många gånger om.
Vad vi lärde oss av att bygga detta
Designen kom inte fullt formad. Några saker vi fick fel i första omgången:
Vi gav initialt Monitor Agent för många ansvarsområden. Tidiga versioner hade den inte bara läsa in telemetri utan också göra grundläggande anomaliclassificering. Utdata var rörigare och svårare för downstream-agenter att konsumera rent. Att separera observation från klassificering förbättrade båda agenterna.
Coordinatorns modell spelar större roll än vi förväntade. Initialt använde vi en mellanklassmodell för Coordinatorn för att spara kostnad. Kvaliteten på dess triagebeslut — vilka resultat att eskalera, vilka att batcha, hur man skriver kundsammanfattningar — försämrades märkbart. Att uppgradera Coordinatorn till Opus var en meningsfull kvalitetsförbättring värd kostnadsskillnaden.
Skrivskydd är rätt standard, även när det känns alltför konservativt. Det finns alltid press att låta agenter "stänga loopen" genom att vidta automatiserade saneringsåtgärder. Vi höll fast vid skrivskydd för denna implementation. Den rätta punkten att introducera automatiserade åtgärder — om någonsin — är efter månaders förtroendeutveckling med kunden, med explicita godkännandearbetsflöden och börja med lågrisksreversibla åtgärder.
Azure Ops-teamet är TalentedAIs referensarkitektur för AI-driven infrastrukturdrift. Om du utvärderar hur detta kan se ut för din Azure-miljö är Azure Ops Pilot startpunkten: ett två-till-fyra-veckors engagemang som får hela agentteamet att köra på din infrastruktur, producerar dina första optimeringsresultat och levererar dina första rapporter.
TalentedAI bygger AI-agentteam för företag. Det här inlägget beskriver vår interna arkitektur — från orkestrering och heartbeats till den governance-plattform som håller ihop alltsammans.