Mer åpen og autonom observerbarhet: den nye standarden i næringslivet

  • OpenTelemetry konsoliderer et felles telemetrispråk som frigjør leverandørbinding og forenkler integreringen av AI i observerbarhet.
  • Observerbarhet slutter å være bare operasjonell og kobles nå til forretningsmålinger, brukeropplevelse og reell økonomisk innvirkning.
  • Agentobservabilitet driver AI-agenter som oppdager, analyserer og løser problemer med økende autonomi, støttet av pålitelige data.
  • Sikkerhet, styring og nulltillit blir avgjørende for å kontrollere utvidelsen av agentisk AI og autonome systemer i kritiske miljøer.

mer åpen og autonom observerbarhet

La Observerbarhet har gått fra å være et teknisk nisjetema til en strategisk pilar For enhver organisasjon som er avhengig av programvare – noe som praktisk talt er alt – er det ikke lenger nok å bare «overvåke servere» eller se på isolerte dashbord. Bedrifter må forstå hva som skjer i systemene deres i sanntid, koble disse dataene til virksomheten og reagere raskt når noe går galt. Og som kronen på verket må de gjøre det i et stadig mer programvaredrevet miljø. Agent AI, åpne standarder og distribuerte arkitekturer.

I dette scenariet går trenden tydelig mot en mer åpen observerbarhet, tettere knyttet til forretningsresultater og mye mer autonomOpenTelemetry etablerer seg som det felles språket for telemetri, AI går utover eksperimentering og blir integrert i kjernen av observasjonsplattformer, og ITops-team forvandles til orkestratorer av intelligente systemer som oppdager, analyserer og til og med korrigerer problemer på egenhånd. La oss se på hvordan denne endringen skjer og hvilke implikasjoner den har for teknologi, virksomhet, sikkerhet og datastyring.

Fra klassisk overvåking til observerbarhetens æra

Utviklingen fra den tradisjonell overvåking mot moderne observerbarhet Det går langt tilbake. Da banebrytende APM-verktøy dukket opp, som de som ble popularisert av Lew Cirne med New Relic, var den store nyheten å kunne se i detalj hva koden til en monolittisk applikasjon gjorde i et bedriftseid datasenter. Det var en revolusjon: for første gang kunne team observere ytelsen til produksjonsapplikasjonene sine med svært fin granularitet.

Med ankomsten av skytjenester, mikrotjenester, containere, serverløs databehandling og DevOps og SRE-praksiserLandskapet endret seg fullstendig. Skiftet fra monolittiske til distribuerte systemer medførte at punkt-i-tid-synlighet ikke lenger var tilstrekkelig. En tjeneste er ikke lenger en enkelt applikasjon, men en sverm av flyktige mikrotjenester, orkestrert på plattformer som Kubernetes, distribuert dusinvis av ganger om dagen, og som kjører på hybridinfrastrukturer med flere skyleverandører.

I det miljøet kommer tradisjonell overvåking, fokusert på forhåndsdefinerte målinger og statiske varsler, til kort. Observerbarhet introduserer en annen tilnærming: innsamling og korrelering av målinger, logger, spor og hendelser å utlede systemets interne tilstand fra dets eksterne utganger. Det handler ikke bare om å vite at noe har feilet, men om å forstå hvorfor det skjedde og hvilken innvirkning det har på brukeren og virksomheten.

Forfattere liker Yuri Shkuro Denne forskjellen er godt oppsummert: overvåking måler det som på forhånd er bestemt som viktig, mens observerbarhet lar deg formulere nye spørsmål om systemet uten å ha forberedt alle indikatorene på forhånd. Med andre ord, Observerbarhet gjør telemetridata om til handlingsrettet kontekst for utvikling, drift og forretning.

Denne overgangen er også drevet av svært spesifikke faktorer: a brutalt press for å innovere rasktStadig mer krevende kunder som forlater en app ved den minste feil, et nesten uendelig utvalg av teknologier og administrerte tjenester, og en voksende automatisering av hele programvarens livssyklusAll den automatiseringen er også programvare som kan feile, og den trenger sin egen observerbarhet.

Kompleksitet, risiko og for mange verktøy: hvorfor observerbarhet er kritisk

observerbarhetstrender

Moderne arkitektur medfører fire store hodepiner som gjør at observerbarhet er praktisk talt obligatorisk Hvis du vil beholde kontrollen:

For det første kompleksiteten har skutt i væretEn container kan leve i minutter eller sekunder, en mikrotjeneste kan endre versjoner flere ganger om dagen, og komponentene mangedobles. Det som en gang var en monolittisk applikasjon, blir en konstellasjon av sammenkoblede tjenester. Driftsteamene befinner seg i en situasjon der de har å gjøre med hundrevis eller tusenvis av enheter som stadig endrer seg, hvorav mange de ikke har utviklet selv.

I tillegg til dette tydelig økning i risikoÅ distribuere flere ganger om dagen betyr kontinuerlig å introdusere endringer – og potensielle tilbakeføringer. Smidige praksiser og kontinuerlig levering legger til flere verktøy, pipelines og automatiseringer som også må vurderes. Evnen til raskt å oppdage et problem, identifisere rotårsaken og reversere eller utbedre det i løpet av minutter er ikke lenger ønskelig, men et krav.

Parallelt, en kompetansegapTeknologistakken er så enorm at det er umulig for én person å mestre databaser, nettverk, API-er, sikkerhet, containere, orkestreringsplattformer og CI/CD-verktøy. Mekanismer er nødvendige for å forstå hvordan alt henger sammen, hva som avhenger av hva, og hvor man skal se når noe går galt. Uten denne sammenhengende oversikten kan tiden som kastes bort på å hoppe mellom verktøy være enorm.

Og på toppen av det hele oppstår det problemer med «verktøyspredning» eller overskudd av verktøyHvert lag i stakken har vanligvis sin egen overvåkingsløsning: ett for databasen, et annet for infrastrukturen, et annet for front-end, et annet for logger, et annet for spor ... Korrelasjon av data mellom dem innebærer kontinuerlig kontekstbytte, manuelle søk og lengre hendelsesløsningstider. Dette er det stikk motsatte av hva som trengs når applikasjonen er nede og brukerne klager.

Svaret på alt dette ligger i en enhetlig observasjonsplattform som samler inn all relevant telemetri, kobler den til enhetene som genererer den, og lar ethvert team – utvikling, drift, sikkerhet, forretningsdrift – utforske og utnytte disse dataene fra ett enkelt sted. Dette inkluderer ikke bare ytelsesmålinger, men også forretningshendelser og signaler som avslører den økonomiske virkningen av hver hendelse.

OpenTelemetry som et felles språk for observerbarhet

En av de tydeligste trendene er konsolideringen av OpenTelemetry (OTel) som en åpen telemetristandardDet er et rammeverk med åpen kildekode som definerer API-er, SDK-er og komponenter for å samle inn målinger, logger og spor på en homogen måte, uten å være knyttet til en spesifikk produsent av observasjonsverktøy.

I årene som kommer er det forventet at Bedrifter krever kompatibilitet med OpenTelemetry til leverandørene sine. Årsaken er enkel: ved å bruke et «universelt språk» for å beskrive telemetri, kan en organisasjon bytte observasjonsplattformer uten å måtte omskrive eller instrumentere all koden sin på nytt. Dette reduserer risikoen for leverandørbinding og gir fleksibilitet til å utvikle stakken etter behov.

I motsetning til fullstendig proprietære løsninger, hvor hver ny integrasjon avhenger av produsentens veikart, har OTel Det gjør at integrasjoner overlever teknologiske endringer.Etter hvert som nye skytjenester, rammeverk eller kjøretider dukker opp, trenger de bare å sende telemetri i standardformatet for å kunne sende den til en hvilken som helst kompatibel backend.

Videre er bruken av OpenTelemetry nøkkelen til mate kunstig intelligens på riktig måteAI-modeller, enten det er tradisjonell maskinlæring, anomalideteksjon eller generativ AI, fungerer best når dataene er rene, strukturerte og konsistente. OTel tilbyr nettopp dette ensartede rammeverket for å generere og merke telemetrien som algoritmene deretter behandler.

Nyere studier tyder på at organisasjoner som allerede bruker OpenTelemetrySelv om det bare er delvis implementert, ser de en positiv innvirkning på indikatorer som omsetningsvekst, forbedrede driftsmarginer og merkevareomdømme. Det er ikke magi: å ha en konsistent og bærbar observerbarhetsbase gjør det enklere å oppdage problemer før de påvirker kunden og optimalisere ytelsen til viktige tjenester.

De tre søylene i en moderne observerbarhetspraksis

Utover å ta i bruk en standard som OTel, er en god observerbarhetspraksis avhengig av tre grunnleggende komponenter som forsterker hverandreåpen instrumentering, tilkoblede enheter (eller data) og programmerbarhet.

La åpen instrumentering Dette innebærer å samle inn telemetri fra både proprietære og åpen kildekode-agenter. Applikasjoner, tjenester, verter, containere, serverløse funksjoner, mobilapper, administrerte skytjenester – alt må kunne sende ut målinger, hendelser, logger og spor i formater som kan standardiseres. Det er her agenter fra tradisjonelle leverandører kommer inn i bildet, men også eksportører og biblioteker fra OpenTelemetry og andre åpen kildekode-prosjekter.

Den andre blokken er den tilhørende tilkoblede enheter og metadataDet er ikke nok å bare samle inn målinger og logger; du må forstå hvem som genererer dem og hvordan de forholder seg til hverandre. Dette krever identifisering av tjenester, databaser, køer, funksjoner, poder, klynger, skykontoer og kobling av telemetri og avhengigheter. Med denne konteksten kan plattformen automatisk gjengi arkitekturkart, samtaleflyter og hendelsestidslinjer uten at teamet trenger å konfigurere alt manuelt.

Basert på det kan man søke intelligens og avansert analyseVed å identifisere mønstre, avvik og korrelasjoner i datasettet, kan observasjonsplattformer bidra til å prioritere varsler, redusere støy, oppdage komplekse hendelser og akselerere rotårsaksanalyse. Dette er den naturlige veien mot stadig mer proaktiv observerbarhet og, som vi skal se senere, mot agentisk autonomi.

Endelig er det programmerbarhetHver bedrift har spesifikke behov: egne KPI-er, ulike kritiske prosesser og unike kostnadsmodeller. En moderne observasjonsplattform må tillate bygging av tilpassede applikasjoner og visninger oppå all telemetrien: dashbord som blander tekniske data med forretningsmålinger, økonomisk konsekvensanalyse av driftsavbrudd eller forringelser, eller interne applikasjoner for å undersøke komplekse hendelser i henhold til selskapets arbeidsflyt.

Denne muligheten til å «programmere» på observerbarhetsdata åpner døren for brukstilfeller som kvantifiser den reelle kostnaden av en feil I en betalingsprosess, relater den til den tekniske årsaken (for eksempel en regresjon i en mikrotjeneste i utsjekkingen) og prioriter dermed korrigeringsarbeidet med rent økonomiske konsekvenskriterier.

Forretningsorientert observerbarhet: fra konsoll til resultat

En av de største forventede endringene er overgangen fra én observerbarhet fokusert på den tekniske driften til en annen tydelig forretningsorientert. De samme dataene – logger, spor, målinger, hendelser – begynner å bli brukt ikke bare til å vedlikeholde infrastrukturen, men også til å svar på viktige spørsmål om inntekter, kostnader og brukeropplevelse.

I industrisektorer, for eksempel, tillater observerbarheten til IoT-sensorer forutse maskinfeil og optimalisere vedlikeholdsplaner. Hvis det oppdages unormale vibrasjonsmønstre eller temperaturer utenfor rekkevidde, kan inngrep planlegges før produksjonslinjen stopper, noe som forhindrer uplanlagt nedetid og de økonomiske konsekvensene av dette.

I finanssektoren, analysering i sanntid av transaksjonslogger Det hjelper med å identifisere mistenkelige transaksjoner som kan være relatert til svindel. Når systemet oppdager atypiske hendelsesforløp, uvanlige geolokasjoner eller beløp som bryter med vanlige mønstre, kan det utløse automatiske blokkeringsmekanismer eller manuell gjennomgang før et angrep lykkes.

Innen markedsføring og salg, korrelering av applikasjonsspor med kampanjemålinger Det lar deg svare på svært direkte spørsmål: Påvirker nettsidens latens klikkfrekvens eller konvertering? Hvilken versjon av en funksjon forbedrer navigasjon og oppholdstid best? Hvis ytelsen synker under en kampanje, hjelper observerbarhet med å identifisere hvor mange potensielle salg som har gått tapt, og på hvilket nøyaktig punkt i salgstrakten problemet oppsto.

Alt dette innebærer å oversette teknisk telemetri til handlingsrettet kunnskap for bedriftsledereDet handler ikke om å vise en salgsdirektør en CPU-graf, men om å vise dem hvor mange transaksjoner som ikke ble fullført på grunn av tjenesteforringelse og hva den estimerte kostnaden var. Og for å oppnå dette må observerbarhet koble tekniske data, brukerhendelser og forretningsmålinger innenfor samme modell.

Konsulentfirmaer som spesialiserer seg på observerbarhet, som Nettaro, hjelper allerede bedrifter og institusjoner med å å ta dette spranget fra en rent operasjonell visjon til en strategisk visjonutforme modeller som kobler forretnings-KPI-er med sanntids telemetrisignaler.

Fra AIOps til agentobservabilitet

Adopsjonen av Kunstig intelligens i observerbarhetsplattformer Det er allerede en realitet. De fleste ITOps-team har innlemmet AIOps-komponenter – algoritmer som analyserer store mengder driftsdata for å oppdage avvik, gruppere hendelser eller forutsi problemer – i arbeidsflytene sine.

I mange tilfeller blir det også integrert Generativ AI å samhandle med telemetri ved hjelp av naturlig språk: still samtalespørsmål som «hvorfor økte antallet feil med 500 i Europa for 20 minutter siden?» og få en forklaring basert på logger, beregninger og spor uten å måtte bygge komplekse spørringer.

Imidlertid er de fleste beslutninger i dag basert på AI De fortsetter å bli anmeldt av folkAlgoritmer bidrar til å filtrere ut støy og identifisere potensielle årsaker, men driftsteamene opprettholder kontrollen, validerer anbefalinger og utfører mange utbedringstiltak manuelt. Full tillit til automatiserte beslutninger er fortsatt begrenset.

Det er her AgentobservabilitetDette er en tilnærming der AI-agenter inntar en mye mer autonom rolle: de oppdager ikke bare mønstre og forklarer hva som skjer, men også De administrerer komplette arbeidsflyter, fra å identifisere feilen til å implementere riktig løsning.

I denne modellen kan en agent for eksempel oppdage en unormal økning i latensen til en kritisk tjeneste, korrelere den med en spesifikk distribusjon, sjekke historikken til lignende hendelser og selv avgjøre om starte en tilbakestilling, skalere kapasitet eller bruke en alternativ konfigurasjonAlt dette registreres i detalj for revisjon og eventuell påfølgende menneskelig gjennomgang.

For tiden bruker bare et mindretall av selskapene dette Observerbarhet av aktiv agentmed automatisert utbedring og avansert problemprediksjon. Men prognoser indikerer at bruken av dette vil øke betydelig, drevet av søket etter større produktivitet i IT-team og behovet for å redusere tiden de bruker på repeterende vedlikeholdsoppgaver.

Begrensninger ved manuell veiledning og behovet for autonomi

Etterspørselen etter selvstendig næringsdrivende agenter forstås bedre hvis vi ser på ekstreme tilfeller som observerbarhet av store språkmodeller (LLM)Manuell overvåking av denne typen systemer er en nærmest umulig oppgave: datavolumene er gigantiske, arkitekturene kombinerer flere distribuerte komponenter, og behovet for sanntidsovervåking er konstant.

Overfloden av poster og målinger gjør det Det er veldig tregt å identifisere problemer manueltEnhver forsinkelse i å oppdage en endring i atferd, en økning i feil eller en forringelse av kvaliteten på svar kan ha alvorlige konsekvenser i produksjonsmiljøer, både når det gjelder brukeropplevelse, omdømme og samsvar med regelverk.

Videre forbruker manuell observasjon mange menneskelige ressurser; utsatt for feil og skalerer ikke godt Etter hvert som antallet modeller, instanser eller integrasjoner med forretningsapplikasjoner vokser, blir det som kanskje fungerer i en pilotfase med noen få brukere en flaskehals når systemet rulles ut i hele organisasjonen.

Derfor, i komplekse miljøer som de som involverer LLM eller svært distribuerte arkitekturer, er behovet for autonome observerbarhetsløsningerVi snakker om systemer som er i stand til kontinuerlig å analysere telemetri, oppdage avvik, foreslå eller utføre korrigerende tiltak og lære av hver intervensjon for å forbedre effektiviteten over tid.

Visjonshandlingsagenter og automatisering på grensesnitt

Utviklingen av AI er ikke begrenset til området «klassisk» observerbarhet. Forskning fra selskaper som NVIDIA, med prosjekter som Nitrogen Det driver modeller som kombinerer visjon og handlingsmuligheter: agenter som observerer en skjerm, utleder miljøets tilstand og bestemmer hva de skal gjøre videre, uten spesifikke integrasjoner med systemet de kontrollerer.

Teknisk sett innebærer dette å trene en modell med et stort utvalg av videoer av spill eller interaksjoner slik at de lærer å relatere det de ser til handlingene en ekspert ville gjort. De jobber med tidssekvenser, bevegelsesdiskretisering, langsiktige mål og optimalisering under flere begrensninger som latens eller stabilitet.

Selv om det mest synlige eksemplet er spilling, har denne visjon-handling-tilnærmingen et enormt potensial i næringslivet: den muliggjør etablering av agenter som opererer på grafiske grensesnitt konvensjonell, navigering i komplekse applikasjoner, kjøring av repeterende flyter, validering av prosesser eller utføring av ende-til-ende-tester uten behov for spesifikke API-er.

Dette representerer en slags naturlig utvikling av tradisjonell RPA mot en Smartere, mer kontekstuell automatiseringTypiske brukstilfeller inkluderer automatisert programvaretesting som simulerer reell brukeratferd, veiledet støtte som replikerer klikk-for-klikk hva en ansatt skal gjøre, generering av syntetisk data for kvalitetssikring eller «digitale tvillinger» som replikerer menneskelig aktivitet i bedriftssystemer.

For at alt dette skal være levedyktig, en robust rammeverk for cybersikkerhet, styring og observerbarhetAgenter som samhandler med kritiske grensesnitt og systemer må overholde tilgangspolicyer, unngå farlige handlinger, logge hvert trinn for revisjonsformål og operere innenfor klart definerte grenser. Observerbarhet fungerer her både som en «svart boks» og en «verktøykasse»: den registrerer hva agenten gjør og gir data for å kalibrere og forbedre oppførselen.

Sikkerhet, styring og nulltillit i AI-agentenes tidsalder

Utvidelsen av agentisk AI og autonome systemer fører med seg Nye risikoer som må håndteres nøyeEn av de mest omtalte er den såkalte «skygge-AI»: agenter, modeller eller integrasjoner som lanseres utenfor organisasjonens offisielle kanaler, uten tilstrekkelig sikkerhet eller kontroll av regelverksoverholdelse.

Det er også faren for dobbeltagenter eller ondsinnede agenterDette kan skje enten ved design (eksterne angrep, umiddelbar manipulasjon, instruksjonsinjeksjon) eller på grunn av konfigurasjonsfeil som tillater et velmenende system å utføre utilsiktede handlinger. For å minimere disse risikoene er det viktig å anvende prinsipper for Null tillit spesifikt angående kunstig intelligens.

Null tillit betyr i denne sammenhengen at Ingen AI-agent eller -komponent anses som «pålitelig» som standard.Hver handling må være eksplisitt autorisert, tillatelser må begrenses til det nødvendige (prinsippet om minste privilegium), og alle interaksjoner må logges for senere revisjon. Observerbarhet blir dermed et sentralt element i AI-styring.

God observerbarhet muliggjør sanntidsovervåking av hva agenter gjør, deteksjon av unormal oppførsel, validering av tilgangspolicyer og tilgjengeligheten av fullstendig bevis i tilfelle hendelser. Verktøy som lister over tillatte handlinger, menneskelige gjennomganger av kritiske løkker, sanering av sensitive data og kontroller over plasseringen av databehandling (lokal, offentlig sky, suveren sky) er viktige elementer i en robust sjekkliste. effektiv AI-styring.

I dette scenariet er det viktig å finne balanse mellom innovasjon og kontrollOrganisasjoner ønsker å utnytte potensialet til agentisk AI fullt ut for å øke produktiviteten og konkurranseevnen, men uten å ofre sikkerhet, samsvar med regelverk eller åpenhet i automatisert beslutningstaking.

Data, infrastruktur og AI som det grunnleggende laget i virksomheten

Når man ser på det store bildet, utvikler AI seg fra å være et ekstra verktøy til å bli et strukturelt lag som økonomisk konkurranseevne er basert påAlt dreier seg om den transformasjonen: datastrategier, skyarkitektur, maskinvaredesign, arbeidsstyrkemodeller og til og med nasjonale retningslinjer for digital infrastruktur.

På den ene siden, Data konsolideres som den viktigste konkurransefordelerenEtter hvert som databehandling og modellering blir mer kommersialiserte, er det som utgjør forskjellen å ha dine egne data av høy kvalitet og godt styrt. Observerbarhet, ved å fange opp rik og kontekstuell telemetri, blir en av de mest verdifulle datakildene for kraftsystemer for AI og forbedre prosesser.

På den annen side, den AI-infrastruktur begynner å bli sett på som en strategisk nasjonal ressursFremveksten av suverene skyer er et svar på behovet for å kontrollere hvor sensitive data lagres og behandles, hvordan modeller trenes og under hvilke regulatoriske rammeverk de opererer. Land investerer i datasentre som er optimalisert for AI-arbeidsbelastninger, energieffektive og i samsvar med samsvarskrav.

Alt dette sammenfaller med en akselerert modernisering av datasentrePresset av energi- og kjølebehovet til AI-arbeidsbelastninger og agentsystemer, er energieffektivitet ikke lenger bare et driftsproblem, men har blitt en begrensende faktor for innovasjon og et krav om samsvar med miljøforskrifter.

Parallelt blir selskaper tvunget til å omskolere arbeidsstyrken sinMålet er ikke å gjøre alle til programmerere, men å utdanne fagfolk som er i stand til å orkestrere og utnytte disse autonome systemene: AI-drevne forretningseksperter, ingeniører som kan oversette driftsbehov til observerbarhet og sikkerhetspolicyer, og hybridroller som forstår både den tekniske og økonomiske effekten av beslutninger.

Samlet sett fører denne utviklingen til et scenario der mer åpen og autonom observerbarhet Det blir limet som knytter teknologi, forretninger og regulering sammen: standarder som OpenTelemetry garanterer dataportabilitet og kvalitet, AI og agentobservabilitet reduserer driftskompleksitet og akselererer hendelsesrespons, og styring og nulltillitspraksis sikrer at alt dette skjer under kontroll, sikkert og med reell revideringsmulighet.

Organisasjoner som klarer å formulere denne kombinasjonen – standardisert telemetri, enhetlige plattformer, fokus på forretningsresultater og AI-agenter styrt med god observerbarhet – vil være best posisjonert til å konkurrere i et miljø der digitale systemer blir stadig mer kritiske, komplekse og autonome, men også mer i stand til å generere konkret verdi når de administreres med riktig synlighet.

arkitekturen til en AI-fabrikk
Relatert artikkel:
Arkitekturen til en AI-fabrikk: nøkler til å bygge den godt