포스트

[논문 번역] ARGOS: Agentic Time-Series Anomaly Detection with Autonomous Rule Generation via Large Language Models

[논문 번역] ARGOS: Agentic Time-Series Anomaly Detection with Autonomous Rule Generation via Large Language Models

논문 출처
Yile Gu, Yifan Xiong, Jonathan Mace, Yuting Jiang, Yigong Hu, Baris Kasikci, Peng Cheng.
ARGOS: Agentic Time-Series Anomaly Detection with Autonomous Rule Generation via Large Language Models.
University of Washington / Microsoft Research / Boston University.
🔗 원문 링크 (arXiv: 2501.14170v1)

저자

  • Yile Gu
  • Yifan Xiong
  • Jonathan Mace
  • Yuting Jiang
  • Yigong Hu
  • Baris Kasikci
  • Peng Cheng

(University of Washington, Microsoft Research, Boston University)


초록 (Abstract)

클라우드 인프라에서의 observability는 서비스 제공자에게 매우 중요하며,
이로 인해 모니터링 메트릭을 위한 anomaly detection 시스템이 널리 채택되고 있다.

그러나 기존 시스템들은 실제 운영 환경에서 필수적인 세 가지 특성인
explainability, reproducibility, autonomy를 동시에 달성하는 데 어려움을 겪고 있다.

본 논문에서는 대규모 언어 모델(LLM)을 활용하여
클라우드 인프라의 시계열 anomaly detection을 수행하는
agentic 시스템인 ARGOS를 제안한다.

ARGOS는 설명 가능하고 재현 가능한 anomaly rule을
intermediate representation으로 사용하며,
LLM을 이용해 이러한 규칙을 자율적으로 생성한다.

또한 시스템은 여러 협력 에이전트를 통해
오류 없고 정확도가 보장된 anomaly rule을 효율적으로 학습하며,
학습된 규칙을 저비용 온라인 anomaly detection에 배포한다.

평가 결과를 통해 ARGOS는 기존 state-of-the-art 방법들을 능가하였으며,
공개 anomaly detection 데이터셋과 Microsoft 내부 데이터셋에서
각각 최대 9.5%, 28.3%의 F1 score 향상을 달성하였다.


1 서론 (Introduction)

클라우드 서비스의 신뢰성과 가용성을 보장하는 것은
서비스 제공자에게 핵심적인 과제이다 [8, 19, 31, 32, 71].

서비스 중단(downtime)이나 장애(interruption)는
고객 경험과 비즈니스 운영 모두에 심각한 영향을 미칠 수 있기 때문이다.

2021년 12월에 autoscaling에 의해 촉발된
예기치 않은 연결성 급증(connectivity surge)으로 인해
Amazon Web Services(AWS)에서 대규모 장애가 발생하였으며,

이로 인해 하위 서비스들에 장애가 전파되었고
전 세계 수백만 명의 사용자에게 10시간 이상 영향을 미쳤다 [54].


서비스 중단의 부정적인 영향을 최소화하기 위해서는
메트릭 모니터링에서 anomaly를 조기에 탐지하는 것이 매우 중요하다.

이러한 메트릭들은 클라우드 서비스의 상태와 성능에 대한
실시간 통찰(real-time insight)을 제공하기 때문이다.

대규모 기업들은 실제 운영 환경(production environment)에서
anomaly detection 시스템을 개발하고 배포하는 경우가 많다 [49, 60, 69].

이러한 시스템들은 방대하고 동적인 인프라 구조의
규모(scale), 복잡성(complexity), 그리고 고유 요구사항(unique requirements)을 처리하도록 설계되어 있다.

예를 들어, Google의 Borg [60]는
작업 상태(task health)와 성능 메트릭(performance metrics)을 추적하는 강력한 모니터링 도구를 제공하며,

실패한 작업을 자동으로 재시작하고 수만 대 규모의 머신으로 확장(scale-up)할 수 있다.


그러나 다양한 형태의 anomaly가 존재하기 때문에,
높은 정확도로 anomaly를 적시에 탐지하는 것은 매우 어려운 문제이다.


그림 1: 256개의 A100 GPU를 사용하는 분산 모델 학습 환경에서의 GPU utilization 및 memory usage 메트릭.
작업(job)이 시작된 이후 NCCL에서 hang 문제가 발생한 상황을 보여준다.

image


예를 들어 그림 1은 실제 서비스 중단 사례를 보여주는데,
256개의 A100 GPU를 사용하는 분산 모델 학습 환경에서 네트워크 hang 문제가 발생한 상황이다 [44].

timestamp 17:20에서 문제가 발생하였고,
GPU들은 통신 재개를 기다리기 위해
busy wait 상태에 들어가면서 높은 utilization과 memory usage를 유지하였으며,
결과적으로 학습 과정이 정지(stall)되었다.

겉보기에는 GPU utilization이 포화(saturated) 상태이고
GPU memory가 효율적으로 사용되는 것처럼 보일 수 있으나,
정상적인 학습 과정에서는 GPU utilization과 GPU memory에 변동성(variation)이 존재해야 한다.

하지만 해당 그림에서는 이러한 변동성이 관찰되지 않는다.

수동으로 작성된 anomaly rule을 사용하는 모니터링 시스템들은
이 문제를 적시에 탐지하지 못하였으며,
결국 timestamp 17:50에서 사람이 직접 개입하여
학습을 종료한 이후에야 문제가 완화되었다.

그 결과 상당한 자원(resource)과 시간이 낭비되었다.

이와 같은 네트워크 hanging 문제는 여러 대형 기업들에서도 관찰된 바 있다 [14, 24, 66].

모니터링 시스템의 정확도를 향상시키기 위해 엔지니어들은
“모든 GPU가 15분 이상 지속적으로 100% utilization 상태로 동작하는 경우”와
같은 새로운 anomaly rule을 수동으로 추가해야 한다.


기존 연구들 [10, 28, 34, 46, 74]과
Microsoft에서 대규모 장애 관리(incident management)를 위한 이상 탐지 시스템을
실제로 배포하며 얻은 우리의 경험은,
이러한 시스템 설계에 필수적인 세 가지 핵심 특성을 강조한다:

(i) 설명 가능성(Explainability)

어떤 시스템도 완벽할 수는 없으며,
이상 탐지 시스템에서는 오탐(false alarm)이 불가피하게 발생한다.

알람이 발생했을 때
당직 엔지니어(on-call engineer, OCE)는
해당 결과가 발생한 근본 원인을 이해할 수 있어야 한다.

설명 가능한 이상 탐지 시스템은
OCE가 시스템의 부정확성을 쉽게 개선할 수 있도록 도와준다.

(ii) 재현 가능성(Reproducibility)

시스템은 동일한 입력 메트릭에 대해 항상 일관된 결과를 생성해야 한다.

이를 통해 실제 운영 환경(production)에서 알람이 발생했을 때
OCE는 다른 환경에서도 동일한 현상을 재현할 수 있으며,
추가적인 근본 원인 분석(root cause analysis)을 수행할 수 있다.

재현 가능한 이상 탐지 시스템은
비결정적(non-deterministic) 알람 또한 제거하여,
불필요한 엔지니어링 비용 낭비를 방지할 수 있다.

(iii) 자율성(Autonomy)

새로운 메트릭이나 주요 작업 부하(workload)가 도입되면 데이터 분포가 변화하기 때문에,
시스템은 지속적으로 업데이트되어야 한다 [5, 32].

자율적인 이상 탐지 시스템은 사람의 개입 없이도 이러한 데이터 분포 변화에 적응할 수 있다.


기존의 시계열 이상 탐지 연구는 크게 세 가지 방향으로 분류할 수 있지만,
이들 방법 중 어느 것도 설명 가능성, 재현 가능성, 자율성을 동시에 만족시키지는 못한다.

전통적인 딥러닝 기반 방법들 [38, 49, 51, 56, 59, 63, 67, 68, 70, 75]은
입력 데이터로부터 직접 이상 레이블을 생성하기 때문에
설명 가능성이 부족한 경우가 많다.

모델 정확도를 향상시키기 위해
엔지니어들은 일반적으로 하이퍼파라미터나 모델 구조를 조정하는데,
이로 인해 이러한 방법들은 부분적인 자율성만을 가진다.

LLM 기반 방법들 [4, 13, 18, 35]은
OCE가 이상 설명(anomaly description)을 기반으로 프롬프트를 입력할 수 있도록 하고,

데이터가 왜 이상으로 분류되었는지에 대한 설명과 함께
이상 레이블을 제공함으로써 설명 가능성과 자율성을 향상시킨다.

그러나 LLM의 본질적인 비결정성(non-determinism) [45, 57] 때문에,
이러한 방법들은 재현 가능성이 부족하며
동일한 데이터를 여러 번 입력하더라도 일관되지 않은 결과를 생성하는 경우가 많다.

결과적으로 규칙 기반 방법(rule-based methods) [11, 37, 69]이
설명 가능성과 재현 가능성을 달성하기 위해
산업 현장에서 시계열 이상 탐지에 널리 사용되고 있다.

이러한 방법들은 개발자가 이해하기 쉬운 이상 탐지 규칙을 사용한다.

왜냐하면 정확한 모니터링 로직이 명시적으로 정의되어 있으며,
모니터를 배포하기 전과 실제로 모니터가 동작한 이후
모두에서 그 동작 방식을 이해할 수 있기 때문이다.

그러나 현재의 규칙 생성(rule generation)과 임계값 조정(threshold tuning)은
여전히 수작업에 크게 의존하고 있으며, 따라서 자율성이 부족하다.

그림. 1의 예시에서 보인 것처럼,
이는 개발 리소스 부족이나 규칙 작성 과정에서의 인간 오류로 인해
모니터가 올바르게 설정되지 못하는 문제로 이어질 수 있다.


본 논문은 이상 탐지 시스템에서
설명 가능성, 재현 가능성, 자율성을 동시에 달성하는 방법을 탐구한다.

우리는 구조화된 탐지 규칙(structured detection rules)이
이러한 시스템을 위한 효과적인 중간 표현(intermediate representation)
역할을 수행한다는 점을 관찰하였다.

규칙 기반 방법(rule-based method)은
탐지 규칙이 실행 가능한 코드(executable code) 형태로 작성될 수 있음을 보여주며,
이는 재현 가능성과 설명 가능성을 모두 만족시킨다.

반면 LLM은 시계열 이상 탐지를 위한 규칙 생성을
자율적으로 수행하는 데 활용될 수 있다.

LLM은 시계열 작업(time-series tasks) [18, 25, 47]에서 유망한 성능을 보여주었으며,
데이터 패턴에 대한 강력한 이해 능력을 입증하였다.

또한 LLM은 다양한 작업을 위한 실행 가능한 코드(executable code)를 생성할 수 있다 [7, 12, 52].

이러한 특성들은 LLM을,
규칙을 자율적으로 생성하기 위한 이상적인 후보로 만든다.


우리 연구의 핵심 통찰 중 하나는
LLM이 생성한 규칙(rule)을 전통적인 규칙 기반(rule-based) 방법과 통합함으로써,
재현 가능성(reproducibility)을 유지하면서도
자율성(autonomy)과 설명 가능성(explainability) 사이의 간극을 줄일 수 있다는 점이다.

기존의 LLM 기반 방법들 [4, 13, 18, 35]은
런타임 탐지(runtime detection) 단계에서 LLM을 활용하는데,
이러한 방식은 종종 무작위성(randomness) 문제와 재현 가능성 부족 문제를 겪는다.

반면 우리는 학습 단계(training phase)에서
LLM을 사용하여 이상 탐지 규칙(anomaly rules)을 식별하고
이를 규칙 형태로 체계화(codify)한다.

이렇게 생성된 설명 가능하고 재현 가능한 규칙들은
이후 런타임 환경에서 이상(anomaly)을 탐지하는 데 활용된다.


그럼에도 불구하고, LLM을 이용해 이상 탐지 규칙을 생성하고
이를 실행 가능한 코드로 구현하는 과정에는 고유한 어려움이 존재한다.

첫째, LLM은 데이터 패턴을 잘못 이해하여
문법 오류(syntax error)가 있거나 부정확한 코드 및 규칙을 생성할 수 있다.

이러한 문법적 문제와 정확도 문제를 해결하는 것은 매우 어렵다.

둘째, LLM이 자율적으로 생성한 이상 규칙이
수년간의 운영 과정에서 충분히 튜닝된 기존 production 이상 탐지 시스템보다
더 높은 정확도를 가진다고 보장하기 어렵다.

마지막으로, LLM 동작의 본질적인 무작위성(randomness) 때문에,
제한된 횟수의 시도만으로 정확한 이상 탐지 규칙을 생성하는 것은 여전히 어려운 문제이다.
(LLM 생성 비용은 매우 높기 때문이다.)


이러한 문제들을 해결하기 위해,
우리는 LLM을 이용하여 규칙을 자율적으로 생성하는
시계열 이상 탐지 시스템 ARGOS를 제안한다.

먼저 ARGOS는 피드백 루프(feedback loop)를 포함한
에이전트 기반 파이프라인(agent-based pipeline)을 사용하여,
이상 탐지 규칙을 반복적으로 수정하고 정확도를 향상시킨다.

각 반복(iteration) 단계에서 여러 에이전트들은
규칙을 제안하고, 검증하고, 수정하고, 개선하는 작업을 협력적으로 수행하며,
이를 통해 문법 오류(syntax error)를 줄이고 정확도를 향상시킨다.

두 번째로, 더 높은 정확도를 보장하기 위해
ARGOS는 자신의 이상 탐지 규칙 예측 결과와
기존 이상 탐지 시스템의 예측 결과를 결합한다.

학습 과정에서 ARGOS는
기존 이상 탐지기가 잘못 분류한 샘플들을 중심으로 데이터 패턴을 학습한다.

실제 추론(runtime inference) 단계에서는
규칙 기반 예측과 기존 이상 탐지기의 예측을 통합하는
집계 알고리즘(aggregation algorithm)을 사용하여
최종 이상 예측 결과를 생성한다.

마지막으로, 정확한 이상 탐지 규칙을 생성하는 효율성을 높이기 위해
ARGOS는 각 반복 단계마다 동시에 n개의 규칙 후보(rule candidate)를 생성하고,
그중 가장 우수한 k개의 규칙을 선택하여 다음 반복 단계에서 추가적으로 개선(refinement)한다.


우리는 ARGOS를 널리 사용되는 두 개의 공개 시계열 이상 탐지 데이터셋인
KPI [33], Yahoo [27], 그리고 Microsoft에서 수집한 내부 데이터셋에서 평가하였다.

최고 성능의 베이스라인과 비교했을 때,
제안한 시스템은 KPI [33]와 Yahoo [27] 데이터셋에서
평균 F1 score를 각각 9.5%, 4.8% 향상시켰다.

또한 내부 데이터셋에서는 최대 28.3%의 F1 score 향상을 달성하였다.

추가적으로 ARGOS는 KPI, Yahoo, 내부 데이터셋에서
각각 추론 속도를 3.0배, 34.3배, 1.5배 향상시켰다.

정리하면, 본 논문의 기여는 다음과 같다:

  • 현재의 최신(state-of-the-art) 시계열 이상 탐지 시스템들이
    설명 가능성, 재현 가능성, 자율성을 동시에 달성하는 데 한계가 있음을 보였다.

  • LLM이 이상 탐지를 위한 설명 가능하고 재현 가능한 규칙을
    자율적으로 생성하는 데 활용될 수 있음을 관찰하였다.

  • LLM 기반 agentic 파이프라인을 통해
    이상 탐지 규칙을 자율적으로 학습하고 배포하는 시계열 이상 탐지 시스템 ARGOS를 제안하였다.

  • 공개 및 내부 데이터셋에서 ARGOS를 평가하였으며,
    최신 방법론들과 비교하여 그 효과성과 효율성을 입증하였다.


2 동기와 도전 과제 (Motivation and Challenges)

2.1 기존 방법들은 왜 한계를 가지는가? (Why Existing Methods Fall Short?)

배경(Background)

클라우드 인프라에서는 CPU 사용량, 메모리 사용량, 네트워크 지연 시간(latency), 디스크 I/O 등
다양한 메트릭들이 주기적으로 수집되고 지속적으로 모니터링되며,
이를 통해 클라우드 서비스의 상태를 유지한다 [9, 48, 72].

이상(anomaly)은 정상 패턴으로부터 크게 벗어나는 주요 운영 메트릭의 변화를 의미하며,
실제 운영 환경(production)에서는 하드웨어 장애, 소프트웨어 버그, 자원 경합(resource contention) 등
다양한 원인에 의해 발생할 수 있다 [14, 21, 24, 64, 69].

실제 환경에서는 매우 다양한 형태의 이상 패턴이 존재하며,
클라우드 인프라의 각 애플리케이션이나 각 메트릭은 서로 다른 동작 특성을 보일 수 있다.


그림 2: KPI 데이터셋의 두 가지 예시 메트릭.
파란색 선은 메트릭 데이터를 나타내며, 주황색 십자 표시는 이상(anomaly)을 나타낸다.

image


그림. 2는 KPI 데이터셋 [33]의 두 가지 예시 메트릭을 보여준다.

그림. 2a의 이상은 메트릭 값에서
여러 번의 급격한 스파이크(spike)가 발생하는 형태로 나타나며,
반면 그림. 2b의 이상은 지속적인 상승(shift-up) 형태로 나타난다.


규칙 기반 방법(Rule-Based Methods)

모니터링 시스템에서는
엔지니어들이 모니터링 지표(metric)의 이상(anomaly)을 탐지하기 위한
규칙(rule)을 작성하는 것이 일반적인 관행이다 [11, 37, 69].

이러한 규칙들은 일반적으로 도메인 지식(domain knowledge)과
엔지니어들의 경험을 바탕으로 만들어진다.


그림 3: 사람이 작성하고 Python으로 구현한 규칙의 예시로, [37]의 규칙을 수정한 것이다.

image


그림 3은 시계열(time-series) 데이터에서 이상을 탐지하기 위해
Python으로 구현된 이상 탐지 규칙의 예시를 보여주며,
이는 [37]에서 사용된 규칙을 기반으로 수정(adapted)된 것이다.

해당 rule 함수는 시계열 샘플(time-series sample)과 임계값(threshold)을 입력으로 받아,
각 데이터 포인트가 비정상(abnormal)인지 여부를 나타내는 labels 시퀀스를 반환한다.


표 1: 예시 metric에 대한 서로 다른 방법들의 F1 점수.

image


표 1은 최신(state-of-the-art) 딥러닝 기반 모델인 FCVAE 모델 [63]과
수동 규칙(manual rule)의 F1 점수(F1 score)를 비교한다.

비교는 그림 2에 제시된 두 개의 예시 metric에 대해
서로 다른 threshold를 적용하여 수행되었다.

우리는 수동 규칙의 결과가
각 metric에서 나타나는 이상 패턴의 특성에 매우 민감하다는 점을 관찰할 수 있었다.

따라서 특정 threshold를 적절히 설정하면 높은 F1 점수를 얻을 수 있다.

실제로 da403 metric에서는 수동 규칙이 FCVAE 모델과 유사한 성능을 보이지만,
1c35d metric에서는 다양한 threshold 전반에서 지속적으로 더 낮은 성능을 보인다.

이러한 차이는 두 metric이 서로 다른 이상 패턴(anomaly pattern)을 가지기 때문에 발생하며,
모든 유형의 이상을 효과적으로 처리할 수 있는
단일한 “one-size-fits-all” 규칙은 존재하지 않음을 보여준다.

또한 클라우드 서비스 환경에서 새로운 이상이나 새로운 metric이 등장할 경우,
엔지니어들은 이상 탐지 규칙을 수동으로 설계하거나 수정해야 한다.

이러한 작업은 많은 시간이 소요되며 상당한 수준의 전문성(expertise)을 요구한다 [69].


전통적인 딥러닝 기반 방법(Conventional DL-Based Methods)

딥러닝(DL) 모델은 데이터 레이블(data label)을 학습하여 이상(anomaly)을 분류함으로써
시계열 이상 탐지(time-series anomaly detection) 분야에서 유망한 성능을 보여주었다
[38, 49, 51, 56, 59, 63, 67, 68, 70, 75].

그러나 이러한 모델들은 설명 가능성(explainability)이 부족하다는 문제를 가지며,
이는 실제 환경에서 엔지니어들에게 큰 어려움이 된다.

이러한 DL 모델들은 많은 하이퍼파라미터(hyperparameter)를 포함하고 있으며,
각 하이퍼파라미터가 이상 탐지 성능에 어떤 영향을 미치는지를 해석하기 어렵다.

그 결과 엔지니어들은 최적의 설정(configuration)을 찾기 위해
매우 넓은 범위의 하이퍼파라미터에 대해
exhaustive grid search를 수행해야 하는 경우가 많으며,
이는 시간 소모가 크고 계산 비용(computational cost) 또한 매우 높다.


그림 4: KPI 데이터셋의 da403 metric에 대한 기존 방법들의 분석.

image


그림 4a는 KPI 데이터셋에서 da403 metric에 대해
FCVAE 모델 [63]의 grid search 결과를 보여준다.

여기서는 latent dimension과 window size라는 두 개의 하이퍼파라미터를 고려하였다.

latent dimension은
시계열 입력(time-series input)이 투영(projected)되는 hidden space의 차원을 의미하며,
window size는 모델이 예측(prediction)에 사용하는 데이터 포인트의 개수를 결정한다.

우리는 모델의 F1 점수가
서로 다른 하이퍼파라미터 설정에 따라 크게 달라진다는 점을 관찰할 수 있었으며,
이는 모델에 대해 최적의 하이퍼파라미터를 찾는 일이 어렵다는 것을 보여준다.

더 큰 latent dimension은 hidden space 안에 더 많은 정보를 포함할 수 있게 하지만,
그렇다고 해서 항상 더 좋은 모델 성능으로 이어지는 것은 아니다.

또한 window size의 경우,
120으로 설정한 것보다 100 또는 140으로 설정했을 때 훨씬 더 좋은 성능을 보였지만,
이러한 성능 차이가 발생하는 이유에 대한 명확한 직관(intuition)은 존재하지 않는다.


이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.