Prometheus와 InfluxDB

Ⅰ.Prometheus와 InfluxDB 개념 정리

다차원 데이터 모델
- 모든 시계열 데이터는 메트릭 이름과 Key-Value 형태의 레이블(Label) 집합으로 식별
강력한 쿼리 언어 (PromQL)
- 다차원 데이터 모델을 효과적으로 다루기 위해 설계된 강력한 쿼리 언어 PromQL을 제공
- 복잡한 연산, 집계, 예측 가능
시각화 및 경고
- 자체 웹 UI를 제공하지만, 주로 그라파나(Grafana)와 연동하여 시각화 대시보드 구축
- Alertmanager를 통해 경고 규칙을 정의하고 다양한 채널(Slack, Email 등)로 알림을 보낼 수 있음

시계열 데이터를 저장, 조회, 처리하는 데 최적화된 오픈소스 데이터베이스
특정 목적에 국한되지 않고, 서버 메트릭, IoT 센서 데이터, 금융 거래 기록, 실시간 분석 등 다양한 유형의 시계열 데이터를 처리하는 데 강점

TICK 스택: InfluxDB 생태계
- Telegraf: 데이터 수집 에이전트
- InfluxDB: 시계열 데이터베이스 (핵심)
- Chronograf: 데이터 시각화 도구
- Kapacitor: 데이터 처리 및 경고 엔진
데이터 자동 관리
- 데이터 보관 주기(Retention Policy)를 설정하여 오래된 데이터를 자동으로 삭제하거나, 다운샘플링(Downsampling)을 통해 데이터를 요약하여 저장 공간을 효율적으로 관리하는 기능 내장
SQL과 유사한 쿼리
- InfluxQL, Flux 등 SQL과 유사한 쿼리 언어를 제공해 기존 데이터베이스 사용자들도 비교적 쉽게 접근 가능

구분 항목	프로메테우스 (Prometheus)	인플럭스DB (InfluxDB)
핵심 정체성	모니터링 시스템 (All-in-One)	시계열 데이터베이스 (TSDB)
데이터 수집	Pull (풀): 서버가 능동적으로 수집	Push (푸시): 에이전트가 수동적으로 전송
주요 사용 목적	클라우드 네이티브 환경, 서버/인프라 상태 모니터링	IoT, 실시간 분석, 이벤트 로그 등 범용 시계열 데이터
데이터 모델	메트릭과 레이블 기반의 다차원 모델	Tag, Field 기반의 유연한 데이터 모델
쿼리 언어	PromQL: 강력한 분석 기능	InfluxQL/Flux: SQL과 유사하여 학습 용이
상태 확인	서비스 다운 시 즉시 인지 가능 (`up` 메트릭)	데이터가 안 들어올 때 원인 파악이 상대적으로 어려움
확장성/HA	단일 노드 기반. 별도 솔루션(Thanos 등) 필요	클러스터링 기능 내장 (오픈소스 버전은 제한적)
생태계	Grafana, Alertmanager 등과 조합	TICK Stack (Telegraf, Chronograf, Kapacitor)

프로메테우스의 약점인 '데이터 장기 저장(Long-Term Storage)' 문제를 해결하기 위해 InfluxDB를 활용

데이터 수집 (프로메테우스)
1. 기존과 동일하게 프로메테우스가 Pull 방식으로 각 서비스의 메트릭을 수집
2. 프로메테우스는 단기 데이터(예: 15~30일)를 보관하며 실시간 경고 및 운영 대시보드에 집중
원격 쓰기 (Remote Write)
1. 프로메테우스의 remote_write 기능을 설정
2. 이 기능은 프로메테우스가 수집한 모든 데이터를 지정된 원격 스토리지로 실시간 복사하여 전송
장기 저장 (InfluxDB)
1. remote_write의 대상으로 InfluxDB를 지정
2. InfluxDB는 프로메테우스로부터 받은 모든 메트릭 데이터를 받아 영구적으로 혹은 수년간 안전하게 보관
통합 분석 (Grafana).
- Prometheus 데이터 소스
  - 최근 데이터 조회, 실시간 운영 및 장애 대응에 사용
- InfluxDB 데이터 소스
  - 월별/분기별 성능 리포트, 장기적인 추이 분석 등 과거 데이터 조회에 사용