Data Science/Anomaly Dectection

Time Series Data Anomaly Detection (시계열 데이터 이상 탐지)

DS-9VM 2022. 1. 24. 22:28
728x90

What is Anomaly Dectection?

원문 : https://www.anodot.com/blog/what-is-anomaly-detection/

이상 탐지(이상치 분석이라고도 함)는 데이터 세트의 정상적인 동작에서 벗어나는 데이터 포인트, 이벤트 및/또는 관찰을 식별하는 데이터 마이닝의 한 단계입니다. 비정상적인 데이터는 기술적 결함과 같은 중요한 사건이나 소비자 행동의 변화와 같은 잠재적인 기회를 나타낼 수 있습니다. 기계 학습은 변칙 탐지를 자동화하는 데 점진적으로 사용되고 있습니다.

시계열 데이터 이상 탐지란 무엇입니까?

성공적인 이상 탐지는 시계열 데이터를 실시간으로 정확하게 분석하는 능력에 달려 있습니다. 시계열 데이터는 시간에 따른 일련의 값으로 구성됩니다. 즉, 각 포인트는 일반적으로 메트릭이 측정된 시간에 대한 타임스탬프와 해당 시점에 해당 메트릭과 연결된 값이라는 두 항목의 쌍입니다.

 

시계열 데이터는 그 자체로 투영이 아닙니다. 오히려 미래에 합리적으로 예상할 수 있는 것에 대해 교육받은 추측을 하는 데 필요한 정보를 포함하는 기록입니다. 이상 감지 시스템은 이러한 기대치를 사용하여 데이터 내에서 실행 가능한 신호를 식별하고 주요 KPI에서 이상치를 찾아 조직의 주요 이벤트에 대해 경고합니다.

비즈니스 모델 및 사용 사례에 따라 시계열 데이터 이상 감지 는 다음과 같은 중요한 지표에 사용할 수 있습니다.

  • 웹 페이지 조회수
  • 일일 활성 사용자
  • 모바일 앱 설치
  • 리드당 비용
  • 클릭당 비용
  • 고객 확보 비용
  • 이탈률
  • 이탈률
  • 클릭당 수익
  • 거래량
  • 평균 주문 금액

시계열 데이터 이상 감지는 먼저 기본 KPI에서 정상적인 동작에 대한 기준선을 생성해야 합니다. 이 기준선을 이해하면 시계열 데이터 이상 감지 시스템이 계절성을 추적할 수 있습니다. 수동 접근 방식은 하나의 데이터 그림에서 계절 데이터를 식별하는 데 도움이 될 수 있습니다. 그러나 수천 또는 수백만 개의 메트릭으로 확장해야 하는 경우 귀중한 비즈니스 통찰력을 제공하려면 시계열 데이터를 추적하고 이상 징후를 발견하는 작업을 자동화해야 합니다.

 

1. Global outliers ( 글로벌 이상)

포인트 이상이라고도 하며 이러한 이상값은 전체 데이터 세트 외부에 존재하는 경우

2. Contextual outliers

조건부 이상값이라고도 하는 이러한 비정상에는 동일한 컨텍스트에 존재하는 다른 데이터 요소와 크게 다른 값이 있습니다. 한 데이터 세트의 컨텍스트에서 변칙이 다른 데이터 세트의 변칙이 아닐 수 있습니다. 이러한 이상치는 해당 데이터 세트가 주어진 기간의 특정 수량에 대한 레코드이기 때문에 시계열 데이터에서 일반적입니다. 이 값은 글로벌 기대치 내에 존재하지만 특정 계절 데이터 패턴 내에서 변칙적으로 나타날 수 있습니다.

3. Collective outliers

집합 내의 데이터 요소의 하위 집합이 전체 데이터 집합에 대해 변칙적인 경우 이러한 값을 집합적 이상값이라고 합니다. 이 범주에서 개별 값은 전역적으로나 맥락적으로 변칙적이지 않습니다. 별개의 시계열을 함께 조사할 때 이러한 유형의 이상값을 보기 시작합니다. 개별 행동은 특정 시계열 데이터 세트에서 정상 범위를 벗어나지 않을 수 있습니다. 그러나 다른 시계열 데이터 세트와 결합하면 더 중요한 예외가 명확해집니다.

 

728x90