實時時間序列異常檢測

在多個時間序列傳感器上開發一個監測系統

照片由 lovely shots 於 Unsplash

儘管多年來收集不同來源的大量數據變得更加容易,但公司需要確保他們正在收集的數據能夠帶來價值。爲了幫助從數據中收集洞察力,機器學習和分析已經成爲趨勢性工具。由於這些領域需要實時的洞察力,大量不受歡迎的數據會造成實際問題。

在做出決定之前,關鍵是在採取行動之前,我們必須問:我們的數據中是否存在可能歪曲算法分析結果的異常情況?如果異常情況確實存在,關鍵是我們要自動檢測並減輕其影響。這可以確保我們在採取行動之前得到儘可能準確的結果。

在這篇文章中,我們探討了不同的異常檢測方法,可以在大數據源上實時擴展。這個 tsmoothie 包可以幫助我們完成這個任務。Tsmoothie 是一個用於時間序列平滑和異常點檢測的 python 庫,可以以矢量的方式處理多個序列。它很有用,因爲它可以提供我們需要的技術來監測傳感器的時間。

異常情況的類型

首先,讓我們定義一下異常現象。它們可以是任何不同的或不正常的、與樣本或歷史數據中的其他數據有很大偏差的東西。

異常現象通常被分爲點狀異常和模式異常。點狀異常是指異常的單個實例,而模式異常則代表異常的數據集羣。

在大多數情況下,一些點的異常可能看起來像是運氣不好的情況。而對於模式異常,數據創造了一個看起來與正常情況非常不同的模式。模式異常更難發現,因爲我們首先必須能夠定義一個正常的模式,然後我們可能需要更多的數據來能夠分類,這個模式與歷史活動相比是異常的。

下面我們介紹不同的模擬場景,在這些場景中,我們應用適合於異常檢測的不同技術。它們的採用是與領域相關的,而且都是基於簡單的假設。這種簡單性在所有我們缺乏信息或存在少量數據的任務中是很重要的。

點異常

我們在這裏的目的是檢測那些與其他的數據點有如此大的偏差。這引起了人們的懷疑,即這些點是由一個不同的機制產生的。

使用了兩種不同的算法:卷積平滑器和指數平滑器。兩者都使用滑動窗口法對接收的信號進行平滑。卷積法使用離散的線性卷積,而指數法使用指數加權的卷積。卷積是一種數學運算,可以被描述爲兩個序列的乘積的積分:原始信號和權重。卷積平滑器使用預先定義的窗口函數(線性、漢寧、漢明、巴特利、黑曼)生成的權重。在線性類型的情況下,權重都是一樣的,都等於 1。這使得該操作等同於移動平均。指數平滑器使用用指數函數生成的權重。因此,在計算平滑的時候,最近的觀察值的權重最大。

分別考慮了兩種不同的數據結構:隨機漫步系列和無趨勢的季節性系列。

隨機漫步中的卷積平滑器的點異常現象

在沒有趨勢的季節性數據中使用指數平滑器的點反常現象

當收集到一個新的數值時,就會計算出平滑的結果。真實觀測值和相應的平滑值之間的差異被稱爲殘差。我們用它們來定義離羣點或異常點,即真實觀測值超過殘差置信區的點。

從模擬中,我們可以看到,我們的方法能夠檢測到可以歸類爲點狀異常的峯值和瘋狂的值。

模式異常

我們在這裏的目的是檢測一組連續的數據點,這些數據點總體上是異常的,儘管單個點可能是也可能不是點狀異常。當我們在尋找模式異常時,基本假設是原始數據必須顯示出一種模式。例如,季節性的時間序列就是這種情況。

時間序列中的季節性在很多數據中都可以觀察到。研究季節性成分對於有效的異常檢測至關重要。在這方面,一個關鍵的挑戰是如何確定季節性時期並將其與趨勢分開。季節 - 趨勢 - 分解是檢測季節和趨勢成分的常用方法之一。卷積濾波、LOWESS 或自然立方體 - 直線是 tsmoothie 用來檢測趨勢成分的技術。而季節性模式是用各期的平均數聚集來檢測的。從提取的趨勢和觀察到的季節性的聯合,我們可以建立一個假想的平滑值的時間序列。

有趨勢的季節性序列被考慮在內,使用分解平滑器檢測模式異常。在第一種情況下,我們的目的是檢測那些不尊重數據中迄今存在的研究模式的觀測值。對於大多數人來說,這就是打破季節性模式的觀測值的情況。在第二種情況下,我們在某些區間引入了一個轉變。我們想看看這是否被檢測出是一個可以改變趨勢的劇烈變化,從而被指出是異常的。

帶趨勢的季節性數據中使用分解平滑器的模式異常現象

季節性數據中帶有趨勢和轉移的分解平滑器的模式反常現象

平滑機制和殘差置信帶的計算和以前一樣。

從模擬結果中,我們可以看到,我們的方法能夠檢測到不尊重季節性模式的峯值。我們還可以指出我們的傳感器偏離了過去觀測中存在的假設模式的部分。在這最後一種情況下,我們也試圖提供一個理論信號的重建。

摘要

在這篇文章中,我們介紹了一些標準的技術來開發一個時間序列數據的監測工具。當我們想檢測異常情況,但又不願意透露底層系統的很多信息時,我們的方法顯得非常有用。所提出的方法對於同時處理多個時間序列也是很好的。我們必須注意選擇正確的方法並進行一些參數的調整。

來源:

https://www.toutiao.com/article/7088814933801976333/?log_from=3db25083a7f22_1650769497110

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/AwGqFf2kOdKWthKIkOFFCQ