淺談異常值在資料分析中的重要性

網路上資料分析的課程,遇到像是空值都會教如何去補,用平均值、眾數或往前往後補等等,但遇到異常值 (outlier) 的時候,通常都是教如何判斷並刪除,像是超過三倍標準差就踢除掉之類的方法,但在真實世界中,出現這些異常值都是有原因的,好好思考異常值背後的原因和意義,甚至比一般值的分析還要來得重要。

異常值帶給我的反思

以我個人在數位媒體做資料分析的經驗,有一次在分析 Facebook 粉絲專頁洞察報告時,就發現某個月有 2 篇貼文觸及人數異常地高,是其他貼文的 10 倍以上,不禁讓我反思,在這茫茫數據中出現如此明顯的異常值,真的該按照 SOP 把他們刪掉嗎?

閱讀更多»