Skip to main content

Classification vs. Prediction: Statistical Thinking

· 8 min read

此內容基於 Frank Harrell 的原文 由 Google NotebookLM 生成

這篇文章區分了預測與分類這兩種資料分析方法,強調預測模型,尤其是基於機率的預測,在大多數情況下優於分類方法。文章指出,分類往往是一種過早的決策,它將預測與決策結合,限制了決策者根據不同的成本或效用函數進行判斷的靈活性。機率模型 則能夠量化傾向,並提供誤差估計,使其在處理不確定或隨機結果時更為合適。作者認為,分類技術最適合應用於高信噪比且結果具有確定性的情況,例如模式識別(pattern recognition),而在醫學診斷、天氣預報或風險評估等領域,應優先使用機率預測。

想嘗試透過 Google NotebookLM 來整理舊筆記,檢視自己過去的理解盲點。當重新檢視 NotebookLM 內容時,發現自己對統計思維與機器學習方法論的理解又有了新的層次。

測驗

問題:

  1. 根據文章,分類與預測之間的主要區別是什麼?
  2. 為什麼作者認為在許多決策情境中,分類是一種「過早的決定」?
  3. 機器學習領域與統計學領域之間有何歷史關聯,這如何影響了機器學習專家對機率思考的強調?
  4. 為什麼文章指出,將邏輯迴歸(logistic regression)標記為分類方法是錯誤的?
  5. 在文章中,分類系統如何「篡奪」了決策者在成本效益分析中的角色?
  6. 文章如何反駁了「最終需要二元決策,因此需要二元分類」的常見論點?
  7. 什麼是高信噪比的情況,為什麼作者認為分類技術最適用於這些情況?
  8. 在處理高度不平衡的二元結果變數時,傳統的機器學習分類器會遇到什麼問題?邏輯迴歸如何優雅地解決這個問題?
  9. 文章強調了選擇具有正確統計屬性的「敏感準確度評分規則」的重要性。為什麼這對機器分類專家來說是一個重要的問題?
  10. 作者對天氣預報的例子有何看法?他為什麼不想要「今天會下雨」這樣的分類預報?

答案:

  1. 預測涉及量化趨勢(例如機率),並將其與決策分離。而分類則是一種強制選擇的過早決定,它將預測與決策結合,並預設了統一的成本/效益函數。
  2. 分類將預測與決策結合,並預設了錯誤決策的成本,從而取代了決策者的角色。當成本、效用或抽樣標準改變時,分類規則必須重新制定,而預測則獨立於這些因素。
  3. 機器學習獨立於統計學發展,導致其專家不強調機率思考,而機率思考是統計學的標誌。這使得機器學習專家傾向於使用分類器而非風險預測模型。
  4. 邏輯迴歸是一種機率模型,它估計事件發生的可能性,而不是直接做出二元分類決定。分類是基於這些機率並應用特定閾值後的結果,因此邏輯迴歸本身是預測方法而非分類方法。
  5. 分類系統假設每個使用者都具有相同的效用函數,並且分類系統所暗示的效用函數就是那個唯一的效用函數。這剝奪了不同決策者根據自身獨特的風險閾值和偏好進行決策的權利。
  6. 文章指出,最佳決策可能是在機率居中時「不作決定,獲取更多資料」。此外,許多決策是可撤銷的,即使最終需要二元決策,也應在決策點(當所有效用已知時)進行,而非在資料分析階段。
  7. 高信號雜訊比的情況是指結果明確、可重複且存在已知「黃金標準」的場景,例如光學字符識別。在這些情況下,分類器可以被訓練以高準確度識別單一「正確」答案,且用戶通常沒有時間處理「接近的判斷」。
  8. 在高度不平衡的樣本中,分類器可能會傾向於將所有個體分類為多數類別,即使這樣做會忽略少數類別的資訊。邏輯迴歸則能優雅地處理這種情況,透過納入影響發生率的變數作為預測因子,或僅重新校準截距來適應不同的盛行率。
  9. 選擇不當的準確度評分規則(例如僅計算正確分類的比例)會導致模型評估失真,產生「虛假模型」。這是一個關鍵問題,因為它會影響模型的可靠性和決策的有效性,而許多機器學習專家缺乏這方面的統計背景。
  10. 作者希望天氣預報以機率形式呈現(例如「降雨機率為 30%」),而非直接分類(「會下雨」)。這樣他可以根據自己對攜帶雨傘的「輕微損失/無效用」的權衡,自行做出是否攜帶雨傘的決策。

深入解釋分類預設了統一的成本/效益函數

分類(classification)之所以被認為是一種「強制選擇的過早決定」,原因在於它將預測與決策這兩個步驟結合在一起。在這樣做的過程中,分類系統會:

預設一個統一的成本/效益函數:

  • 這意味著分類系統在設計時,已經隱含地設定了做出錯誤決策(例如,錯誤地將某人歸類為「陽性」或「陰性」)所帶來的成本,以及做出正確決策所帶來的效益
  • 換句話說,它假設了在所有應用情境和所有使用者眼中,錯誤和正確決策的「價值」或「代價」都是一樣的
  • 例如,在風險評估中,分類系統會假設所有使用者都有相同的風險閾值(risk thresholds)來決定是否採取行動。

剝奪了決策者的權利:

  • 由於分類系統預設了這個統一的成本/效益函數,它在做出最終的二元判斷(例如「是」或「否」、「買」或「不買」)時,就取代了實際的決策者來決定錯誤決策的成本
  • 然而,不同的終端使用者擁有不同的效益函數(utility functions)。例如,對於氣象預報,美國氣象局總是提供降雨機率,而不是直接分類為「今天會下雨」或「不會下雨」,因為使用者會根據自己對帶傘的不便(損失/負效益)和淋濕的風險,來自己權衡和做決定。
  • 因此,當成本/效益或抽樣標準發生變化時,分類規則必須重新制定。

無法適應個別情境:

  • 一個最佳的決策應該充分利用所有可用資料,先進行預測,然後再根據特定的損失/效益/成本函數來做出決策,例如最小化預期損失或最大化預期效益。
  • 然而,分類系統卻假設了每個使用者都擁有相同或被分類系統所隱含的那個效益函數
  • 這導致它在「點對點決策」(point of care)時無法靈活應用,因為此時所有的效益(utilities)才真正明確。

總結來說,「預設了統一的成本/效益函數」是指分類模型在進行二元判斷時,已經內建了一個固定的「好壞標準」,而這個標準可能不適用於所有情況下不同決策者所面臨的實際成本與效益權衡。

信噪比

文中提到「信噪比」(signal:noise ratio)是為了區分何時適合使用分類方法,以及何時更應採用機率模型來預測結果。

主要的原因如下:

高信噪比情況下,分類器較為適用:

  • 當信噪比很高時,代表數據中的「信號」(即有意義的資訊)非常強,而「噪音」(即隨機變異或錯誤)相對較小。
  • 在這種情況下,問題通常是機械性的或非隨機性的,結果明確且可重複,例如模式識別(視覺、聲音、化學成分等)。
  • 例如,在光學字元識別中,對同一個字元進行分類,每次都會得到幾乎相同的結果,因為存在單一的「正確」答案,且信噪比極高。
  • 此外,複雜的機器學習演算法,除非信噪比高,否則需要龐大的數據量才能發揮作用,這也是將某些機器學習技術保留給高信噪比情況的另一個原因。

低信噪比情況下,應建模「趨勢」(機率)而非直接分類:

  • 當信噪比很低時,表示數據中存在較高的隨機性、生物變異、抽樣變異或測量誤差。
  • 在這種情況下,直接進行分類通常不是一個好目標,因為即使輸入相同,結果也可能不同(例如預測死亡或疾病)。
  • 此時,應該建模「趨勢」,即預測發生的機率。機率估計能夠更好地處理「接近的判斷」(close calls)和內在的隨機性。
  • 例如,美國氣象局總是提供降雨的機率預報,而不是簡單地分類「今天會下雨」,因為攜帶雨傘的利弊取捨應由使用者自行判斷。

總之,信噪比是判斷問題性質的關鍵因素,它引導分析師選擇是採用強制性選擇的分類方法(適用於結果明確、變異小的場景),還是基於機率的預測模型(適用於結果具有隨機性、變異大的場景)。