什麼是邏輯迴歸?

邏輯迴歸是一種資料分析技術,使用數學來尋找兩個資料要素之間的關係。然後,它使用這種關係來根據其中一個要素預測另一個要素的值。這樣的預測通常具有有限數量的結果,例如是或否。

例如,假設您想預測您的網站訪客是否會按下其購物車中的結帳按鈕。邏輯迴歸分析會著眼於過去的訪客行為,例如在網站上花費的時間和購物車中的商品數量。它透過分析確定,在過去,如果訪客在網站上花費超過五分鐘的時間,並將超過三件商品新增到購物車中,那麼他們就會按下結帳按鈕。有了此資訊,邏輯迴歸函數便可以預測新網站訪客的行為。

為什麼邏輯迴歸很重要?

邏輯迴歸是人工智慧和機器學習 (AI/ML) 領域的重要技術。ML 模型是軟體程式,您可以訓練該模型來執行複雜的資料處理任務,而無需人為介入。使用邏輯迴歸建立的 ML 模型,可協助組織從其業務資料中獲得切實可行的洞察。他們可以使用這些洞察進行預測分析,以降低營運成本、提高效率,並加速擴展。例如,企業可以發現改善員工留任率,或使產品設計盈利更高的模式。

下面,我們列出了使用邏輯迴歸比其他 ML 技術的一些優勢。

簡易性

邏輯迴歸模型在數學上比其他 ML 方法複雜度更低。因此,即使您的團隊中沒有人具有深入的 ML 專業知識,您也可以進行實作。

速度

邏輯迴歸模型可以高速處理大量資料,因為這些模型需要的運算容量更少,如記憶體和處理能力。這使其非常適合從 ML 專案開始的組織,以在某些方面很快奏效。

靈活性

您可以使用邏輯迴歸,來尋找具有兩個或更多有限結果問題的答案。您還可以將其用於預先處理資料。例如,您可以使用邏輯迴歸,將具有大範圍值的資料 (如銀行交易) 分類為較小、有限的值範圍。然後,您可以使用其他 ML 技術進行更準確的分析,來處理此較小的資料集。

可見性

與其他資料分析技術相比,邏輯迴歸分析讓開發人員能夠更好地了解內部軟體程序。疑難排解和錯誤修正也更容易,因為計算不太複雜。

邏輯迴歸有哪些應用?

邏輯迴歸在許多不同產業中具有多種實際應用。

生產製造

生產製造公司使用邏輯迴歸分析,來估算機械零件故障的可能性。然後,他們會根據此估算值來規劃維護排程,以將未來的失敗降至最低。

醫療保健

醫學研究人員透過預測患者疾病的可能性,來規劃預防性照護和治療。他們使用邏輯迴歸模型,來比較家族史或基因體對疾病的影響。 

金融

金融公司必須分析金融交易是否存在詐騙,並評估貸款申請和保險申請的風險。這些問題適用於邏輯迴歸模型,因為它們具有離散結果,例如高風險或低風險,以及詐騙性或非詐騙性。  

行銷

線上廣告工具使用邏輯迴歸模型,來預測使用者是否會點擊廣告。因此,行銷人員可以分析使用者對不同文字和影像的回應,並建立高效能廣告,讓客戶能夠與之互動。

迴歸分析如何運作?

邏輯迴歸是資料科學家常用於機器學習 (ML) 中的多種不同迴歸分析技術之一。若要了解邏輯迴歸,我們必須首先了解基本的迴歸分析。下面,我們使用線性迴歸分析的範例,來示範迴歸分析的運作方式。 

識別問題

任何資料分析都是從業務問題開始。針對邏輯迴歸,您應界定問題以取得特定的結果:

  • 下雨天會影響我們每月的銷售額嗎?(是或否)
  • 客戶執行什麼類型的信用卡活動?(授權、詐騙或潛在詐騙) 

收集歷史資料

識別問題後,您需要確定所涉及的資料因素。然後,您將收集所有因素的過去資料。例如,若要回答上述第一個問題,您可以收集過去三年每個月的雨天數和每月銷售資料。

訓練迴歸分析模型

您將使用迴歸軟體處理歷史資料。該軟體將處理不同的資料點,並以數學方式使用方程式來關聯。例如,如果三個月的雨天數是 3、5 和 8,而這些月份的銷售數量為 8、12 和 18,則迴歸演算法會將這些因素與方程式關聯起來:

銷售數量 = 2 * (雨天數) + 2

對未知值進行預測

針對未知值,軟體會使用等式進行預測。如果您知道七月會下雨六天,軟體將估算七月份的銷售額為 14。

邏輯迴歸模型如何運作?

若要了解邏輯迴歸模型,我們首先來了解方程式和變數。

方程

在數學中,方程式給出了兩個變數之間的關係:xy。您可以使用這些方程式或函數,藉由輸入不同的 xy 值,來繪製沿著 x 軸和 y 軸的圖形。例如,如果您繪製函數 y = 2*x 的圖形,您將得到一條直線,如下所示。因此,此函數也被稱為線性函數。

變數

在統計資料中,變數是其值會發生變化的資料因數或屬性。針對任何分析,某些變數都是獨立或解釋性變數。這些屬性是結果的原因。其他變數為因變數或回應變數;其值取決於自變數。一般來說,邏輯迴歸探索自變數如何透過查看兩個變數的歷史資料值,來影響一個因變數。 

在上面的範例中,x 被稱為自變數、預測變數或解釋性變數,因為它具有已知值。Y 被稱為因變數、結果變數或回應變數,因為它的值是未知的。 

邏輯迴歸函數

邏輯迴歸是使用邏輯函數或 logit 函數的統計資料模型,在數學中作為 xy 之間的方程式。logit 函數將 y 映射為 x 的 sigmoid 函數。

如果繪製此邏輯迴歸方程式,您會得到一個 S 曲線,如下圖所示。

正如您所看到的,logit 函數僅傳回變數 0 至 1 之間的值,而不考慮自變數的值。這就是邏輯迴歸估算因變量值的方式。邏輯迴歸方法還會在多個自變數和一個因變數之間建立方程式模型。

具有多個自變數的邏輯迴歸分析

在許多情況下,多個解釋性變數會影響因變數的值。若要對此類輸入資料集建模,邏輯迴歸公式假設不同自變數之間的線性關係。您可以修改 sigmoid 函數,並計算最終輸出變數 

y = f0 + β1x1 + β2x2+… βnxn)

符號 β 代表迴歸係數。當您給它足夠大的實驗資料集與因變數和自變數的已知值時,logit 模型可以反向計算這些係數值。 

對數勝率

logit 模型還可以確定成功與失敗的比率,或對數勝率。例如,如果您和朋友一起玩撲克牌,並且贏得 10 場牌局中的 4 場,那麼您贏的勝率為六分之四 (4/6),這是成功與失敗的比率。另一方面,贏的概率是十分之四。

在數學上,勝率就概率而言為 p/(1 - p),而對數勝率則為 log (p/(1 - p))。您可以將邏輯函數如下所示表示為對數勝率︰

邏輯迴歸分析有哪些類型?

根據因變數的結果,有三種邏輯迴歸分析方法。

二進制邏輯迴歸

二進制邏輯迴歸適用於只有兩個可能結果的二進制分類問題。因變數只能有兩個值,例如 yes 和 no 或 0 和 1。

即使邏輯函數計算 0 至 1 之間的值範圍,二進制迴歸模型也會將答案四捨五入至最接近的值。通常,小於 0.5 的答案四捨五入為 0,而大於 0.5 的答案則四捨五入為 1,以便邏輯函數傳回二進制結果。

多項邏輯迴歸

多項迴歸可分析有幾種可能結果的問題,只要結果的數量是有限的。例如,它可以根據人口數據,預測房價是否會增加 25%、50%、75% 或 100%,但無法預測房屋的確切價值。

多項邏輯迴歸透過將結果值映射至 0 和 1 之間的不同值來運作。由於邏輯函數可以傳回一系列連續數據,例如 0.1、0.11、0.12 等,因此,多項迴歸也會將數組輸出至最接近的可能值。

序數邏輯迴歸

序數邏輯迴歸,或有序 logit 模型,是一種特殊類型的多項迴歸,針對其中數字代表排列,而非實際值的問題。例如,您可以使用序數迴歸,來預測調查問題的答案,該問題要求客戶根據數值 (如他們在一年中向您購買的商品數量),將您的服務評級為「較差」、「一般」、「較好」或「出色」。

邏輯迴歸與其他 ML 技術相比如何?

兩種常見的資料分析技術為線性迴歸分析和深度學習。

線性迴歸分析

如上所述,線性迴歸透過使用線性組合,來對因變數和自變數之間的關係建模。線性迴歸方程式為

y= β0X0 + β1X1 + β2X2+… βnXn+ ε,其中 β1 至 βn 和 ε 為迴歸係數。

邏輯迴歸與線性迴歸

線性迴歸透過使用一組制定自變數,來預測連續的因變數。連續變數可以具有一定範圍值,例如價格或年齡。因此,線性迴歸可以預測因變數的實際值。它可以「10 年後的米價是多少?」等問題

與線性迴歸不同,邏輯迴歸是一種分類演算法。它無法預測連續資料的實際值。它可以回答「10 年後的米價是否會增加 50%?」等問題

深度學習

深度學習使用模擬人腦的神經網路或軟體元件來分析資訊。深度學習計算以向量的數學概念為基礎。

邏輯迴歸與深度學習

邏輯迴歸沒有深度學習那麼複雜,而且運算密集程度也更低。更重要的是,由於其複雜的機器驅動性質,開發人員無法調查或修改深度學習計算。另一方面,邏輯迴歸計算是透明的,更容易進行疑難排解。

如何在 AWS 上執行邏輯迴歸分析?

您可以使用 Amazon SageMaker,在 AWS 上執行邏輯迴歸。Amazon SageMaker 是一項全受管機器學習 (ML) 服務,具有用於線性迴歸和邏輯迴歸的內建演算法,以及多種其他統計資料軟體套件。

  • 每個資料科學家都可以使用 Amazon SageMaker,快速準備、建置、訓練和部署邏輯迴歸模型。
  • Amazon SageMaker 可消除邏輯迴歸程序中每個步驟的繁重工作,讓開發高品質模型變得更加簡便。
  • Amazon SageMaker 在單一工具集中,提供邏輯迴歸所需的所有元件,因此您能夠以更快、更簡易且成本更低的方式將模型投入生產。

立即建立 AWS 帳戶,以開始使用邏輯迴歸。

AWS 上的後續步驟

查看額外的產品相關資源
AWS 上的免費機器學習服務 
註冊免費帳戶

立即存取 AWS 免費方案。 

註冊 
開始在主控台進行建置

開始在 AWS 管理主控台進行建置。

登入