資料科學家要先學邏輯回歸？圖樣圖森破！

大資料文摘編譯作品

編譯：王夢澤、笪潔瓊、夏雅薇

邏輯回歸的結果很難解讀，在真實的商業環境中考慮到你要跟你的老闆或同事解釋模型的時候，有可能自己都無法解釋清楚，所以慎用純粹的邏輯回歸，尤其是對於初學者來說，這是作者對邏輯回歸的建議。

近期，資料科學圈出現了不少“資料科學家應最先學習邏輯回歸”的聲音。作為一名與市場行銷人員、銷售人員、工程師一起工作的“孤立的”統計學家，我深深反對這一說法！

有許多工作尤其是生物統計領域都要求從業人員能夠掌握並運用邏輯回歸的知識。

如果你在大學曾學過一些邏輯回歸，這會對你很有幫助，但對於初學者來說，它並不是入門課程。

在我的職業生涯中，我可以靈活地選擇使用哪些方法和工具，如今許多從業者都處於類似的環境中。

因此有一定的幾率，初學者在對邏輯回歸的原理瞭解很少的情況下，使用像黑盒工具一樣的邏輯回歸，然後把自己拉入深坑。

下面列出了5條邏輯回歸應放在最後學習的理由：

存在著上百種不同類型的邏輯回歸，一些適用於分類變數，一些適用於特定的分佈（例如泊松分佈）。專家在使用時也常常感到困惑，初學者和你的老闆更會如此。

轉換因變數後（通常是比例或二值型因變數，例如本文觀點正確/錯誤），

問題就變成了線性回歸。雖然純粹主義者聲稱實際的邏輯回歸模型更精確，然而相較於模型的精確度，資料的品質才是至關重要的。如果資料有20%的雜訊，或者理論模型是對實際情況的粗略估計，那麼模型精確度高出1%並沒有實際用處。

除非能夠妥善處理（例如使用ridge或Lasso回歸），否則在雜訊、缺失值和髒資料的影響下會導致模型過度擬合及缺乏穩健性（使用例如梯度優化等技術的反覆運算演算法）。

邏輯回歸的係數不容易解釋。當你對決策者或者其他部門解釋模型時，很少有人能夠理解。

最好的模型通常會將多種方法混合到一起，以便能盡可能多的獲得/解釋差異。在我作為資料科學家長達30年的職業生涯中，從未使用過純邏輯回歸，

但我開發出了一項更加穩健且便於使用及程式設計的混合技術，結果也容易解讀。它將“不純的”邏輯回歸和“不純的”決策樹混合在一起，效果十分顯著，尤其是對於你的“不純”資料評分時。詳情請戳。

相關報導：

https://www.datasciencecentral.com/profiles/blogs/why-logistic-regression-should-be-the-last-thing-you-learn-when-b

【今日機器學習概念】

Have a Great Definition

志願者介紹

回復“志願者”加入我們