大資料文摘編譯作品
編譯:王夢澤、笪潔瓊 、夏雅薇
邏輯回歸的結果很難解讀, 在真實的商業環境中考慮到你要跟你的老闆或同事解釋模型的時候, 有可能自己都無法解釋清楚, 所以慎用純粹的邏輯回歸, 尤其是對於初學者來說, 這是作者對邏輯回歸的建議。
近期, 資料科學圈出現了不少“資料科學家應最先學習邏輯回歸”的聲音。 作為一名與市場行銷人員、銷售人員、工程師一起工作的“孤立的”統計學家, 我深深反對這一說法!
有許多工作尤其是生物統計領域都要求從業人員能夠掌握並運用邏輯回歸的知識。
在我的職業生涯中, 我可以靈活地選擇使用哪些方法和工具, 如今許多從業者都處於類似的環境中。
因此有一定的幾率, 初學者在對邏輯回歸的原理瞭解很少的情況下, 使用像黑盒工具一樣的邏輯回歸, 然後把自己拉入深坑。
下面列出了5條邏輯回歸應放在最後學習的理由:
存在著上百種不同類型的邏輯回歸, 一些適用於分類變數, 一些適用於特定的分佈(例如泊松分佈)。 專家在使用時也常常感到困惑, 初學者和你的老闆更會如此。
轉換因變數後(通常是比例或二值型因變數, 例如本文觀點正確/錯誤),
除非能夠妥善處理(例如使用ridge或Lasso回歸), 否則在雜訊、缺失值和髒資料的影響下會導致模型過度擬合及缺乏穩健性(使用例如梯度優化等技術的反覆運算演算法)。
邏輯回歸的係數不容易解釋。 當你對決策者或者其他部門解釋模型時, 很少有人能夠理解。
最好的模型通常會將多種方法混合到一起, 以便能盡可能多的獲得/解釋差異。 在我作為資料科學家長達30年的職業生涯中, 從未使用過純邏輯回歸,
相關報導:
https://www.datasciencecentral.com/profiles/blogs/why-logistic-regression-should-be-the-last-thing-you-learn-when-b
【今日機器學習概念】
Have a Great Definition
志願者介紹
回復“志願者”加入我們