有沒有給做淘寶網(wǎng)站的中國十大網(wǎng)站有哪些
一、多元線性回歸模型簡介
回歸分析是數(shù)據(jù)分析中最基礎(chǔ)也是最重要的分析工具,絕大多數(shù)的數(shù)據(jù)分析問題,都可以使用回歸的思想來解決。回歸分析的任務(wù)就是,通過研究自變量X和因變量Y的相關(guān)關(guān)系,嘗試去解釋Y的形成機制,進(jìn)而達(dá)到通過X去預(yù)測Y的目的。
常見的回歸分析有五類:線性回歸、0-1回歸、定序回歸、計數(shù)回歸和生存回歸,其劃分的依據(jù)是因變量Y的類型。本篇主要講解多元線性回歸以及l(fā)asso回歸。
回歸分析的目的
- 識別重要變量
- 判斷相關(guān)性的方向
- 要估計權(quán)重(回歸系數(shù))
回歸分析分類
類型 | 模型 | Y的特點 | 例子 |
線性回歸 | OLS、GLS(最小二乘) | 連續(xù)數(shù)值型變量 | GDP、產(chǎn)量、收入 |
0-1回歸 | logistic回歸 | 二值變量(0-1) | 是否違約、是否得病 |
定序回歸 | probit定序回歸 | 定序變量 | 等級評定(優(yōu)良差) |
計數(shù)回歸 | 泊松回歸(泊松分布) | 計數(shù)變量 | 每分鐘車流量 |
生存回歸 | Cox等比例風(fēng)險回歸 | 生存變量(截斷數(shù)據(jù)) | 企業(yè)、產(chǎn)品的壽命 |
二、適用賽題
解釋類問題
- 問一個因變量y由多個自變量x決定,探究這多個x和y的關(guān)系
- 解釋哪個x和y關(guān)系更緊密
預(yù)測類問題
- 由于回歸模型會得到一個擬合曲線,進(jìn)而可以由這個曲線去預(yù)測一些值
- 不過注意,當(dāng)要用擬合曲線預(yù)測的時候,擬合優(yōu)度一定要大
三、模型流程
四、流程分析
注:回歸模型其中涉及到矩陣論、概率論與數(shù)理統(tǒng)計的知識,本篇不展開證明和講解。且推薦使用Stata軟件來進(jìn)行多元線性回歸分析。
1.處理變量
我們得到了一組數(shù)據(jù),要對數(shù)據(jù)進(jìn)行分類
橫截面數(shù)據(jù)
- 在某一時點收集的不同對象的數(shù)據(jù)
- 例如:我們自己發(fā)放問卷得到的數(shù)據(jù),全國各省份2018年GDP的數(shù)據(jù),大一新生今年體測的得到的數(shù)據(jù)
時間序列數(shù)據(jù)
- 對同一對象在不同時間連續(xù)觀察所取得的數(shù)據(jù)
- 例如:從出生到現(xiàn)在,你的體重的數(shù)據(jù)(每年生日稱一次),中國歷年來GDP的數(shù)據(jù),在某地方每隔一小時測得的溫度數(shù)據(jù)
面板數(shù)據(jù)
- 橫截面數(shù)據(jù)與時間序列數(shù)據(jù)綜合起來的一種數(shù)據(jù)資源
- 例如:2008-2018年,我國各省份GDP的數(shù)據(jù)
數(shù)據(jù)類型 | 常見建模方法 |
橫截面數(shù)據(jù) | 多元線性回歸 |
時間序列數(shù)據(jù) | 移動平均、指數(shù)平滑、ARIMA、GARCH、VAR、 協(xié)積 |
面板數(shù)據(jù) | 固定效應(yīng)和隨機效應(yīng)、靜態(tài)面板和動態(tài)面板 |
現(xiàn)在給出多元線性回歸方程
無內(nèi)生性(no endogeneity)要求所有解釋變量均與擾動項不相關(guān),這個假定通常太強,因為解釋變量一般很多(比如,5-15個解釋變量),且需要保證它們?nèi)客馍J欠窨赡苋趸藯l件?答案是肯定的,如果你的解釋變量可以區(qū)分為核心解釋變量與控制變量兩類。
- 核心解釋變量:我們最感興趣的變量,因此我們特別希望得到對其系數(shù)的一致估計(當(dāng)樣本容量無限增大時,收斂于待估計參數(shù)的真值)
- 控制變量:我們可能對于這些變量本身并無太大興趣,而之所以把它們也放入回歸方程,主要是為了“控制住”那些對被解釋變量有影響的遺漏因素
- 在實際應(yīng)用中,我們只要保證核心解釋變量與μ不相關(guān)即可
如果自變量中有定性變量,例如性別、地域等,在回歸中要怎么處理呢?例如:我們要研究性別對于工資的影響(性別歧視)。這時候可以用到虛擬變量
Female就是一個虛擬變量。
為了避免完全多重共線性的影響,引入虛擬變量的個數(shù)一般是分類數(shù)減1。例如男女是兩類,就引入了一個Female;如果是區(qū)別全國34個省的人,就可以設(shè)置33個虛擬變量。
2.初次回歸
利用Stata得到初次回歸的結(jié)果后,需要檢驗結(jié)果的可靠性,如果可靠就可以解釋系數(shù)完成工作如果不可靠,還需要調(diào)整方法繼續(xù)回歸。
問題出在擾動項
橫截面數(shù)據(jù)容易出現(xiàn)異方差的問題;時間序列數(shù)據(jù)容易出現(xiàn)自相關(guān)的問題。
①異方差
如果擾動項存在異方差
- OLS估計出來的回歸系數(shù)是無偏、一致的
- 假設(shè)檢驗無法使用(構(gòu)造的統(tǒng)計量失效了)
- OLS估計量不再是最優(yōu)線性無偏估計量(BLUE)
如何檢驗是否存在異方差
BP檢驗
原假設(shè):擾動項不存在異方差。P值小于0.05,說明在95%的置信水平下拒絕原假設(shè),即我們認(rèn)為擾動項存在異方差。
懷特檢驗
原假設(shè):擾動項不存在異方差。P值小于0.05,說明在95%的置信水平下拒絕原假設(shè),即我們認(rèn)為擾動項存在異方差。
②多重共線性
自相關(guān)的問題就是多重共線性的問題
如何檢驗是否存在多重共線性
3.處理問題
①如何解決異方差
- 使用OLS + 穩(wěn)健的標(biāo)準(zhǔn)誤。如果發(fā)現(xiàn)存在異方差,一種處理方法是,仍然進(jìn)行OLS回歸,但使用穩(wěn)健標(biāo)準(zhǔn)誤。這是最簡單,也是目前通用的方法。只要樣本容量較大,即使在異方差的情況下,若使用穩(wěn)健標(biāo)準(zhǔn)誤,則所有參數(shù)估計、假設(shè)檢驗均可照常進(jìn)行。換言之,只要使用了穩(wěn)健標(biāo)準(zhǔn)誤,就可以與異方差“和平共處”了
- 廣義最小二乘估計法GLS。原理:方差較大的數(shù)據(jù)包含的信息較少,我們可以給予信息量大的數(shù)據(jù)(即方差較小的數(shù)據(jù)更大的權(quán)重)缺點:我們不知道擾動項真實的協(xié)方差矩陣,因此我們只能用樣本數(shù)據(jù)來估計,這樣得到的結(jié)果不穩(wěn)健,存在偶然性
- Stock and Watson (2011)推薦,在大多數(shù)情況下應(yīng)該使用“OLS +穩(wěn)健標(biāo)準(zhǔn)誤”
②如何處理多重共線性
- 如果不關(guān)心具體的回歸系數(shù),而只關(guān)心整個方程預(yù)測被解釋變量的能力,則通??梢圆槐乩頃嘀毓簿€性(假設(shè)你的整個方程是顯著的)。這是因為,多重共線性的主要后果是使得對單個變量的貢獻(xiàn)估計不準(zhǔn),但所有變量的整體效應(yīng)仍可以較準(zhǔn)確地估計
- 如果關(guān)心具體的回歸系數(shù),但多重共線性并不影響所關(guān)心變量的顯著性,那么也可以不必理會。即使在有方差膨脹的情況下,這些系數(shù)依然顯著;如果沒有多重共線性,則只會更加顯著
- 如果多重共線性影響到所關(guān)心變量的顯著性,則需要增大樣本容量,剔除導(dǎo)致嚴(yán)重共線性的變量(不要輕易刪除哦,因為可能會有內(nèi)生性的影響),或?qū)δP驮O(shè)定進(jìn)行修改
③逐步回歸分析
沒有太好的方法處理多重共線性問題,可以調(diào)整回歸的方式
向前逐步回歸(Forward selection)
- 將自變量逐個引入模型,每引入一個自變量后都要進(jìn)行檢驗,顯著時才加入回歸模型
- 缺點:隨著以后其他自變量的引入,原來顯著的自變量也可能又變?yōu)椴伙@著了,但是,并沒有將其及時從回歸方程中剔除掉
向后逐步回歸(Backward elimination)
- 與向前逐步回歸相反,先將所有變量均放入模型,之后嘗試將其中一個自變量從模型中剔除,看整個模型解釋因變量的變異是否有顯著變化,之后將最沒有解釋力的那個自變量剔除。此過程不斷迭代,直到?jīng)]有自變量符合剔除的條件
- 缺點:一開始把全部變量都引入回歸方程,這樣計算量比較大。若對一些不重要的變量,一開始就不引入,這樣就可以減少一些計算。當(dāng)然這個缺點隨著現(xiàn)在計算機的能力的提升,已經(jīng)變得不算問題了
注意事項
- 向前逐步回歸和向后逐步回歸的結(jié)果可能不同
- 不要輕易使用逐步回歸分析,因為剔除了自變量后很有可能會產(chǎn)生新的問題,例如內(nèi)生性問題(后面會介紹lasso回歸)
- 有沒有更加優(yōu)秀的篩選方法?有的,那就是每種情況都嘗試一次,最終一共有2的k次方 - 1種可能。如果自變量很多,那么計算相當(dāng)費時
4.解釋系數(shù)
這里也可以看到,引入了新的自變量價格后,對回歸系數(shù)的影響非常大。這就是遺漏變量導(dǎo)致的內(nèi)生性的造成的。
伍德里奇的《計量經(jīng)濟(jì)學(xué)導(dǎo)論,現(xiàn)代觀點》里,第六章176 -177頁有詳細(xì)的論述。取對數(shù)意味著原被解釋變量對解釋變量的彈性,即百分比的變化而不是數(shù)值的變化。目前,對于什么時候取對數(shù)還沒有固定的規(guī)則,但是有一些經(jīng)驗法則
- 與市場價值相關(guān)的,例如,價格、銷售額、工資等都可以取對數(shù)
- 以年度量的變量,如受教育年限、工作經(jīng)歷等通常不取對數(shù)
- 比例變量,如失業(yè)率、參與率等,兩者均可
- 變量取值必須是非負(fù)數(shù),如果包含0,則可以對y取對數(shù)ln(1+y)
取對數(shù)的好處
- 減弱數(shù)據(jù)的異方差性
- 如果變量本身不符合正態(tài)分布,取了對數(shù)后可能漸近服從正態(tài)分布
- 模型形式的需要,讓模型具有經(jīng)濟(jì)學(xué)意義
下面有四類模型回歸系數(shù)的解釋
- 一元線性回歸:y = a + bx + μ,x每增加1個單位,y平均變化b個單位
- 雙對數(shù)模型:?lny = a + blnx + μ,x每增加1%,y平均變化b%
- 半對數(shù)模型:?y = a + blnx + μ,x每增加1%,y平均變化b/100個單位
- 半對數(shù)模型:?lny = a + bx + μ,x每增加1個單位,y平均變化(100b)%
5.再次回歸
在前面已經(jīng)介紹了如何解決存在異方差的情況。但是對于多重共線性并未有一個較好的解決方法,解決方法中的增大樣本量顯然不太現(xiàn)實,找點數(shù)據(jù)已經(jīng)不容易了,還要增大樣本量。所以在不用后面的方法的情況下,一般都是將導(dǎo)致嚴(yán)重共線性的變量刪除。下面我們介紹lasso回歸。
和lasso回歸一起出來的,還有嶺回歸。事實上,回歸中關(guān)于自變量的選擇大有門道, 變量過多時可能會導(dǎo)致多重共線性問題造成回歸系數(shù)的不顯著,甚至造成OLS估計的失效。本篇介紹到的嶺回歸和lasso回歸在OLS回歸模型的損失函數(shù)上加上了不同的懲罰項,該懲罰項由回歸系數(shù)的函數(shù)構(gòu)成。一方面,加入的懲罰項能夠識別出模型中不重要的變量,對模型起到簡化作用,可以看作逐步回歸法的升級版;另一方面,加入的懲罰項能夠讓模型變得可估計,即使之前的數(shù)據(jù)不滿足列滿秩。
和前面一樣,還是推薦使用Stata軟件分析。但大多數(shù)博客或講義上都是使用Python來做嶺回歸和lasso回歸的,因此有Python機器學(xué)習(xí)基礎(chǔ)的同學(xué)可以自己查閱相關(guān)的調(diào)用代碼。
另外,Stata中對于嶺回歸的估計有點bug,因此推薦用lasso回歸。
那么,什么時候用lasso回歸呢?
我們首先使用最一般的OLS對數(shù)據(jù)進(jìn)行回歸,然后計算方差膨脹因子VIF,如果VIF > 10則說明存在多重共線性的問題,此時我們需要對變量進(jìn)行篩選。
在前面我們提到可以使用逐步回歸法來篩選自變量,讓回歸中僅留下顯著的自變量來抵消多重共線性的影響,知道lasso回歸后,我們完全可以把lasso回歸視為逐步回歸法的進(jìn)階版,我們可以使用lasso回歸來幫我們篩選出不重要的變量,步驟如下
- 判斷自變量的量綱是否一樣,如果不一樣則首先進(jìn)行標(biāo)準(zhǔn)化的預(yù)處理;
- 對變量使用lasso回歸,記錄下lasso回歸結(jié)果表中回歸系數(shù)不為0的變量,這些變量就是最終我們要留下來的重要變量,其余未出現(xiàn)在表中的變量可視為引起多重共線性的不重要變量
在得到了重要變量后,我們實際上就完成了變量篩選,此時我們只將這些重要變量視為自變量,然后進(jìn)行回歸,并分析回歸結(jié)果即可。(注意:此時的變量可以是標(biāo)準(zhǔn)化前的,也可以是標(biāo)準(zhǔn)化后的,因為lasso只起到變量篩選的目的)
五、補充
1.擬合優(yōu)度較低怎么辦
- 回歸分為解釋型回歸和預(yù)測型回歸。預(yù)測型回歸一般才會更看重R2。解釋型回歸更多的關(guān)注模型整體顯著性以及自變量的統(tǒng)計顯著性和經(jīng)濟(jì)意義顯著性即可
- 可以對模型進(jìn)行調(diào)整,例如對數(shù)據(jù)取對數(shù)或者平方后再進(jìn)行回歸
- 數(shù)據(jù)中可能有存在異常值或者數(shù)據(jù)的分布極度不均勻
2.標(biāo)準(zhǔn)化回歸系數(shù)
為了更為精準(zhǔn)的研究影響評價量的重要因素(去除量綱的影響),我們可考慮使用標(biāo)準(zhǔn)化回歸系數(shù)。
對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,就是將原始數(shù)據(jù)減去它的均數(shù)后,再除以該變量的標(biāo)準(zhǔn)差,計算得到新的變量值,新變量構(gòu)成的回歸方程稱為標(biāo)準(zhǔn)化回歸方程,回歸后相應(yīng)可得到標(biāo)準(zhǔn)化回歸系數(shù)。
標(biāo)準(zhǔn)化系數(shù)的絕對值越大,說明對因變量的影響就越大(只關(guān)注顯著的回歸系數(shù)哦)。
3.對于線性的理解
線性假定并不要求初始模型都呈上述的嚴(yán)格線性關(guān)系,自變量與因變量可通過變量替換而轉(zhuǎn)化成線性模型。比如下面的都是線性模型