回歸分析

来源:www.uuuwell.com

   

回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法運用十分廣泛,回歸分析按照涉及的自變數的多少,可分為一元回歸分析和多元回歸分析;按照自變數和因變數之間的關係類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變數和一個因變數,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線XX係,則稱為多元線性回歸分析。

定義

  方差齊性   線XX係   效應累加   變數無測量誤差   變數服從多元正態分佈   觀察獨立   模型完整(沒有包含不該XX的變數、也沒有漏掉應該XX的變數)   誤差項獨立且服從(0,1)正態分佈。   現實數據常常不能完全符合上述假定。因此,統計學家研究出許多的回歸模型來解決線性回歸模型假定過程的約束。   研究一 個或多個隨機變數Y1 ,Y2 ,…,Yi與另一些變數X1、X2,…,Xk之間的關係的統計方法。又稱多重回歸分析。通常稱Y1,Y2,…,Yi為因變數,X1、X2,…,Xk為自變數。回歸分析是一類數學模型,特別當因變數和自變數為線XX係時,它是一種特殊的線性模型。最簡單的情形是一個自變數和一個因變數,且它們大體上有線XX係,這叫一元線性回歸,即模型為Y=a+bX+ε,這裡X是自變數,Y是因變數,ε是隨機誤差,通常假定隨機誤差的均值為0,方差為σ^2(σ^2大於0)σ2與X的值無關。若進一步假定隨機誤差遵從正態分佈,就叫做正態線性模型。一般的情形,差有k個自變數和一個因變數,因變數的值可以分解為兩部分:一部分是由自變數的影響,即表示為自變數的函數,其中函數形式已知,但含一些未知參數;另一部分是由於其他未被考慮的因素和隨機性的影響,即隨機誤差。當函數形式為未知參數的線性函數時,稱線性回歸分析模型;當函數形式為未知參數的非線性函數時,稱為非線性回歸分析模型。當自變數的個數大於1時稱為多元回歸,當因變數個數大於1時稱為多重回歸。   回歸分析的主要內容為:①從一組數據出發確定某些變數之間的定量關係式,即建立數學模型並估計其中的 未知參數。估計參數的常用方法是最小二乘法。   ②對這些關係式的可信程度進行檢驗。   ③在許多自變數共同影響著一個因變數的關係中,判斷哪個(或哪些)自變數的影響是顯著的,哪些自變數的影響是不顯著的,將影響顯著的自變數選入模型中,而剔除影響不顯著的變數,通常用逐步回歸、向前回歸和向後回歸等方法。   ④利用所求的關係式對某一生產過程進行預測或控制。回歸分析的應用是非常廣泛的,統計軟體包使各種回歸方法計算十分方便。   在回歸分析中,把變數分為兩類。一類是因變數,它們通常是實際問題中所關心的一類指標,通常用Y表示;而影響因變數取值的的另一變數成為自變數,用X來表示。   回歸分析研究的主要問題是:   (1)確定Y與X間的定量關係表達式。這種表達式成為回歸方程;   (2)對求得的回歸方程的可信度進行檢驗;   (3)判斷自變數X對Y有無影響;   (4)利用所求得的回歸方程進行預測和控制。

回歸分析的應用

  相關分析研究的是現象之間是否相關、相關的方向和密切程度,一般不區別自變數或因變數。而回歸分析則要分析現象之間相關的具體形式,確定其因果關係,並用數學模型來表現其具體關係。比如說,從相關分析中我們可以得知「質量」和「用戶滿意度」變數密切相關,但是這兩個變數之間到底是哪個變數受哪個變數的影響,影響程度如何,則需要通過回歸分析方法來確定。   一般來說,回歸分析是通過規定因變數和自變數來確定變數之間的因果關係,建立回歸模型,並根據實測數據來求解模型的各個參數,然後評價回歸模型是否能夠很好的擬合實測數據;如果能夠很好的擬合,則可以根據自變數作進一步預測。   例如,如果要研究質量和用戶滿意度之間的因果關係,從實踐意義上講,產品質量會影響用戶的滿意情況,因此設用戶滿意度為因變數,記為Y;質量為自變數,記為X。根據圖8-3的散點圖,可以建立下面的線XX係: Y=A+BX+§   式中:A和B為待定參數,A為回歸直線的截距;B為回歸直線的斜率,表示X變化一個單位時,Y的平均變化情況;§為依賴於用戶滿意度的隨機誤差項。   在SPSS軟體里可以很容易地實現線性回歸,回歸方程如下: y=0.857+0.836x   回歸直線在y軸上的截距為0.857、斜率0.836,即質量每提高一分,用戶滿意度平均上升0.836分;或者說質量每提高1分對用戶滿意度的貢獻是0.836分。   上面所示的例子是簡單的一個自變數的線性回歸問題,在數據分析的時候,也可以將此推廣到多個自變數的多元回歸,具體的回歸過程和意義請參考相關的統計學書籍。此外,在SPSS的結果輸出里,還可以彙報R2,F檢驗值和T檢驗值。R2又稱為方程的確定性係數(coefficient of determination),表示方程中變數X對Y的解釋程度。R2取值在0到1之間,越接近1,表明方程中X對Y的解釋能力越強。通常將R2乘以100%來表示回歸方程解釋Y變化的百分比。F檢驗是通過方差分析表輸出的,通過顯著性水平(significant level)檢驗回歸方程的線XX係是否顯著。一般來說,顯著性水平在0.05以下,均有意義。當F檢驗通過時,意味著方程中至少有一個回歸係數是顯著的,但是並不一定所有的回歸係數都是顯著的,這樣就需要通過T檢驗來驗證回歸係數的顯著性。同樣地,T檢驗可以通過顯著性水平或查表來確定。在上面所示的例子中,各參數的意義如表8-2所示。   表8-2 線性回歸方程檢驗
指標 顯著性水平 意義
R 0.89
「質量」解釋了89%的「用戶滿意度」的變化程度
F 276.82 0.001 回歸方程的線XX係顯著
T 16.64 0.001 回歸方程的係數顯著
示例 SIM手機用戶滿意度與相關變數線性回歸分析   我們以SIM手機的用戶滿意度與相關變數的線性回歸分析為例,來進一步說明線性回歸的應用。從實踐意義講上,手機的用戶滿意度應該與產品的質量、價格和形象有關,因此我們以「用戶滿意度」為因變數,「質量」、「形象」和「價格」為自變數,作線性回歸分析。利用SPSS軟體的回歸分析,得到回歸方程如下:   用戶滿意度=0.008×形象+0.645×質量+0.221×價格   對於SIM手機來說,質量對其用戶滿意度的貢獻比較大,質量每提高1分,用戶滿意度將提高0.645分;其次是價格,用戶對價格的評價每提高1分,其滿意度將提高0.221分;而形象對產品用戶滿意度的貢獻相對較小,形象每提高1分,用戶滿意度僅提高0.008分。   方程各檢驗指標及含義如下:   
指標 顯著性水平 意義
R2 0.89
「質量」和「形象」解釋了89%的「用戶滿意度」的變化程度
F 248.53 0.001 回歸方程的線XX係顯著
T(形象) 0.00 1.000 「形象」變數對回歸方程幾乎沒有貢獻
T(質量) 13.93 0.001 「質量」對回歸方程有很大貢獻
T(價格) 5.00 0.001 「價格」對回歸方程有很大貢獻
從方程的檢驗指標來看,「形象」對整個回歸方程的貢獻不大,應予以刪除。所以重新做「用戶滿意度」與「質量」、「價格」的回歸方程如下: 用滿意度=0.645×質量+0.221×價格   對於SIM手機來說,質量對其用戶滿意度的貢獻比較大,質量每提高1分,用戶滿意度將提高0.645分;用戶對價格的評價每提高1分,其滿意度將提高0.221分(在本示例中,因為「形象」對方程幾乎沒有貢獻,所以得到的方程與前面的回歸方程係數差不多)。   方程各檢驗指標及含義如下:   
指標 顯著性水平 意義
R 0.89
「質量」和「形象」解釋了89%的「用戶滿意度」的變化程度
F 374.69 0.001 回歸方程的線XX係顯著
T(質量) 15.15 0.001 「質量」對回歸方程有很大貢獻
T(價格) 5.06 0.001 「價格」對回歸方程有很大貢獻

回歸分析的步驟

根據預測目標,確定自變數和因變數

  明確預測的具體目標,也就確定了因變數。如預測具體目標是下一年度的銷售量,那麼銷售量Y就是因變數。通過市場調查和查閱資料,尋找與預測目標的相關影響因素,即自變數,並從中選出主要的影響因素。

建立回歸預測模型

  依據自變數和因變數的歷史統計資料進行計算,在此基礎上建立回歸分析方程,即回歸分析預測模型。

進行相關分析

  回歸分析是對具有因果關係的影響因素(自變數)和預測對象(因變數)所進行的數理統計分析處理。只有當變數與因變數確實存在某種關係時,建立的回歸方程才有意義。因此,作為自變數的因素與作為因變數的預測對象是否有關,相關程度如何,以及判斷這種相關程度的把握性多大,就成為進行回歸分析必須要解決的問題。進行相關分析,一般要求出相關關係,以相關係數的大小來判斷自變數和因變數的相關的程度。

檢驗回歸預測模型,計算預測誤差

  回歸預測模型是否可用於實際預測,取決於對回歸預測模型的檢驗和對預測誤差的計算。回歸方程只有通過各種檢驗,且預測誤差較小,才能將回歸方程作為預測模型進行預測。

計算並確定預測值

  利用回歸預測模型計算預測值,並對預測值進行綜合分析,確定最後的預測值。

注意的問題

  應用回歸預測法時應首先確定變數之間是否存在相關關係。如果變數之間不存在相關關係,對這些變數應用回歸預測法就會得出錯誤的結果。   正確應用回歸分析預測時應注意: ①用定性分析判斷現象之間的依存關係;   ②避免回歸預測的任意外推;   ③應用合適的數據資料;

圖書信息

  書 名: 回

歸分析   作 者:謝宇   出版社: 社會科學文獻出版社   出版時間: 2010年8月1日   ISBN: 9787509716014   開本: 16開   定價: 45.00元

內容簡介

  《回歸分析》源於作者多年在密歇根大學教授回歸分析的課程講義,從基本的統計概念講起,對線性回歸分析的基本假定、回歸中的統計推論和回歸診斷做了詳盡的介紹,同時還涵蓋了很多在社會科學中對實際研究非常有用的內容,包括虛擬變數、交互作用、輔助回歸、多項式回歸、樣條函數回歸和階躍函數回歸等。此外,《回歸分析》還涉及通徑分析、縱貫數據模型、多層線性模型和Iogit模型等方面的內容。

作者簡介

  謝宇,美國密歇根大學OtisDudleyDuncan傑出教授,同時也是密歇根大學社會學系、統計系和中國研究中心教授,社會研究院(ISR)人口研究中心和調查研究中心研究員,調查研究中心量化方法組主任;北京大學長江學者特聘講座教授。2004年當選美國藝術與科學院院士和台灣「中央研究院」院士,2009年當選美國國家科學院院士。其研究領域包括:社會分層、統計方法、人口學、科學社會學和中國研究。主要著作有:《分類數據分析的統計方法》、《科學界的女性》、《美國亞裔的人口統計描述》、《社會學方法與定量研究》、《婚姻與同居》等。

圖書目錄

  第1章 基本統計概念   1.1 統計思想對於社會科學研究的重要性   1.2 本書的特點   1.3 基本統計概念   1.4 隨機變數的和與差   1.5 期望與協方差性質   1.6 本章小結   第2章 統計推斷基礎   2.1 分佈   2.2 估計   2.3 假設檢驗   2.4 本章小結   第3章 一元線性回歸   3.1 理解回歸概念的三種視角   3.2 回歸模型   3.3 回歸直線的擬合優度   3.4 假設檢驗   3.5 對特定X下y均值的估計   3.6 對特定X下y單一值的預測   3.7 簡單線性回歸中的非線性變換   3.8 實例分析   3.9 本章小結   第4章 線性代數基礎   4.1 定義   4.2 矩陣的運算   4.3 特殊矩陣   4.4 矩陣的秩   4.5 矩陣的逆   4.6 行列式   4.7 矩陣的運演算法則   4.8 向量的期望和協方差陣的介紹   4.9 矩陣在社會科學中的應用   4.10本章小結   第5章 多元線性回歸   5.1 多元線性回歸模型的矩陣形式   5.2 多元回歸的基本假定   5.3 多元回歸參數的估計   5.4 0LS回歸方程的解讀   5.5 多元回歸模型誤差方差的估計   5.6 多元回歸參數估計量方差的估計   5.7 模型設定中的一些問題   5.8 標準化回歸模型   5.9 cHIP88實例分析   5.10 本章小結   第6章 多元回歸中的統計推斷與假設檢驗   6.1 統計推斷基本原理簡要回顧   6.2 統計顯著性的相對性.以及效應幅度   6.3 單個回歸係數反=0的檢驗   6.4 多個回歸係數的聯合檢驗   6.5 回歸係數線性組合的檢驗   6.6 本章小結   第7章 方差分析和F檢驗   7.1 一元線性回歸中的方差分析   7.2 多元線性回歸中的方差分析   7.3 方差分析的假定條件   7.4 F檢驗   7.5 判定係數增量   7.6 擬合優度的測量   7.7 實例分析   7.8 本章小結   第8章 輔助回歸和偏回歸圖   8.1 回歸分析中的兩個常見問題   8.2 輔助回歸   8.3 變數的對中   8.4 偏回歸圖   8.5 排除忽略變數偏誤的方法   8.6 應用舉例   8.7 本章小結   第9章 因果推斷和路徑分析   9.1 相關關係   9.2 因果推斷   9.3 因果推斷的問題   9.4 因果推斷的假設   9.5 因果推斷中的原因   9.6 路徑分析   9.7 本章小結   第10章 多重共線性問題   10.1 多重共線性問題的引入   10.2 完全多重共線性   10.3 近似多重共線性   10.4 多重共線性的度量   10.5 多重共線性問題的處理   10.6 本章小結   第11章 多項式回歸、樣條函數回歸和階躍甬數回歸   11.1 多項式回歸   11.2 樣條函數回歸   11.3 階躍函數回歸   11.4 本章小結   第12章 虛擬變數與名義自變數   12.1 名義變數的定義與特性   12.2 虛擬變數的設置   ……   第13章 交互項   第14章 異方差與廣義最小二乘法   第15章 縱貫數據的分析   第16章 多層線性模型介紹   第17章 回歸診斷   第18章 二分因變數的logit模型   詞彙表   參考文獻   後記

推薦閱讀