挤公交忘穿内裤被挺进,國產日韓亞洲精品AV,午夜漫画,china中国gary廖男男

邏輯回歸算法?

一、邏輯回歸算法?

邏輯回歸其實是一個分類算法而不是回歸算法。通常是利用已知的自變量來預測一個離散型因變量的值(像二進制值0/1,是/否,真/假)。簡單來說,它就是通過擬合一個邏輯函數(logit fuction)來預測一個事件發生的概率。所以它預測的是一個概率值,自然,它的輸出值應該在0到1之間。

  

假設你的一個朋友讓你回答一道題。可能的結果只有兩種:你答對了或沒有答對。為了研究你最擅長的題目領域,你做了各種領域的題目。那么這個研究的結果可能是這樣的:如果是一道十年級的三角函數題,你有70%的可能性能解出它。但如果是一道五年級的歷史題,你會的概率可能只有30%。邏輯回歸就是給你這樣的概率結果。

邏輯回歸的原理

Logistic Regression和Linear Regression的原理是相似的,可以簡單的描述為這樣的過程:

(1)找一個合適的預測函數(Andrew Ng的公開課中稱為hypothesis),一般表示為h函數,該函數就是我們需要找的分類函數,它用來預測輸入數據的判斷結果。這個過程時非常關鍵的,需要對數據有一定的了解或分析,知道或者猜測預測函數的“大概”形式,比如是線性函數還是非線性函數。

(2)構造一個Cost函數(損失函數),該函數表示預測的輸出(h)與訓練數據類別(y)之間的偏差,可以是二者之間的差(h-y)或者是其他的形式。綜合考慮所有訓練數據的“損失”,將Cost求和或者求平均,記為J(θ)函數,表示所有訓練數據預測值與實際類別的偏差。

(3)顯然,J(θ)函數的值越小表示預測函數越準確(即h函數越準確),所以這一步需要做的是找到J(θ)函數的最小值。找函數的最小值有不同的方法,Logistic Regression實現時有的是梯度下降法(Gradient Descent)。

二、邏輯回歸和判別分析區別?

(1)從含義上區分:

邏輯回歸又稱Logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數據挖掘、疾病自動診斷、經濟預測等領域。

判別分析又稱“分辨法”,是在分類確定的條件下,根據某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統計分析方法。

(2)從特點上區分

1.判別分析可以用于多分類情況;

2.線性判別分析比邏輯回歸更穩定;

3.利用貝葉斯定理計算后驗概率,當條件概率分布是正態分布,和邏輯回歸很相似。

三、簡述回歸處理的數據類型是?

回歸處理的數據類型主要包括定量數據和定性數據。定量數據:這是指可以測量和量化的數據,通常具有數值形式。在回歸分析中,定量數據用于預測一個或多個因變量的值。例如,收入、年齡、體重等都是定量數據。這些數據可以是連續的(如身高、體重)或離散的(如教育程度、婚姻狀況)。定性數據:與定量數據相對,定性數據是描述性的,通常不以數值形式存在。它用于描述事物的性質、類別或屬性。例如,“性別”、“國籍”、“婚姻狀況”等都是定性數據。在回歸分析中,定性數據通常用于分類或識別不同組之間的差異。在回歸分析中,數據類型對選擇適當的回歸模型至關重要。例如,對于預測連續目標變量的線性回歸模型,需要使用定量數據;而對于預測類別變量的邏輯回歸模型,則更適合使用定性數據。

四、logit回歸用途?

logistic回歸又稱logistic回歸分析,主要在流行病學中應用較多,比較常用的情形是探索某疾病的危險因素,根據危險因素預測某疾病發生的概率,等等。

例如,想探討胃癌發生的危險因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群肯定有不同的體征和生活方式等。

這里的因變量就是是否胃癌,即“是”或“否”,為兩分類變量,自變量就可以包括很多了,例如年齡、性別、飲食習慣、幽門螺桿菌感染等。

自變量既可以是連續的,也可以是分類的。通過logistic回歸分析,就可以大致了解到底哪些因素是胃癌的危險因素。

五、如何看logistic的回歸結果?

logistic回歸與多重線性回歸一樣,在應用之前也是需要分析一下資料是否可以采用logistic回歸模型。并不是說因變量是分類變量我就可以直接采用logistic回歸,有些條件仍然是需要考慮的。

首要的條件應該是需要看一下自變量與因變量之間是什么樣的一種關系。多重線性回歸中,要求自變量與因變量符合線性關系。而logistic回歸則不同,它要求的是自變量與logit(y)符合線性關系,所謂logit實際上就是ln(P/1-P)。也就是說,自變量應與ln(P/1-P)呈線性關系。當然,這種情形主要針對多分類變量和連續變量。對于二分類變量就無所謂了,因為兩點永遠是一條直線。

這里舉一個例子。某因素y與自變量x之間關系分析,y為二分類變量,x為四分類變量。如果x的四分類直接表示為1,2,3,4。則分析結果為p=0.07,顯示對y的影響在0.05水準時無統計學意義,而如果將x作為虛擬變量,以1為參照,產生x2,x3,x4三個變量,重新分析,則結果顯示:x2,x3,x4的p值分別為0.08,0.05和0.03。也就是說,盡管2和1相比無統計學意義,但3和1相比,4和1相比,均有統計學意義。

為什么會產生如此結果?實際上如果仔細分析一下,就可以發現,因為x與logit(y)并不是呈線性關系。而是呈如下圖的關系:

這就是導致上述差異的原因。從圖中來看,x的4與1相差最大,其次是2,3與1相差最小。實際分析結果也是如此,上述分析中,x2,x3,x4產生的危險度分別為3.1,2.9,3.4。

因此,一開始x以1,2,3,4的形式直接與y進行分析,默認的是認為它們與logit(p)呈直線關系,而實際上并非如此,因此掩蓋了部分信息,從而導致應有的差異沒有被檢驗出來。而一旦轉換為虛擬變量的形式,由于虛擬變量都是二分類的,我們不再需要考慮其與logit(p)的關系,因而顯示出了更為精確的結果。

最后強調一下,如果你對自變量x與y的關系不清楚,在樣本含量允許的條件下,最好轉換為虛擬變量的形式,這樣不至于出現太大的誤差。

如果你不清楚應該如何探索他們的關系,也可以采用虛擬變量的形式,比如上述x,如果轉換的虛擬變量x2,x3,x4他們的OR值呈直線關系,那x基本上可以直接以1,2,3,4的形式直接與y進行分析。而我們剛才也看到了,x2,x3,x4的危險度分別為3.1,2.9,3.4。并不呈直線關系,所以還是考慮以虛擬變量形式進行分析最好。

總之,虛擬變量在logistic回歸分析中是非常有利的工具,善于利用可以幫助你探索出很多有用的信息。

統計的分析策略是一個探索的過程,只要留心,你就會發現在探索數據關系的過程中充滿了樂趣,因為你能發現別人所發現不了的隱藏的信息。希望大家多學點統計分析策略,把統計作為一種藝術,在分析探索中找到樂趣。

樣本量的估計可能是臨床最頭疼的一件事了,其實很多的臨床研究事前是從來不考慮樣本量的,至少我接觸的臨床研究大都如此。他們大都是想到就開始做,但是事后他們會尋求研究中樣本量的依據,尤其是在投文章被審稿人提問之后。可能很少有人想到研究之前還要考慮一下樣本夠不夠的問題。其實這也難怪,臨床有臨床的特點,很多情況下是很難符合統計學要求的,尤其一些動物試驗,可能真的做不了很多。這種情況下確實是很為難的。

本篇文章僅是從統計學角度說明logistic回歸所需的樣本量的大致估計,不涉及臨床特殊問題。

其實不僅logistic回歸,所有的研究一般都需要對樣本量事前有一個估計,這樣做的目的是為了盡可能地得出陽性結果。比如,你事前沒有估計,假設你做了20例,發現是陰性結果。如果事前估計的話,可能會提示你需要30例或25例可能會得出陽性結果,那這時候你會不會后悔沒有事前估計?當然,你可以補實驗,但是不管從哪方面角度來講,補做的實驗跟一開始做得實驗可能各種條件已經變化,如果你在雜志中說你的實驗是補做的,那估計發表的可能性就不大了。

一般來說,簡單的研究,比如組間比較,包括兩組和多組比較,都有比較成熟的公式計算一下你到底需要多少例數。這些在多數的統計學教材和流行病學教材中都有提及。而對于較為復雜的研究,比如多重線性回歸、logistic回歸之類的,涉及多個因素。這種方法理論上也是有計算公式的,但是目前來講,似乎尚無大家公認有效的公式,而且這些公式大都計算繁瑣,因此,現實中很少有人對logistic回歸等這樣的分析方法采用計算的方法來估計樣本量。而更多地是采用經驗法。

其實關于logistic回歸的樣本量在部分著作中也有提及,一般來講,比較有把握的說法是:每個結局至少需要10例樣品。這里說得是每個結局。例如,觀察胃癌的危險因素,那就是說,胃癌是結局,不是你的總的例數,而是胃癌的例數就需要這么多,那總的例數當然更多。比如我有7個研究因素,那我就至少需要70例,如果你是1:1的研究,那總共就需要140例。如果1:2甚至更高的,那就需要的更多了。

而且,樣本量的大小也不能光看這一個,如果你的研究因素中出現多重共線性等問題,那可能需要更多的樣本,如果你的因變量不是二分類,而是多分類,可能也需要更大的樣本來保證你的結果的可靠性。

理論上來講,logistic回歸采用的是最大似然估計,這種估計方法有很多優點,然而,一個主要的缺點就是,必須有足夠的樣本才能保證它的優點,或者說,它的優點都是建立在大樣本的基礎上的。一般來講,logistic回歸需要的樣本量要多于多重線性回歸。

最后仍然需要說一句,目前確實沒有很好的、很權威的關于logistic回歸樣本量的估計方法,更多的都是根據自己的經驗以及分析過程中的細節發現。如果你沒有太大的把握,就去請教統計老師吧,至少他能給你提出一些建議。

六、二元邏輯是什么?

二元邏輯回歸介紹

定義

Logistic回歸主要用于因變量為分類變量(如是否等)的回歸分析,自變量可以為分類變量,也可以為連續變量。它可以從多個自變量中選出對因變量有影響的自變量,并可以給出預測公式用于預測。而因變量為二分類的稱為二項logistic回歸,通常再解釋變量為0和1二值品質變量的時候采用。

Logistic 回歸模型的假設檢驗——常用的檢驗方法有似然比檢驗(likelihood ratio test) 和 Wald檢驗)

似然比檢驗的具體步驟如下:

1:先擬合不包含待檢驗因素的Logistic模型,求對數似然函數值INL0

2:再擬合包含待檢驗因素的Logistic模型,求新的對數似然函數值InL1

3:最后比較兩個對數似然函數值的差異,若兩個模型分別包含l個自變量和P個自變量, 似然比統計量G的計算公式為 G=2(InLP - InLl). 在零假設成立的條件下,當樣本含量n較大時,G統計量近似服從自由度為 V = P-l 的 x平方分布,如果只是對一個回歸系數(或一個自變量)進行檢驗,則 v=1.

wald 檢驗,用u檢驗或者X平方檢驗,推斷各參數βj是否為0,其中u= bj / Sbj, X的平方=(bj / Sbj), Sbj 為回歸系數的標準誤。

小提示:

這里的“二元”主要針對“因變量”所以跟“曲線估計”里面的Logistic曲線模型不一樣,二元logistic回歸是指因變量為二分類變量是的回歸分析,對于這種回歸模型,目標概率的取值會在(0-1),但是回歸方程的因變量取值卻落在實數集當中,這個是不能夠接受的,所以,可以先將目標概率做Logit變換,這樣它的取值區間變成了整個實數集,再做回歸分析就不會有問題了,采用這種處理方法的回歸分析,就是Logistic回歸。

二元邏輯回歸模型 :Logit P=in(( p / 1-p ) )

設因變量為y, 其中“1” 代表事件發生, “0”代表事件未發生,影響y的 n個自變量分別為 x1, x2 ,x3 xn等等,記事件發生的條件概率為 P,那么P= 事件未發生的概理為 1-P,事件發生跟”未發生的概率比 為( p / 1-p ) 事件發生比,經過對數轉換,即可得到Logistic回歸模型的線性模型。

二元邏輯回歸的適用條件

因變量為二分類的分類變量或者某事件的發生率(一個研究對象重復計數現象指標不適用)

自變量與logit(p)之間有線性關系

殘差合計為0,且服從二項分布

各觀測變量相互獨立

二元邏輯回歸操作

二元邏輯回歸在SPSS里可以通過對話框直接操作,也可以通過句法編輯器實現。本節主要從對話框操作入手,介紹如何在spss里使用對話框進行二元邏輯回歸分析

1.選擇數據文件《少先隊組織認同》(以此為例下不重復) 。

2.打開spss統計軟件,依次點擊[分析]——[回歸]——[二元logistic],數據集少先隊認同為因變量,社會評價、性別、年級、家庭支持、同伴關系等為自變量,將因變量和自變量依次放入指定的選項框中。

3點擊[分類],將為分類變量的自變量放入右側[分類協變量]框中,本案例的自變量性別、年級等為分類變量,將這些分類的自變量選入右側框中。

4.[參考類別]選擇[最后一個]或[第一個]均可,這里選擇默認的[最后一個],點擊[繼續]。

5.點擊[保存],勾選[概率]、[組成員],然后[繼續]。

6.點擊[選項],勾選[霍斯默-萊梅肖擬合優度]和[95%的置信區間],然后[繼續]。

7.自變量進入模型方式選擇輸入,也就是全部進入。然后點擊[確定],輸出結果。

主站蜘蛛池模板: 云林县| 闽清县| 安庆市| 津市市| 万荣县| 个旧市| 新闻| 绥中县| 饶河县| 蒙阴县| 乳山市| 英山县| 阳西县| 陕西省| 永昌县| 长顺县| 大邑县| 巫山县| 寿宁县| 黑龙江省| 东台市| 海宁市| 额济纳旗| 沧州市| 昭通市| 桂平市| 定南县| 徐汇区| 澎湖县| 潮安县| 灵石县| 白朗县| 佛山市| 息烽县| 东山县| 临安市| 麻江县| 兴山县| 宁武县| 新丰县| 札达县|