挤公交忘穿内裤被挺进,國產日韓亞洲精品AV,午夜漫画,china中国gary廖男男

數據分析需要掌握哪些知識?

數據分析需要掌握哪些知識?

首先,從知識體系的角度來看,當前學習數據分析需要學習三大塊知識,其一是數學和統計學知識、其二是大數據知識、其三是行業知識。

數學和統計學是數據分析的基礎,在大數據時代,要想在數據分析領域走得更遠,一定要重視數學和統計學知識的學習。從某種程度上來說,數據分析就是構建在數學和統計學基礎之上的,雖然當前有很多數據分析工具和平臺可以使用,但是如果脫離數學和統計學知識,數據分析往往很難深入。對于數學基礎比較薄弱的人來說,在學習數據分析的過程中,可以同時補學數學知識,包括線性代數和概率論等等。

數據分析是大數據技術體系的重要組成部分,實際上當前的數據分析也是大數據進行數據價值化的主要手段之一,所以當前學習數據分析一定不能脫離大數據技術體系。在大數據平臺的支撐下,數據分析可以借助于大數據平臺來達到一個更好的分析效果,比如速度提升就非常明顯。

從數據分析的手段上來看,當前數據分析主要有兩種方式,一種是統計學方式,另一種就是機器學習方式,當前機器學習的數據分析方式受到了廣泛的關注,基于機器學習的數據分析未來也有廣闊的發展和應用空間。采用機器學習進行數據分析,需要從算法設計開始入手,然后完成算法實現、算法訓練、算法驗證和算法應用等一系列環節。

最后,對于數據分析的初學者來說,可以從Python開始學起,然后進一步學習數據庫、大數據平臺和機器學習等內容,大數據平臺可以考慮一下Hadoop和Spark。

機器學習的數學原理之——不適定問題的計算方法(一)

機器學習和不適定問題緊密相連,在機器學習模型中遇到的許多問題,如過擬合、欠擬合、數據不干凈、loss下降困難、準確率提升不易等,都涉及不適定問題。我會逐步分析,請大家耐心等待。

我將盡量用簡單、通俗的語言向大家講解不適定問題的計算方法,希望用講故事的方式傳達我的理解,讓大家感受到知識的魅力,而不是冰冷的定義。有些地方為了生動,可能犧牲了一些嚴謹性,所以請大家多多諒解!

首先,我們來談談什么是不適定問題。

首先,我們來談談什么是反問題。反問題是相對于正問題的,簡單來說,好解決的問題就是正問題,不好解決的問題就是反問題。舉個例子:

可以看出,函數插值或擬合就是一個反問題(相對于已知函數,求其某些點的對應值而言),而深度學習本質上就是用數據點去擬合函數,相對于訓練好的神經網絡模型,神經網絡的訓練過程就是一個反問題。

好的,回到不適定問題。什么是不適定問題呢?答:不適定的問題就是不適定問題。大家先放下手中的雞蛋和西紅柿,還有你,拿著菠菜的那位。

舉個例子,求導數。求導比積分簡單對吧,很明顯,求導是正問題,積分是反問題。然而實際上,積分是適定性問題(給定初始條件),求導才是不適定問題。用數學語言來描述一下:

下面我們來驗證一下求導的不適定性。存在性唯一性肯定是滿足的(即使不滿足,加特定條件也會滿足,所以在應用上,不適定問題主要說的是穩定性),那么我們來驗證穩定性。先給y一個小擾動,看看是否在任何情況(對于任何函數,或者我加的任意擾動)下,導數 [公式] 都不會受到太大的影響。為了衡量“影響”,我們引入一個范數(對實數或復數來說就相當于絕對值,它可以衡量一個函數或者說一個變量的大小,自然也可以衡量函數與函數之間的差異性):

[公式]

此外,受到擾動的數據[公式] 對應的導數為 [公式] ,干凈的數據 [公式] 對應的導數為 [公式] 。

令[公式] , [公式] 是我們加的擾動項,而[公式] 是很小的一個量,顯然這個擾動項非常小。我們就看看在輸入數據受到這樣一個小擾動的情況下,輸出結果會不會也變化不大:

[公式]

原數據與臟數據的差距非常小:[公式]

然而原來的解和受擾動的解的差別卻趨于無窮:[公式]

因此,求導這個問題是不適定的,經常求著求著就求出無窮來。大家做機器學習敲代碼的時候都有過inf或者nan的體驗吧,本質就是這個問題。其實,也很容易理解,積分是求面積嘛,某一點函數值它再大,由于 [公式] , [公式] 非常小,因此 [公式] 很容易被控制,因此S的變化是很連續很舒服的。而導數則不然,一旦函數值有階躍或突變,沒有任何東西可以控制它,求導的時候更是給它除了個無窮小量[公式],相當于添了把火,幫了倒忙,所以很容易出現奇異值。這個就和我們數分(高數)里學的對應起來了,“可導”是個很強的要求,“連續”次之,“可積”再次之,可導必連續,連續必可積,反之則不然。(當然啦,他們之間還隔著Lipschitz連續,對應Lipschitz條件等等,以后有空再聊)

導數在機器學習里的地位應該不用我多講,神經網絡誤差反向傳播本質上就是求導鏈式法則,RNN里的梯度爆炸、梯度消失,本質上都是來源于求導這一操作數學性質的不穩定,雖然LSTM改進了結構并用記憶線緩解了這一問題,然而數據的擾動產生的求導時的不穩定,時刻影響著我們設計的神經網絡結構,并不是說你程序里沒跑出inf或nan它就是穩定了,很多情況下它其實是在消極怠工,白白消耗算力罷了。那么我們該如何解決呢?

請聽下回分解!

那個……我又回來了,女朋友化妝還要一會兒,我再往后寫點……

之前聊到,如何消除求導操作的不適定性,我來告訴大家,小本本都拿出來了哈,嗯哼~

選擇特定的范數可以消除不適定性!

例如,在X空間(就是導數空間),我還是采用之前定義的范數:[公式] ,然而在函數空間Y(就是原函數空間),我用函數的導數來定義該函數的范數:[公式] ,C'是一階可導函數組成的空間。這個時候我們來看一下:

他們是一樣的,也就是說,我只要把輸入數據的誤差控制在一定范圍內,那么輸出數據的誤差也不會太大,這不就解決問題了嘛!!!真TM的機智!

可是我明明啥都沒做呀,一沒改求導法則,二沒改擾動項(相當于沒換掉臟數據),問題完全沒變,怎么就解決問題了呢?

因為其實我們沒有解決任何問題……我們只是改了衡量標準。這種做法雖然在數學上成立,但是在機器學習中基本不具有可行性,比如,在機器學習中,誤差的定義方式你是不能亂改的,不能說訓練效果不好,輸出誤差太大了,取個倒數吧,100就變0.01了,下次誤差1000,你就輸出0.001,這個不解決實際問題,屬于掩耳盜鈴,做得更絕一點,我可以直接定義0范數,把啥都映成0,豈不是更爽?對任何擾動,我都保證輸出誤差為0!不僅輸出誤差是0,輸出的啥都是0,厲害吧?可把我牛逼壞了,不行了我得叉會腰~

好的,我們剛剛并沒有解決掉任何問題,但是成功地把頭埋在了沙子里,可喜可賀!

大家先收起心中濃濃的殺意,我皮這么一下是有自己的道理的!比如說首先……皮一下很開心,對吧~

其次……改變衡量標準雖然在實際執行的時候不太合適,但是,這種定義強范數的方法是具有一定啟發性的,它對數據提出了一定的要求,因此后邊我們確實會用到,所以這里就提了一下,埋個伏筆。(正好等我女朋友化個妝)

那么~

欲知后事如何,請聽下回分解!

主站蜘蛛池模板: 阳山县| 法库县| 伊川县| 和林格尔县| 东阿县| 库尔勒市| 兰考县| 茶陵县| 双流县| 宝丰县| 凤城市| 乐亭县| 义乌市| 宁津县| 抚州市| 龙井市| 泰宁县| 巴彦淖尔市| 突泉县| 搜索| 丹寨县| 贵港市| 贵溪市| 余姚市| 闻喜县| 富民县| 信丰县| 尼勒克县| 醴陵市| 乌苏市| 花垣县| 锡林浩特市| 隆尧县| 兴宁市| 西城区| 永安市| 页游| 凤山县| 本溪市| 栾川县| 丁青县|