• <sub id="uqko5"></sub>
    <tbody id="uqko5"><center id="uqko5"></center></tbody>
  • <option id="uqko5"></option><sub id="uqko5"><font id="uqko5"><nav id="uqko5"></nav></font></sub>
    <center id="uqko5"></center>
    <sub id="uqko5"><xmp id="uqko5">
  • <tbody id="uqko5"><center id="uqko5"></center></tbody>
  • <nav id="uqko5"></nav>
  • <track id="uqko5"></track>
  • <tbody id="uqko5"><center id="uqko5"><progress id="uqko5"></progress></center></tbody><track id="uqko5"></track>

    深度學習為何泛化的那么好?秘密或許隱藏在內核機中

    在機器學習領域,人工神經網絡逐年擴大規模,并取得了巨大成功,但同時它也制造了一個概念性難題。

    當一個名為 AlexNet網絡在2012年贏得年度圖像識別比賽時,大約有6,000萬個參數。這些參數在訓練過程中進行了微調,使AlexNet能夠識別出以前從未見過的圖像。兩年后,一個名為 VGG 的網絡以超過 1.3 億個參數贏得了全場喝彩。如今,一些人工神經網絡(或ANN)甚至達到了數十億個參數。

    這些龐大的網絡,在圖像分類、語音識別和文本翻譯等任務上取得了驚人的表現,已經開始主導機器學習和人工智能領域。然而,這些網絡仍然是神秘的,其驚人的力量背后的原因仍然難以捉摸。

    但一些研究人員表明,這些強大網絡的理想化版本(比如無限寬)在數學上等同于更古老、更簡單的機器學習模型,即內核機(kernel machines)。如果這種等價性可以擴展到理想化的神經網絡之外,就可以解釋實際的人工神經網絡為何能取得驚人的效果。

    人工神經網絡的一部分神秘之處在于,它們似乎顛覆了傳統的機器學習理論,而這些理論嚴重依賴統計學和概率論的觀點。在通常的思維方式中,機器學習模型,包括神經網絡,通過學習樣本數據中的模式來預測新數據——特別是當它們擁有正確數量的參數時,表現最佳。

    如果參數太少,學習模型可能會過于簡單,無法捕捉訓練數據的所有細微差別。若參數太多,模型則會變得過于復雜,在訓練數據中學習模式的粒度太細,以至于在要求對新數據進行分類時無法泛化,這種現象稱為過擬合。“這是在以某種方式很好地擬合數據和根本不擬合之間的平衡,我們需要找到一個居中點。”加州大學圣地亞哥分校(University of California, San Diego)機器學習研究員Mikhail Belkin如是說。

    \

    眾所周知,像VGG這樣的深度神經網絡參數太多,應該會過擬合,但事實并非如此。而且恰恰相反,這類網絡對新數據的泛化能力驚人的好——直到最近,還沒人知道其中的原因。

    這并不是因為缺乏這方面的探索。例如,于今年8月去世的耶路撒冷希伯來大學計算機科學家和神經科學家Naftali Tishby認為,深度神經網絡首先擬合訓練數據,然后(通過信息瓶頸)丟棄無關信息,這有助于它們泛化。但其他人認為,這并不適用于所有類型的深度神經網絡,這個想法仍然存在爭議。

    現在,內核機和理想化神經網絡的數學等價性為這些過度參數化的網絡效果如此好的原因和過程提供了線索。內核機是一種算法,它通過將數據投射到極高的維度中來尋找數據中的模式。也就是說,通過研究理想化神經網絡在數學上易于處理的內核機等價對應物,研究人員正在了解為什么深度網絡盡管具有令人震驚的復雜性,但在訓練過程中會收斂到可以很好地泛化到未見過的數據的解決方案。

    “神經網絡有點像Rube Goldberg機器。你不知道其中哪一部分真正重要。” Belkin說。“我認為將[它們]簡化為內核方法(因為內核方法沒有這么復雜),在某種程度上允許我們打開這個黑箱。”

    1 尋找線性分隔符

    內核方法或內核機,依賴于具有悠久歷史的數學領域。這要追溯到19世紀德國數學家卡爾·弗里德里希·高斯(Carl Friedrich Gauss),他提出了同名的高斯核函數,這一函數將變量x映射到一個熟悉的鐘形曲線的函數。20世紀初,英國數學家James Mercer用核函數來解積分方程,核函數的現代用法開始興起。到了20世紀60年代,核函數被用于機器學習,以處理不適合簡單分類技術的數據。

    理解內核方法需要從機器學習中被稱為線性分類器的算法開始。假設貓和狗只能使用二維數據進行分類,這意味著你需要兩個特征(比如鼻子的大小,我們可以在 x 軸上繪制,而耳朵的大小可以在y軸上表示)來區分兩種類型的動物。根據x-y平面上繪制標記的數據,貓應該在一個集群中,而狗在另一個集群。

    \

    然后我們可以使用標記的數據訓練線性分類器,找出一條將兩個集群分開的直線。這涉及找到表示線的方程的系數,F在,給定新的未標記數據,通過看這些數據落在線的哪一側,很容易將其歸類為狗或貓。

    然而,愛狗人士和愛貓人士會對這種過于簡單化的做法感到震驚。許多類型的貓和狗的鼻子和耳朵的實際數據幾乎肯定不能被線性分隔符分割。在這種情況下,當數據是線性不可分的,可以將其轉換或投影到更高維的空間中。(一種簡單的方法是將兩個特征的值相乘,從而創建出第三個特征:也許將狗與貓區分開來的鼻子和耳朵的大小之間存在某種相關性。)

    更普遍地說,在高維空間中查看數據更容易找到線性分隔符,當空間具有三個以上的維度時,該線性分隔符被稱為超平面。當這個超平面被投影回較低維度時,它將呈現出帶有曲線和擺動的非線性函數的形狀,將原始低維數據分成兩個集群。

    然而,當我們處理真實數據時,在高維中找到超平面的系數通常是計算效率低下的,有時甚至是不可能找到的。但內核機不存在這種情況。

    2 真理的內核

    內核機的強大之處在于它們能完成這兩件事。首先,內核機將低維數據集中的每個點映射到更高維數據集中的一個點。這個超空間的維度可能是無限的,取決于映射,這可能會帶來一個問題:找到分離超平面的系數涉及到計算每一對高維特征的內積,當數據被投射到無限維時,這就變得很困難。

    其次,給定兩個低維數據點,內核機可以使用核函數輸出一個數字,這個數字等于相應的高維特征的內積。關鍵是,該算法可以使用這種技巧來找到超平面的系數,而無需真正進入高維空間。

    加州大學伯克利分校名譽教授Bernhard Boser說,“內核技巧的偉大之處在于,所有計算都發生在低維空間”,而不是可能的無限維空間。

    Boser和他的同事Isabelle Guyon以及Vladimir Vapnik在20世紀80年代末和90年代初發明了一類稱為支持向量機 (SVM) 的內核機,當時他們都在新澤西州霍爾姆德爾的貝爾實驗室(Bell Labs)。雖然從20世紀60年代開始,各種類型的內核機已經在機器學習領域取得了顯著的成就,但正是隨著SVM的發明,它們才登上了舞臺的中心。事實證明,SVM 非常強大。到21世紀初,它們被廣泛應用于生物信息學(例如,用于發現不同蛋白質序列之間的相似性并預測蛋白質的功能)、機器視覺和手寫識別等領域。

    SVM繼續主導機器學習領域,直到 2012 年AlexNet 的到來,標志著深度神經網絡發展成熟。隨著機器學習社區轉向ANN,SVM陷入困境,但它們(以及一般的內核機)仍然是強大的模型,有很多東西值得我們學習。例如,他們可以做的不僅僅是使用內核技巧來找到一個分離超平面。

    “如果你有一個強大的內核,那么你就可以將數據映射到一個無限維且非常強大的內核空間,”谷歌研究大腦團隊的研究科學家張志遠(Chiyuan Zhang)說道。“在這個強大的隱藏空間中,你總能找到一個線性分隔符來分隔數據,而且有無限多種可能的解決方案。”

    但是,內核理論不是讓你僅僅選擇一個任意的線性分隔符,而是通過限制搜索的解決方案的空間,選擇一個可能的最佳分隔符(對于某些“最佳”的定義而言)。類似于減少模型中的參數數量以防止其過擬合,這一過程稱為正則化。張志遠想知道深度神經網絡是否也在做類似的事情。

    深度神經網絡由多層人工神經元組成。它們有一個輸入層、一個輸出層和至少一個夾在它們之間的隱藏層。隱藏層越多,網絡就越深。網絡的參數代表了這些神經元之間連接的強度。例如,訓練一個網絡進行圖像識別,需要反復向它展示之前分類過的圖像,并確定其參數值,以幫助它正確地描述這些圖像。經過訓練后,神經網絡成為了一個將輸入(比如圖像)轉換為輸出(標簽或類別)的模型。

    2017年,張志遠和同事對AlexNet和VGG等網絡進行了一系列實證測試,以查看用于訓練這些ANN的算法是否以某種方式有效地減少了可調參數的數量,從而產生了一種隱式正則化形式。換句話說,訓練機制是否使這些網絡無法過擬合?

    張志遠團隊發現事實并非如此。使用巧妙操縱的數據集,張教授的團隊證明了AlexNet和其他類似的人工神經網絡確實會過擬合,而不是泛化。但是,當給定未更改的數據時,使用相同算法訓練的相同網絡并沒有過擬合——相反,它們泛化得很好。這種隱式正則化不可能是答案。張志遠說,這一發現要求“更好地解釋描述深度神經網絡中的泛化特征”。

    3 無限的神經元

    與此同時,研究表明,較寬的神經網絡在泛化方面通常與較窄的神經網絡表現一樣好,甚至更好。對某些人來說,這暗示著或許可以通過采用物理學中的策略來理解人工神經網絡,“研究極限情況有時可以簡化問題。”谷歌研究大腦團隊的研究科學家Yasaman Bahri說。為了解決這種情況,物理學家經常通過考慮極端情況來簡化問題。例如,當系統中的粒子數趨于無窮時會發生什么?Bahri說:“在這些限制條件下,統計效應會變得更容易處理。”從數學上講,如果神經網絡層的寬度——即單層神經元的數量——是無限的,那么神經網絡會發生什么?

    1994年,現為多倫多大學名譽教授的Radford Neal提出了一個關于具有單個隱藏層的無限寬網絡的確切問題。他指出,如果這個網絡的權重被重新設置或初始化,具有某些統計性質,那么在初始化時(在任何訓練之前),這樣的網絡在數學上等價于一個眾所周知的核函數,稱為高斯過程。20多年后,在2017年,包括Bahri在內的兩個研究小組表明,具有許多隱藏層的無限寬理想化深度神經網絡也是如此。

    這背后的含義是驚人的。通常情況下,即使在訓練了深度網絡之后,也不能使用解析數學表達式來對未見過的數據進行預測。你只需要運行深度網絡,看看它說了什么——它就像一個黑匣子。但在理想化的場景中,初始化時網絡等價于高斯過程。這時你可以拋棄神經網絡,只訓練有數學表達式的內核機器。

    “一旦你把它映射到高斯過程中……你就可以通過分析計算預測應該是什么,”Bahri說。

    這已經是個里程碑式的發現,但它并沒有從數學上描述在實踐中最常見的訓練形式所發生的情況。在后一種情況下,尚不清楚該解決方案如何能夠很好地泛化。

    4 開始梯度下降

    部分謎團集中在如何訓練深度神經網絡上,這涉及一種稱為梯度下降的算法。“下降”一詞指的是,在訓練過程中,網絡穿越了一個復雜的、高維的、布滿山丘和山谷的景觀,景觀中的每個位置都代表了網絡對給定的一組參數值所造成的誤差。最終,一旦參數得到適當調整,人工神經網絡就會到達一個稱為全局最小值的區域,這意味著它將盡可能準確地對訓練數據進行分類。訓練網絡本質上是一個優化問題,即尋找全局最小值,訓練后的網絡表示將輸入映射到輸出的幾乎最優函數。這是一個難以分析的復雜過程。

    西雅圖華盛頓大學的機器學習專家Simon Du說:“如果你應用一些廣泛使用的算法,如梯度下降,(人工神經網絡)可以收斂到全局最小值,現有的理論無法保證這一點。” 到2018年底,我們開始明白其中的原因。

    同樣,正如重大科學進步常表現的那樣,基于對無限寬網絡的數學分析,以及它們與更容易理解的內核機器之間的關系,多個研究小組同時得出了一個可能的答案。在Simon Du的團隊和其他人發表論文的時候,一位名叫Arthur Jacot的年輕瑞士研究生在該領域的旗艦會議NeurIPS 2018上展示了他的團隊的成果。

    雖然各團隊在細節和工作框架上有所不同,但本質是一致的,即無限寬的深度神經網絡,其權值是根據特定的統計屬性初始化的,不僅在初始化時,而且在整個訓練過程中都與核函數完全相同。關于權重的一個關鍵假設是,它們在訓練過程中單個變化很。ūM管無限數量的小變化的凈影響是顯著的)。Jacot和他在瑞士洛桑聯邦理工學院的同事證明了一個無限寬的深度神經網絡總是等同于一個在訓練期間不會改變的內核,它甚至不依賴于訓練數據。核函數只依賴于神經網絡的結構,如連接的深度和類型;谒囊恍⿴缀翁匦,該團隊將其內核命名為神經正切。

    “我們知道,至少在某些情況下,神經網絡可以像內核方法一樣運行,”雅科特說。“這是嘗試真正比較這些方法以試圖了解差異的第一步。”

    5 所有的人工神經網絡

    這個結果最重要的發現是,它解釋了為什么深度神經網絡,至少在這種理想情況下,會收斂到一個好的解。當我們在參數空間中查看人工神經網絡時,即從其參數和復雜的損失景觀來看,這種收斂性很難在數學上證明。但由于理想的深度網絡相當于一個內核機,我們可以使用訓練數據來訓練深度網絡或內核機,最終都會找到一個近似最優的函數,將輸入轉換為輸出。

    在訓練過程中,無限寬神經網絡所代表的函數的演化與內核機所代表的函數的演化相匹配。當我們看到函數空間時,神經網絡和它的等效內核機都在某個超維空間中滾下一個簡單的碗狀景觀。很容易證明梯度下降會讓你到達碗的底部——全局最小值。至少對于這種理想化的場景,“你可以證明全局收斂,”Du說。“這就是為什么學習理論社區的人們這么興奮。”

    并不是每個人都相信核函數和神經網絡之間的這種等價性適用于實際的神經網絡——這些神經網絡的寬度是有限的,并且其參數在訓練過程中會發生巨大變化。“我認為還需要把一些地方聯系起來,”張志遠說。此外,還有心理方面的原因:神經網絡本身就很神秘,將它們簡化為內核機讓張感到失望。“我有點希望這不是最終答案,因為從舊理論可用的意義上來說,它會讓事情變得不那么有趣。”

    但其他人卻很興奮。例如,Belkin認為,即使內核方法是舊理論,它們仍然沒有被完全理解。他的團隊根據經驗表明,內核方法不會過擬合,并且在不需要任何正則化的情況下可以很好地泛化到測試數據,這與神經網絡類似,且與我們對傳統學習理論的預期相反。“如果我們了解了內核方法的發展,那么我認為這確實為我們提供了打開神經網絡這個神秘盒子的鑰匙,”Belkin如是說。

    研究人員不僅對核函數有更牢固的數學掌握,從而更容易將它們作為模擬物來理解神經網絡,而且從經驗上講,核函數也比神經網絡更容易使用。核函數遠沒有那么復雜,它們不需要隨機初始化參數,而且它們的性能更具有可重復性。研究人員已經開始研究現實網絡和核函數之間的聯系,并對他們在這一新理解上能走多遠感到興奮。

    “如果我們建立了絕對、完全的等價,那么我認為它將在某種程度上改變整個游戲。”Belkin說。

    日日摸夜夜添夜夜添破
  • <sub id="uqko5"></sub>
    <tbody id="uqko5"><center id="uqko5"></center></tbody>
  • <option id="uqko5"></option><sub id="uqko5"><font id="uqko5"><nav id="uqko5"></nav></font></sub>
    <center id="uqko5"></center>
    <sub id="uqko5"><xmp id="uqko5">
  • <tbody id="uqko5"><center id="uqko5"></center></tbody>
  • <nav id="uqko5"></nav>
  • <track id="uqko5"></track>
  • <tbody id="uqko5"><center id="uqko5"><progress id="uqko5"></progress></center></tbody><track id="uqko5"></track>