隨機連接神經網絡性能超過人工設計
2019-04-09 12:29:56 機器之心
神經架構搜索(NAS)的出現推動了這一趨勢的發展,已經成為聯合搜索連接方式和操作的有前景的研究方向。在聚焦搜索的同時,NAS 方法隱式地依賴于一種叫做網絡生成器(network generator)的重要(但很大程度上被忽視的)組件。
NAS 網絡生成器定義了一系列可能的連接方式,網絡根據可學習的概率分布從網絡生成器中進行采樣。然而,和 ResNet 和 DenseNet 中的連接方式一樣,NAS 網絡生成器是手工設計的,支持的連接方式空間被限制在所有可能圖的一個小小的子集中。從這一角度出發,我們會問:如果我們放松這一限制并設計新的網絡生成器會怎么樣?
謝賽寧、何愷明等研究者通過從隨機網絡生成器中采樣的隨機連接神經網絡來探索這個問題,生成器中的生成結果由人類設計的隨機過程定義。為了減少研究者的偏好對生成器造成的影響,他們使用了圖論中三組經典的隨機圖模型:Erdos-Renyi(ER)、Barabasi-Albert(BA)和 Watts-Strogatz(WS)模型。為了定義完整的網絡,研究者將隨機圖轉換成有向無環圖(DAG),并應用了一個從節點到其功能角色(如同一類型的卷積)的簡單映射。
結果出人意料:這些隨機生成器的幾個變體在 ImageNet 上產生了準確率頗具競爭力的網絡。使用 WS 模型的最佳生成器生成的多個網絡性能優于或可媲美全手工設計的同類網絡或通過各種神經架構搜索方法找到的網絡。
研究者還觀察到,同一生成器生成的不同隨機網絡的準確率方差較低,但不同生成器生成的網絡準確率差距可能較大。這些觀察結果表明,網絡生成器的設計非常重要。
研究者注意到,這些隨機連接網絡并非「prior free」,即使他們是隨機的。實際上,許多強先驗(strong prior)被隱式地設計到生成器中,包括選擇特定的規則和分布來控制連接或不連接某些節點的概率。每個隨機圖模型都具有一定的概率行為,使得采樣的圖可能具有某些屬性(例如,WS 是高度聚集的)。生成器的設計最終決定了網絡上的概率分布,因此這些網絡往往具有某些特性。生成器的設計是先驗的基礎,因此不應被忽視。
在本文中,研究者探索了與 NAS 隨機搜索當前研究 [23, 41] 不同的方向。那些研究表明,隨機搜索在「NAS 搜索空間」(即該研究所說的「NAS 網絡生成器」)中頗具競爭力。
他們的研究結果表明,NAS 生成器設計所產生的先驗往往可以生成好的模型,這與本研究的觀察結果相似。與之前的工作相比,本文研究者的工作超越了現有 NAS 生成器的設計,探索了不同的隨機生成器設計。
最后,本研究表明,從設計單個網絡到設計網絡生成器的過渡是可能實現的,類似于從設計特征到設計學習特征的網絡的過渡。研究者建議設計新的網絡生成器,生成用于搜索的新模型集合,而不是聚焦于使用固定生成器進行搜索。
(NAS 等中)網絡生成器設計的重要性還表明,機器學習還沒有實現自動化(參見 AutoML [20])——即基本的人類設計和先驗從網絡工程轉向了網絡生成器工程。
隨機連接神經網絡
對 NAS 的分析表明,該網絡生成器是手動設計的,且根據人類知識對先驗進行編碼。網絡生成器的設計很可能起著很大的作用,這樣的話,當前的方法還無法達到「AutoML」,而且仍需要大量的人力。
為了研究網絡生成器設計的重要性,只對同一 NAS 生成器比較不同的(復雜或隨機的)優化器是不夠的;有必要研究與 NAS 生成器非常不同的新的網絡生成器。
為此,研究者開始利用隨機連接神經網絡。即,他們將定義網絡生成器,該生成器生成帶有隨機圖的網絡,服從于不同的人類特定先驗。為了最小化人類偏見(本文研究者對先驗的偏見),研究者在研究中使用了三種經典的隨機圖模型。其生成隨機連接網絡的方法包含以下概念:
邊緣操作。假設圖是有向的,研究者定義邊緣是數據流,即有向邊緣將數據(張量)從一個節點發送到另一個節點。
節點操作。有向圖中的節點可能有一些輸入邊緣和一些輸出邊緣。
圖 2. 隨機圖節點設計。這是一個節點(藍色),有三個輸入端和 4 個輸出端,通過可學習的正權重 w_0、w_1、w_2 的加權來完成聚合。轉換器是 ReLU-convolution-BN 三元組,可簡單視作卷積。轉換后的數據作為 4 份副本發送出去。
圖 3. 在隨機圖形生成器上的比較:ER、BA 和 WS 在小計算量條件下的結果。每個指標代表在 P、M 或(K、P)參數設置下的生成器的結果(x 軸)。縱軸為 ImageNet Top-1 準確率,5 個隨機網絡生成的結果顯示為標準均值(std)。在最右側,WS(K、P=0)沒有隨機性。
圖 4.ER、BA 和 WS 生成隨機圖像的可視化。每個圖表代表由指定生成器采樣的一個隨機圖形實例。生成器即為圖 3 中的配置。每個計算圖的節點數為 N=32。紅色/藍色節點代表輸入/輸出節點,在一些情況下,會加入額外的唯一輸入/輸出節點(未顯示)。
論文:Exploring Randomly Wired Neural Networks for Image Recognition
論文地址:https://arxiv.org/abs/1904.01569
摘要:用于圖像識別的神經網絡已經通過人工設計,從簡單的鏈狀模型發展到具有復雜路徑的結構。ResNet 和 DenseNet 的成功很大程度上歸功于它們的創新性線路設計。近日,神經架構搜索(NAS)的研究正在拓展連接和操作方式的聯合優化,然而其可能的布線空間仍然受到約束——它們在搜索中仍受到手動設計的驅動。
在本論文中,我們通過隨機神經網絡連接的方式探索了更為廣泛的連接形式。首先,我們定義了一個隨機網絡生成器的概念,它封裝了整個網絡的生成過程。這一封裝提供了 NAS 和隨機連接網絡的統一視圖。然后,我們使用三個經典隨機圖模型為網絡生成隨機連接圖。結果令人驚訝:這些隨機生成的網絡變體在 ImageNet 圖像識別基準測試中有著非常具有競爭力的準確率。這些結果表明,相比于小搜索空間,專注于設計更好的網絡生成器或許可以帶來更大的技術突破。
圖 1. 由經典的 Watts_Strogatz(WS)生成的隨機連接神經網絡模型:在和 ResNet-50 使用相近算力的條件下,這三個隨機生成的網絡在 ImageNet 上實現了(從左至右)79.1%、79.1%、79.0% 的分類準確率,ResNet 的準確率為 77.1%。