大主宰之灵路天蚕土豆,好看的小说,玄幻小说排行榜完本

深度學習的天賜和詛咒：最大的優勢也是最大的缺陷

2019-04-15 09:14:44 未知

點擊關注->創芯網公眾號，后臺告知EETOP論壇用戶名，獎勵200信元

視覺問題中沒有純粹的“簡單”和“復雜”

首先需要就視覺/計算機視覺做一點說明。原則上可以表述如下：給定一臺攝像機拍攝的圖像，計算機可以回答關于該圖像內容的一些問題。

簡單的問題比如“圖像中是否存在三角形”，“圖像中是否存在人臉”；復雜的問題例如“是否有狗在圖像中追逐貓”。這些對人類來說小兒科的問題看似有很多相似的地方，然而事實卻證明這些問題的背后的復雜性存在巨大差異。

同樣是讓計算機回答“圖中是否有XX”的問題，“圖中是否有貓”顯然要比“圖中是否有紅色”更難。你看，試圖將視覺問題劃分為“簡單”或“復雜”將會陷入無止境的深淵。

這一點很重要。因為像我們人類這種高度視覺化的動物，以上問題都不是問題。但對計算機深度學習來說，確實非常復雜。

傳統計算機視覺存在的問題

傳統的計算機視覺就是使用一套算法，從圖片里提取信息（通常表示為像素值數組）。比如去噪、增強和檢測的算法，一些方法旨在尋找簡單的幾何圖元，例如邊緣檢測、形態分析、霍夫變換、斑點檢測、角點檢測、各種圖像閾值處理技術等。還有特征表示技術和變換，如定向梯度的直方圖、Haar級聯等可以用作機器學習分類器的前端以構建更復雜的檢測器。

與流行的看法相反，上述工具結合在一起可以組成非常強大有效的特定物體探測器。人們可以構建面部檢測器、汽車檢測器、路牌檢測器，并且它們很可能在精度和計算復雜性方面，優于這些特定對象的深度學習解決方案。

但問題是，每個探測器都需要由有能力的人員從頭開始構建，低效又昂貴，且不可擴展的。

因此，李上上那些很厲害的探測器只適用于必須高頻場景，還需要證明前期投資的合理性。許多探測器都是專有的，一般公眾無法使用。

優秀的面部探測器、車牌閱讀器很多，但狗探測器卻很少。沒有一個心智正常的人會投入人力和物力去編寫狗探測器或分類器，從圖像中分類出一種狗，貴且不切實際。

這是傳統視覺的死穴，卻是深度學習的用武之地。

用一個聰明學生的故事來解釋深度學習的本質

想象一下，你正在教授計算機視覺課程。在開始的幾個講座中，學生了解到豐富的技術（例如上面討論的技術），接下來就是給學生布置一些任務。

先從一些簡單的任務開始，例如通過詢問圖像中是否有圓形或正方形；接下來逐漸提高復雜度。學生每周都要編寫計算機程序來解決下一個任務。而你來查看代碼，并在某些示例上運行代碼來檢驗效果。

這個學期，來了一個新生，他不跟周圍人說話，也從不問問題。但當他提交第一個解決方案時，你會發現這是一堆難以理解的代碼，跟你以前看到的代碼都不同。

看起來他正在用一些隨機看的過濾器對每個圖像進行卷積，然后使用一些非常奇怪的邏輯，許多“if then else”語句具有大量搞不懂的參數來獲得最終答案。你在樣本上運行此代碼，它居然完全正常！你心想，這個方法是在不同尋常難以理解，但管他呢，確實有效啊！

幾周過去了，任務復雜度在不斷提升，你越來越看不懂這個學生的代碼，但就算是最復雜的任務，它的效果也令人驚訝。最后一個問題是在一組真實的圖像中區分貓和狗。其他學生代碼的準確率都沒有超過65％，但新學員的代碼能夠達到95％！太不可思議了。

你對代碼進行了逆向工程，結果發現他那堆復雜的代碼，背后的邏輯其實非常簡單：

檢測是否有狗牌：如果有返回“狗”；沒有返回“貓”
如果沒有狗牌，檢測圖像的左側部分是否比右側部分更黃：如果是返回“狗”；不是返回“貓”

你把這個學生叫到辦公室問他是怎么想的，他表示其實自己也不知道，他根本不明白貓和狗是什么，只知道通過什么方法將二者區分出來。這算作弊嗎？從人類的角度來看，是的，他的出發點和你想的完全不同。

雖然其他學生使用原始數據集并沒有得到特別突出的結果，但也不會出什么奇怪的錯誤。相比而言，新學生的方式雖然在使用當前數據集的時候，效果卓著，然而一旦稍微對數據集做一點改動，例如將狗牌貼在貓身上，結果就是完全錯誤的。

深度學習的天賜和詛咒

上面那個新學生的例子，其實很形象的表述了深度學習的特性。

深度學習是一種使用梯度反向傳播的、特定優化技術來生成“程序”（也稱為“神經網絡”）的技術。上面學生的程序只是構建一組轉換和條件，將正確的標簽分配給數據集中的正確圖像。而且總是在尋求解決問題最省力的方法，比如給定數據集里，狗的圖片都在右上角有一道藍色的光暈，那么深度學習就會立刻使用這作為區分貓狗的標準。

為了消除這些虛假的偏差，我們通常會向訓練集添加更多數據、反向傳播生成的“程序”可能非常大、非常復雜，具有數百萬個參數和數千個條件檢查，可以鎖定到組合更精細偏見的組合。任何允許分配正確標簽以統計優化目標函數的東西都會做，無論是否與任務的“語義精神”相關。

深度網絡能否最終鎖定到“語義正確”先驗的東西上？當然可以。但現在有大量證據表明，實際上并非五次。對抗性的例子表明，對圖像的微小修改都可以導致錯誤的結果。對類似于先前訓練的數據集的新樣本的研究表明，超出原始數據集的泛化遠比數據集中的泛化弱得多。

自動創建無人能想到的功能，是深度學習的最大優勢，同時也是它的最大弱點、因為大多數時候，至少在語義上是存疑的。

深度學習在什么情況下好用，什么情況下不可用？

深度學習無疑是計算機視覺工具箱的一個有趣補充?，F在可以相對容易地“訓練”探測器來探測物體，還可以在一定程度通過調整探測器來使用更多算力。但同時也需要為深度網絡的黑盒屬性付出高昂的代價，我們無法確定他如何做出決定，而且跟我們認可的“語義精神”毫無關系。因此，在輸入數據中出現的任何低級偏差都會導致檢測器意外地失敗，而且這些失效條件實際上無法表征。

因此在落地應用時，深度學習主要用于對錯誤不敏感、且能夠保證輸入不會與訓練數據集有很大差異場景，例如圖像搜索，可能是監視，自動零售以及幾乎所有的“非關鍵任務”，95％的準確率非常夠用了。

具有諷刺意味的是，大多數人堅信深度學習在無人駕駛汽車、自動機器人場景下的應用是一場革命，Piekniewski認為，只能將這種信念描述為“不幸”的誤解。因為這些場景需要需要實時決策，容錯率極低，經常會導致致命的結果，最近的研究顯示基于深度神經的自動駕駛解決方案在現實生活中確實容易受到對抗性攻擊。

還有人對深度學習應用在醫學和診斷中寄予厚望。然而，在這個領域，也有一些相關的發現，例如，在一個機構數據上訓練的模型失敗了，換一個機構數據卻成功了，說明這些模型使用比許多研究人員所希望的更淺度的數據。

數據比我們想象的更淺。

深度學習 vs 傳統計算機視覺

深度學習現在非常流行，但傳統的計算機視覺也并非就失去價值。

傳統計算機視覺仍然可以用來構建強大的探測器。這些手工做成的探測器可能無法在某些特定數據集指標上實現高性能，但可以保證依賴于輸入的“語義相關”特征集，它的故障模式可以更好地表征和預期。

深度學習提供統計上強大的探測器，而不需要昂貴的特征工程，盡管仍需要大量已標記的數據，外加大量GPU和現場的深度學習專家。而且，這些探測器會意外地失效，適用范圍也不容易被（完全）表征。

所以，在容錯率高的場景中，可以選擇深度學習；在容錯率低且計算復雜性更重要的場景中，經典機器視覺管道將在可預見的未來繼續占據重要位置。

關鍵詞：深度學習 AI

EETOP 官方微信
創芯大講堂在線教育
半導體創芯網快訊

上一篇：2019人工智能——始于硬件
下一篇：戴上“白帽子” 人工智能投身網絡安全

全部評論

最新資訊

最熱資訊

99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

全部評論