99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

AI學會「搞」科研登Nature,知乎網(wǎng)友:不忍直視的水

2019-07-09 10:32:59 機器之心
點擊關(guān)注->創(chuàng)芯網(wǎng)公眾號,后臺告知EETOP論壇用戶名,獎勵200信元
人工智能可以在復雜的圍棋游戲中輕松戰(zhàn)勝人類,但它們可以幫助我們做出科學發(fā)現(xiàn)嗎?美國能源部勞倫斯伯克利國家實驗室最近發(fā)表在《自然》雜志上的一篇論文引起了人們的廣泛關(guān)注。研究人員表示,人工智能在自動閱讀 300 萬篇材料學領(lǐng)域的論文之后發(fā)現(xiàn)了全新的科學知識。

在人們的普遍印象里,論文上了 Nature,那結(jié)論自然也就八九不離十了。然而對于熟悉人工智能的人來說,該研究有些奇怪的是:論文中模型使用的技術(shù)是「

詞嵌入

」——既不是卷積神經(jīng)網(wǎng)絡(luò),也不是循環(huán)神經(jīng)網(wǎng)絡(luò)等更復雜的模型。這么簡單的模型,真的可以幫助我們找到成百上千研究者多年來從未找到的新材料嗎?
 

這篇文章發(fā)表之后引來了機器學習社區(qū)的大量反對意見,人們紛紛對這樣的「灌水」行徑表示不忍直視。
 


讓我們先看看論文是怎么說的:
 

AI 學會「看論文」了,研究還上了 Nature
 

該論文的作者來自伯克利國家實驗室能量存儲與分布式資源部門(Energy Storage & Distributed Resources Division)科學家 Anubhav Jain 領(lǐng)導的團隊,他們收集了 330 萬篇已發(fā)表的材料科學論文的摘要,并將它們饋入到一個名為
 

word2vec
 

的算法中。通過解釋詞間的關(guān)系,該算法能夠提前數(shù)年給出新熱電材料的預測,在目前未知的材料中找出有應用潛力的候選材料。
 

這篇名為《Unsupervised Word Embeddings Capture Latent Knowledge from Materials Science Literature》的論文發(fā)表在 7 月 3 日的 Nature 上。
 

論文地址:https://www.nature.com/articles/s41586-019-1335-8
 

論文一作 Vahe Tshitoyan 是伯克利國家實驗室博士后研究員,現(xiàn)就職于谷歌。此外,同屬伯克利國家實驗室的科學家 Kristin Persson 和 Gerbrand Ceder 也參與了此項研究。
 

Gerbrand Ceder 表示:「該論文認為,對科學文獻進行文本發(fā)掘可以發(fā)現(xiàn)隱藏的知識,單純的文本提取可以建立基本科學知識。」
 

論文一作 Tshitoyan 表示,該項目的動機是人們很難完全弄明白數(shù)量過多的已發(fā)表研究。所以,他們想到機器學習是否能夠以無監(jiān)督的方式利用所有集體知識(collective knowledge)。
 

King - queen + man = ?
 

該團隊整理了 1922 年至 2018 年間發(fā)表在 1000 多個期刊上的 330 萬篇論文摘要(是的,AI 讀論文只看摘要)。Word2vec 從這些摘要中提取了大約 50 萬個不同的單詞,并將每個單詞轉(zhuǎn)化為 200 維的向量或者包含 200 個數(shù)字的數(shù)組。
 

Jain 表示:「重要的不在于數(shù)字,而是利用這些數(shù)字觀察單詞之間的關(guān)系」。例如,你可以利用標準向量數(shù)學做向量減法。其他研究者已經(jīng)證明,如果你要在非科學文本資源上訓練該算法,并從『king 減去 queen』中提取向量,則可以得到與『man 減去 woman』相近的結(jié)果。
 

同樣地,當在材料科學文本中進行訓練時,該算法僅根據(jù)摘要中單詞的位置以及它們與其他單詞的共現(xiàn)關(guān)系就可以學習科學術(shù)語和概念的含義。例如,正如該算法可以解「king-queen + man」方程式一樣,它能夠計算出方程式「ferromagnetic(鐵磁的)—NiFe(鎳鐵)+ IrMn(銥錳)」的答案是「antiferromagnetic」(反鐵磁的)。
 


左:Word2vec 的元素表征(投影到二維空間);右:門捷列夫元素周期表。圖源:Berkeley Lab


如上圖所示,當元素周期表中的化學元素投影到二維空間時,Word2vec 甚至可以學習它們之間的關(guān)系。
 

提前數(shù)年預測新材料
 

那么,如果 Word2vec 那么聰明,它能預測新的熱電材料嗎?一種好的熱電材料可以高效地將熱能轉(zhuǎn)換為電能,而且是用安全、充足、易生產(chǎn)的原料制成的。
 

該算法根據(jù)詞向量與單詞「熱電」的相似性對每種化合物進行排序,研究者選取了該算法最為推薦的熱電材料。然后,他們通過計算來驗證算法的預測結(jié)果。
 

他們發(fā)現(xiàn),在算法預測出的前 10 位熱電材料中,所有預測都計算出了略高于已知熱電元件的功率因數(shù)(衡量電氣設(shè)備效率高低的一個系數(shù),該值越高效益越好);前三位材料的功率因數(shù)高于 95% 的已知熱電學元件。
 

接下來,他們測試了該算法是否適用于「過去」的預測實驗,即只給它 2000 年之前的摘要。結(jié)果再次給人驚喜,算法給出的排名靠前的預測結(jié)果很多都出現(xiàn)在了后來的研究中,這一數(shù)字是隨機選擇結(jié)果的四倍。例如,利用 2008 年之前的數(shù)據(jù)訓練得到的預測結(jié)果有 5 個,其中三個已經(jīng)被發(fā)現(xiàn),而其余的兩個非常稀有或含有有毒物質(zhì)。
 

研究者說:「該研究表明,如果該算法能夠早點應用,一些材料早在幾年前就可以被發(fā)現(xiàn)了。」
 

隨著研究的進行,研究者正在發(fā)布由算法預測出的前 50 位熱電材料。他們還將發(fā)布研究中用到的詞嵌入,以幫助其他人發(fā)現(xiàn)更好的材料。此外,他們還在開發(fā)一個更加強大的智能搜索引擎,幫助研究者利用更加有效的方法搜索摘要。
 

遭遇機器學習社區(qū)嘲諷
 


人工智能真的可以自動發(fā)現(xiàn)新材料嗎?這篇論文一經(jīng)發(fā)表便在社交網(wǎng)絡(luò)上引發(fā)了熱烈的討論。目前為止,該帖子已經(jīng)有 14 萬的瀏覽量。
 

材料學的同學們首先表示驚訝:AI 代替科研人員,我們都會失業(yè)嗎?熟悉機器學習的人們看完論文之后回過神來,則開啟了「嘲諷模式」。
 


在知乎上,新加坡國立大學博士、騰訊算法工程師「霍華德」表示:看完這篇 paper 后,我的內(nèi)心久久不能平復,好久沒看到這么爛的 paper 了!
 

也有人建議其他領(lǐng)域的學者在使用機器學習方法做自己的研究前要先打好基礎(chǔ)。「到處挖坑蔣玉成」表示:我真心建議文章通訊作者和審稿人都去學學 CS224n…這文章的立意還挺不錯的,但是實際的實現(xiàn)也太水了,完全不配發(fā) Nature。


 

該論文中,作者用 t-SNE 將詞向量投影到二維空間,并發(fā)現(xiàn)同族元素聚集在了一起。「霍華德」表示,同族元素在上下文當然容易提及,它們只是共現(xiàn)關(guān)系而已。此外,作者聲稱可以直接用詞向量預測化合物,并表示預測結(jié)果與理論計算的絕對誤差非常小,但理論能算出來東西,用神經(jīng)網(wǎng)絡(luò)做擬合的意義真的很大嗎?
 

在這里,作者連神經(jīng)網(wǎng)絡(luò)適用的基本場景都弄不清,對于 Formation Energy 的計算有完善的量子力學理論做支撐,對于這樣能夠精準建模的問題,用傳統(tǒng)的物理學第一性理論來計算更好,更加可靠!
 

最后,作者用余弦相似度計算了和 thermoelectric 最接近的單詞,然后在其中的 326 位和 345 位發(fā)現(xiàn)了兩種材料 Li2CuSb 和 Cu3Nb2O8,然后宣稱他們的算法能夠預測潛在的新型熱電材料。在讀者看來,這是一種「令人窒息」的操作。因為 thermoelectric 和兩種材料之所以余弦相似度接近,根本原因是有人在文章里同時提到過 thermoelectric 和 Li2CuSb、Cu3Nb2O8,這僅僅是共現(xiàn)關(guān)系而已。
 

所以結(jié)論來了:所謂能夠預測潛在的新型熱電材料的 AI 算法屬于無稽之談,材料學研究者們的生存并沒有因此受到威脅——因為這篇論文沒有提出任何能讓 AI 看懂論文的算法。
 

也有研究材料的學者在知乎上表示,為了蹭大數(shù)據(jù)、機器學習、深度學習的熱度,很多領(lǐng)域的研究都在做相關(guān)的工作。「聲嘶力竭」介紹了自己的經(jīng)歷:剛開始接觸和學習 AI 相關(guān)技術(shù),本以為可以利用這個工具做出多么偉大的工作,但是自己真正做了之后,才感覺「這不就是個高維特征空間的統(tǒng)計工具嘛,為什么被吹得這么玄幻?」
 

機器學習不能這么亂用
 

論文上了《自然》、《科學》雜志,卻仍然經(jīng)不起人們的推敲,這種事最近在機器學習社區(qū)已經(jīng)發(fā)生了不是一兩次了。
 

在「人工智能搞科研」研究之前,是「深度學習預測地震」。去年 8 月,《Nature》上發(fā)表了一篇題為《Deep learning of aftershock patterns following large earthquakes》的火爆論文。該論文由哈佛和谷歌的數(shù)據(jù)科學家聯(lián)合撰寫,論文一作所屬單位是哈佛大學地球與行星科學系。
 

該論文展示了如何利用深度學習技術(shù)預測余震。研究者指出,他們利用神經(jīng)網(wǎng)絡(luò)在預測余震位置方面的準確率超越了傳統(tǒng)方法。
 

但很快,這一方法就遭到了深度學習從業(yè)者的質(zhì)疑。一位名叫 Rajiv Shah 的數(shù)據(jù)科學家表示,論文中使用的建模方法存在一些根本性的問題,因此實驗結(jié)果的準確性也有待考究。這名數(shù)據(jù)科學家本著嚴謹?shù)木裨谕ㄟ^實驗驗證之后聯(lián)系了原作和《Nature》,卻沒得到什么積極的回復。
 

于是,Rajiv Shah 經(jīng)過半年時間,研究了論文作者公開的代碼,隨后在 medium 上發(fā)表文章揭露論文中存在的根本性缺陷以及《Nature》的不作為,后來這件事又在 Reddit 上引起了廣泛的討論。
 

人們除了批評 Nature 之外,也對深度學習AI 技術(shù)被濫用的情況表示擔憂。隨著機器學習逐漸成為熱門學科,越來越多其他領(lǐng)域的學者開始使用新方法來解決問題,有些獲得了成果,有些則因為實驗和數(shù)據(jù)的錯誤方式而導致了不嚴謹?shù)慕Y(jié)果。
 

更令人擔憂的是,有時候有缺陷的研究還可以得到人們的認可。
 


這篇深度學習預測余震的論文登上了 Nature,還成為了 TensorFlow 2.0 新版本上宣傳文章中提到的案例——然而卻被機器學習社區(qū)從業(yè)者們詬病。
 

頂級期刊的事,怎么能說胡編亂造呢?然而這一次,人工智能學者們真的有點忍不住了。


免責聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點,轉(zhuǎn)載目的在于傳遞更多信息,并不代表EETOP贊同其觀點和對其真實性負責。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時聯(lián)系我們,我們將在第一時間刪除!


關(guān)鍵詞: AI 人工智能

  • EETOP 官方微信

  • 創(chuàng)芯大講堂 在線教育

  • 半導體創(chuàng)芯網(wǎng) 快訊

全部評論

主站蜘蛛池模板: 国产成人精品日本亚洲专| 亚洲乱码国产乱码精品精98| 欧美黄色一级网站| 国产又黄又爽又色视频观看免费| 亚洲精品国产网红在线| 白白操在线视频| 国产aaa三级| 12306影院午夜入口| 香蕉视频免费在线看| 久热青青青在线视频精品| 在线日韩国产| 男人你懂的网站| 欧美激情首页| 国产成在线观看免费视频| 黄片毛片免费观看| 97起碰| 欧美69视频在线| 91老色批网站免费看| 亚洲一在线| 成人免费无遮挡做性视频| 青青久久久| 欧美在线观看黄色| 国产在线视频一区| 国产麻豆精品hdvideoss| 爱爱免费网站| 国产精品观看| 国产色图片| 久久本道久久综合伊人| 欧美日韩精品一区二区三区不卡 | 高清三级毛片| 97久视频精品视频在线老司机| 国产麻豆精品| 亚洲精品一区henhen色| 1000部拍拍拍18勿入免费凤凰福利 | 久久黄色一级片| 日本一级毛片视频| 成人爱av18丰满| 国产一区二区三区鲁婷婷| 特黄aaaaaa久久片| 黄色片1级| 被公侵犯肉体中文字幕一区二区|