計(jì)算機(jī)視覺識(shí)別里程碑式突破:成員均是中國人
本文關(guān)鍵詞:計(jì)算機(jī)視覺,由筆耕文化傳播整理發(fā)布。
一直以來,計(jì)算科學(xué)家一直在為建立世界上最精確的計(jì)算機(jī)視覺系統(tǒng)孜孜不倦地努力著,但取得進(jìn)展的過程卻一直如馬拉松競賽般漫長而艱辛。近期,微軟亞洲研究院實(shí)現(xiàn)的突破讓他們成為了這場(chǎng)競賽的最新領(lǐng)跑者。該團(tuán)隊(duì)所開發(fā)的基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的計(jì)算機(jī)視覺系統(tǒng),在ImageNet1000挑戰(zhàn)中首次超越了人類進(jìn)行對(duì)象識(shí)別分類的能力。
該研究團(tuán)隊(duì)是微軟亞洲研究院視覺計(jì)算組,他們開發(fā)了一個(gè)計(jì)算機(jī)視覺系統(tǒng),該系統(tǒng)基于深度卷積神經(jīng)網(wǎng)絡(luò)(注:卷積神經(jīng)網(wǎng)絡(luò),Convolutional Neural Networks,縮寫為CNN,不是那個(gè)教老外在中國找女友的電視臺(tái)的CNN哦)。該研究團(tuán)隊(duì)的論文名稱較長:“Delving Deepinto Rectifiers: Surpassing Human-Level Performanceon ImageNet Classification”。論文中指出,他們的系統(tǒng)在ImageNet2012分類數(shù)據(jù)集中的錯(cuò)誤率已降低至4.94%。此前同樣的實(shí)驗(yàn)中,人眼辨識(shí)的錯(cuò)誤率大概為5.1%。這個(gè)數(shù)據(jù)集包含約120萬張訓(xùn)練圖像、5萬張驗(yàn)證圖像和10萬張測(cè)試圖像,分為1000個(gè)不同的類別。微軟研究員表示:“據(jù)我們所知,我們的研究成果是這項(xiàng)視覺識(shí)別挑戰(zhàn)中第一個(gè)超越人類視覺能力的計(jì)算機(jī)系統(tǒng)!
4人團(tuán)隊(duì):孫劍、何愷明、張祥雨、任少卿
值得一提的是,完成這個(gè)研究的團(tuán)隊(duì)僅有4人,全部由中國人組成:2人為微軟亞洲研究院研究員孫劍與何愷明,另外2人為實(shí)習(xí)生,分別是來自西安交通大學(xué)的張祥雨和中國科學(xué)技術(shù)大學(xué)的任少卿。
何愷明(資料圖)
目標(biāo):能與人類視覺媲美,甚至比人類更準(zhǔn)確
微軟研究員在論文中指出,修正神經(jīng)元(rectifierneuron)是近期將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于計(jì)算機(jī)視覺挑戰(zhàn)時(shí)取得成功的關(guān)鍵要素之一。
研究人員表示:“在本論文中,我們從兩個(gè)方面對(duì)主要由修正神經(jīng)元驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)進(jìn)行了研究。首先,我們生成了一種新的修正線性單元(ReLU),并將其稱為參數(shù)化修正線性單元(PReLU)。該激活函數(shù)不僅可自適應(yīng)獲取修正參數(shù),還可提高計(jì)算精度,且所需額外計(jì)算成本幾乎可以忽略不計(jì)。其次,我們研究了深度修正模型的訓(xùn)練難度。我們通過對(duì)修正線性單元(即ReLU/PReLU)的非線性特征進(jìn)行直接建模,推導(dǎo)出一種符合理論的初始化方法,并直接從頭開始訓(xùn)練網(wǎng)絡(luò),將其應(yīng)用于深度模型(例如,具有30個(gè)帶權(quán)層的模型)的收斂過程。這為我們探索功能更強(qiáng)大的網(wǎng)絡(luò)體系結(jié)構(gòu)提供了更多的靈活性!
這個(gè)數(shù)據(jù)集包含約120萬張訓(xùn)練圖像、5萬張驗(yàn)證圖像和10萬張測(cè)試圖像,分為1000個(gè)不同的類別(來源:微軟亞洲研究院)
該研究團(tuán)隊(duì)雖然對(duì)其算法超越人類視覺識(shí)別極限感到興奮不已,但與該領(lǐng)域的其他研究人員一樣,研究團(tuán)隊(duì)成員也強(qiáng)調(diào),計(jì)算機(jī)視覺目前從根本上仍無法與人類視覺相比。計(jì)算機(jī)系統(tǒng)在識(shí)別物體、理解圖像上下文及場(chǎng)景高級(jí)信息等領(lǐng)域仍面臨諸多挑戰(zhàn)。
“雖然我們的算法基于該特定的數(shù)據(jù)集得出了極為理想的結(jié)果,但這并不表明在對(duì)象識(shí)別領(lǐng)域機(jī)器視覺普遍優(yōu)于人類視覺。某些對(duì)于人類來說輕而易舉的基本對(duì)象類別的識(shí)別,機(jī)器識(shí)別仍然存在明顯錯(cuò)誤。盡管如此,我們的研究結(jié)果表明機(jī)器算法在眾多視覺識(shí)別任務(wù)上具有巨大的發(fā)展?jié)摿Α!?/p>
“人類可以毫不費(fèi)力地區(qū)分出一只羊和一頭牛。但計(jì)算機(jī)在執(zhí)行這些簡單任務(wù)時(shí)卻不盡完美,”孫劍解釋道!但是,當(dāng)涉及到不同品種的羊的區(qū)分時(shí),計(jì)算機(jī)可超越人類。通過訓(xùn)練,計(jì)算機(jī)可觀察圖像的細(xì)節(jié)、紋理、形狀及環(huán)境,并發(fā)現(xiàn)人類無法察覺出的區(qū)別。”
微軟研究團(tuán)隊(duì)的工作并不僅僅局限于基礎(chǔ)研究,其多項(xiàng)成果已被應(yīng)用到微軟的產(chǎn)品和服務(wù)中,包括必應(yīng)圖片搜索及微軟云存儲(chǔ)解決方案OneDrive。在近期的一篇博文中,微軟OneDrive項(xiàng)目經(jīng)理Douglas Pearce介紹了OneDrive自動(dòng)識(shí)別照片內(nèi)容的功能。
“OneDrive會(huì)自動(dòng)為用戶上傳的照片創(chuàng)建標(biāo)簽,比如人、狗、沙灘、落日等等,使用戶借助標(biāo)簽?zāi)軌蚋p松地尋找到自己的圖片。有了這項(xiàng)功能,我們向演示項(xiàng)目中添加照片、與家人重溫特殊回憶,或與Facebook好友分享重要時(shí)刻就變得輕而易舉!盤earce如是說。
想要了解此項(xiàng)技術(shù)背后原理的讀者可閱讀微軟研究院去年發(fā)布的專題文章。該文章介紹了來自同一研究團(tuán)隊(duì)的研究成果,他們?cè)诒3譁?zhǔn)確性不變的條件下將深度學(xué)習(xí)目標(biāo)檢測(cè)系統(tǒng)加速了多達(dá)100倍。該團(tuán)隊(duì)的科研進(jìn)展記錄于題為“Spatial Pyramid Poolingin Deep Convolutional Networks for Visual Recognition”研究論文中。
“微軟亞洲研究院視覺計(jì)算研究組一直致力于推動(dòng)計(jì)算機(jī)視覺研究的前沿發(fā)展,終極目標(biāo)是使計(jì)算機(jī)能夠模擬出人類的感知能力。我對(duì)研究組多年來所取得的成就深感自豪,他們不僅以高質(zhì)量的論文取得了學(xué)術(shù)界的認(rèn)可,而且通過將這些技術(shù)轉(zhuǎn)化到了微軟的多個(gè)核心產(chǎn)品中!蔽④泚喬邪l(fā)集團(tuán)主席兼微軟亞洲研究院院長洪小文博士說道。
2010年,來自斯坦福大學(xué)、普林斯頓大學(xué)及哥倫比亞大學(xué)的科學(xué)家們啟動(dòng)大規(guī)模視覺識(shí)別挑戰(zhàn)賽(Large Scale Visual Recognition Challenge),推動(dòng)了計(jì)算機(jī)視覺識(shí)別挑戰(zhàn)的持續(xù)發(fā)展?萍夹袠I(yè)知名記者John Markoff于2014年8月在《紐約時(shí)報(bào)》上刊登文章指出,2014年計(jì)算機(jī)識(shí)別挑戰(zhàn)的目標(biāo)識(shí)別準(zhǔn)確率幾乎提升了一倍,圖像分類錯(cuò)誤率也減少了一半。最近,百度的研究人員在其論文中宣稱,以ImageNet對(duì)象分類為基準(zhǔn),百度的計(jì)算機(jī)視覺系統(tǒng)實(shí)現(xiàn)了前五選5.33%的錯(cuò)誤率。
關(guān)于計(jì)算機(jī)視覺的挑戰(zhàn)仍在繼續(xù),今年的挑戰(zhàn)賽將于12月啟動(dòng)。但這并不是孫劍、何愷明及其研究團(tuán)隊(duì)的關(guān)注重點(diǎn)!拔覀兊哪繕(biāo)是在眾多應(yīng)用上開發(fā)出能與人類視覺媲美,甚至比人類更準(zhǔn)確的計(jì)算機(jī)視覺系統(tǒng),”孫劍說道。“如要實(shí)現(xiàn)這一目標(biāo),,我們需要更多的訓(xùn)練數(shù)據(jù)和更加真實(shí)的測(cè)試場(chǎng)景。我們?cè)诒貞?yīng)、OneDrive和其他服務(wù)平臺(tái)上的工作將幫助我們進(jìn)一步改善算法的魯棒性(注:魯棒性,即強(qiáng)壯性,Robust)!
微信搜索“
本文關(guān)鍵詞:計(jì)算機(jī)視覺,由筆耕文化傳播整理發(fā)布。
本文編號(hào):45011
本文鏈接:http://www.lk138.cn/kejilunwen/jisuanjikexuelunwen/45011.html