計算機(jī)視覺識別里程碑式突破：成員均是中國人

發(fā)布時間：2016-05-14 09:56

本文關(guān)鍵詞：計算機(jī)視覺，由筆耕文化傳播整理發(fā)布。

一直以來，計算科學(xué)家一直在為建立世界上最精確的計算機(jī)視覺系統(tǒng)孜孜不倦地努力著，但取得進(jìn)展的過程卻一直如馬拉松競賽般漫長而艱辛。近期，微軟亞洲研究院實現(xiàn)的突破讓他們成為了這場競賽的最新領(lǐng)跑者。該團(tuán)隊所開發(fā)的基于深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）的計算機(jī)視覺系統(tǒng)，在ImageNet1000挑戰(zhàn)中首次超越了人類進(jìn)行對象識別分類的能力。

該研究團(tuán)隊是微軟亞洲研究院視覺計算組，他們開發(fā)了一個計算機(jī)視覺系統(tǒng)，該系統(tǒng)基于深度卷積神經(jīng)網(wǎng)絡(luò)（注：卷積神經(jīng)網(wǎng)絡(luò)，Convolutional Neural Networks，縮寫為CNN，不是那個教老外在中國找女友的電視臺的CNN哦）。該研究團(tuán)隊的論文名稱較長：“Delving Deepinto Rectifiers: Surpassing Human-Level Performanceon ImageNet Classification”。論文中指出，他們的系統(tǒng)在ImageNet2012分類數(shù)據(jù)集中的錯誤率已降低至4.94%。此前同樣的實驗中，人眼辨識的錯誤率大概為5.1%。這個數(shù)據(jù)集包含約120萬張訓(xùn)練圖像、5萬張驗證圖像和10萬張測試圖像，分為1000個不同的類別。微軟研究員表示：“據(jù)我們所知，我們的研究成果是這項視覺識別挑戰(zhàn)中第一個超越人類視覺能力的計算機(jī)系統(tǒng)�！�

4人團(tuán)隊：孫劍、何愷明、張祥雨、任少卿

值得一提的是，完成這個研究的團(tuán)隊僅有4人，全部由中國人組成：2人為微軟亞洲研究院研究員孫劍與何愷明，另外2人為實習(xí)生，分別是來自西安交通大學(xué)的張祥雨和中國科學(xué)技術(shù)大學(xué)的任少卿。

何愷明（資料圖）

目標(biāo)：能與人類視覺媲美，甚至比人類更準(zhǔn)確

微軟研究員在論文中指出，修正神經(jīng)元（rectifierneuron）是近期將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于計算機(jī)視覺挑戰(zhàn)時取得成功的關(guān)鍵要素之一。

研究人員表示：“在本論文中，我們從兩個方面對主要由修正神經(jīng)元驅(qū)動的神經(jīng)網(wǎng)絡(luò)進(jìn)行了研究。首先，我們生成了一種新的修正線性單元（ReLU），并將其稱為參數(shù)化修正線性單元（PReLU）。該激活函數(shù)不僅可自適應(yīng)獲取修正參數(shù)，還可提高計算精度，且所需額外計算成本幾乎可以忽略不計。其次，我們研究了深度修正模型的訓(xùn)練難度。我們通過對修正線性單元（即ReLU/PReLU）的非線性特征進(jìn)行直接建模，推導(dǎo)出一種符合理論的初始化方法，并直接從頭開始訓(xùn)練網(wǎng)絡(luò)，將其應(yīng)用于深度模型（例如，具有30個帶權(quán)層的模型）的收斂過程。這為我們探索功能更強(qiáng)大的網(wǎng)絡(luò)體系結(jié)構(gòu)提供了更多的靈活性。”

這個數(shù)據(jù)集包含約120萬張訓(xùn)練圖像、5萬張驗證圖像和10萬張測試圖像，分為1000個不同的類別（來源：微軟亞洲研究院）

該研究團(tuán)隊雖然對其算法超越人類視覺識別極限感到興奮不已，但與該領(lǐng)域的其他研究人員一樣，研究團(tuán)隊成員也強(qiáng)調(diào)，計算機(jī)視覺目前從根本上仍無法與人類視覺相比。計算機(jī)系統(tǒng)在識別物體、理解圖像上下文及場景高級信息等領(lǐng)域仍面臨諸多挑戰(zhàn)。

“雖然我們的算法基于該特定的數(shù)據(jù)集得出了極為理想的結(jié)果，但這并不表明在對象識別領(lǐng)域機(jī)器視覺普遍優(yōu)于人類視覺。某些對于人類來說輕而易舉的基本對象類別的識別，機(jī)器識別仍然存在明顯錯誤。盡管如此，我們的研究結(jié)果表明機(jī)器算法在眾多視覺識別任務(wù)上具有巨大的發(fā)展?jié)摿�。�?/p>

“人類可以毫不費力地區(qū)分出一只羊和一頭牛。但計算機(jī)在執(zhí)行這些簡單任務(wù)時卻不盡完美，”孫劍解釋道�！�但是，當(dāng)涉及到不同品種的羊的區(qū)分時，計算機(jī)可超越人類。通過訓(xùn)練，計算機(jī)可觀察圖像的細(xì)節(jié)、紋理、形狀及環(huán)境，并發(fā)現(xiàn)人類無法察覺出的區(qū)別。”

微軟研究團(tuán)隊的工作并不僅僅局限于基礎(chǔ)研究，其多項成果已被應(yīng)用到微軟的產(chǎn)品和服務(wù)中，包括必應(yīng)圖片搜索及微軟云存儲解決方案OneDrive。在近期的一篇博文中，微軟OneDrive項目經(jīng)理Douglas Pearce介紹了OneDrive自動識別照片內(nèi)容的功能。

“OneDrive會自動為用戶上傳的照片創(chuàng)建標(biāo)簽，比如人、狗、沙灘、落日等等，使用戶借助標(biāo)簽?zāi)軌蚋p松地尋找到自己的圖片。有了這項功能，我們向演示項目中添加照片、與家人重溫特殊回憶，或與Facebook好友分享重要時刻就變得輕而易舉�！盤earce如是說。

想要了解此項技術(shù)背后原理的讀者可閱讀微軟研究院去年發(fā)布的專題文章。該文章介紹了來自同一研究團(tuán)隊的研究成果，他們在保持準(zhǔn)確性不變的條件下將深度學(xué)習(xí)目標(biāo)檢測系統(tǒng)加速了多達(dá)100倍。該團(tuán)隊的科研進(jìn)展記錄于題為“Spatial Pyramid Poolingin Deep Convolutional Networks for Visual Recognition”研究論文中。

“微軟亞洲研究院視覺計算研究組一直致力于推動計算機(jī)視覺研究的前沿發(fā)展，終極目標(biāo)是使計算機(jī)能夠模擬出人類的感知能力。我對研究組多年來所取得的成就深感自豪，他們不僅以高質(zhì)量的論文取得了學(xué)術(shù)界的認(rèn)可，而且通過將這些技術(shù)轉(zhuǎn)化到了微軟的多個核心產(chǎn)品中�！蔽④泚喬邪l(fā)集團(tuán)主席兼微軟亞洲研究院院長洪小文博士說道。

2010年，來自斯坦福大學(xué)、普林斯頓大學(xué)及哥倫比亞大學(xué)的科學(xué)家們啟動大規(guī)模視覺識別挑戰(zhàn)賽（Large Scale Visual Recognition Challenge），推動了計算機(jī)視覺識別挑戰(zhàn)的持續(xù)發(fā)展�？萍夹袠I(yè)知名記者John Markoff于2014年8月在《紐約時報》上刊登文章指出，2014年計算機(jī)識別挑戰(zhàn)的目標(biāo)識別準(zhǔn)確率幾乎提升了一倍，圖像分類錯誤率也減少了一半。最近，百度的研究人員在其論文中宣稱，以ImageNet對象分類為基準(zhǔn)，百度的計算機(jī)視覺系統(tǒng)實現(xiàn)了前五選5.33%的錯誤率。

關(guān)于計算機(jī)視覺的挑戰(zhàn)仍在繼續(xù)，今年的挑戰(zhàn)賽將于12月啟動。但這并不是孫劍、何愷明及其研究團(tuán)隊的關(guān)注重點�！拔覀兊哪繕�(biāo)是在眾多應(yīng)用上開發(fā)出能與人類視覺媲美，甚至比人類更準(zhǔn)確的計算機(jī)視覺系統(tǒng)，”孫劍說道。“如要實現(xiàn)這一目標(biāo)，，我們需要更多的訓(xùn)練數(shù)據(jù)和更加真實的測試場景。我們在必應(yīng)、OneDrive和其他服務(wù)平臺上的工作將幫助我們進(jìn)一步改善算法的魯棒性（注：魯棒性，即強(qiáng)壯性，Robust）�！�

微信搜索“

本文關(guān)鍵詞：計算機(jī)視覺，由筆耕文化傳播整理發(fā)布。

本文編號：45011

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/jisuanjikexuelunwen/45011.html

上一篇：Linux網(wǎng)絡(luò)編程必看書籍推薦
下一篇：zouxy09的專欄

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

計算機(jī)視覺識別里程碑式突破：成員均是中國人