傳統(tǒng)機(jī)器學(xué)習(xí)的方法大都是區(qū)域選擇、特征提出及建立分類器三步曲,在應(yīng)用過程中效率常常成為的困擾。在區(qū)域選擇策略上效果較差,時間效率不高,提取的特征魯棒性不高,常常直接影響著機(jī)器視覺技術(shù)項目的實施。
深度學(xué)習(xí)(deep learing,dl)是一種以深(多)層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(deepneural network, dnn)為主要特點(diǎn)的機(jī)器學(xué)習(xí)模型和算法,是機(jī)器學(xué)習(xí)的一種新方式。它是以人工神經(jīng)網(wǎng)絡(luò)( artificial neural network, ann)為基礎(chǔ),利用 dnn 建立模型,配合有效的參數(shù)調(diào)整和優(yōu)化方法。
深度學(xué)習(xí)的發(fā)展
深度學(xué)習(xí)出現(xiàn)的時間較早,一直以來發(fā)展不快,直到 2006 年才步入新的快速發(fā)展的階段,大量地應(yīng)用于各類工程技術(shù)問題的解決。
2006 年加拿大高級研究院(cifar)組織進(jìn)行 dnn 的研究并取得較好的實際效果;同年 g.e.hinton 提出深度學(xué)習(xí)的概念,并成功解決了阻礙多層深度學(xué)習(xí)結(jié)構(gòu)的關(guān)鍵問題,自此深度學(xué)習(xí)才拉開大幕。
深度學(xué)習(xí)的模型
深度學(xué)習(xí)已建立多種模型,常常用于語音、自然語言、視頻、圖像等領(lǐng)域,機(jī)器視覺技術(shù)指的是圖像及視頻的處理。工業(yè)和工程領(lǐng)域涉及的被測物特征主要有幾何形狀、形態(tài)、色彩、紋理等,玖瑞科技均有一定程度的研究。
常用的深度學(xué)習(xí)模型如下
卷積神經(jīng)網(wǎng)絡(luò)( covolutional nerual networks ,cnn )
cnn 是深度學(xué)習(xí)中一種重要的方法和模型,它主要的特點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)中有大量的卷積層和池化層,通過大量的卷積層(convolutional layer)和池化層(pooling layer)依次疊加,對圖像數(shù)據(jù)進(jìn)行逐層的特征提取、組合和抽象,從而能夠?qū)W習(xí)到分類識別的更高層次的特征描述。
cnn 模型是受生物視覺識別的模型啟發(fā)而產(chǎn)生的,模擬了動物視覺信號處理的方式,與動物視覺 lng-v1-v2-v4-it 的層級神經(jīng)認(rèn)知回路在圖像處理上是近似的。
以下是 2012 年 g.e. hinton 在 ilsvrc 競賽中提出的 alexnet 模型。
此模型做了一些根本性的改變,自此深度學(xué)習(xí)的 cnn 發(fā)生了質(zhì)變進(jìn)入到新的發(fā)展階段。
alexnet 模型,包括由此而產(chǎn)生的新系列模型能夠有較大發(fā)展,同樣也得益于計算技術(shù)(如 cpu、gpu 等)及單位運(yùn)算成本的大幅度下降,硬件技術(shù)為其提供了物理基礎(chǔ)。
基于深度學(xué)習(xí)的計算機(jī)視覺( computer vision )
基于深度學(xué)習(xí)的計算機(jī)視覺大致分為 3 個研究領(lǐng)域:圖像分類、目標(biāo)檢測和圖像語義分割。
圖像分類,是一種根據(jù)各類圖像所反映的不同特征,把不同類別的目標(biāo)區(qū)分開來的圖像處理方法。典型的基于深度學(xué)習(xí)的圖像分類網(wǎng)絡(luò)包括:vggnet、resnet 等。vggnet 是由牛津大學(xué)和 google deepmind 公司一起研發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò),它探索了卷積神經(jīng)網(wǎng)絡(luò)的深度和其性能之間的關(guān)系。vggnet 獲得了 ilsvrc 2014 年比賽的亞軍和定位項目的,在 top5上的錯誤率為 7.5%。目前為止,vggnet 依然被大量網(wǎng)絡(luò)用來提取圖像的特征。resnet(residual neural network)由微軟研究院的 kaiming he 等人提出,通過使用 resnet unit 成功訓(xùn)練出了 152 層的神經(jīng)網(wǎng)絡(luò),并ilsvrc2015 比賽中取得,在 top5 上的錯誤率為 3.57%,同時參數(shù)量比vggnet 低,效果非常突出。resnet 的結(jié)構(gòu)可以極快地加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,模型的準(zhǔn)確率也有比較大的提升。
目標(biāo)檢測的任務(wù)是找出圖像中所有感興趣的目標(biāo)(物體),確定它們的位置和大小,是機(jī)器視覺領(lǐng)域的核心問題之一。由于各類物體有不同的外觀、形狀、姿態(tài),加上成像時光照、遮擋等因素的干擾,目標(biāo)檢測一直是機(jī)器視覺領(lǐng)域有挑戰(zhàn)性的問題。與深度學(xué)習(xí)相關(guān)的目標(biāo)檢測方法大致分為兩派:基于區(qū)域提名的方法,如 r-cnn、fast r-cnn、faster r-cnn等,無需區(qū)域提名的方法,如:yolo 系列、ssd 等。
圖像語義分割就是按照語義對圖像中的每個像素點(diǎn)進(jìn)行分類。語義分割不僅需要解決圖像中包含哪些物體,還需要解決每個像素點(diǎn)屬于哪個物體。當(dāng)前代表性的網(wǎng)絡(luò)主要有 fcn、unet、deeplab 等。另外還有用于實例分割的 mask r-cnn 可以實現(xiàn)目標(biāo)檢測和圖像語義分割的雙重功能。實例分割的意思是,算法用目標(biāo)檢測方法從圖像中檢測到不同實例,再用語義分割方法在不同實例區(qū)域內(nèi)進(jìn)行逐像素分割。
(本文由玖瑞科技技術(shù)部視覺與測控技術(shù)實驗室整理提供,本文參考了 2018 年 6月山西農(nóng)業(yè)大學(xué)王(jie)博士、2018 年 12 月中國地質(zhì)大學(xué)王振華博士的論文)