首先,我們有必要理清楚機器視覺與計算機視覺之間的關系。從學科分類上,二者都被認為是artificialintelligence下屬科目,不過計算機視覺偏軟件,通過算法對圖像進行識別分析,而機器視覺軟硬件都包括(采集設備,光源,鏡頭,控制,機構(gòu),算法等),指的是系統(tǒng),更偏實際應用。簡單的說,我們可以認為計算機視覺是研究“讓機器怎么看”的科學,而機器視覺是研究“看了之后怎么用”的科學。
計算機視覺與機器視覺的問題是,前者太學術(shù),后者太工業(yè),因而一直以來在消費級市場缺乏好的產(chǎn)品。圖漾創(chuàng)始人費浙平向雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號關注)編輯說,機器視覺的很多核心技術(shù)和原理多年前就比較成熟了,近年來的進展主要集中在工程化,比如gpu和視覺計算加速器的出現(xiàn)解決了計算量問題。但與此同時,要想把視覺技術(shù)實現(xiàn)真正產(chǎn)品落地,中間還有不少其他問題,他們也在摸索中。
視覺技術(shù)在消費級市場最早的嘗試是微軟的kinect。2010年,微軟聯(lián)合深度攝像頭技術(shù)方案提供方primesense正式對外推出kinect,利用骨骼捕捉技術(shù),kinect可以捕捉游戲玩家的骨骼動作,從而讓游戲玩家可以不接觸屏幕即可玩游戲。在kinect之后,華碩、intel、谷歌以及蘋果也相繼在深度攝像頭的應用場景上跟進,一切都看起來往好的方向發(fā)展。
但深度攝像頭作為獨立產(chǎn)品,市場化難度頗大。例如intel在13年在開發(fā)者會議上宣布,將推出自己的微型深度感知模塊,華碩、戴爾、惠普、聯(lián)想等多家pc廠家都將從2014年下半年開始在產(chǎn)品線中部署這款深度感知模塊。而兩年多過去了,曾經(jīng)預言的集成深度攝像頭的產(chǎn)品遲遲未見。
那么,處于計算機視覺和機器視覺交叉部分的深度攝像頭,應該如何打開消費級市場?
“機器視覺在消費市場落地,技術(shù)上是人工智能技術(shù)和機器人硬件有效融合的問題,有兩條路:
1.自上而下。以人工智能技術(shù)應用為主,要求機器人硬件盡可能符合人工智能技術(shù)工程化的條件。這意味著,產(chǎn)品得增加傳感器,以保障智能算法數(shù)據(jù)供給,得提高成本,有良好的計算資源讓復雜的智能算法“跑”起來。還意味著產(chǎn)品具有不穩(wěn)定性,人工智能技術(shù)以概率為主,產(chǎn)品功能依賴人工智能技術(shù)的比例越大,產(chǎn)品功能越不穩(wěn)定。機器視覺應用里面,人臉檢測是很穩(wěn)定的,但遇到黑人也難打包票。
2.自下而上。以機器人硬件為主,在功能上應用人工智能技術(shù)輔助。這意味著,產(chǎn)品比較可靠,但同時也失去了一些智能化的特性。當產(chǎn)品需要某些智能化的功能時,要花費大量人力針對某個“智能算法”做移植,將本來在不穩(wěn)定環(huán)境中運行的算法應用在可控、高效而且低成本的嵌入式環(huán)境中,這點讓很多專注理論算法的工程師頭疼。
機器視覺技術(shù)落實在產(chǎn)品上,有時候是自下而上做產(chǎn)品的過程中,給了“智能算法”太多的束縛,大家總是優(yōu)先考慮成本和穩(wěn)定性,而不是技術(shù)應用本身。我們從人工智能領域出來做機器人,希望兩者做個折衷,以自上而下的愿景給智能技術(shù)找一個市場立足點。市場對智能產(chǎn)品需求的不明晰,也是機器視覺難落地市場的一大因素。”