近年來深度學習技術中卷積網路(CNN)的高度發展,才激勵產業與學界重新檢視視訊辨識的機會。法新社
急速增加的攝影機使得監看人力逐漸無法負荷,「視訊辨識」一直是長久以來安全監控領域的殺手級應用。但礙於技術發展,過去不曾真正落實,直到近年來深度學習技術中卷積網路(CNN)的高度發展,才激勵產業與學界重新檢視視訊辨識的機會。在應用上,視訊辨識可以滿足諸多需求:例如影片拍攝分類,安全監控中的摔倒偵測、尾隨進入建築、爬牆,購物情境中的產品銷售熱區、結帳安全,自駕車中的事件判斷,或是醫療照護中的老人看護、復健動作偵測等。
與影像辨識不同,許多視訊事件必須透過連續畫面才能判斷:例如單看手部高舉,無法分辨接下來的動作是抓頭髮或是出手打人。所以視訊辨識必有效的參考多個連續畫面來做判斷,可以想像運算量以及模型複雜度會比單畫面的影像辨識來得高。
在大分類上,視訊辨識可以區分為「視訊分類」(video classification)以及「動作辨識」(action recognition)。前者僅需將影片分門別類(如婚禮、會議、晚會、運動類型等),一般只要參考場景或主要物件等就可以大致分類完成。研究發現,多張畫面對於正確率的提升並不大,一般認為視訊分類(和影像分類一樣)是目前相對成熟的技術。視訊分類技術時常用來整理大量的視訊資料庫如個人的拍攝、電影製作、甚至是廣告分類、追蹤等,偏向於消費者端的需求。
在動作辨識上,連續畫面以及物件的動線影響了辨識的效果。所以過去的研究致力於如何有效描述畫面變化。許多人提出先使用CNN來紀錄每個畫面的內容(場景以及物件),再結合時序模型(如LSTM)來抓取畫面的動態變化,所以類似於ConvLSTM的模型成為箇中主流。另外傳統電腦視覺中的光流(optical flow)技術可以描述連續畫面間各個像素的可能移動方向,也被拿來作為「動態」畫面,成為視訊辨識中相當重要的訊息來源,但缺點是速度相當緩慢,因為計算畫面間的光流十分耗時,而且無法直接與深度學習網路端對端的結合。有人主張使用CNN來逼近光流、或是直接使用視訊壓縮標準中的motion vector等來取代光流的高成本運算。
既然利用連續畫面辨識十分重要,目前的主流做法是直接將2D的卷積加上額外時間維度擴充為3D卷積,不過會大量增加模型的參數以及運算量。關鍵的問題是各個視訊事件(動作)有不同的時序速度,如何決定適合的時間解析度成了棘手的問題。還好,最近提出的SlowFast模型提供了相當不錯的均衡方式。
視訊辨識在安全領域有極高影響性,比如在工程、工廠的運作中,動作偵測十分關鍵,決定了良率以及安全性。但這方面的偵測需要關注更多細節,例如操作人員是在敲擊?旋轉?還是拉動某個開關?這些差異可能只在細微的部份呈現,極具挑戰。因此近年興起「細精度動作分類」,可以加上類似attention模組來解決精細關注的問題。甚至利用人體姿態辨識自動標記出人體各個關節點,接著參考關節點的移動來進行細部辨識。
多樣性攝影機在各個應用場域快速成長,已無法使用人力監控,特別是在許多高成長的應用場域,如交通、零售、工業安全、醫療照護等,更需要智能化的判斷。而且許多新穎的應用還沒被開發,如「視訊預測」:判斷被稽查的嫌疑犯是否有開槍意圖、家中監控的攝影機在小孩發生危險前能預先提出警報。攝影機為國內重要的產業鏈,對於視訊辨識的技術發展,實在不能輕忽。
"技術" - Google 新聞
April 27, 2020 at 11:01PM
https://ift.tt/3eTyPTb
視訊辨識的技術與機會 - DIGITIMES
"技術" - Google 新聞
https://ift.tt/2vdsyzX
Shoes Man Tutorial
Pos News Update
Meme Update
Korean Entertainment News
Japan News Update
Bagikan Berita Ini
0 Response to "視訊辨識的技術與機會 - DIGITIMES"
Post a Comment