賈佳亞港中文團隊冠軍技術分享：最有效的COCO物體分割算法 @ 史瑞克優惠本舖

賈佳亞港中文團隊冠軍技術分享：最有效的COCO物體分割算法

本文首發於微信公眾號：新智元。文章內容屬作者個人觀點，不代表和訊網立場。投資者據此操作，風險請自擔。

新智元報道【新智元導讀】物體分割（instance segmentation）是如今視覺領域最熱最核心的一油煙處理機出租個問題。在這屆國際圖像識別權威競賽MS COCO當中，香港中文大學團隊UCenter取得瞭物體分割任務第一名，相對去年的冠軍，團隊取得瞭9.1個點的提升，相對提升達24%。他們通過深度剖析FPN、Mask R-CNN、PSPNet的信息傳遞機制，提出瞭多路網絡（Multi-Path Network），旨在更好地運用網絡信息。

10月29日，在威尼斯水城舉行的ICCV 2017“Joint COCO and Places Recognition Challenge” Workshop落下帷幕，來自Facebook、MSRA（微軟亞洲研究院）台北靜電機出租、Google、商湯科技、曠視科技等科技公司以及卡耐基梅隆大學、香港中文大學，上海交通大學、中國科學院自動化研究所等頂級高校的多支團隊參加瞭本次競賽。

經過激烈角逐，由香港中文大學在讀博士生、商湯科技研究員組成的“UCenter”團隊超過微軟亞洲研究院與Facebook FAIR團隊，拿下瞭COCO實例分割（instance segmentation）任務的第一名。

這是COCO比賽最難的問題之一，因為需要分割每一個像素，判斷這個像素屬於哪一個類別哪一個實例。相對去年的冠軍，UCenter團隊取得瞭9.1個點的提升，相對提升達24%。

此外，在COCO物體檢測任務中，UCenter團隊拿到瞭亞軍，相對去年冠軍，提升瞭9.5個點，相對提升22%。

團隊組成，參加大規模公開比賽任務練手練兵

“UCenter”團隊由劉樞、亓魯、秦海芳、石建萍和賈佳亞組成。賈佳亞教授是香港中文大學終身教授，騰訊優圖實驗室傑出科學傢。石建萍博士是賈佳亞教授以前的博士生，現就職於商湯科技。劉樞、亓魯是香港中文大學的在讀博士生，也是賈佳亞教授現在的學生，石建萍博士是他們的Mentor。秦海芳參與比賽時是商湯科技的實習生。

參與這個比賽是石建萍與其博士導師賈佳亞教授一起計劃的聯合培養課題。他們都認為，類似COCO這樣的大規模公開比賽任務，不僅是驗證算法的邊界，提煉真正有用技術方案一個很好的平臺，更是培養和鍛煉學生極好的練兵場。

劉樞對實例分割這個任務相對比較熟悉，因為這個方向是他在賈老師組內攻讀PhD的主要研究方向。亓魯與秦海芳則是剛剛接觸使用深度學習解決物體檢測與實例分台北靜電油煙處理機租賃割這個任務。商湯科技寬松友好的學術氛圍以及遠超高校實驗室的計算資源為同學們的算法研究提供瞭有力支持，也幫助幾位同學的成長。

香港中文大學賈佳亞教授的視覺研究組在今年也有相當不錯的ICCV論文發表。在之前的報道裡提到，他的學生在騰訊優圖實習或工作期間共同合作發表瞭三篇ICCV oral論文（每篇接受率隻有2.1%）。一鍵卸妝的黑科技也出自此他們在騰訊的工作。

除此之外，在去年最大的ImageNet場景分析比賽（scene parsing challenge 2016），他們剛進入第二年的博士生趙恒爽就以主力參與者身份，通過在商湯的暑期實習和與其他學生和商湯研究員的合作，取得第一名，比基準方法有瞭差不多10個點的提升。此方法在當時最大的道路場景分割數據集上（Cityscapes testing set）也是排名第一。除此之外，賈佳亞中文大學視覺研究組裡的同學現在每年有很多機會在全球各個業界頂尖研究院和高校交流和實習。

COCO-17 實例分割第一名算法細節：多路網絡（Multi-Path Network）

在本次的COCO競賽中，與其他參賽團隊一樣，UCenter團隊以Mask R-CNN作為實例分割的基礎框架。不同的是，他們通過深度剖析FPN、Mask R-CNN、PSPNet的信息傳遞機制，提出瞭多路網絡（Multi-Path Network），旨在更好地運用網絡信息。他們的改變主要集中在以下三點。

首先，與傳統FPN中按照物體候選區域大小將其分配到對應層級特征圖上的方式不同，他們將物體候選區域映射到所有的特征層級去獲取對應的特征，將其融合之後供後續分類網絡使用。UCenter團隊發現，對於每個候選區域，不同層級的信息都是有用的，采用這樣的方法，相比傳統FPN，大物體能夠獲取底層的細節信息，小物體可以獲取更多由高層更大感受野提供的上下文信息，在候選區域內不同層級上面有用的信息可以被有效利用。

其次，他們發現，低層級的特征圖對預測大物體也是十分有效。於是他們在FPN的基礎上，增加瞭一個自下而上的分支，幫助更好的傳遞底層信息到最高層級。低層級特征在之前的工作中也有被應用，但基本都是為瞭預測小物體或者精細化一些細節，而低層級特征對於大物體的作用在之前並沒有被很認真地探討過。

最後，在掩膜預測的部分，他們也進行瞭改進。在Mask R-CNN中，進行掩膜預測的是一個小的全卷積網絡，這樣速度快，而且特征都可以直接對齊到圖片。但是他們發現，全連接層與全卷積層是有一些互補的特征，比如全卷積層是位置敏感的，不同的位置的預測是由不同的參數給出的，而且每個位置的預測都是基於全局信息。於是，他們將這兩種網絡結合在一起進行掩膜的預測，從而得到更高質量的結果。

這些改變使訓練的網絡在不同大小的物體上面取得更為顯著的提高，相應的技術細節也即將投稿於CVPR2018。

值得一提的是，UCenter團隊並沒有在超參方面進行精調，而是直接采用Mask RCNN和FPN的文章中的超參，相信他們更希望通過使用更好的模型而不是更好的超參取勝。他們使用的初始模型也全部來源於網絡上已經開源的模型。

他們也提到，現在GPU的顯存已經成為模型效能提升的一個瓶頸。他們在比賽期間主要使用的是TitanXP，隻有12G顯存，即使使用瞭sublinear memory optimization的方法優化顯存占用，使用大型初始網絡時，顯存壓力依然很大。為瞭能夠充分使用這些機器，他們使用較小的圖片進行訓練，更貼近工業界實際生產和應用環境需求。基於小型初始網絡的經驗，他們相信使用完整的圖片以及更大尺度訓練，模型性能會得到進一步提升。

UCenter團隊成員表示，在CVPR截稿之後，他們會整理代碼並將其開源，分享給更多的計算機視覺工作者、愛好者。

新智元世界人工智能大會，賈佳亞教授分享計算機視覺新認知

11月8日，在新智元AI World 2017世界人工智能大會上，賈佳亞教授將發表演講，分享計算機視覺的新認知。

賈佳亞教授介紹說：“計算機視覺的研究和應用經歷瞭一個長時間的發展，其中有一大段時間是不被企業界重視的。

“在這個演講中，我會把先進的計算機視覺研究成果做一個重新劃分和歸類，展示給大傢一個有很多具體內容的視覺研究畫卷。一直以來，我們都在創新；所以我也會給大傢看到新的有趣的應用，同時撥開雲遮霧繞，還原視覺AI的技術真實水平。最後我也會和大傢介紹騰訊優圖實驗室視覺AI的發展。”

賈佳亞騰訊優圖實驗室傑出科學傢

香港中文大學終身教授賈佳亞博士加盟騰訊優圖實驗室。作為傑出科學傢，賈佳亞教授將負責計算機視覺、圖像處理、模式識別、機器學習等人工智能領域的研究，及人工智能與各種應用場景結合的深度探索。

賈佳亞教授是香港中文大學終身教授，擁有香港科技大學聯合微軟亞洲研究院計算機科學博士學位。加入騰訊前，賈佳亞教授曾與微軟研究院、谷歌、高通、英特爾、Adobe 等圖像和人工智能研究機構開展過深度聯合研究工作。他是前期和中期計算機視覺最著名的專傢之一。在香港中文大學任職期間，他創立的視覺實驗室對圖像濾波、圖像去模糊、圖像增強、圖像稀疏處理、多頻段圖像信號的融合，以及大范圍運動估計等研究做出瞭巨大的貢獻。其中，圖像濾波和逆向視覺問題解法被許多高校教科書、課件和開源視覺代碼庫（包括 OpenCV）收錄，同時也在視覺商業系統中得到廣泛應用。現階段，其實驗室在語義分割、自然語言和視覺聯合系統、人像深度處理和幾何深度理解等領域均取得瞭重要成果。

和訊網今天刊登瞭《賈佳亞港中文團隊冠軍技術分享：最有效的COCO物體分割算法》一文，關於此事的更多報道，請在和訊財經客戶端上閱讀。

台灣電動床工廠電動床