24小時論文定制熱線

熱門畢設:土木工程工程造價橋梁工程計算機javaasp機械機械手夾具單片機工廠供電采礦工程
您當前的位置:論文定制 > 畢業設計論文 >
快速導航
畢業論文定制
關于我們
我們是一家專業提供高質量代做畢業設計的網站。2002年成立至今為眾多客戶提供大量畢業設計、論文定制等服務,贏得眾多客戶好評,因為專注,所以專業。寫作老師大部分由全國211/958等高校的博士及碩士生設計,執筆,目前已為5000余位客戶解決了論文寫作的難題。 秉承以用戶為中心,為用戶創造價值的理念,我站擁有無縫對接的售后服務體系,代做畢業設計完成后有專業的老師進行一對一修改與完善,對有答辯需求的同學進行一對一的輔導,為你順利畢業保駕護航
代做畢業設計
常見問題

基于深度學習和計算機視覺技術的物體抓取識別算法研究

添加時間:2020/06/24 來源:上海師范大學 作者:關捷雄
本文采用了多攝像機的架設方案,設計和實現了一種快速立體匹配算法,該算法利用雙目相機的對極約束條件以及動態規劃,能夠在線性時間內完成匹配,在多個相機之間定位同一個物體。
以下為本篇論文正文:

摘要

  計算機視覺技術是人工智能的主要研究方向之一,隨著圖像或者視頻的數據規?焖僭鲩L,以及計算能力的?升,計算機視覺技術在近幾年獲得了前所未有的發展,被廣泛應用于多種場景,如無人駕駛,人流監控等。為了挖掘人工智能技術的應用潛力,筆者將其成功的應用了到無人零售場景。本文設計了一種物體抓取識別算法,該算法基于深度學習和計算機視覺技術,能夠在目標被抓取的狀態下,識別目標物體的個數和種類,可用于識別零售場景中顧客抓取的商品。它包含三個算法模塊:立體匹配、物體識別和行為識別,其主要內容如下:

  為了讓目標物體多角度的暴露在視野范圍內以獲得多角度的信息源,并避免單攝像機被遮擋以至算法完全失效,本文采用了多攝像機的架設方案,設計和實現了一種快速立體匹配算法,該算法利用雙目相機的對極約束條件以及動態規劃,能夠在線性時間內完成匹配,在多個相機之間定位同一個物體。

  物體識別算法是本文的核心,零售場景需要識別出目標的種類及相應的個數,盡管目標檢測算法可以實現這一目的,但是需要大量的標注成本和計算成本。本文使用弱監督學習的模型訓練方案,設計了一種深度卷積神經網絡和一個計數損失函數,不需要標注目標物體的位置信息,就可以識別出圖像中目標物體的個數和類別。并且,筆者為這一視覺識別任務設計了一種評估指標,較傳統的精確率和召回率相比它更為嚴格,在筆者?出的數據集下,實現了 94.6%的準確度,模型的前向時間僅需 3.87 毫秒。

  行為識別采用雙流神經網絡,?取視頻的空域信息和時域信息,識別出目標顧客在商店中做出的購買行為。最后,筆者設計了一種視頻數據的自動標注算法,它利用插值算法和卷積神經網絡能夠準確的預測目標的標定框,大幅地降低人工標注成本。

  關鍵詞:深度學習,計算機視覺,立體匹配,圖像識別,行為識別

物體抓取識別算法

Abstract

  Computer vision technology is one of the main research directions of artificial intelligence. With the rapid growth of image or video data size and the improvement of computing power, computer vision technology has achieved unprecedented development in recent years and is widely used in various scenarios, e.g. driverless and crowd monitoring. This paper implemented a set of intelligent recognition algorithms and successfully applied it to automatic checkout retail.

  This paper designs an object capture recognition algorithm based on deep learning and computer vision technology. It can identify the number and category of target objects in the state where the target is hold by hand. It can be used to identify items held by customers in a retail scene. It contains two algorithm modules, which are stereo matching algorithm and object recognition algorithm. The main contents are as follows:

  In order to expose the target object to multiple angles of view in the field of view to obtain a multi-angle information source, and avoid the single camera being occluded and the algorithm completely failed. In this paper, a multi-camera erection scheme is adopted to design and implement a fast stereo matching algorithm. The algorithm utilizes the polar constraints of the binocular camera and dynamic programming,completing the matching in linear time and locating the same object between multiple cameras.

  The object recognition algorithm is the core of this paper. The retail scene needs to identify the type of target and the corresponding number. Although the target detection algorithm can achieve this purpose, it requires a lot of labeling cost and calculation cost. This paper utilized weak supervised learning, designed a deep convolutional neural network and a counting loss function. The number and type of target objects in the image can be identified without labeling the position information of the target object. Moreover, this paper have designed an evaluation function for this visual recognition task, which is stricter than the traditional accuracy and recall rate. Under our data set, this paper achieved 94.6% accuracy, and the forward time of the model is only 3.87 milliseconds.

  Action Recognition uses Two-Stream Neural Network to extract temporal feature and spatial feature, then identify the purchase behavior made by target customer in the store. Finally, this paper also designed an automatic labeling algorithm for video data,which uses interpolation algorithm and convolutional neural network to accurately  predict the target Bounding Box, which greatly reduces the cost of manual labeling.

  Keywords: Deep Learning, Computer Vision, Stereo Matching, Image Recognition, Action Recognition

目錄

  第 1 章 緒論

  1.1 研究背景及意義

  據統計,歐洲發達國家平均每 60 人就有一臺無人零售柜可供使用,美國平均每 40 人就可使用一臺無人零售柜,日本的零售行業更為發達,平均每 25 人就有一臺無人零售柜,而中國的無人零售柜總量約為 25 萬臺,平均每 4500 人才可使用一臺,遠遠落后于這些國家的平均水平,這也反映了無人零售柜這一產業在中國的發展潛力。

  本文使用計算機視覺和深度學習技術,設計的"智能抓取識別系統",已成功應用于便利店的貨架和自動販賣機的實際場景中。該系統通過本文所設計的算法,能夠識別人在一個商品展示架前是否做出了抓取或者放回的動作,以及抓取的是何物品。對于"自動支付便利店"項目,在顧客進入門店時,通過人臉識別綁定用戶賬號,當用戶在店內抓取或放回商品,通過識別行為主體、行為、物體,實現物品在對應賬號購物車的添加和刪除,用戶離店時,無需顯式的支付過程即可完成支付,免去了營業員的收銀工作。對于"自動支付販賣機"項目,它和傳統的自動售貨機不同,它不需要復雜的機械設備或 RFID 作為輔助,只通過相機識別客戶所拿到的物品,它通過面部識別打開機柜,并在門關閉后自動進行支付。

  客戶不需要任何額外的操作,就像在家里的冰箱里拿東西一樣。它徹底顛覆了傳統的復雜機械設備,取而代之的是其他的硬件設備:在固定位置放置的一對攝像頭,后臺服務器,以及適合使用場景的準入設施(電子鎖,門禁等)。

  可以看出,這些項目應用在零售場景中,可以減少商家的營運成本,讓顧客達到"拿了就走"的購物體驗,并通過分析用戶行為,購物記錄,改善便利店的運營狀況。本文來源于這一項目中智能識別算法的研究工作。除此之外,它具有應用于其他場景的潛力,如警局、消防局的設備管理,書店、展廳的指定物品擺放。

  隨著國家人工智能發展戰略的?出,國家鼓勵人工智能創新項目的開展和企業發展,人們對人工智能這一技術認識的深化,以及人工智能計數本身的發展,由人工智能賦能的零售行業,如便利店、零售柜等將逐漸本項目的被市場認可,具有巨大的發展潛力,將會應用到國內市場的各個領域。同時,設計和實現的人工智能賦能的零售產品具有降低運營成本以及讓顧客享受流暢的購物體驗的特性,已經和產業相關的上下游知名企業形成了密切合作,如冷柜生產企業,大型傳統零售企業,國內知名地產商等,已經在國內的多個消費場景部署了無人便利店和無人零售柜等產品,如學校、銀行、商超、交通、物業等。

  1.2 國內外研究現狀分析

  無人零售場景的核心問題,是一個"Who-Take-What"的問題,即"誰拿了什么".基于計算機視覺技術,解決"Who"的問題,普遍采用人臉識別(FaceRecognition)或行人重識別(Person Re-identification)識別圖像中的目標是誰。

  "What"的問題,在便利店場景下,即是識別顧客所抓取的商品是什么,在計算機視覺中,這是一個圖像分類(Image Classification)或物體檢測(Object Detection)問題。而"Take"的問題,是整個系統的關鍵,它是聯系"Who"和"What"的紐帶,解決的是人和商品的綁定,是準確向顧客賬戶購物車添加、刪除商品的關鍵。在實踐中,可以利用計算機視覺技術中的行為識別(Action Recognition)、人體姿態估計(Human Pose Estimation)來實現這一功能。

  自大規模圖像分類數據集 ILSVRC 的開放和深度學習在該數據集上大獲成功[1]開始,深度學習在計算機視覺的各個方向大放異彩,可以應用結合了深度學習的計算機視覺技術實現上面?到的各個功能,如人臉檢測和人臉識別,物體識別,行為識別等。為了解決"Who-Take-What"的問題,需要設計不同的算法模塊,對應的解決這些問題,并將各個算法模塊集成在一個完整的系統里。

  對于"Who"的問題,即"是誰做出了這次行為",可以實現一個人臉檢測(Face Detection)和人臉識別(Face Recognition)算法模塊解決這一問題。大部分深度學習算法在人臉檢測數據集 FDDB[2]和人臉識別數據集 LFW[3][4]都能取得很好的效果(99%以上),盡管如此,深度學習在開源的網絡數據集上的效果好,通常僅能代表該模型的有效性,不代表該模型在實際場景也能獲得很好的準確率,[5]

  的研究人員設計了一個非常簡單的深度學習模型,通過網絡收集的人臉數據集訓練模型,在 LFW 數據集上驗證的準確率達到 99.5%,然而在另一個現實場景的人臉驗證數據集,準確率僅達到 66%.人臉識別是非常依賴大量數據的,要想在現實場景中取得高準確率,一定要在特定域(specific domain)的數據集上做訓練。在便利店場景下,拍攝到的人連數據主要面臨兩大困難:1)位姿不固定,2)光照變化,在實際使用中發現,MTCNN [6] 和 Facenet [7] 分別是人臉檢測和人臉識別實際使用效果較好的模型,筆者通過 MEGAFace[8][9]人臉數據集訓練出了實際可用的是臉識別模型。人臉識別是觸發式的,即產生了一些特定的行為,才會對相機拍下的照片進行識別。又因為一個店內有多組貨架,還需要定位每個貨架,每個顧客的準確位置。對此,筆者使用計算機視覺的三維重建(3DReconstruction)技術,對多攝像機標定,建立一個三維的世界坐標系,將每個人,每一攝像頭,每一貨架,甚至是貨架上的每一貨位,都映射到世界坐標系當中。

  對于"What"的問題,即"觸發行為的物體是什么",需要設計一個物體識別系統。盡管可以使用結合了深度學習的圖像分類或者物體檢測解決這一問題,如圖像分類[1][10][11]

  ,目標檢測[12][13][14][15][16][17][18][19] [20][21].筆者更進一步,采用了弱監督學習的算法,設計了一種卷積神經網絡,以及相應的損失函數和評價標準,能夠在沒有標定框的條件下識別圖像中目標的類別和數量。同時,為了避免由單個相機遮擋造成的完全識別失效,還采用了多攝像機架設的方案識別物體,同時,為了達到相機間的連通而不是各自獨立識別,本文利用雙目相機的對極約束原理和動態規劃實現了一種快速的立體匹配算法。

  對于"Take"的問題,是整個系統實現的關鍵問題,它是"Who"和"What"之間的聯系,也就是人和商品的綁定問題。也就是當一個商品離開貨架,而攝像機定位到了當前貨架前有不止一位顧客,如何判斷是哪一位顧客選取了這個商品?

  針對此,筆者設計了兩種方案:1) 使用行為識別(Action Recognition)或者行為檢測(Action Detection), 定位當前行為發生的主體,再通過人臉識別完成人和商品的綁定。2) 使用人體姿態估計(Human Pose Estimation),定位所有手腕的位置,再通過歐式距離綁定人和商品。這兩種方法是互補的,可以互相彌補對方的不足和缺陷,甚至可以采用特征融合策略(Feature Fusion Strategy),?升行為識別的準確率。在傳統方法中,iDT[22][23]

  取得的效果是最好的。深度學習在行為識別中的實現,主要有三種,1)三維卷積網絡[24]

  在時序和空域維度上同時卷積。

  2)同時輸入運動特征(密集軌跡)和 RGB 圖像的雙流卷積神經網絡[25].3)使用循環神經網絡,RNN,LSTM 在時序維度上?取特征[26].另外,也有通過傳感器識別人體做出的行為[27][28].

  1.3 研究目標及內容

  本文根據項目需求,對相關領域的研究進展、理論和技術做了一定程度的研究和調研工作,形成了文獻綜述。設計和實現了一種視頻標注工具,該工具基于VATIC 軟件,復用了該軟件的前端頁面和后端程序,重新設計了該軟件的識別算法,使用插值算法和基于深度學習的目標檢測算法,能夠實時的自動標注目標物體。

  本文通過多攝像機架設的方案識別物體,以盡量避免由單個相機遮擋造成的完全識別失效。利用雙目相機的對極約束原理和動態規劃實現了一種快速的立體匹配算法。同時設計了一個卷積神經網絡,該網絡能夠識別圖像中目標的類別和數量,在模型結構,損失函數,評價標準上都有所創新。

  多相機架設條件下,物體抓取識別算法的流程為:1)對左攝像頭運行實時的目標檢測,當檢測出"手持物品"時,2)運行立體匹配,找到檢測框在右攝像頭相對應的位置,3)通過視差計算目標深度,通過標定好的相機模型,重建目標在真實世界的位置,4)調用多目標追蹤模塊,形成手持商品的追蹤軌跡,5)?

  取每一對檢測框的特征,融合左右兩個相機?取的特征,識別商品類別。6)根據行為識別的結果,為顧客的賬單中添加或刪除商品。

  1.4 本文組織結構

  在緒論部分,本文闡述了研究的來源和項目背景,分析了項目的可行性和市場價值,分析了項目的實現方法,詳細地介紹了當前國內外相關領域研究進展,以及如何應用這些研究實現本文?出的研究內容。

  第二章是相關概念和技術,這一章對雙目視覺和立體匹配、物體識別、行為識別做了充分的理論和技術分析,它奠定了本文接下來的研究工作和方向。

  結合了深度學習的計算機視覺技術是一種數據驅動方法(Data DrivenApproach),它需要大量的數據訓練和驗證模型的能力,任務或問題的不同直接影響著數據的標注格式,數據標注軟件的性能直接影響著模型的實現成本。因此,在第三章,介紹了本文基于 VATIC 設計和修改實現的數據標注工具,它通過基于深度學習的目標檢測算法、插值算法能夠自動標注視頻中的目標物體,除此之外,還介紹了本文所使用數據的標注格式和數據規模。

  筆者的項目使用攝像頭實時的拍攝目標區域,將數據傳遞給服務器,調用算法分析和識別。靜止架設的單攝像頭十分容易受到遮擋的影響和失去作用,在實際應用中往往采取雙攝像機或者多攝像機的配置解決因角度問題而產生的遮擋。

  然而,多路相機只能通過融合各個相機的識別結果得到一個最終結果,因為各個相機之間沒有任何聯系。本文通過雙目視覺和立體匹配算法將相機聯系到一起。

  在第四章詳細介紹了這一方法,此章節詳述了本項目在構建立體視覺時,遇到的主要問題,算法的理論依據,針對問題所?出的算法設計,以及實驗過程。

  第五章是本文最主要的內容,商品識別。這一章詳細介紹本項目的商品識別算法模塊,介紹了本文設計的深度卷積神經網絡的模型結構,用于識別和計數的損失函數、訓練模型的實現細節、模型評估方法等。

  第六章展示了筆者所設計的行為識別模型,它可以用于識別商店中顧客做出的具體行為,進而能夠配合商品識別模型實現自動的增減購物車操作。本章介紹了行為識別模型所使用的數據集,模型結構,實驗結果等。





  第 2 章 相關概念和技術
  2.1 雙目視覺和立體匹配
  2.1.1 雙目視覺
  2.1.2 立體匹配
  2.1.3 積分直方圖的應用
  2.2 物體識別
  2.3 行為識別

  第 3 章 標注工具和數據集
  3.1 VATIC 標注工具的插值算法原理
  3.2 基于 VATIC 插值算法的改進策略
  3.3 數據的內容和標注方法
  3.4 數據標注的統計結果

  第 4 章 立體視覺
  4.1 對極約束
  4.2 立體匹配
  4.2.1 積分圖和積分直方圖的概念
  4.2.2 積分直方圖的算法
  4.2.3 子區域的計算
  4.2.4 快速積分直方圖算法

  4.3 雙目視覺算法流程
  4.3.1 相機標定
  4.3.2 立體矯正
  4.3.3 立體匹配

  第 5 章 物體識別
  5.1 網絡結構
  5.2 損失函數
  5.2.1 多任務學習
  5.2.2 標簽編碼
  5.2.3 計數損失

  5.3 實現細節
  5.3.1 實現平臺
  5.3.2 遷移學習和參數初始化
  5.3.3 優化方法
  5.3.4 預處理和數據增強
  5.3.5 結果量化
  5.3.6 訓練效果

  5.4 模型評估
  5.4.1 計數評估標準
  5.4.2 實驗驗證
  5.4.3 雙流物體識別
  5.4.4 錯誤識別分析

  第 6 章 行為識別
  6.1 數據集
  6.2 運動信息
  6.3 網絡結構
  6.4 模型評估

第7 章 總結與展望

  在本文的研究過程中,參考了大量計算機視覺方向的國際頂級期刊、會議的文章,如 CVPR,ICCV,ECCV,IJCV.對于開源了源代碼的文章,筆者都運行過并見到了實際的效果,對于未開源代碼的文章,都有學習它們的思想,并復現了部分文章。

  本文使用了 Python、C++和 Matlab 三種編程語言實現,相機標定部分使用Matlab 實現,雙目視覺和立體匹配部分使用 C++實現,物體識別的部分使用Python 和深度學習框架 Pytorch 實現。之所以使用不同的編程語言是因為不同的任務有其不同的需求,不同的編程語言也有其不同的特性和生態,在進行研究和實現時,必須依據具體問題選擇適當的工具。比如 C++的運行速度更快,所以更適合實時性要求非常高的立體匹配算法,Python 更加靈活,處理數據、可視化的能力強大,有配套的深度學習框架,所以它非常適合用于深度學習的算法實驗,而 Matlab 的標定程序經過比較,其精確度優于 C++的 OpenCV 框架。

  本文主要介紹了四項工作,自動標注、立體匹配、物體識別和行為識別。自動標注是基于 VATIC 的軟件和算法框架修改的,其節省標注的能力更勝一籌。

  立體匹配算法利用了雙目視覺的對極約束條件,通過動態規劃的思想,在線性的時間內就完成了立體匹配。物體識別是一項全新的工作,它通過弱監督學習的訓練方法,在不?供標定框的條件下即可識別圖像上的物體及其數量。行為識別則實現了對視頻數據的分類,達成了識別目標顧客行為的目標。

  在接下來,筆者將繼續開展本文的研究和實現,其方向主要有二。

  其一,繼續弱監督學習物體識別的研究,雖然當前的準確率足夠,但是模型的可解釋性不強,我將嘗試 Region Proposal Network 的思想,繼續實驗。

  除此之外,在立體匹配的基礎之上,我將嘗試使用多源輸入網絡,如深度孿生網絡(Siamese Network), 雙流神經網絡(Two-Stream Neural Network)。

  參考文獻
  [1] Russakovsky O , Deng J , Su H , et al. ImageNet Large Scale Visual Recognition Challenge[J].International Journal of Computer Vision, 2015, 115(3):211-252.
  [2] Jain V, Learned-Miller E. Fddb: A benchmark for face detection in unconstrained settings[R].UMass Amherst Technical Report, 2010.
  [3] Huang G B, Mattar M, Berg T, et al. Labeled faces in the wild: A database forstudying facerecognition in unconstrained environments[C]Workshop on faces in'Real-Life'Images:detection, alignment, and recognition. 2008.
  [4] Learned-Miller E, Huang G B, RoyChowdhury A, et al. Labeled faces in the wild: Asurvey[M]Advances in face detection and facial image analysis. Springer, Cham, 2016: 189-248.
  [5] Zhou E, Cao Z, Yin Q. Naive-deep face recognition: Touching the limit of LFW benchmark ornot?[J]. arXiv preprint arXiv:1501.04690, 2015.
  [6] Zhang K, Zhang Z, Li Z, et al. Joint face detection and alignment using multitask cascadedconvolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503.
  [7] Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition andclustering[A] Computer Vision and Pattern Recognition (CVPR) [C] Boston, MassachusettsUSA: Proceedings of the IEEE conference on computer vision and pattern recognition. 2015:815-823.
  [8] Nech A, Kemelmacher-Shlizerman I. Level playing field for million scale face recognition[A]Computer Vision and Pattern Recognition (CVPR) [C] Honolulu, HI, USA: Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition. 2017: 7044-7053.
  [9] Kemelmacher-Shlizerman I, Seitz S M, Miller D, et al. The megaface benchmark: 1 millionfaces for recognition at scale[A] Computer Vision and Pattern Recognition (CVPR) [C] LasVegas, NV, USA:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition. 2016: 4873-4882.
  [10] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale imagerecognition[J]. arXiv preprint arXiv:1409.1556, 2014.
  [11] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[A] Computer Visionand Pattern Recognition (CVPR)[C] Las Vegas, NV, USA: Proceedings of the IEEE conferenceon computer vision and pattern recognition. 2016: 770-778.
  [12] Sermanet P, Eigen D, Zhang X, et al. Overfeat: Integrated recognition, localization anddetection using convolutional networks[J]. arXiv preprint arXiv:1312.6229, 2013.
  [13] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visualrecognition[A] European Conference on Computer Vision(eccv)[C].Zurich, Switzerland: european conference on computer vision. Springer, Cham, 2014: 346-361.
  [14] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detectionand semantic segmentation[A].Computer Vision and Pattern Recognition(CVPR) [C]Columbus, Ohio, USA: Proceedings of the IEEE conference on computer vision and pattern] Girshick R. Fast R-CNN[A] Computer Vision (ICCV) [C] Santiago, Chile:2015 IEEEInternational Conference on. IEEE, 2015: 1440-1448.
  [16] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with regionproposal networks[A] Neural Information Processing Systems(NIPS) [C] Palais des Congrèsde Montréal, Montréal CANADA :Advances in neural information processing systems. 2015:91-99.
  [17] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[J]. arXiv preprintarXiv:1708.02002, 2017.
  [18] Ren S, He K, Girshick R, et al. Object detection networks on convolutional feature maps[J].IEEE transactions on pattern analysis and machine intelligence, 2017, 39(7): 1476-1481.
  [19] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time objectdetection[A] Computer Vision and Pattern Recognition(CVPR) [C] Las Vegas, NV, USA:Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.
  [20] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[J]. arXiv preprint, 2017.
  [21] Redmon J, Farhadi A. YOLOv3: An incremental improvement[J]. arXiv preprintarXiv:1804.02767, 2018.
  [22] Wang H, Kl?ser A, Schmid C, et al. Action recognition by dense trajectories[A] ComputerVision and Pattern Recognition (CVPR) [C]. Colorado Springs, CO, USA: 2011 IEEEConference on. IEEE, 2011: 3169-3176.
  [23] Wang H, Schmid C. Action recognition with improved trajectories[A].Computer Vision (ICCV)[C] Sydney, Australia:2013 IEEE International Conference on. IEEE, 2013: 3551-3558.
  [24] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutionalnetworks[A]. Computer Vision (ICCV) [C] Santiago, Chile: 2015 IEEE InternationalConference on. IEEE, 2015: 4489-4497.
  [25] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition invideos[A] Neural Information Processing Systems(NIPS) [C]. Palais des Congrès de Montréal,Montréal CANADA : Advances in neural information processing systems. 2014: 568-576.
  [26] Singh B, Marks T K, Jones M, et al. A multi-stream bi-directional recurrent neural network forfine-grained action detection[A] Computer Vision and Pattern Recognition (CVPR)[C] LasVegas, NV, USA :Proceedings of the IEEE Conference on Computer Vision and PatternRecognition. 2016: 1961-1970.
  [27] Christ M, Braun N, Neuffer J, et al. Time Series FeatuRe Extraction on basis of scalablehypothesis tests (tsfresh-A Python package)[J]. Neurocomputing, 2018, 307: 72-77.
  [28] Lockhart J W, Weiss G M, Xue J C, et al. Design considerations for the WISDM smart phonebased sensor mining architecture[A] Proceedings of the Fifth International Workshop onKnowledge Discovery from Sensor Data[C] New York, NY, USA: ACM, 2011: 25-33.
  [29] Scharstein D, Szeliski R. A taxonomy and evaluation of dense two-frame stereocorrespondence algorithms[J]. International journal of computer vision, 2002, 47(1-3): 7-42[30] Zbontar J, LeCun Y. Stereo Matching by Training a Convolutional Neural Network to CompareImage Patches[J]. Journal of Machine Learning Research, 2016, 17(1-32): 2.
  [31] Zhang K, Lafruit G, Lauwereins R, et al. Joint integral histograms and its application in stereo matching[A]International Conference on Image Processing(ICIP)[C] Hong Kong, China :2010 IEEE International Conference on Image Processing. IEEE, 2010: 817-820.
  [32] Porikli F. Constant time O (1) bilateral filtering[A] Computer Vision and Pattern Recognition(CVPR)[C] Anchorage, AK, USA : 2008 IEEE Conference on Computer Vision and PatternRecognition. IEEE, 2008: 1-8.
  [33] Ghanem B, Niebles J C, Snoek C, et al. ActivityNet Challenge 2017 Summary[J]. arXivpreprint arXiv:1710.08011, 2017.
  [34] Ferrari V, Marin-Jimenez M, Zisserman A. Progressive search space reduction for human poseestimation[A] Computer Vision and Pattern Recognition [C] Anchorage, Alaska, USA :2008.CVPR 2008. IEEE Conference on. IEEE, 2008: 1-8.
  [35] Shotton J, Girshick R, Fitzgibbon A, et al. Efficient human pose estimation from single depthimages[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12):2821-2840.
  [36] Wei S E, Ramakrishna V, Kanade T, et al. Convolutional pose machines[A] Computer Visionand Pattern Recognition(CVPR) [C] Las Vegas, NV, USA: Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. 2016: 4724-4732.
  [37] Cao Z, Simon T, Wei S E, et al. Realtime multi-person 2d pose estimation using part affinityfields[A] Computer Vision and Pattern Recognition(CVPR) [C] Honolulu, HI, USA: CVPR.2017, 1(2): 7.
  [38] Newell A, Yang K, Deng J. Stacked hourglass networks for human pose estimation[A]European Conference on Computer Vision (ECCV)[C]. Amsterdam, The Netherlands :Springer, Cham, 2016: 483-499.
  [39] Karpathy A, Toderici G, Shetty S, et al. Large-scale video classification with convolutionalneural networks[A] Computer Vision and Pattern Recognition[C] Columbus, OH,USA :Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2014:1725-1732.
  [40] Grauman K, Darrell T. The pyramid match kernel: Discriminative classification with sets ofimage features[A].Computer Vision, 2005. ICCV 2005.[C]. Beijing, China:Tenth IEEEInternational Conference on. IEEE, 2005, 2: 1458-1465.
  [41] Lazebnik S, Schmid C, Ponce J. Beyond bags of features: Spatial pyramid matching forrecognizing natural scene categories[A]. Computer vision and pattern recognition [C]. NewYork, NY, USA:2006 IEEE computer society conference on. IEEE, 2006, 2: 2169-2178.
  [42] Pishchulin L, Andriluka M, Schiele B. Fine-grained activity recognition with holistic and posebased features[A]. German Conference on Pattern Recognition (GCPR)[C]. Münster,Germany :Springer, Cham, 2014: 678-689.
  [43] Yao A, Gall J, Van Gool L. Coupled action recognition and pose estimation from multipleviews[J]. International journal of computer vision, 2012, 100(1): 16-37.
  [44] Singh V K, Nevatia R. Action recognition in cluttered dynamic scenes using pose-specific partmodels[A] Computer Vision (ICCV) [C] Barcelona, Spain:2011 IEEE InternationalConference on. IEEE, 2011: 113-120.
  [45] Tran K N, Kakadiaris I A, Shah S K. Modeling motion of body parts for action recognition[A]British Machine Vision Conference (BMVC) [C] Dundee: BMVC. 2011, 11: 1-12.
  [46] Soomro K, Zamir A R, Shah M. UCF101: A dataset of 101 human actions classes from videos in the wild[J]. arXiv preprint arXiv:1212.0402, 2012.
  [47] Singh B, Marks T K, Jones M, et al. A multi-stream bi-directional recurrent neural network forfine-grained action detection[A] Computer Vision and Pattern Recognition (CVPR)[C] LasVegas, NV, USA :Proceedings of the IEEE Conference on Computer Vision and PatternRecognition. 2016: 1961-1970.
  [48] Rohrbach M, Amin S, Andriluka M, et al. A database for fine grained activity detection ofcooking activities[A] Computer Vision and Pattern Recognition (CVPR) [C] Providence, RI,USA:2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 1194-1201.
  [49] Pishchulin L, Andriluka M, Schiele B. Fine-grained activity recognition with holistic and posebased features[A] German Conference on Pattern Recognition(GCPR) [C]. Columbus, Ohio:Springer, Cham, 2014: 678-689.
  [50] Jhuang H, Gall J, Zuffi S, et al. Towards understanding action recognition[A]. Computer Vision(ICCV) [C] Sydney, NSW, Australia: 2013 IEEE International Conference on. IEEE, 2013:3192-3199.
  [51] Pishchulin L, Andriluka M, Schiele B. Fine-grained activity recognition with holistic and posebased features[A] German Conference on Pattern Recognition(GCPR) [C]. Columbus, Ohio:Springer, Cham, 2014: 678-689.
  [52] Sorokin A, Forsyth D. Utility data annotation with amazon mechanical turk[A] ComputerVision and Pattern Recognition (CVPR)[C]. Anchorage, AK, USA : 2008 IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition Workshops. IEEE, 2008: 1-8.
  [53] Russell B C, Torralba A, Murphy K P, et al. LabelMe: A Database and Web-Based Tool forImage Annotation[J]. International Journal of Computer Vision, 2008, 77(1-3):157-173.
  [54] Vondrick C, Ramanan D, Patterson D. Efficiently scaling up video annotation withcrowdsourced marketplaces[A] European Conference on Computer Vision(ECCV) [C]Heraklion, Crete, Greece:European Conference on Computer Vision. Springer, Berlin,Heidelberg, 2010: 610-623.
  [55] Dalal N, Triggs B. Histograms of oriented gradients for human detection[A] Computer Visionand Pattern Recognition (CVPR) [C] San Diego, CA, USA : international Conference oncomputer vision & Pattern Recognition (CVPR'05)。 IEEE Computer Society, 2005, 1: 886--893.
  [56] Gupta S, Hoffman J, Malik J. Cross modal distillation for supervision transfer[A] ComputerVision and Pattern Recognition (CVPR) [C] Las Vegas, NV, USA:2016 IEEE Conference on.IEEE, 2016: 2827-2836.
  [57] Huang J, Rathod V, Sun C, et al. Speed/accuracy trade-offs for modern convolutional objectdetectors[A] Computer Vision and Pattern Recognition (CVPR) [C] Honolulu, HI, USA: IEEECVPR. 2017: 3296-3297.
  [58] Erhan D, Szegedy C, Toshev A, et al. Scalable object detection using deep neural networks[A]Computer Vision and Pattern Recognition(CVPR)[C] Columbus, OH, USA : Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition. 2014: 2147-2154.
  [59] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multiBox detector[A] EuropeanConference on Computer Vision(ECCV)[C] Zurich, Switzerland: European conference on computer vision. Springer, Cham, 2016: 21-37.
  [60] Felzenszwalb P F, Girshick R B, McAllester D, et al. Object detection with discriminativelytrained part-based models[J]. IEEE transactions on pattern analysis and machine intelligence,2010, 32(9): 1627-1645.
  [61] Girshick R, Iandola F, Darrell T, et al. Deformable part models are convolutional neuralnetworks[A] Computer Vision and Pattern Recognition(CVPR)[C] Boston, Massachusetts,USA :Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2015:437-446.
  [62] Porikli F. Integral histogram: A fast way to extract histograms in cartesian spaces[A] ComputerVision and Pattern Recognition (CVPR)[C] San Diego, CA, USA : 2005 IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition (CVPR'05)。 IEEE, 2005, 1:829-836.
  [63] Konolige K. Small vision systems: Hardware and implementation[M]Robotics research.Springer, London, 1998: 203-212.
  [64] Konolige K. Small vision systems: Hardware and implementation[M]Robotics research.Springer, London, 1998: 203-212.
  [65] Hirschmüller H. Accurate and efficient stereo processing by semi-global matching and mutualinformation[C]null. IEEE, 2005: 807-814.
  [66] Seguí S, Pujol O, Vitria J. Learning to count with deep object features[A] Computer Vision andPattern Recognition (CVPR)[C] Boston, MA : Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition Workshops. 2015: 90-96.
  [67] Rahnemoonfar M, Sheppard C. Deep count: fruit counting based on deep simulated learning[J].Sensors, 2017, 17(4): 905.
  [68] Pan S J, Yang Q. A survey on transfer learning[J]. IEEE Transactions on knowledge and dataengineering, 2010, 22(10): 1345-1359.
  [69] Ruder S. An overview of gradient descent optimization algorithms[J]. arXiv preprintarXiv:1609.04747, 2016.
  [70] Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochasticoptimization[J]. Journal of Machine Learning Research, 2011, 12(Jul): 2121-2159.
  [71] Tieleman T, Hinton G. Lecture 6.5-rmsprop: Divide the gradient by a running average of itsrecent magnitude[J]. COURSERA: Neural networks for machine learning, 2012, 4(2): 26-31.
  [72] Sevilla-Lara L , Liao Y , Guney F , et al. On the Integration of Optical Flow and ActionRecognition[J]. 2017.
  [73] Dosovitskiy A, Fischery P, Ilg E, et al. FlowNet: Learning Optical Flow with ConvolutionalNetworks[C]// IEEE International Conference on Computer Vision. 2015.
  [74] Ilg E , Mayer N , Saikia T , et al. FlowNet 2.0: Evolution of Optical Flow Estimation with DeepNetworks[J]. 2016.

  致謝

  感謝黃繼風教授對我的教導和幫助。感謝林捷先生對我的信任。感謝在項目背后默默付出的數據標注人員。

相關內容
相關標簽:計算機畢業設計
好優論文定制中心主要為您提供代做畢業設計及各專業畢業論文寫作輔導服務。 網站地圖
所有論文、資料均源于網上的共享資源以及一些期刊雜志,所有論文僅免費供網友間相互學習交流之用,請特別注意勿做其他非法用途。
如有侵犯您的版權或其他有損您利益的行為,請聯系指出,論文定制中心會立即進行改正或刪除有關內容!
欧美日本精品一区二区三区,米奇影视第四色,99久久精品国产免费看,久久精品国产一区二区无码
<蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>