《機器視覺檢測與識別技術及應用:基于深度學習》致力于深入剖析機器視覺檢測與識別技術的內(nèi)在機理、實用策略及其多元化應用,旨在為讀者搭建起一個堅實而全面的理論知識與實踐經(jīng)驗的橋梁。內(nèi)容涉獵廣泛,既涵蓋圖像處理、特征提取、目標檢測,又深入探索圖像分割、人臉識別、物體識別等,從基礎概念到高級算法,全面又深入。在深度解讀各個主題的同時,本書注重理論與實踐的緊密結合,相關章節(jié)均配以典型的案例分析,展示這些技術在現(xiàn)實場景中的具體應用。通過閱讀本書,讀者將深入理解機器視覺技術的運作原理,并學會如何將這些技術靈活運用于解決實際問題。此外,本書還特別關注機器視覺技術所帶來的倫理、隱私和社會影響等深層次議題,確保技術的發(fā)展既有利于社會進步,又尊重和保護個體的權利與隱私,實現(xiàn)可持續(xù)發(fā)展。本書適合從事計算機視覺、人工智能、圖像處理以及相關領域研究和開發(fā)的專業(yè)人士閱讀,也可作為高等院校計算機相關專業(yè)的教材,對機器視覺感興趣的人群也可以閱讀。
當今世界正經(jīng)歷著數(shù)字化和智能化的巨大轉變,而機器視覺檢測與識別技術正是推動這一變革的關鍵力量之一。隨著計算機處理能力的提升、深度學習算法的崛起以及大規(guī)模數(shù)據(jù)集可用性的增加,機器視覺技術在各個領域展現(xiàn)出了驚人的應用潛力。
本書旨在深入探討機器視覺檢測與識別技術的原理、方法和應用,為讀者提供全面的理論基礎和實踐經(jīng)驗。本書覆蓋了廣泛的主題,從基礎概念到高級算法,包括圖像處理、特征提取、目標檢測、圖像分割、人臉識別、物體識別等方面。通過深入剖析每個主題,重在理論聯(lián)系實際,在關鍵章節(jié)都有典型的案例分析與應用場景介紹。讀者將能夠理解這些技術的工作原理,并學會如何將它們應用于實際問題中。在闡述技術原理的同時,本書還關注了機器視覺技術的倫理、隱私和社會影響等重要議題。隨著技術的不斷發(fā)展,我們必須認真思考和應對與之相關的倫理挑戰(zhàn),確保這些技術的發(fā)展是有益于社會的、可持續(xù)的,并且充分尊重個體權利和隱私。
全書共分為11章。第1、2章簡要介紹了機器視覺和深度學習的基本概念,包括什么是人工智能、什么是機器視覺,以及什么是深度學習;第3章主要討論深度學習與機器視覺的關系,以及基于深度學習的機器視覺在不同領域的應用;為了便于讀者理解后續(xù)內(nèi)容,在第4、5章引入了圖像分類與參數(shù)學習相關基礎,以及簡要介紹了Transformer神經(jīng)網(wǎng)絡的相關基礎;第6章介紹基于深度學習的目標檢測技術的理論、方法以及應用場景;第7、8章介紹目標識別技術的理論、方法以及應用場景。前八章的簡要介紹,能讓讀者充分了解到機器視覺檢測與識別技術在許多領域取得的顯著的成果,如自動駕駛、醫(yī)學影像分析、工業(yè)生產(chǎn)、安防監(jiān)控等領域。第9、10、11章通過典型的案例研究和實際應用示例,向讀者展示了這些技術在不同領域的成功應用,這些案例都具有工程應用項目研究的工業(yè)實際背景,并且很多都來自科研項目研究的實踐,有利于激發(fā)讀者對于未來創(chuàng)新的思考和探索。
本書適合從事計算機視覺、人工智能、圖像處理以及相關領域研究和開發(fā)的專業(yè)人士閱讀,同時也為院校學生和對機器視覺技術感興趣的初學者提供了一本全面而深入的參考書。希望本書能夠成為讀者在探索機器視覺領域路上的得力向導,啟發(fā)更多的創(chuàng)新思維,推動機器視覺技術在各個領域的不斷創(chuàng)新與應用。
本書由北京信息科技大學張勤儉教授統(tǒng)籌編寫,主要編寫人員有:郭娜、李海源、吳雅林、魏建,其他參與編寫的人員有:席鐲賓、張向燕、晁明輝、郭家承、李星帥、楊浩、伍烯、楊凡帆、褚浩杰、王躍軒等,在此一并感謝。本書內(nèi)容得到國家重點研發(fā)計劃項目基于動態(tài)補償與彈性配準的自主縫合手眼協(xié)同導航技術研究面向服務和工業(yè)領域的實用多指靈巧手研制、國家自然科學基金青年科學基金項目面向異構醫(yī)療機器人的技能學習方法研究等項目的支持。
限于筆者水平,書中難免有疏漏之處,敬請讀者指正。
編著者
第1章 機器視覺概述
1.1 機器視覺的基本概念 002
1.2 機器視覺的發(fā)展歷程 005
1.3 機器視覺的發(fā)展趨勢 008
1.4 機器視覺的應用領域 011
第2章 深度學習基礎知識
2.1 基本概念與理論 018
2.2 基本思想 022
2.3 深度學習常用的方法 022
第3章 深度學習與機器視覺
3.1 深度學習應用于機器視覺 028
3.2 深度學習應用于機器視覺的例子 030
3.2.1 基于深度學習的機器視覺在谷歌中的應用 030
3.2.2 基于深度學習的機器視覺在百度中的應用 030
3.2.3 基于深度學習的機器視覺在醫(yī)療中的應用 032
3.2.4 基于深度學習的機器視覺在安防中的應用 033
3.2.5 基于深度學習的機器視覺在攝影攝像中的應用 033
3.3 機器視覺的關鍵深度學習方法和應用 034
第4章 圖像分類與參數(shù)學習
4.1 圖像分類基礎 042
4.2 線性分類器 044
4.3 損失函數(shù) 047
4.3.1 損失函數(shù)的作用 047
4.3.2 常見的損失函數(shù) 048
第5章 Transformer
5.1 Transformer背景 052
5.1.1 Transformer簡介 052
5.1.2 傳統(tǒng)序列模型的局限性 053
5.2 Transformer模型 054
5.2.1 Transformer基本框架 054
5.2.2 輸入部分 054
5.2.3 編碼器結構 057
5.2.4 解碼器結構 059
5.3 Transformer在機器視覺中的應用 060
5.3.1 Detection Transformer(DETR) 060
5.3.2 Unsupervised Pre-training for Object Detection with Transformers(UP-DETR) 062
5.3.3 Deformable DETR 062
第6章 基于深度學習的目標檢測
6.1 目標檢測技術 066
6.1.1 目標檢測概念 066
6.1.2 目標檢測評價指標 067
6.1.3 目標檢測數(shù)據(jù)集 070
6.2 目標檢測方法 071
6.2.1 傳統(tǒng)目標檢測算法 071
6.2.2 基于深度學習目標檢測算法 073
6.3 基于區(qū)域的兩階段目標檢測方法 076
6.3.1 R-CNN 076
6.3.2 SPP-Net 080
6.3.3 Fast R-CNN 083
6.3.4 Faster R-CNN 086
6.4 基于區(qū)域的單階段目標檢測方法 091
6.4.1 SSD 092
6.4.2 YOLO v3 095
6.4.3 RetinaNet 098
6.5 基于深度學習的目標檢測算法應用場景 102
6.5.1 農(nóng)業(yè)領域應用害蟲檢測 102
6.5.2 航天領域應用遙感監(jiān)測 103
6.5.3 交通領域應用車輛檢測 103
第7章 目標識別
7.1 目標識別技術 108
7.1.1 目標識別概念 108
7.1.2 目標識別評價指標 108
7.2 目標識別方法 109
7.2.1 傳統(tǒng)目標識別方法 109
7.2.2 深度學習目標識別方法 112
第8章 深度學習中的目標識別
8.1 圖像識別模型介紹 114
8.2 圖像識別模型改進算法 118
8.2.1 小加權隨機搜索算法 118
8.2.2 E-S判斷方法 121
8.2.3 構造小型卷積神經(jīng)網(wǎng)絡 122
8.2.4 殘差網(wǎng)絡模型 124
8.2.5 融入注意力機制的殘差網(wǎng)絡識別算法 126
8.3 基于深度學習的目標識別算法應用場景 129
8.3.1 生物信息領域應用人臉識別 129
8.3.2 軍事領域應用雷達探測 134
8.3.3 工業(yè)領域應用水下作業(yè) 134
第9章 前列腺腫瘤檢測
9.1 前列腺圖像復原、重建與合成 143
9.1.1 醫(yī)學圖像復原與重建 143
9.1.2 前列腺圖像合成 145
9.2 醫(yī)學圖像配準與分割 147
9.2.1 醫(yī)學圖像配準 147
9.2.2 醫(yī)學圖像分割 148
第10章 目標檢測與識別技術在醫(yī)療領域中的應用
10.1 醫(yī)學圖像處理技術及應用價值 152
10.1.1 醫(yī)學圖像的類型 152
10.1.2 醫(yī)學圖像的格式 155
10.1.3 目標檢測與識別技術在醫(yī)療領域的應用價值 157
10.2 影像圖像的疾病診斷與病灶分型 158
10.2.1 典型的疾病診斷網(wǎng)絡 159
10.2.2 影像的疾病診斷應用 165
10.3 影像圖像的組織器官分割技術 176
10.3.1 通用分割網(wǎng)絡 177
10.3.2 專用分割技術 189
10.4 公開數(shù)據(jù)集 203
10.4.1 影像診斷 203
10.4.2 器官分割 207
10.4.3 病理分析與生物信息 209
10.4.4 競賽單元/通用數(shù)據(jù)集 210
第11章 生菜識別及性狀分析
11.1 背景介紹 218
11.2 定義問題 219
11.3 數(shù)據(jù)分析 220
11.3.1 數(shù)據(jù)內(nèi)容及結構 220
11.3.2 數(shù)據(jù)相關性分析 222
11.4 數(shù)據(jù)處理 226
11.4.1 數(shù)據(jù)加載及預處理 226
11.4.2 數(shù)據(jù)增強 228
11.4.3 標簽加載 229
11.5 模型搭建 230
11.5.1 三階段多分支自校正網(wǎng)絡設計思路 230
11.5.2 主模型 233
11.5.3 輔助模型 237
11.6 模型訓練 241
11.6.1 訓練參數(shù)設置 241
11.6.2 訓練曲線及結果分析 243
11.7 模型評估 247
11.7.1 評估指標 247
11.7.2 評估結果 248
11.8 模型討論 254
11.8.1 深度圖像的數(shù)據(jù)處理方法討論 254
11.8.2 輔助模型的設計及選擇 256
11.8.3 高通量情形下的生菜性狀估計思路設計 258