近年來,以快速、低成本、高通量為特點的深度測序(又稱下一代測序,nextgeneration sequencing,NGS)技術極大地推動了相關科學和產業(yè)的進步,是未來精準醫(yī)療和健康產業(yè)的基石。深度測序產生了海量的數據,需要新的、專業(yè)的技術、方法和軟件來分析與處理。目前,國內外已有大量優(yōu)秀的研究人員發(fā)表了針對深度測序數據分析的新方法和新軟件的論文。但是,國內外全面介紹深度測序數據分析及實例的書籍尚不多見。本書的編寫目的就是為不同專業(yè)背景的讀者提供一本實用的關于深度測序數據分析的書籍。
本書幾乎涵蓋了深度測序數據分析及應用的各個方面,適用于從事深度測序數據分析研究的技術人員和學者。在本書中,不僅可以了解到深度測序技術應用的領域,還可以通過具體實例,了解到不同軟件的相關算法、原理及使用方法,以幫助選擇適合自身研究和應用、學習所需要的深度測序數據分析的解決方案。同時,我們構建了本書配套的網站以方便讀者進行實例學習,網址為http://sysbio.suda.edu.cn/NGS_book/index.php.
本書共包括11章。第1章主要介紹了深度測序技術的常用平臺和原理、對現(xiàn)代生物醫(yī)學研究范式的影響、對生物信息學帶來的挑戰(zhàn)和機遇,以及深度測序數據分析的常見軟件和平臺;第2章介紹了深度測序相關的數據庫和數據格式;第3章介紹了堿基識別的方法;第4章介紹了基因組序列比對;第5章介紹了序列片段的組裝:第6章介紹了染色質免疫共沉淀測序數據分析;第7章介紹了轉錄組測序數據的分析;第8章介紹了microRNA-Seq的數據分析;第9章介紹了變異檢測;第10章介紹了單細胞測序數據分析;第11章介紹了深度測序數據的可視化軟件。本書的編寫工作是蘇州大學系統(tǒng)生物學研究中心師生多年來共同努力的結果,由于NGS領域發(fā)展迅速,且我們的時間和學識有限,難免有錯誤與不當之處,還希望讀者反饋指正,我們將在以后再版時進行修改和更正。
本書各章的編寫分工如下:前言及第1章,沈百榮、錢福良、李慶輝、湯溢飛:第2章,吳文濤:第3章,王晶;第4章,尚婧;第5章,張文宇;第6章,李慶輝、荊鑫華;第7章,嚴文穎、林宇鑫、湯溢飛;第8章,林宇鑫、李粵;第9章,崔衛(wèi)榮、嚴文穎、蔣峻峰;第10章,張文宇;第11章,李吟、湯思捷。網站由林宇鑫、劉行云、嚴文穎開發(fā)。
目錄
前言
1 深度測序技術與生物信息學 1
1.1 深度測序的常用平臺 1
1.1.1 Illumina測序系統(tǒng) 1
1.1.2 Roche 454測序儀 5
1.1.3 Applied Biosystems SOLiD測序儀 7
1.1.4 PacBio RSII單分子測序 8
1.1.5 Ion PGM和Proton半導體測序儀 8
1.2 深度測序技術對生物醫(yī)學研究和社會的影響 9
1.2.1 生物醫(yī)學大數據與生物醫(yī)學研究范式的改變 9
1.2.2 深度測序技術對經濟市場的影響 10
1.2.3 深度測序技術對社會的影響 11
1.3 深度測序數據處理的挑戰(zhàn) 12
1.3.1 數據存取方面的挑戰(zhàn) 12
1.3.2 計算技術方面的挑戰(zhàn) 13
1.3.3 數據應用方面的挑戰(zhàn) 14
1.3.4 人才缺失與跨學科人才教育的挑戰(zhàn) 15
1.4 常見的軟件和分析平臺介紹 15
1.4.1 生物信息學雜志特刊中的軟件及其分類 15
1.4.2 R與Bioconductor軟件平臺 16
參考文獻 17
2 深度測序相關數據庫和數據格式 19
2.1 深度測序相關的數據庫 19
2.2 深度測序相關的數據格式 22
2.2.1 序列與質量分數相關格式 22
2.2.2 序列比對的相關格式 24
2.2.3 序列組裝的相關格式 24
2.2.4 突變的相關格式 25
2.2.5 序列注釋及可視化的相關格式 25
2.3 格式轉換 27
2.3.1 數據格式轉換軟件NGSFormatConverter 27
2.3.2 NGSFormatConverter的安裝與應用 29
參考文獻 30
3 堿基識別 32
3.1 深度測序堿基識別簡介 32
3.2 Illumina平臺堿基識別軟件 33
參考文獻 36
4 基因組序列比對 37
4.1 短序列片段比對軟件的發(fā)展 37
4.1.1 深度測序技術帶來的機遇 37
4.1.2 深度測序數據帶來的比對定位瓶頸 37
4.2 深度測序片段比對軟件的比較 39
4.2.1 深度測序片段比對軟件 39
4.2.2 深度測序片段比對定位軟件算法比較 40
4.2.3 比對定位軟件性能比較 45
4.2.4 比對定位軟件評價 47
4.3 深度測序片段比對軟件實例演示 50
4.4 展望 51
參考文獻 53
5 小片段序列組裝 55
5.1 問題闡述:小片段序列組裝 55
5.1.1 小片段組裝類型 55
5.1.2 當前組裝過程的挑戰(zhàn) 56
5.1.3 小片段組裝過程的意義 56
5.2 組裝策略:如何將小片段組裝成重疊群 58
5.2.1 基因組序列的組裝 58
5.2.2 轉錄組序列的組裝 63
5.3 算法評價:如何選取一個合適的組裝軟件 63
5.3.1 基因組組裝軟件的選擇 64
5.3.2 轉錄組組裝軟件的選擇 66
5.4 程序示例:如何執(zhí)行一個片段組裝過程 67
5.4.1 基因組測序數據的組裝 67
5.4.2 轉錄組測序數據的組裝 69
5.5 總結和展望:組裝算法何去何從 70
參考文獻 71
6 染色質免疫共沉淀測序數據分析 73
6.1 ChIP-Seq簡介 73
6.1.1 ChIP-Seq的出現(xiàn) 73
6.1.2 ChIP-Seq的基本實驗流程 75
6.1.3 影響ChIP-Seq實驗成功的因素 76
6.2 ChIP-Seq數據計算分析 77
6.2.1 堿基識別 77
6.2.2 定位到基因組 78
6.2.3 富集區(qū)域的鑒定 78
6.2.4 其他下游分析 80
6.3 Peak Calling算法比較 81
6.4 ChIP-Seq數據分析應用實例 84
6.4.1 峰的尋找 84
6.4.2 基因關聯(lián) 86
6.4.3 Motif發(fā)現(xiàn) 87
6.4.4 注釋分析 87
6.4.5 可視化 88
6.5 ChIP-Seq軟件的改進和發(fā)展方向 89
參考文獻 91
7 轉錄組測序數據分析 93
7.1 RNA-Seq簡介 93
7.2 RNA-Seq技術的應用 96
7.3 RNA-Seq數據處理與軟件 97
7.3.1 概述 97
7.3.2 剪接位點預測軟件 98
7.3.3 基因表達水平分析軟件 101
7.3.4 綜合性分析軟件 102
7.4 軟件安裝與使用 105
7.4.1 選擇性剪接軟件 105
7.4.2 基因表達水平分析軟件 110
7.4.3 綜合性分析軟件 111
7.5 展望 118
參考文獻 119
8 microRNA-Seq數據分析 121
8.1 microRNA簡介 121
8.2 深度測序與microRNA-Seq技術 122
8.2.1 概述 122
8.2.2 microRNA-Seq實驗流程 123
8.2.3 microRNA-Seq數據處理 123
8.3 microRNA-Seq數據分析軟件 125
8.3.1 概述 125
8.3.2 本地分析軟件 126
8.3.3 在線分析軟件 138
8.4 軟件性能比較 146
8.4.1 測試數據與環(huán)境配置 146
8.4.2 運行時間比較 147
8.4.3 敏感度與準確度比較 147
8.4.4 新的miRNA預測 148
參考文獻 149
9 變異檢測 151
9.1 引言 151
9.2 基因組多態(tài)性 153
9.3 變異的類型及其檢測 157
9.3.1 SNP 157
9.3.2 結構變異 159
9.4 變異檢測軟件實例 166
9.4.1 Genome Analysis Toolkit簡介 166
9.4.2 Genome Analysis Toolkit安裝 166
9.4.3 Genome Analysis Toolkit使用 168
9.5 展望 171
參考文獻 172
10 單細胞測序數據分析 176
10.1 單細胞測序技術的簡要發(fā)展歷程 176
10.2 單細胞測序的技術實現(xiàn)及主要分類 177
10.2.1 常用單細胞分離的技術 178
10.2.2 單細胞基因組測序技術 179
10.2.3 單細胞轉錄組測序技術 180
10.2.4 單細胞表觀遺傳組測序技術 181
10.3 單細胞測序的技術應用 181
10.3.1 單細胞測序技術在癌癥生物中的應用 182
10.3.2 單細胞測序技術在發(fā)育生物中的應用 182
10.3.3 單細胞測序技術在微生物學研究中的應用 183
10.3.4 單細胞測序技術的臨床應用前景 183
10.4 單細胞測序技術的數據分析實例 183
10.4.1 輸入數據以及數據分析工具介紹 184
10.4.2 數據的讀入與歸一化 184
10.4.3 根據歸一化后的數據鑒定樣本中高度差異表達的基因 184
10.5 單細胞測序技術的未來發(fā)展趨勢 185
參考文獻 186
11 深度測序的數據可視化軟件 188
11.1 數據可視化技術的生物問題和應用背景 188
11.1.1 生物問題 188
11.1.2 應用背景 188
11.2 數據可視化相關軟件介紹和比較 189
11.2.1 基于網絡的可視化瀏覽器 190
11.2.2 基于本地平臺的可視化軟件 191
11.3 軟件示例 197
11.3.1 Savant安裝 197
11.3.2 Savant運行實例 198
參考文獻 205