關于我們
書單推薦
新書推薦
|
理解生物信息學 讀者對象:分子生物學、生物信息學專業(yè)及生物醫(yī)學領域的師生和研究者
本書是一本集生物信息學專業(yè)參考書和教材于一體的書,共分為7部分:基礎知識、序列聯(lián)配、進化過程、基因組特征、二級結構、蛋白質(zhì)三級結構、細胞和組織,以及附錄和字符表等。每部分由不同章節(jié)構成,大多數(shù)章節(jié)可以被歸為應用章節(jié)或理論章節(jié)。因此在每部分開始時,都有應用章節(jié),描述了特定研究領域較實用的方面。理論章節(jié)則緊隨其后,解釋了其科學、理論基礎以及在已有應用中所使用的技術。本書還提供了思維導圖、流程圖、擴展閱讀等其他書不常見的內(nèi)容,以供讀者能夠在每一章、每一節(jié)開始時對整體內(nèi)容有所把握,并能夠了解更多擴展知識、發(fā)展技能的參考文獻。
更多科學出版社服務,請掃碼獲取。
本書是目前最權威的一本集生物信息學專業(yè)參考書和教材于一體的書,本書闡明了生物信息學的精髓所在,同時還提供了思維導圖、流程圖、擴展閱讀等其他書不常見的內(nèi)容,適合分子生物學、生物信息學專業(yè)及生物醫(yī)學領域的師生和研究者參考使用。
RobertF·Weaver出生于美國堪薩斯州的首府托皮卡市,在弗吉尼亞州的阿靈頓地區(qū)長大。1964年在俄亥俄州的烏斯勒學院獲得化學學士學位。1969年在杜克大學獲得生物化學專業(yè)博士學位,此后他在加州大學舊金山分校從事了兩年的博士后研究工作,師從WilliamJ?Rutter教授研究真核生物RNA聚合酶的結構。 李亦學,研究員,博士生導師。1982年2月畢業(yè)于新疆大學,獲物理學學士學位,1987年10月畢業(yè)于新疆大學,獲理論物理學碩士學位,1996年10月畢業(yè)于德國海德堡大學理論物理研究所,獲理論物理博士學位。1996年11月至1997年3月在德國斯圖加特大學第三計算機應用研究所從事計算數(shù)學博士后研究。1997年4月至2000年6月在歐洲分子生物學實驗室(EMBL)從事生物物理博士后研究。2000年7月回國,現(xiàn)任中科院上海生命科學研究院生物信息中心主任,2002年7月任上海生物信息技術研究中心主任,2006年12月任中科院系統(tǒng)生物學重點實驗室副主任。李亦學研究員主要研究方向為生物信息學,2000年回國后,先后主持和承擔了國家“九五”863計劃生物技術領域《生物信息學數(shù)據(jù)庫開發(fā)和建設》重大項目。作為首席科學家主持了中科院《生物信息學重大基礎理論與應用》重大研究項目;
目錄
譯者序 前言 給閱讀者的短箋 致謝名單 第一部分 基礎知識 第1章 核酸的世界 3 1.1 DNA和RNA的結構 4 DNA分子是由4種不同類型的堿基組成的線性多聚體 4 兩條互補DNA鏈通過堿基配對形成雙螺旋 6 RNA分子通常為單鏈結構 但在某些情況下可形成堿基配對結構 6 1.2 DNA、RNA和蛋白質(zhì):中心法則 8 DNA是信息載體 而RNA則是信使 9 信使RNA根據(jù)遺傳密碼翻譯產(chǎn)生蛋白質(zhì) 10 翻譯過程涉及了含DNA和RNA的核糖體的轉移 11 1.3 基因結構和基因調(diào)控 12 特定的定位序列能和RNA聚合酶結合 并識別轉錄起始點 13 真核生物中的轉錄起始信號遠比細菌中復雜得多 14 真核生物mRNA轉錄物在翻譯前需經(jīng)歷一系列修飾 15 翻譯的調(diào)控 16 1.4 生命與進化之樹 16 主要生命形式的基本特征 17 突變可以改變核苷酸序列 18 總結 19 名詞解釋 19 擴展閱讀 21 第2章 蛋白質(zhì)結構 22 2.1 初級結構和二級結構 23 我們可從多個不同水平考察蛋白質(zhì)結構 23 氨基酸是蛋白質(zhì)的組成單位 24 側鏈決定了氨基酸化學和物理特性的不同 24 蛋白質(zhì)鏈中的氨基酸通過肽鍵共價連接 26 蛋白質(zhì)的二級結構由α螺旋、β鏈構成 28 在蛋白質(zhì)結構中已發(fā)現(xiàn)了幾種不同類型的β折疊片 31 螺旋和鏈通過轉角、發(fā)夾結構和環(huán)連接 31 2.2 對生物信息學的啟發(fā) 32 某些氨基酸傾向于形成特定的結構單元 32 從進化角度幫助序列分析 32 蛋白質(zhì)結構的計算和可視化 32 2.3 蛋白質(zhì)通過折疊形成緊湊的結構 33 蛋白質(zhì)的三級結構是通過多肽鏈的路徑來定義的 34 蛋白質(zhì)折疊的穩(wěn)定狀態(tài)是能量最低的狀態(tài) 35 很多蛋白質(zhì)是由多個亞基組成的 35 總結 35 名詞解釋 36 擴展閱讀 37 第3章 數(shù)據(jù)庫的處理 38 3.1 數(shù)據(jù)庫的結構 39 平面文件數(shù)據(jù)庫以文本文件的方式存儲數(shù)據(jù) 40 關系數(shù)據(jù)庫廣泛應用于存儲生物信息 41 XM1的靈活性可以確定定制的數(shù)據(jù)分類 42 一些用于生物數(shù)據(jù)的其他數(shù)據(jù)庫結構 42 數(shù)據(jù)庫可以通過本地訪問或通過互聯(lián)網(wǎng)相互鏈接 43 3.2 數(shù)據(jù)庫類型 43 數(shù)據(jù)庫中不僅僅是數(shù)據(jù) 44 原始數(shù)據(jù)和衍生數(shù)據(jù) 44 我們?nèi)绾味x和鏈接事物的重要性:本體 44 3.3 數(shù)據(jù)庫搜索 45 序列數(shù)據(jù)庫 46 芯片數(shù)據(jù)庫 46 蛋白質(zhì)相互作用數(shù)據(jù)庫 50 結構數(shù)據(jù)庫 50 3.4 數(shù)據(jù)質(zhì)量 51 非冗余性對一些應用特別重要 52 自動化方法可用于檢查數(shù)據(jù)的一致性 52 初步的分析和注釋通常是自動化完成的 53 為了產(chǎn)生高質(zhì)量的注釋經(jīng)常需要人為干預 53 數(shù)據(jù)庫更新和條目注釋版本號的重要性 53 總結 54 名詞解釋 54 擴展閱讀 55 第2部分 序列聯(lián)配 第4章 產(chǎn)生和分析序列聯(lián)配 59 4.1 序列聯(lián)配的原理 60 聯(lián)配是在兩個或更多序列的相同區(qū)域?qū)ふ易畲笙嗨菩缘娜蝿?60 聯(lián)配可以揭示序列間的同源性 61 比較蛋白質(zhì)序列比校酸序列更容易檢測同源性 62 4.2 聯(lián)配分值 62 一個聯(lián)配的質(zhì)量是通過給予一個量化的分值來衡量的 62 量化兩個序列間的相似性的最簡單的方法是百分數(shù) 62 基于一致度的點圖可以可視化地評價相似性 63 真正的匹配不必相同 65 最低一致度比可以被接受為具有顯著性 66 對于打分聯(lián)配有許多不同的方法 66 4.3 替代矩陣 66 使用替代矩陣對每個排列后的序列位點分配一個單獨的值 66 PAM替代矩陣使用密切相關的蛋白質(zhì)序列集的替代頻率 66 B1OSUM替代矩陣使用了局部高度保守區(qū)域序列的突變數(shù)據(jù) 67 替代矩陣的選擇取決于要解決的問題 67 4.4 插入空缺 68 在序列插入空缺以達到和另一條序列的相似度最大 需要罰分制度 68 動態(tài)規(guī)劃算法可以決定引入最優(yōu)空缺 69 4.5 聯(lián)配類型 69 對于不同情況采用不同類型的聯(lián)配 69 多重序列聯(lián)配能同時比較一些相似序列 71 有幾種不同的技術可構造多重聯(lián)配 72 多重聯(lián)配可以提高低相似性序列聯(lián)配的精確度 72 C1usta1W可以對DNA和蛋白質(zhì)序列進行全局聯(lián)配 72 通過合并一些局部聯(lián)配可以構建多重聯(lián)配 73 增加新信息可以改進聯(lián)配 74 4.6 檢索數(shù)據(jù)庫 74 已開發(fā)了快速而準確的搜索算法 75 FASTA格式是一個基于較短的相同片段匹配的快速的數(shù)據(jù)庫搜索方法 75 B1AST的基礎在于發(fā)現(xiàn)非常相似的短片段 75 對不同的問題采用不同版本的B1AST和FASTA 75 PSI-B1AST基于配置文件的數(shù)據(jù)庫搜索 76 SSEARCH是一個嚴格的聯(lián)配方法 76 4.7 搜索核酸或蛋白質(zhì)序列 76 可直接使用或翻譯后的DNA或RNA序列 76 必須測試數(shù)據(jù)庫的匹配質(zhì)量 以確保其不可能是偶然發(fā)生 77 選擇一個適當?shù)腅值的閾值有助于限制數(shù)據(jù)庫搜索 77 低復雜度區(qū)域可以將同源性搜索復雜化 79 不同的數(shù)據(jù)庫可以用來解決具體問題 79 4.8 蛋白質(zhì)序列模體或模式 81 建立數(shù)據(jù)庫的模式需要專業(yè)知識 82 B1OCKS數(shù)據(jù)庫包含自動編譯的保守蛋白質(zhì)序列的多重聯(lián)配的較短序列模塊 82 4.9 使用模式和模體搜索 83 可以在PROSITE數(shù)據(jù)庫中搜索蛋白質(zhì)的模式和模體 83 基于模式的PHI-B1AST程序同時搜索同源性和模體匹配 84 可以使用PRATT扶多條序列產(chǎn)生模式 84 PRINTS數(shù)據(jù)庫包括了指紋圖譜 描述一個 蛋白質(zhì)家族的一些保守模體 84 Pfam數(shù)據(jù)庫定義了蛋白質(zhì)家族的表達譜 85 4.10 模式和蛋白質(zhì)功能 85 可以搜索蛋白質(zhì)上特定的功能位點 85 序列比較不是唯一分析蛋白質(zhì)序列的途徑 85 總結 86 名詞解釋 87 擴展閱讀 88 第5章 序列比對比數(shù)據(jù)庫搜索 90 5.1 替換矩陣和打分 91 聯(lián)配分值用于衡量公共進化祖先的似然性 91 PAM (MDM)替代打分矩陣用于探索蛋白質(zhì)進化起源 92 B1OSUM矩陣用于尋找保守的蛋白質(zhì)區(qū)域 94 用于核苷酸聯(lián)配的打分矩陣需由相似的方式得到 96 替換打分矩陣必須適用于特定的聯(lián)配問題 97 插入空缺的打分相對替換而言使用了更為啟發(fā)式的方法 97 5.2 動態(tài)規(guī)劃算法 98 使用改進后的Need1eman-Wunsch算法構建全局最優(yōu)聯(lián)配 99 對動態(tài)規(guī)劃算法的簡單改進就能用于局部序列聯(lián)配 104 不計算完整的矩陣 犧牲精確度提高時間效率 106 5.3 索引技術和近似算法 108 后綴樹定位和獨特及重復序列的位置 108 散列索引是一種技術 列出了所有k的起始位置元組(k_tup1es) 109 FASTA算法使用哈希算法和快速鏈接進行數(shù)據(jù)庫搜索 110 B1AST算法利用了有限狀態(tài)自動機 111 直接比較核酸序列和蛋白質(zhì)序列 需要對 B1AST和FASTA進行特殊的調(diào)整 114 5.4 聯(lián)配分值的顯著性 116 有空缺局部聯(lián)配的統(tǒng)計可以按相似的算法進行 117 5.5 聯(lián)配全基因組序列 118 有效索引和掃描全基因組序列對高等生物 序列比對至關重要 118 密切關聯(lián)的物種基因組之間復雜進化關系需 要創(chuàng)新的聯(lián)配算法 119 總結 120 名詞解釋 121 擴展閱讀 122 第6章 模式、序列和多序列比對 124 6.1 序列和序列標記 125 位置特異性分數(shù)矩陣是得分矩陣的擴展 125 解決構建PSSM時數(shù)據(jù)缺失問題的方法 127 PSI-B1AST是一個序列數(shù)據(jù)庫檢索程序 130 將序列表現(xiàn)為序列標記 131 6.2 譜式隱馬爾可夫模型 132 用于序列比對的HMM的基本結構 133 利用聯(lián)配序列莛立HMM參數(shù) 137 利用譜式HMM給序列打分:最大可能路徑以及所有路徑的總和 138 利用未聯(lián)配序列評估HMM參數(shù) 140 6.3 序列聯(lián)配 141 利用聯(lián)配比較兩個PSSM 141 聯(lián)配譜式HMM 143 6.4 利用序列遞增(gradua1 sequence addition)的多序列比對 144 序列添加的順序是基于評估合并聯(lián)配錯誤可能性而決定的 145 許多不同的打分策略用于建立多序列聯(lián)配 147 多序列聯(lián)配是利用向?qū)湟约白V式方法構建的 且可能進一步改進 149 6.5 其他獲得多序列聯(lián)配的方法 152 多序列聯(lián)配程序DIA1IGN聯(lián)配無間隙的區(qū)段 152 利用遺傳算法的SAGA多序列聯(lián)配方法 153 6.6 序列模式發(fā)現(xiàn) 154 在多序列聯(lián)配中查找模式:eMOTIF和AACC 157 序列中共有模式的概率查詢:Gibbs和MEME 158 總結 159 名詞解釋 160 擴展閱讀 161 第3部分 進化過程 第7章 重現(xiàn)進化歷史 167 7.1 系統(tǒng)發(fā)生樹的結構和解釋 168 系統(tǒng)發(fā)生樹重建進化關系 168 用幾種方式描述樹的拓撲結構 172 一致樹和可信樹報告拓撲結構的比較結果 174 7.2 分子進化及其結果 176 大多數(shù)相關序列有許多變異了幾次的位置 176 可接受突變速率對所有類型的堿基替換通常是不相同的 178 密碼子不同位置有不同的突變速率 179 只應該用直系同源基因構建物種系統(tǒng)發(fā)生樹 181 基因組大區(qū)域變化是常見的 187 7.3 系統(tǒng)發(fā)生樹構建 187 核糖體小亞基rRNA序列非常適用于重建物種的進化 187 構樹方法的選擇在某種程度上依賴于數(shù)據(jù)集的大小和質(zhì)量 188 在使用這些方法時必需選擇一個進化模型 189 所有的系統(tǒng)發(fā)生分析必須以精確的多序列比對開始 191 16 S RNA序列的一個小數(shù)據(jù)集的系統(tǒng)發(fā)生分析 192 為酶家族建立基因樹有助于發(fā)現(xiàn)酶功能的進化 194 總結 198 名詞解釋 199 擴展閱讀 200 第8章 構建系統(tǒng)發(fā)生樹 203 8.1 進化模型和進化距離的計算 204 一個簡單但不精確衡量進化距離的是p距離 204 Poissan校正距離考慮了同一位點上的多次突變 204 Gamma校正距離考慮了不同的序列位點上突變速率的差異 205 Jukes-Cantor模型再現(xiàn)了核苷酸序列進化的一些基本特征 205 更復雜的模型區(qū)分不同類型突變的相對頻率 206 在DNA序列上存在核苷酸的偏好 208 蛋白質(zhì)序列的進化模型和用于序列聯(lián)配的替代矩陣密切相關 208 8.2 產(chǎn)生系統(tǒng)發(fā)生樹 209 聚類方法基于進化距離產(chǎn)生一個系統(tǒng)發(fā)育樹 209 UPGMA方法假定一個恒定的分子鐘 并產(chǎn)生一個等距樹 210 Fiteh-Margo1iash方法產(chǎn)生一個無根的加性樹 211 鄰接法:此方法涉及最小進化的概念 212 通常使用逐步增加和星形分解方法用以產(chǎn)生一棵起始樹用于進一步的探索這不是最終樹 214 8.3 產(chǎn)生多種樹的拓撲結構 216 分枝限界法大大提高了搜索樹的拓撲結構的效率 216 可以通過對一個現(xiàn)存樹做一系列細小的變化以優(yōu)化樹拓撲結構 217 尋找根給出了系統(tǒng)發(fā)生樹在時間上的方向 220 8.4 評價樹的拓撲結構 221 可使用基于進化距離的函數(shù)以評價樹 221 加權簡約法尋找具有突變最少的樹 224 使用簡約法可以采用不同的方式對突變作加權 226 可以使用最大似然法用以評估樹 226 四重奏迷惑(quartet-puzz1ing)方法在標準執(zhí)行中也包括了最大似然法 229 貝葉斯方法也可用于重建系統(tǒng)發(fā)生樹 230 8.5 評估樹的特征和比較樹的可靠性 231 即使是完善的數(shù)據(jù)和方法也會出現(xiàn)長枝吸引的問題 231 可以檢驗內(nèi)部分枝測試樹的拓撲結構 231 用于比較兩棵或兩棵以上的樹的檢驗方法 233 總結 234 名詞解釋 234 擴展閱讀 235 第4部分 基因組特征 第9章 揭示基因組特征 239 9.1 基因組序列的初步分析 240 將整個基因組序列分割開來簡化基因檢測 240 結構RNA基因和重復序列在進一步分析中可以排除 241 同源性可以用于原核和真核基因的鑒定 242 9.2 原核基因組中的基因預測 242 9.3 真核基因組中的基因預測 244 外顯子和內(nèi)含子的預測程序使用了多種方法 244 基因預測必須要保持正確的閱讀框 245 有些程序只利用查詢序列和外顯子模型來預測外顯子 249 有些程序只利用查詢序列和基因模型來預測外顯子 252 可以利用基因模型和序列相似性來預測基因 254 相關物種的基因組可以用來幫助基因預測 255 9.4 剪接位點的預測 256 剪接位點可以由專門的程序獨立地鑒定 256 9.5 啟動子區(qū)域的預測 256 原核啟動子有較好定義的基序 257 真核啟動子一般要比原核啟動子復雜 257 有許多啟動子的在線預測工具 257 啟動子預測結果并不十分清晰 258 9.6 證實預測結果 258 有多種計算基因預測準確率的方法 259 翻譯預測的外顯子可以證實預測的準確性 259 構建蛋白質(zhì)和鑒定同源基因 261 9.7 基因組注釋 262 基因組注釋是基因組分析中的最后一步 262 GO (gene onto1ogy)提供了一套基因注釋的標準詞匯表 263 9.8 大基因組比較 267 總結 267 名詞解釋 269 擴展閱讀 269 第10章 基因檢測和基因組注釋理論章 節(jié) 271 10.1 利用決策樹檢測功能RNA分子 273 利用tRNAscan算法檢測tRNA基因 273 檢測真核生物基因組中的tRNA基因 276 10.2 原核生物基因檢測中有用的特征 276 10.3 原核生物基因檢測的算法 279 GeneMark利用了非均勻馬爾可夫鏈 (inhomogeneous Markov chains)和雙密碼子( dicodon)統(tǒng)計 280 G1IMMER利用了編碼概率的差值馬爾科夫模型 281 ORPHEUS利用了同源性、密碼子統(tǒng)計和核糖體結合位點 282 GeneMark hmm利用精確狀態(tài)持續(xù)隱馬爾可夫模型 283 EcoParse是一個HMM基因模型 284 10.4 真核生物基因檢測中用到的特征 286 真核生物基因與原核生物基因的差異 286 內(nèi)含子、外顯子和剪切位點 287 轉錄因子的啟動子序列和結合位點 289 10.5 預測真核生物基因信號 289 檢測核心啟動子結合信號是很多真核生物基因預測方法的關鍵元素 289 為了定位核心啟動子序列信號而設計的一類模型 290 利用序列一般性質(zhì)預測啟動子區(qū)域可以去掉相當數(shù)量的假陽性結論 294 預測真核生物轉錄和翻譯起始位點 295 轉錄和翻譯終止信號給出基因完整定義 296 10.6 預測外顯子和內(nèi)含子 296 可以利用普遍序列性質(zhì)(genera1 sequence property)來識別 297 剪切位點預測 298 可以通過序列模式與堿基統(tǒng)計相結合預測剪切位點 298 GenScan將加權矩陣和決策樹整合以定位剪切位點 299 GeneSp1icer利用一階馬爾可夫鏈預測剪切位點 300 NetP1antGene整合內(nèi)含子和外顯子的神經(jīng)網(wǎng)絡模型以預測剪切位點 300 其他特征可能也可以用于剪切位點預測 300 利用特定方法識別起始和終止外顯子 301 利用數(shù)據(jù)庫中的同源區(qū)域可以定義外顯子 301 10.7 完整真核生物基因模型 301 10.8 預測獨立基因之余 304 功能注釋 304 通過比較相關基因組 可以減少難以確定的預測 306 基因檢測方法的評估和再評估 307 總結 307 名詞解釋 308 擴展閱讀 308 第5部分 二級結構 第11章 從序列中獲得二級結構 313 11.1 預測方法的類型 314 基于規(guī)則的統(tǒng)計方法使殘基形成一個特定二級結構成為可能 315 最近鄰法是結合了有關蛋白質(zhì)結構額外信息的統(tǒng)計方法 315 主要利用神經(jīng)網(wǎng)絡及隱馬爾可夫方法進行二級結構預測的機器學習方法 316 11.2 訓練和測試數(shù)據(jù)庫 317 確定蛋白質(zhì)二級結構的幾種方法 317 11.3 預測程序準確性評估 318 Q3 衡量個別殘基分配的精度 318 二級結構的預測不應該期望達到100 %的殘基精度 319 Sov值衡量全元素的預測精度 319 CAFASP1CASP:無偏的和隨時可用的蛋白質(zhì)預測評估 321 11.4 統(tǒng)計和基于知識的方法 321 GOR方法用作信息論方法 324 Zpred程序包括了同源序列和殘基保守信息的多重聯(lián)配 325 使用多個序列信息提高整體預測精度 328 最近鄰法;使用多個非同源序列 328 PREDATOR足一種綜合了統(tǒng)計和基于知識的程序 其中包括了最近鄰法 328 11.5 二級結構預測的神經(jīng)網(wǎng)絡方法 328 評估神經(jīng)網(wǎng)絡預測的可靠性 329 基于網(wǎng)絡的神經(jīng)網(wǎng)絡二級結構預測程序的幾個例子 330 PROF:蛋白質(zhì)預測 330 PSIPRED 331 Jnet:使用序列比對的幾種可選描述 332 11.6 一些需要特殊預測方法的二級結構 332 跨膜蛋白 334 量化膜環(huán)境的屬性 334 11.7 跨膜蛋白結構的預測 334 多螺旋膜蛋白 335 選擇預測跨膜螺旋的預測程序 336 統(tǒng)計方法 339 基于知識的預測 339 蛋白質(zhì)家族的進化信息改善了預測結果 340 神經(jīng)網(wǎng)絡在跨膜預測中的應用 341 使用隱馬爾可夫模型預測跨膜螺旋 341 比較結果:選擇哪個 342 如果提交一個非跨膜蛋白給跨膜預測程序會發(fā)生什么 344 含β鏈的胯膜結構的預測 344 11.8 卷曲螺旋結構 345 COI1S預測程序 346 PAIRCOI1和MU1TICOI1是COI1S算法的擴展 348 拉上亮氨酸拉鏈:一個特殊的卷曲螺旋 348 11.9 RNA二級結構預測 349 總結 351 名詞解釋 352 擴展閱讀 353 第12章 二級結構預測 355 12.1 定義二級結構和預測精度 356 蛋白質(zhì)二級結構指定定義不同給出結果也不同 357 對二級結構的預測精度存在著幾種不同的測度 360 12.2 二級結構預測基于殘基的偏好性 363 每個結構狀態(tài)存在著氨基酸的傾向 這可 以在指定時作為殘基偏好性 363 最簡單的預測方法是基于在一個序列窗口中的平均殘基偏好性 367 殘基偏好性由附近的序列所調(diào)控 368 通過從同源序列得到的信息可以大為改善預測 371 12.3 近鄰方法是基于序列片段的相似性 372 發(fā)現(xiàn)相似序列的矩片段具有相似的結構 373 使用了幾種序列相似性的測度用以尋找近鄰片段 374 使用近鄰片段結構的加權平均用以預測 376 已發(fā)展了近鄰方法用于預測那些較易發(fā)生錯誤折疊的區(qū)域 377 12.4 神經(jīng)網(wǎng)絡已經(jīng)被成功應用于二級結構預測 377 分層前饋神經(jīng)網(wǎng)絡可以將序列轉變?yōu)榻Y構預測 378 包括同源序列信息將改善神經(jīng)網(wǎng)絡的預測正確度 385 更復雜的神經(jīng)網(wǎng)絡已應用于預測二級結構和其他一些結構特點 386 12.5 隱馬爾可夫模型已應用在結構預測中 389 發(fā)現(xiàn)HMM方法對膜蛋白特別有效 389 使用HMM 也可以成功地預測非膜蛋白的二級結構 389 12.6 可以預測結構特征的一般數(shù)據(jù)分類技術 392 支持向量機已成功地用于蛋白質(zhì)結構預測 392 Discriminates、SOM和其他一些方法 394 總結 394 名詞解釋 395 擴展閱讀 396 第13章 蛋白質(zhì)結構預測 403 13.1 勢能函數(shù)和力場 405 蛋白質(zhì)的構象可以在勢能面上觀察到 405 構象能量可以用簡單的數(shù)學函數(shù)來描述 406 相似的力場可以用來表示平均環(huán)境中的構象能量 407 勢能函數(shù)可以用來評估構建的結構 407 能量最小化可以用來搜索建模結構和確定局部能量最小值 408 分子動力學和模擬退火可以用來搜索全局能量最小值 409 13.2 用折疊識別法預測蛋白質(zhì)結構 409 在沒有同源蛋白的情況下預測蛋白質(zhì)結構折疊 410 非冗余蛋白質(zhì)折疊數(shù)據(jù)庫在穿線法中的應用 411 穿線法中采用的兩種不同的打分機制 411 動態(tài)規(guī)劃方法搜索目標序列與已知折疊匹配的最佳方案 413 評估折疊識別可信度的方法 414 穿線法實例:網(wǎng)柱黏菌中的C2 結構域 414 13.3 同源建模原理 416 目標序列與模板序列相關性越大 同源建模的結果越好 418 關鍵序列一致性取決于整個序列的長度 418 針對目前可建模的大批量序列的同源建模已經(jīng)實現(xiàn)自動化 419 建模所基于的一系列假設 420 13.4 同源建模的步驟 421 在PDB數(shù)據(jù)庫中尋找目標蛋白質(zhì)的同源結構 422 目標和模板蛋白序列的精確比對對于成功建模是必不可少的 422 蛋白質(zhì)的結構保守區(qū)域最先建模 423 進入下一階段前需檢驗建模的核心結構是否存在不適之處 423 序列重新比對和重新建模可能會提高建模結構的準確性 423 插入和缺失序列通常建模成環(huán)區(qū)域 424 不等同氨基酸側鏈的建模主要通過旋轉異構體數(shù)據(jù)庫來實現(xiàn) 426 采用能量最小化來消除結構錯誤 427 分子動力學可以用來搜索可移動的1oop區(qū)域可能采取的構象 427 檢查模型的準確性 427 同源建模的可信度 430 13.5 自動化同源建模 430 MODE11ER通過適當?shù)牡鞍踪|(zhì)結構約束條件來建模 431 COMPOSER使用基于片段的建模方法來自動化生成相應的模型 431 網(wǎng)絡中可用于比較建模的自動化方法 432 結構預測結果的評價 432 13.6 PI3 蛋白激酶p11Oα的同源建模 434 Swiss-Pdb Viewer能夠用于手工或者半手工建模 435 同時做序列比對、核心結構建模和側鏈建模 435 柔性區(qū)域(1oop)通過數(shù)據(jù)庫中可能的結構建模 436 Swiss-Pdb Viewer較件可以實現(xiàn)能量最小化和質(zhì)量評估 436 Mo1IDE是一個可下載的半自動的建模軟件包 437 基于網(wǎng)絡的自動化建模(以p11Oa激酶為例) 437 構建一個功能上相似但是序列不相似的蛋白質(zhì):mTOR 439 從序列生成一個多結構域三維結構 440 總結 440 名詞解釋 440 擴展閱讀 441 第14章 結構-功能關系分析 444 14.1 功能保守性 445 發(fā)揮功能的區(qū)域通常結構上是保守的 445 相似的生物學功能存在于具有不同折疊模式的蛋白質(zhì)上 448 折疊數(shù)據(jù)庫確定了結構上相似的蛋白質(zhì)而無論其功能 448 14.2 結構比較方法 450 找到蛋白質(zhì)的結構域可以幫助結構比較 450 結構比較能夠揭示序列比較不能辨別的保守功能 451 CE方法通過匹配蛋白質(zhì)片段把兩個蛋白質(zhì)疊合到一起 451 向量疊合搜索工具(vector a1ignment search tao1 VAST)能夠疊合二級結構 452 DA1I確定蛋白質(zhì)結構的疊合方式 但是并不保持片段之間的相對順序 453 FATCAT在剛性的片段之間引入了旋轉 454 14.3 找到結合位點 455 高度保守的、常電荷的或者疏水的表面是相互作用位點的標志 458 通過表面性質(zhì)尋找蛋白質(zhì)-蛋白質(zhì)的相互作用位點 459 通過計算蛋白質(zhì)的表面 可以找到那些可能是結合位點的裂縫和洞 459 通過分析氨基酸的保守性可以確定結合位點 462 14.4 分子對接方法和程序 462 當同源蛋白和類似的小分子復合物的結構已知的時候 可以作簡單的分子對接 464 一些專用的分子對接程序可以自動地把配體對接到蛋白質(zhì)結構上去 464 通過打分函數(shù)來確定最可能的對接結果 465 DOCK軟件采用半剛性的方法 通過分析配體和結合位點形狀和化學性質(zhì)的互補來做對接 465 片段對接方法可以通過預測結合位點處的 原子類型和功能基團確定可能的底物 465 GO1D是一個柔性的對接程序 它使用遺傳算法 466 結合位點的水分子也應該考慮 466 總結 467 名詞解釋 467 擴展閱讀 467 第7部分 細胞和組織 第15章 蛋白質(zhì)譜和基因表達分析 471 15.1 大規(guī)模基因表達分析 472 大量不同基因的表達可同時被DNA芯片檢測 472 基因表達芯片主要用于檢測基因在不同條件下的表達差異 473 基因表達系列分析也被用于研究基因表達的總體模式 474 數(shù)字差異顯示:應用生物信息學和統(tǒng)計學來檢測不同組織中基因的差異表達 475 推動不同地方和不同實驗的數(shù)據(jù)整合 475 分析基因表達微陣列數(shù)據(jù)的最簡單方法是層次聚類分析 476 基于自組織映射網(wǎng)絡的技術可被用于分析微陣列數(shù)據(jù) 478 自組織樹算法(SOTA)自上而下地對類別進行連續(xù)分割 478 基因表達數(shù)據(jù)的聚類結果是進一步研究的工具 480 15.2 大規(guī)模蛋白質(zhì)表達分析 480 二維凝膠電泳是分離細胞內(nèi)各種蛋白質(zhì)的一種方法 480 檢測二維凝膠中顯示的表達水平 483 二維凝膠能發(fā)現(xiàn)不同樣本間的蛋白質(zhì)表達差異 484 用聚類方法識別具有相似表達模式的蛋白質(zhì)位點 484 主成分分析(PCA)足分析微陣列和二維凝膠數(shù)據(jù)除聚類分析之外的又一選擇 487 跟蹤一組蛋白質(zhì)位點在一系列樣本間的差異 487 數(shù)據(jù)庫和在線工具可用來輔助二維凝膠數(shù)據(jù)的解釋 488 蛋白質(zhì)微陣列芯片能同時檢測大量不同蛋白質(zhì)的存在或活性 488 可用質(zhì)譜來鑒定已經(jīng)由二維凝膠或其他技術分離和純化的蛋白質(zhì) 489 對質(zhì)譜進行蛋白質(zhì)鑒定的程序可從網(wǎng)上免費獲得 490 質(zhì)譜能用于檢測蛋白質(zhì)濃度 491 總結 491 名詞解釋 491 擴展閱讀 492 第16章 聚類方法和統(tǒng)計學概念 493 16.1 分析表達數(shù)據(jù)之前的準備工作 494 數(shù)據(jù)標準化用于去除實驗中的系統(tǒng)誤差 494 表達水平通常用比值表示并取對數(shù)轉換后再分析 495 有時在數(shù)據(jù)轉換后再進行標準化不無裨益 497 主成分分析用于合并被分析對象的某些屬性 497 16.2 聚類分析的先決條件是定義所有數(shù)據(jù)點之間的距離 500 歐氏距離在日常生活中廣泛使用 500 Pearson相關系數(shù)表征的距離能衡量表達響應的形狀相似性 501 Maha1anobis距離綜合考慮表達響應之間的變異性和相關性 501 16.3 聚類方法能鑒定出內(nèi)部相似且彼此間不同的表達模式 502 層次聚類對數(shù)據(jù)生成一組彼此關聯(lián)的備選劃分方案 504 k均值聚類將數(shù)據(jù)分成預先指定數(shù)目的類群 但不能確定類群間彼此的遠近關系 507 自組織圖(SOM)采用神經(jīng)網(wǎng)絡算法將數(shù)據(jù)聚類成預先指定數(shù)目的類群 509 進化聚類算法用選擇、重組和突變等概念來搜索問題的可能最優(yōu)解 512 自組織樹算法(SOTA)確定所需要的聚類數(shù)目 513 雙向聚類可鑒定出在部分樣本中呈現(xiàn)相似表達模式的一組基因 514 聚類類群的合理性可由其他方法獨立驗證 515 16.4 統(tǒng)計分析可量化觀測到的差異表達的顯著性水平 516 t檢驗能用于估計兩個表達水平之間差異的顯著性 518 非參數(shù)檢驗用于規(guī)避對數(shù)據(jù)采樣方式做假定 519 對差異表達的多重假設檢驗需要采取特殊的技術來控制錯誤率 520 16.5 基因和蛋白質(zhì)表達數(shù)據(jù)能用于樣本分類 522 有許多可選手段能用于樣本分類 523 支持向量機是另一種能生成分類器的有監(jiān)督學習算法 524 總結 524 名詞解釋 525 擴展閱讀 527 第17章 系統(tǒng)生物學 529 17.1 什么是系統(tǒng) 530 系統(tǒng)大于部分之和 530 生物學系統(tǒng)是有生命的網(wǎng)絡 533 數(shù)據(jù)庫是網(wǎng)絡構建的有效起點 533 構建模型需要比網(wǎng)絡更加豐富的信息 534 構建模型的三種可行的方法 536 動力學模型并非系統(tǒng)生物學研究的唯一途徑 539 17.2 模型的結構 539 控制環(huán)路是生物學系統(tǒng)的必要組成部分 540 網(wǎng)絡中的相互作用可以被表述為簡單的微分方程 540 17.3 生物學系統(tǒng)的魯棒性 543 魯棒性是生物體復雜性的一個獨特屬性 543 模塊性在魯棒性中扮演重要角色 544 系統(tǒng)中的冗余性能夠提供魯棒性 546 生命系統(tǒng)可以通過雙穩(wěn)態(tài)開關實現(xiàn)從一個狀態(tài)到另一個狀態(tài)的轉換 547 17.4 存儲和運行系統(tǒng)模型 547 特定的程序使得系統(tǒng)模擬更加便捷 548 標準化的系統(tǒng)描述有助于存儲和再利用 548 總結 549 名詞解釋 551 擴展閱讀 5 51 附錄A 553 概率論、熵和信息 553 互斥事件 553 發(fā)生兩個事件 553 兩個隨機變量的發(fā)生 553 貝葉斯分析 554 貝葉斯定理 554 參數(shù)值的推導 554 擴展閱讀 555 附錄B分子能量函數(shù) 556 用力場計算分子內(nèi)部和分子間相互作用的能量 556 成鍵項 557 非成鍵項 558 勢能在穿線法中的使用 559 平均力的勢能 560 與溶劑效應相關的勢能項 560 擴展閱讀 561 附錄C功能優(yōu)化 562 全搜索(fu11 search)方法 562 動態(tài)規(guī)劃和分支界限法(branch-and-bound) 563 局部最優(yōu)(1oca1 optimization) 563 下降單純形(downhi11 simp1ex)法 563 最速下降(steepest descent)法 564 共軛梯度(conjugate gradient)法 564 使用二階導數(shù)的方法 565 熱力學模擬和全局優(yōu)化 565 蒙特卡羅和遺傳算法 566 分子動力學 568 模擬退火 568 總結 568 擴展閱讀 569 字符表 570 索引 582
你還可能感興趣
我要評論
|