【篇三】生物醫藥領域發文難?(CADD、ROSETTA、多組學)一區SCI墊腳石已備好!
集成多組學數據的機器學習在生物醫學中的應用(篇三)
機器學習及生物組學基礎
目標:對機器學習基本概念進行介紹,讓大家對機器學習基本概念有大致了解。明確機器學習方法的適用性,優勢,以及局限性等
什么是機器學習
機器學習的應用實例
生物組學簡介(基因組學,轉錄組學,蛋白組學,代謝組學)
機器學習在在多組學數據分析的應用
python基礎
目標:機器學習主流實現是python語言。學習機器學習之前,有針對性的對python進行系統的學習,數據的基本處理,以方便將來開展機器學習的學習
python安裝與開發環境的搭建
基本數據類型、組合數據類型
函數、列表 、元組、字典、集合
控制結構、循環結構
Numpy模塊——矩陣的科學計算
Matplotlib模塊——數據處理與繪圖
Pandas模塊——csv數據處理與分析
Sklearn模塊——機器學習模型基礎軟件包調用
2 案例實踐一:利用Python pandas讀取組學CSV數據并進行數據讀取、轉換、保存等
生物組學大數據預處理與探索分析
目標:對高維組學數據進行統計分析及機器學習建模前,需要對數據進行預處理,如缺失值填補、降維可視化等,大數據預處理與探索分析是檢驗數據質量與了解數據分布的必要過程。
高維組學數據的預處理框架
常用數據預處理方法:缺失值填補,標準化,歸一化,對數轉化
常用的降維方法,PCA,tSNE等
數據探索分析(EDA)
2 案例實踐教學二:利用Python讀取組學CSV數據并進行數據探索可視化分析(Exploratory data analysis,EDA)
經典機器學習模型及多組學應用 目標:對在多組學整合分析中最常使用的幾種機器學習模型進行介紹,總結它們的優缺點及適用范圍,通過動手實踐快速掌握幾種方法
線性模型(線性回歸、梯度下降、正則化、回歸的評價指標)
決策樹(決策樹原理、ID3算法、C4.5算法、CART算法)
支持向量機(線性支持向量機、可分、不可分支持向量機)
集成學習(AdaBoost和GBDT算法、XGBoost算法、LightGBM算法)
模型選擇與性能優化(數據清洗、特征工程、數據建模)
Scikit-learn機器學習庫的使用
2 案例實踐三:基于轉錄組學數據進行端到端的機器學習項目泛癌預測(數據預處理,數據建模,模型評估)
2 案例實踐四:基于蛋白組學-代謝組學在COVID-19中生物標志物的發現
深度學習在組學數據的應用 (入門及實踐) 目標:隨著高通量組學平臺的發展,生物醫學研究大多采取了多組學技術結合的方法,不同組學來源(如轉錄組學、蛋白質組學和代謝組學)的數據可以通過基于深度學習的預測算法進行整合,以揭示系統生物學的復雜工作。在這一部分我們會重點對基于深度學習的神經網絡進行系統的講解,學習常見的神經網絡架構在多組學分析的應用。
? 深度學習介紹,常用神經網絡架構介紹? 監督學習介紹,神經網絡在轉錄組學+代謝組學的疾病預測為例
? 無監督學習介紹,高維組學數據降維,聚類分析,以單細胞轉錄組數據為例
2 案例實踐五:基于t-SNE和UMAP進行單細胞轉錄組學數據降維,細胞亞型聚類分析。
進階大綱
多組學聯合分析,闡明疾病分子機制 (入門及實戰)
背景:研究影響疾病表型變化影響的因素包括DNA,RNA,蛋白質和代謝物等。單一組學的數據難以系統全面地解析復雜生理過程的調控機制,多組學聯合分析通過對來自基因組、轉錄組、蛋白組、代謝組和脂質組等不同生物分子層次的批量數據進行歸一化處理、比較分析和相關性分析等統計學分析,建立不同層次分子間的數據關系,從而共同探究生物體內潛在的調控網絡機制,為生物體作用機制提供了更多證據。
目標:從常見的多組學聯合分析策略出發,如轉錄組+代謝組,蛋白組+代謝組等,對常用的數理統計分析方法進行介紹,之后學習如何利用數據庫如KEGG等進行生物功能富集分析,結合機器學習方法進行生物標志物的挖掘,疾病預測以及生物分子作用機制等。
常用生物組學實驗與分析方法,如轉錄組學,代謝組學常用組學數據庫介紹,如TCGA,PathBank,HMDB,KEGG
Python批量處理組學數據-歸一化處理,差異分析,相關性分析
生物功能分析:GO 功能分析、代謝通路富集、分子互作等
基于轉錄組學的差異基因篩選,疾病預測
基于差異基因,聯合代謝組學分析疾病分子發生機制
? 組學數據可視化,如火山圖,t-SNE降維,代謝通路網絡分析
? 組學特征(基因,蛋白,代謝物)選擇(隨機森林分析)
? 單細胞轉錄組學數據分析及可視化分析
2 案例實踐三:(包含以下內容)
2 轉錄組+代謝組的多組學分析胃癌
2 從海量的數據中篩選出關鍵基因、代謝物及代謝通路
2 深度解析胃癌腫瘤標志物解釋腫瘤發生發展的復雜性和整體性案例
深度學習神經網絡進階(入門及實踐)
目標:學習前沿神經網絡如卷積神經網絡,循環神經網絡,注意力機制,自編碼器,圖神經網絡在生物組學及藥物篩選的應用,遷移學習應用等。
卷積神經網絡基礎及其應用(影像組學)
循環神經網絡基礎及其應用(蛋白組學)
注意力機制基礎及其應用
自編碼器基礎及其應用(轉錄組學)
圖神經網絡基礎及其應用(代謝組學)
遷移學習、深度學習框架——transformer的應用
2 案例實踐四:基于(變分)自編碼器進行藥物/代謝物分子生成
深度學習在組學數據藥物發現的應用 (入門及實踐)
目標:基于基因表達特征建立疾病與小分子藥物之間的關聯關系,運用轉錄組學,蛋白組學,機器學習算法進行藥物重定位。
基于生物組學的藥物發現基礎介紹
藥物分子化學特征提取(分子指紋,描述符,分子圖)圖神經網絡預測藥物分子性質
基于胰腺癌差異表達基因進行藥物重定位
2 案例實踐教五:基于機器學習與圖神經網絡進行代謝物/藥物分子的性質預測
AI+Science
目標:人工智能領域前沿內容,讓大家了解最新的多組學與機器學習領域的研究動態,同時介紹幾種更為先進的機器學習算法。
集成學習在多組學數據聯合分析中的應用
多組學數據庫在生物信息網絡的挖掘與應用
生成模型在多組學數據的應用與挑戰
圖神經網絡進階,鏈路預測在疾病-基因-蛋白-代謝物的關聯網絡應用
2 案例實踐七:基于生成模型進行單細胞轉錄組數據深度特征提取的研究
經典案例論文研究(論文圖表復現)
目標:通過學習經典多組學研究的SCI論文研究思路,系統學習多組學研究的論文圖表制作,以單細胞組學研究為例,進行論文思路研究,方法探討,圖表制作。
2 論文復現一:單細胞組學論文的常用圖表制作、細胞差異分析、細胞注釋(自動與手動)
2 論文復現二:蛋白-蛋白相互作用網絡構建與可視化復現。
了解更多 請關注公眾號:第一性原理計算與應用
vx:15010498280
qq:745729222
工程師必備
- 項目客服
- 培訓客服
- 平臺客服
TOP




















