9月28日,生物信息領域權威期刊Nucleic Acids Research在線發(fā)表了南京農(nóng)業(yè)大學人工智能學院計智偉教授課題組的題為“CircaKB: a comprehensive knowledgebase of circadian genes across multiple species”的研究論文。在這項工作中,研究人員開發(fā)了一個跨物種的晝夜節(jié)律基因綜合知識庫,提供了一套全基因水平上的基因表達振蕩模式注釋工具。
CircaKB 是第一個在全基因水平上提供基因表達振蕩模式系統(tǒng)注釋的知識庫 (圖1)。目前,CircaKB 包含了 226 個時間過程轉錄組數(shù)據(jù)集,涵蓋各種組織、器官和細胞系,涉及15個代表性物種。此外,它集成了 12 個計算模型,以獲得可靠的數(shù)據(jù)分析并識別基因表達的振蕩模式及其變化。CircaKB還為用戶提供了強大的交互功能,包括便捷搜索、快速瀏覽、強大的數(shù)據(jù)可視化和自定義上傳。
圖1. CircaKB功能全景圖
作為一個全面的知識庫,CircaKB為晝夜節(jié)律基因的資源和注釋提供了一個交互式平臺 (圖2A)。首先,CircaKB 包含了豐富的數(shù)據(jù)資源,整合了來自多個國際公共數(shù)據(jù)庫 (例如GEO,EBI,GEN,GTEX) 的226個時間過程轉錄組數(shù)據(jù)集,涵蓋15個物種和54種器官/組織的5577個樣本 (圖2B)。CircaKB 涵蓋的物種包括哺乳動物、脊椎動物、昆蟲、植物和微生物。其次,它集成了12個統(tǒng)計模型,在全基因水平上識別基因表達的振蕩模式。具體而言,七個模型用于晝夜節(jié)律振蕩檢測,另外五個模型用于差異節(jié)律分析。通過CircaKB提供的Web交互界面,用戶可以輕松瀏覽統(tǒng)計數(shù)據(jù)并查詢有關任何基因的晝夜節(jié)律模式的注釋。
圖2. CircaKB平臺概覽 (A) CircaKB的整體框架;(B) CircaKB 數(shù)據(jù)庫的樣本統(tǒng)計
為了展示CircaKB提供的資源和注釋的可靠性,我們選擇了有關小鼠和人類的三個典型案例來展示該平臺的實用性。
應用案例1。我們以小鼠肝臟為例,演示如何使用CircaKB實現(xiàn)晝夜節(jié)律振蕩檢測 (圖3A)。首先,選取三個具有代表性的小鼠肝臟數(shù)據(jù)集,它們具有不同的采樣時間 (24h 或 48h)和采樣周期 (1h 或 2h)。由于算法的差異,這些計算模型識別出的具有顯著振蕩模式的基因數(shù)量差異很大(圖 3A(I))。JTK_CYCLE、Cosinor和ARSER具有出色的分析能力,可以獲得幾乎所有的晝夜節(jié)律參數(shù)。其次,使用數(shù)據(jù)集GSE11923來評估上述三個模型的分析結果是否存在顯著差異。如圖3A(II)所示,Cosinor與ARSER之間至少有85%的基因存在重疊。JTK_CYCLE檢測到的大多數(shù)振蕩基因也能被Cosionr識別出來。最后,比較了上述三個模型預測的核心時鐘基因Arntl的周期曲線。圖3A(III)顯示,這三個模型推斷出的Arntl的振蕩模式相似。
圖3. CircaKB 在單個數(shù)據(jù)集上研究晝夜節(jié)律模式的兩個案例研究 (A) 識別小鼠肝臟中基因表達的晝夜節(jié)律振蕩;
(B) 識別老年人和年輕人之間基因表達的晝夜節(jié)律模式的改變
應用案例2。采用數(shù)據(jù)集 GSE71620,展示CircaKB如何助力研究衰老對于人類大腦中基因表達晝夜節(jié)律的影響。數(shù)據(jù)來自年輕和老年捐贈者的BA11大腦區(qū)域。數(shù)據(jù)分析顯示,許多基因在老年人大腦中表現(xiàn)出節(jié)律差異,包括振幅變化、相移、基線和擬合度變化 (圖 3B(I))。特別是,我們發(fā)現(xiàn)AD相關生物標志物BACE2具有兩種振蕩模式變化,這表明 BACE2可能通過晝夜節(jié)律改變調節(jié)正常衰老 (圖3B(II))。
圖4. 使用不同數(shù)據(jù)源研究特定基因的晝夜節(jié)律模式 (A) CircaKB的搜索功能;(B) 核心時鐘基因 Cry1 的搜索結果涉及不同的生物體;(C) 使用來自不同實驗室的數(shù)據(jù)集預測小鼠心臟 Cry1的晝夜節(jié)律模式
應用案例3。探索核心時鐘基因Cry1被選為代表案例。首先,用戶打開搜索頁面,輸入基因名 (圖4A)。單擊“搜索”按鈕后,將執(zhí)行搜索功能以檢索CircaKB中所有匹配的數(shù)據(jù)集。搜索結果如圖4B所示,顯示了CircaKB中包含基因Cry1的物種。選擇感興趣的物種的特定組織并單擊“查看”圖標,將轉到詳細頁面以供進一步探索。圖4C顯示了使用來自不同實驗室的數(shù)據(jù)集預測的小鼠心臟中Cry1的晝夜節(jié)律模式。從不同數(shù)據(jù)源推斷出的Cry1 表達的晝夜節(jié)律模式非常接近。1) 所有晝夜節(jié)律曲線的周期都在24到27小時范圍內;2) 峰值出現(xiàn)在17.6小時到21.7小時之間。
另外,CircaKB提供快速的網(wǎng)頁響應時間以實現(xiàn)高效訪問。在上傳帶寬為30Mbps、下載帶寬為100Mbps、平均延遲為18ms的測試中,我們發(fā)現(xiàn)“晝夜節(jié)律”和“差異節(jié)律”網(wǎng)頁的平均加載時間分別僅為645.66ms和1548.24ms。除了晝夜節(jié)律的檢測以外,CircaKB還能有效檢測周期更短、頻率更高的超晝夜節(jié)律??傊覀兿嘈?CircaKB 將對晝夜節(jié)律基礎研究和臨床醫(yī)學產(chǎn)生重大影響。
本文的第一作者為南京農(nóng)業(yè)大學人工智能學院2022級碩士生朱星臣,通訊作者為計智偉教授。來自UTHealth的Xiaobo Zhou, Seung-Hee Yoo和Zheng Chen三位教授參與了該項研究工作。UNC Chap Hill的Weiling Zhao教授為論文的撰寫提供了寶貴建議。