n 慧算生物信息平臺整體解決方案
慧算生物為生命科學相關(guān)科研機構(gòu)、基因測序公司等用戶提供專業(yè)的生物信息平臺的軟硬件一體化解決方案,目的是為客戶提供無憂后臺支撐,使科研工作者和相關(guān)公司聚焦其核心業(yè)務(wù)。
該整體解決方案,是為客戶提供定制化的軟硬件系統(tǒng)集成服務(wù),既包括了服務(wù)器、存儲、網(wǎng)絡(luò)、文件系統(tǒng)、操作系統(tǒng)、集群管理軟件等IT基礎(chǔ)設(shè)施;也包括了全基因組、全外顯子、轉(zhuǎn)錄組等各種多樣化的生物信息數(shù)據(jù)分析流程的搭建;提供從軟件到硬件的全系統(tǒng)維護;提供在云端的“慧算生物信息云”服務(wù);為復雜的高級定制數(shù)據(jù)分析提供外包服務(wù);并依托“慧算生物信息學院”提供集中式或定制化培訓服務(wù)以及考試認證;另外,慧算還提供相關(guān)的知識庫、數(shù)據(jù)庫等。
n 高性能計算與海量存儲系統(tǒng)
應(yīng)用場景一:測序儀配套高性能計算和存儲系統(tǒng)
針對Illumina 大型測序儀提供海量的并行文件存儲系統(tǒng)和適當規(guī)模的高性能計算系統(tǒng)。目前通量較高(雙流動槽)的一套測序系統(tǒng)三天一輪能產(chǎn)生約18T的堿基數(shù)據(jù)。
基因測序與分析一般包含三大階段:
階段一:Illumina 測序儀采集數(shù)據(jù)并經(jīng)過處理后產(chǎn)生fastq格式原始文件;
階段二:Tophat/BWA/Bowtie等軟件讀取fastq格式文件及人類參考基因組索引,經(jīng)過序列比對生成BAM格式文件;
階段三:GATK/samtools等軟件或其他基因分析類軟件如Manta/Varsand等基因結(jié)構(gòu)變異檢測軟件、CNVnator基因拷貝數(shù)變異檢測軟件等讀取序列比對后的BAM文件,經(jīng)過分析處理生成VCF格式文件。
需要PB級的大規(guī)模橫向擴展能力和并行文件系統(tǒng)存儲設(shè)備,以及數(shù)十個高性能計算的節(jié)點。一方面滿足測序儀大量fastq文件存儲需求,另一方面滿足生物信息數(shù)據(jù)分析的計算資源和存儲資源需求。
應(yīng)用場景二:De novo組裝分析
De novo組裝分析包括三個階段:
階段一:測序儀采集數(shù)據(jù)并經(jīng)過處理后產(chǎn)生fastq格式原始文件;
階段二:對 fastq格式文件進行質(zhì)量控制,并經(jīng)過序列拼接生成contig/ scaffold拼接結(jié)果文件;
階段三:Glimmer等預測軟件對contig進行基因預測并對預測的基因進行功能注釋。
n 搭建生物信息分析流程
高通量測序數(shù)據(jù)金標準分析流程 + 定制化分析流程
l 預置三大類共九套高通量測序數(shù)據(jù)金標準分析流程,滿足絕大多數(shù)測序項目的分析需求
l 提供數(shù)據(jù)分析軟件及數(shù)據(jù)庫的定期維護和升級
l 提供生物信息人員遠程指導及到場培訓
l 提供特殊分析流程定制和布置服務(wù)
基因組工作流整合了一些分析軟件和相關(guān)生物信息學數(shù)據(jù)庫,把原始序列數(shù)據(jù)(fastq)處理為變型(VCF)數(shù)據(jù)。每個框表示一個分析模塊,由集成的基因組分析軟件組成,如數(shù)據(jù)質(zhì)量控制、序列比對、變異提取和變異注釋分析等模塊。這些模塊自身可作為獨立工作流被使用,也可以按照邏輯關(guān)系被連接到一個更大的工作流中。
基因組工作流展示
高度集成各類生物學軟件及數(shù)據(jù)庫