1.1. 识别体细胞突变
首先对reads进行质量评估,统计测序深度、覆盖度、数据质量分布、重复率等信息,常用的评估软件有FastQC,fastp[4]等。根据reads的评估结果,后续采用FASTX-Tooltik、Trimmomatic[5]或者Cutadapt等工具去除低质量碱基、人工接头以及筛除长度过短的片段。其次用比对软件BWA[6]将reads比对到人类参考基因组hg38上生成sam文件,然后用samtools[7,8]将sam文件转为bam文件并将bam文件排序,进一步标记重复序列。最后识别体细胞突变,找出样本的单核苷酸变异,插入和缺失,常用的软件有GATK[8]、bcftools[9]、VarScan2[10]和freebayes等,具体流程见图一。得到样本的体细胞突变数后统计每个样本的肿瘤突变负荷。肿瘤突变负荷作为一种突变指标,可以帮助确定治疗方案,具有大量突变的肿瘤样本可能使用某种类型的免疫疗法,治疗效果会更好[11]。