基于加权单分形距离进行主成分分析

1.5 统计和生物信息学分析

为了提高热测序数据的质量，消除随机测序错误的影响，我们从库中删除了一些有缺陷k的数据，包括平均Q值低于25，单峰，读取小于200 bp，每个读取的前向引物以及那些含有模糊基调用的数据。扩增子在DNAS设施中，进行另外的PCR扩增以将条形码和测序衔接子结合到最终扩增子中。测序在Illumina MiSeq测序仪上进行，使用标准V3化学配对，生成了新的操作分类单元（OTU）簇（97%的序列相似性），生成每个OTU的代表性序列，并使用BLASTN识别最近的亲缘关系。将文库稀释至15000个序列深度，去除小于15000个序列的样本。使用Explecet软件计算观察到的OTUs, Shannon 和Chao1多样性，以及0.03时的稀疏曲线。基于加权单分形距离进行主成分分析。利用核糖体数据库项目，设定了80%的置信阈值，实现了从分类到门、纲、属的分类。