二、组合数学在生物信息学中的应用
生物信息学是随着人类基因组计划的启动而兴起的,综合运用数学和计算机科学,来分析生物学问题的前沿交叉学科,是功能基因组学研究的重要工具。随着生命科学和计算机科学的迅猛发展,生物学研究逐渐从单一的、低通量分析向复杂的、高通量分析方向转变。特别是新一代测序技术的出现,使得生物学家能够同时获得生物体的基因表达谱,代谢图谱和蛋白质组学信息,使系统研究生物学问题成为可能。然而,由此产生的海量数据对于生物学研究提出新的挑战。生物信息学借助计算机软件和算法,可以实现对生物大数据的分析解读,挖掘数据中蕴含的重要信息。组合数学在生物信息学软件的开发中具有广泛的应用。例如,DNA、RNA或者蛋白质序列的比对,可以用来推断序列间功能、结构或进化间的关系,是生物信息学需要解决的重要问题。此类序列比对问题可以抽象成组合问题,利用组合数学中典型的Greene公式,求解两个序列的相似度。序列重叠群装配问题是生物信息要解决的另一类重要问题。目前常用的测序技术,每次只能测出不超过1000碱基长度的序列。因此,在基因组拼装时需要把大量较短的序列逐步拼接起来,形成序列更长的重叠群,直至得到完整的序列。从算法层次来看,序列的重叠群装配问题是一个NP-完全问题,需要借助组合数学理论,采用启发式分析方法进行求解。此外,组合数学还广泛参与生物信息学中的基因识别分析,分子进化研究和遗传密码解析,对生物信息学的发展具有重要意义。