报告题目:生物大数据的特征优化算法
报 告 人:周丰丰 教授 必威betway计算机学院
报告时间:2021年09月17日 14:30-15:30
报告地点:数学楼三楼天元数学东北中心研讨室六
校内联系人:张凯 zhangkaimath@jlu.edu.cn
报告摘要:近年来大量生物组学高通量技术产生的数据集被公开发布,为生命科学的分子机理研究提供了有力的数据支撑。包括转录组和甲基化组等组学数据,从不同研究视角描述了生命体的个体差异性和分子活动动态性。生物组学大数据具有“大特征小样本”的挑战,机器学习模型容易产生过拟合等建模问题。特征选择可以选择一部分特征,用来建立稳定可靠的模型。特征工程采用信息融合及浓缩的策略,也可以达到降低数据维度的效果。
生物组学数据存在复杂的相互关联性,而特征选择算法很难体现特征之间的定量化关系。通过经典的机器学习算法和最新的深度学习算法,可以有效提取出生物组学数据内在的定量相互关系,为生物组学数据的高通量分析提供了有益的新研究视角。
本工作采用经典机器学习的回归算法,定量刻画了一个转录特征与其多个转录调控因子(transcription factor,TF)的转录调控关系、以及基因层面的综合甲基化水平。构造出来的特征可以更好的描述差异性表达、特征选择、分类和聚类性能。
还研究了简单数学计算就可以构造出新型特征类型,并对甲基化预测年龄问题提出了性能更好的回归模型,跨数据集交叉验证结果也体现了更好的性能提升。
由于特征构造算法的时间复杂度较高,现有算法很难在合理时间内处理所有,所以通常需要对原始特征进行预筛选,来保证用于构造特征的原始特征数目在合理范围。未来将详细研究不同原始特征子集构造出阿里的特征,有什么性能上的提升。
报告人简介:周丰丰教授,必威betway唐敖庆教授,博士生导师,中国科学院百人计划,IEEE(美国电气和电子工程师协会)高级会员。周丰丰博士的团队主要从事健康大数据挖掘核心算法的研究。
主持或参与包括863和中科院先导等各级别项目,主持金额合计近500万元。已发表学术论文70篇,其中包括SCI索引67篇。根据SCI数据库统计,总引用次数1279次,他引次数999次。学术成果多次在包括Nature Protocols、Nucleic Acids Research、和Bioinformatics等学术期刊上发表。相关成果连续荣获多次国际疾病预测竞赛较好排名。应邀担任多个SCI索引期刊的副主编或编委,并多次(每一类均超过20次)应邀评审国际和国内项目标书、国际学术期刊和会议的投稿论文。学术成果多次在包括Nature Protocols(IF: 9.924,1篇)、Nucleic Acids Research(IF: 8.026, 3篇)、Bioinformatics(IF: 5.468,3篇)、BMC Genomics(IF: 4.073, 2篇)和Genetics(IF: 4.007,1篇)等高水平SCI索引学术期刊上发表。相关成果连续荣获国际疾病预测竞赛2012年度第三名(共55个学术团队参加)和2013年度第四名(共28个学术团队参加)。应邀担任新杂志Frontiers in Bioinformatics and Computational Biology的副主编(associate editor,大陆唯一),Interdisciplinary Sciences: Computational Life Sciences(SCI索引,新索引杂志,影响因子正在计算中) 副主编,Computers in Biology and Medicine (SCI索引,影响因子1.089)的编委,PLoS ONE (SCI索引,影响因子4.351)的编委,以及BioEnergy Research(SCI索引,影响因子3.562)的唯一生物信息学编委,并多次(每一类均超过20次)应邀评审国际和国内项目标书、国际学术期刊和会议的投稿论文。
曾经与正在承担相关项目500万。