文档介绍:生物信息学数据挖掘
*
生物信息学数据挖掘
*
第1页,本讲稿共17页
主要内容
生物信息学的范畴
数据挖掘的相关概念
数据挖掘的经典案例
生物信息学数据挖掘领域的现状、方向
课题的前景
第2页,本讲稿共17页学服务站,提供与蛋白有关的各种在线工具。提供数据库中的链接,同时提供许多用于该方面查询的文件,并与本站点相链接。
:上海生命科学院生物信息中心,提供了有关生物信息学方面的新闻、论文、相关数据库、软件等。
:北京大学生物信息中心,介绍了丰富的生物信息学基本知识,国内外生物信息学网站,常用的生物信息学数据库的介绍和相关的软件等。
第6页,本讲稿共17页
数据挖掘(data mining)
数据挖掘
是以数据仓库和多维数据库中的大量数据为基础,自动发现数据中的潜在模式,并以这些模式为基础自动的作出预测.
收集在大型数据库中的数据变成了”数据坟墓”
我们数据丰富但信息贫乏
第7页,本讲稿共17页
数据中知识发现(KDD)
在你的数据中搜索知识(有趣的模式)
第8页,本讲稿共17页
数据挖掘的经典案例
啤酒和尿布的案例
英国超级市场中的啤酒和尿布的摆放位置
其他数据挖掘的案例
顾客信誉卡 :使用信誉卡将顾客的购买序列记录下来,顾客在不同时期购买的商品可以分组为序列,序列模式的挖掘可以分析顾客的消费或忠诚的变化,据此对价格和商品花样进行调整以便留住老顾客,吸引新顾客。
卡夫(Kraft)食品公司建立了一个拥有3000万客户资料的数据库,数据库是通过收集对公司发出的优惠券等其他促销手段作出积极反应的客户和销售记录而建立起来的,卡夫公司通过数据挖掘了解特定客户的兴趣和口味,并以此为基础向他们发送特定产品的优惠券,并为他们推荐符合客户口味和健康状况的卡夫产品食谱。
第9页,本讲稿共17页
在电信行业
加拿大BC省电话公司要求加拿大Simon Fraser大学KDD研究组根据其拥有的十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。
竞技运动中的数据挖掘
美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。
电子商务的关联销售 、客户类别销售分析
数据挖掘的经典案例
第10页,本讲稿共17页
(消除噪音或不一致的数据)
(多种数据源组合到一起)
(从数据库中提取与分析任务相关的数据)
(变换或统一成合适挖掘的形式)
(使用智能方法提取数据模式)
(根据某种兴趣程度度量识别提供知识的真正有趣的模式)
(向用户提供挖掘的知识)
数据挖掘的过程
第11页,本讲稿共17页
典型的数据挖掘系统结构
第12页,本讲稿共17页
进行数据挖掘常用技术算法
人工神经网络为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题。
决策树决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法支持向量机方法 。
遗传算法基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。
近邻算法将数据集合中每一个记录进行分类的方法。
规则推导从统计意义上对数据中的“如果-那么”规则进行寻找和推导方法
第13页,本讲稿共17页
生物信息学与数据挖掘
生物信息学:融合生物科学与计算机科技的新学科
快速的数据获取率和客观分析的要求---,生物信息学与机器学****相结合也就成了必然。
生物信息量的大规模,常规的计算机算法可以应用于生物数据分析中, 但越来越不适用于序列分析问,,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.
生物信息学给数据挖掘提出了新课题和挑战
第14页,本讲稿共17页
生物信息学数据挖掘的现状
2000网易杯全国大学生数学建模竞赛题目
DNA序列分类
近10年国家在863、973计划、国家自然科学基金重大项目开始参与国际生物信息学合作
对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。
第15页,本讲稿共17页
学科目前研究方向(国内)
机构:
哈尔滨工业大学、北京大学、复旦大学