文档介绍:机器学习的困惑与历史的启示
Machine Learning and Data Mining 2009 中国科学院自动化研究所中国科学院自动化研究所 Machine Learning and Data Mining 2009 机器学习的困惑
与历史的启示王珏第九届机器学习及其应用研讨会 2011年11月,清华大学自然模型[采样] 样本集模型[算法] [交叉验证] 假设iid 统计机器学习的麻烦????? [设计实验] 问题:模型是自然模型吗? 统计机器学习如果数据不充分,在大变量集合下,如何设计实验,获得新数据。统计机器学习的困难:实验设计存在组合问题。iid成为与自然模型无关的假设! 特殊函数的逼近社会的需求生物、网络、金融、经济和安全等众多领域,大变量集合的海量数据不断涌出,社会迫切需要分析与处理这些数据的有效理论、方法与技术。寻找分析与处理大变量集合海量数据的新理念、理论、方法与技术成为当前迫切的任务。历史的故事线性感知机基于最小二乘的Rosenblatt的感知机 1956 ,其本质是多变量空间上的平均回归。 1902年,James的神经元相互连接 1943年,McCulloch和Pitts的神经元工作方式 1949年,Hebb的学习律。贡献是:多变量回归的计算方法神经网络。基函数: L ?1D + ?2I + ?3G + ?4S 设计算法,确定?,获得模型疑问是:只能解决线性问题,不能满足实际的需要。埋下被批评的口实。 20世纪70年代面临的选择统计优化平均: 线性感知机统计模式识别复杂信息系统结构: 专家系统句法模式识别选择非线性问题计算效率专家系统合理复杂问题求解实现智能系统的理想 Duda and Hart[73] 从Bayes判别分类,引入损失函数,变为正则化问题 If [D 0]?[G A] then[L 0] If [I 0]?[G A] then[L 0] If [D 1]?[I 1]?[G A] then [L 1] AI 1969年,, “Perceptron”。表象是以XOR问题向以平均为基础的感知机发难,本质是试图以结构方法代替平均。全书使用拓扑作为工具。 1956年,以复杂信息处理为契机,提出AI。其动机有二:其一,发展处理符号的方法,其二,处理非线性问题。过分强调独立性,使得描述任何一个问题,需要穷举出所有可能。80年代,耗资巨大的CYC“失败”了。需要统计方法成为共识。 20世纪80年代面临的选择概率图模型 Bayes学派: Markov随机场 Bayes网人工神经网络频率学派: BP 统计机器学习选择结构学习的困难先验的结构先验概率分布推断是NPC 字符识别,网络数据建模误差界指导算法设计算法基于线性感知机无需先验知识,无推断考虑泛化为核心 Gibbs[1902], Wright[1935] Clifford[1971] Pearl[1988,89] 统计机器学习 1991年,Vapnik借用在AI中的PAC,给出基于iid的误差界,基于PAC的统计开始成为主流 1986年, Remulhart发表PDP报告,包含非线性BP算法,解决XOR,逼近非线性函数。学术价值不大,人们开始重新尝试“平均”方法。从ANN到SML,发展得力于对字符识别的成功神经网络?基于PAC的机器学习?