文档介绍:斯坦福大学机器学习梯度下降算法学号线性代数对于线性方程组可以提供一种简便的表达和操作方式,例如对于如下的方程组:4x1-5x2=13-2x1+3x2=-9可以简单的表示成下面的方式:X也是一个矩阵,为(x1,x2)T,当然你可以看成一个列向量。∈表示一个矩阵A,有m行,n列,并且每一个矩阵元素都是实数。用x∈,,通常是以列向量的转置(后面加T)来表示。,如果形式如xTy,或者yTx,则表示为积,结果为一个实数,表示的是:,如果形式为xyT,则表示的为外积:。-向量的乘法给定一个矩阵A∈Rm×n,以及一个向量x∈Rn,他们乘积为一个向量y=Ax∈Rm。也即如下的表示:如果A为行表示的矩阵(即表示为),则y的表示为:相对的,如果A为列表示的矩阵,则y的表示为:即:y看成A的列的线性组合,每一列都乘以一个系数并相加,系数由x得到。同理,yT=xT*A表示为:yT是A的行的线性组合,每一行都乘以一个系数并相加,系数由x得到。-矩阵的乘法同样有两种表示方式:第一种:A表示为行,B表示为列第二种,A表示为列,B表示为行:本质上是一样的,只是表示方式不同罢了。(这是老师自定义的)定义函数f,是从mxn矩阵到实数的一个映射,那么对于f在A上的梯度的定义如下:这里我的理解是,f(A)=关于A中的元素的表达式,是一个实数,然后所谓的对于A的梯度即是和A同样规模的矩阵,矩阵中的每一个元素就是f(A)针对原来的元素的求导。,所以不在这里继续赘述,其他需要的概念还有单位矩阵、对角线矩阵、矩阵转置、对称矩阵(AT=A)、反对称矩阵(A=-AT)、矩阵的迹、向量的模、线性无关、矩阵的秩、满秩矩阵、矩阵的逆(当且仅当矩阵满秩时可逆)、正交矩阵、矩阵的列空间(值域)、行列式、特征向量与特征值……2用到的公式在课程中用到了许多公式,罗列一下。嗯,部分公式的证明很简单,部分难的证明我也不会,也懒得去细想了,毕竟感觉上数学对于我来说更像是工具吧。转置相关:•(AT)T=A•(AB)T=BTAT•(A+B)T=AT+BT迹相关:•ForA∈Rn×n,trA=trAT.•ForA,B∈Rn×n,tr(A+B)=trA+trB.•ForA∈Rn×n,t∈R,tr(tA)=ttrA.•ForA,BsuchthatABissquare,trAB=trBA.•ForA,B,CsuchthatABCissquare,trABC=trBCA=trCAB。当乘法变多时也一样,就是每次从末尾取一个矩阵放到前面去,这样的矩阵乘法所得矩阵的迹是一致的。秩相关•ForA∈Rm×n,rank(A)≤min(m,n).Ifrank(A)=min(m,n),则A称为满秩•ForA∈Rm×n,rank(A)=rank(AT).•ForA∈Rm×n,B∈Rn×p,rank(AB)≤min(rank(A),rank(B)).•ForA,B∈Rm×n,rank(A+B)≤rank(A)+rank(B).逆相关:•(A−1)−1=A•IfAx=b,左右都乘以A−1得到x=A−1b. •(AB)−1=B−1A−1•(A−1)T=(AT)−−:•ForA∈Rn×n,|A|=|AT|.•ForA,B∈Rn×n,|AB|=|A||B|.•ForA∈Rn×n,|A|=0,表示矩阵A是奇异矩阵,不可逆矩阵•ForA∈Rn×nandA可逆,|A|−1=1/|A|.梯度相关:•∇x(f(x)+g(x))=∇xf(x)+∇xg(x).•Fort∈R,∇x(tf(x))=t∇xf(x).•∇xbTx=b•∇xxTAx=2Ax(ifA对称)•∇2xxTAx=2A(ifA对称)•∇A|A|=(adj(A))T=|A|A−=adjoint3梯度下降算法和正规方程组实例应用例子用的是上节课的房价的例子,有一组数据,有房子面积和房子价格,输入格式举例:老师定义的变量如下:m:训练样本的数目x:输入的变量(输入的特征,在这个例子中为房子面积,后来又加了一个房子的卧室数目)y:输出变量(目标变量,这个例子中就是房价)(x,y):表示的是一个样本:表示的第i个样本,表示为。,学习后的算法对新的输入也能输入正确的答案。监督指的是在训练样本答案的监督下,h即为监督学习函数。此例中我们假设输出目标变量是输入变量的线性组合,也就是说,我们的假设是存下如下的h(x):Theta表示是特征前面的参数(也称作特征权重)。也就是经过h(x)之后得到