文档介绍:天津师范大学
硕士学位论文
通用回归分析模型及其在文献信息定量分析中的应用
姓名:姜海波
申请学位级别:硕士
专业:情报学
指导教师:徐久龄
20070322
名;——导师签名;独创性声明学位论文版权使用授权书究成果,也不包含为获得苤壅竖整盘鲎或其它教育机构的学位或证书而使用过的材料。C艿穆畚脑诮饷芎笥ψ袷卮斯娑签名:签日期:本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外。论文中不包含其他人已经发表或撰写过的研本人完全了解天津师范大学有关保留、使用学位论文的规定,即:学校有权将学位论文的全部或部分内容编入有关数据库进行检索,并采影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。与我~同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
摘要立了通用的回归分析模型,该模型可以包含线性、指数、对数、乘幂、多项式和双曲线等多种不同的具体形式。给出了计算机求解通用回归模型中参数值的计算方法和程序,编制了“信息领域回归公式自动生成系统”软件,将数据输入该软件后能够自动生成回归函数公式和图象。应用通用回归分析模型研究了文献数量增减规律,对文献增长量的指数规律进行了证明,对专利文献申请量的变化规律、验证了准确性。应用通用回归分析模型,研究了文献用词数量的统计规律,发现了英文文献新词增长量的平方根规律和中文文献新字增长量的立方根规律,以这关键词:文献计量学;回归分析;通用数学模型:增长;预测;计算机程序;分析了回归分析方法存在的一些问题,通过分析、假设和数学推导的方法建图书销售册数的变化规律进行了回归分析,对鍪道直鸶隽嘶毓楣剑两个基本规律为基础,推导出词或字重复特性的一系列相关公式,并对所有公式的准确性进行了计算验证。英文文献;中文文献:单词数量;新词;统计规律
英文摘要.,甌“;籗琲.,:籈.;;琣”..甎、;
第一章问题的提出和本文研究的重点回归分析方法存在的问题本文研究的重点在进行回归分析之前,人们必须事先熟悉一些回归曲线的趋势,这些曲线通常有线性、指数、对数、乘幂、多项式和双曲线等T诮谢毓榉治鍪保A判断回归曲线的大致趋势,通常的做法是先绘出点图,然后根据已有的经验估计哪种曲线能更好地逼近这些点阵。这种估计本身带有随意性,很多情况下其选择不是最理想的。因此经常需要采用不同的线进行试验,以判断哪种线最相关,这又带来了计算烦琐的麻烦。曲线常常是非线性的,复杂曲线通常要转换成线性曲线才能求解,而很多曲线根本无法转换成直线,要么放弃这种曲线形式,要么花费很多时间研究求解过程,如果还要与其它曲线比较相关性,其麻烦程度可想更重要的是,不论曲线的形式是简单还是复杂,有限的几种曲线表达不了无限多的点阵趋势,例如点阵落在工系恼庋跚撸颐强赡苡多项式或指数线去近似地逼近它。显然用现有的方法存在计算误差大和/或求解难度大等一系列问题,必须加以改进。要解决回归分析的这些问题,最好的方法是找到一个通用的回归模型,使之对我们遇到的大多数情况都适用。本文将探讨建立通用的回归分析模型。对于很多复杂的回归方程,人工求解非常困难,有时根本无法求解D壳计算机已经普及,软件程序被引入了求解过程,最普通的是程序。通用回归分析模型是一个薪函数,我们将给出求解程序框图和代码,并设计出面向对象的软件系统,编写“信息领域回归公式自动生成系统”软件,使用户输入点阵坐标值后能够自动生成最合理的公式及对应的图象和点阵。齐普夫定律研究了文献信息内部的词频规律嵌猿てN恼履诓康ゴ市畔的定量研究,在词典编纂等很多方面都产生了深远的影响。然而对长篇文章内部单词信息的定量研究,不应仅仅局限于词频分布规律上,还有很多内容值得深入探讨。例如随着章节的递增,单词的数量也在增加,其中薪词不断出现,并被重复使用。齐普夫研究了重复的规律势倒媛,而没有研究新词出现的规律。本文将探讨新词增长规律和相关的其它规律。研究的方法是,先用通用回归分析模型和计算机程序给出公式,然后对这些公式反映的规律进行分析和归纳,总结出通用的一般规律,即英文文献新词增长量的平方根规律和中文文献新词增长量的立方根规律。本文还将以这两个基本规律为基础,推导出词或字重复特性的相而知。第一章问题的提出和本文研究的重点
关公式。规律的确存在。,人们从感官上能够认识这~点,从同一数据不同回归曲线的相关性分析中也能发现这一点。本文将利用通用回归模型在更宽的角度来证明指数第一章问题的提出和本文研究的重点
—馳;琘—/一簁第二章通用回归分析模型的建立与分析嘲数学模型的建立我们在建立回归曲线时,通常要事先