1 / 12
文档名称:

互联网金融信息挖掘系统.doc

格式:doc   大小:151KB   页数:12页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

互联网金融信息挖掘系统.doc

上传人:世界末末日 2024/7/1 文件大小:151 KB

下载得到文件列表

互联网金融信息挖掘系统.doc

相关文档

文档介绍

文档介绍:该【互联网金融信息挖掘系统 】是由【世界末末日】上传分享,文档一共【12】页,该文档可以免费在线阅读,需要了解更多关于【互联网金融信息挖掘系统 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。网络信息体系结构精编资料我们所做的这个系统,就是希望能将网上的金融信息采集下来,对冗余的信息进行过滤,并利用数据挖掘算法对这些信息进行处理,把对投资者有用的知识挖掘出来,展示给投资者...挖掘,数据挖掘互联网金融信息挖掘系统第2组,徐大伟、胡华嵩、武超-1-网络信息体系结构综述信息是金融市场的必需品,它能影响投资者的决定。第一手的财经信息(比如公司合并收购、相关行业的主要事件、新总裁上任及新产品发布等等)对投资者来说至关重要。迅速发展,互联网已成为一个巨大的信息空间,为用户提供了极具价值的信息资源。而面对大量的信息资源,通过浏览器一步步浏览已十分不便,如何快捷、准确地从互联网上获取所需信息,成为至关重要的问题。搜索引擎的出现,大大提高了人们搜集信息的能力。但是,使用通用型搜索引擎,会得到很多投资者并不需要的信息,而投资者真正关心的信息,并不能有效的展现出来。炒股是目前国民比较热衷的投资方式,通过对国内几个较大的股票网站的分析,我们发现这些网站的信息非常繁杂,有证券法规、证券要闻、龙虎榜、人气榜、热股排行榜、个股推荐、个股全景、今日提示新股咨询、市场数据等,用户要想查找自己需要的信息,往往需要点击多次,从这些众多的信息中去筛选。而对于一个股民来说,他最关心的将是所持股或者是待购股的涨跌情况、以及股票的一些基本信息。我们所做的这个系统,就是希望能将网上的金融信息采集下来,对冗余的信息进行过滤,并利用数据挖掘算法对这些信息进行处理,把对投资者有用的知识挖掘出来,展示给投资者。在这次的课程项目中,我们将专注于股票信息的挖掘。我们准备在我们的系统中实现以下功能:1、显示股价详细的交易信息,以及对近段时间的股票交易信息的走势分析;2、从互联网上的金融信息中找出股评,并且根据板块股评、个股股评以及正面评价和负面评价进行分类,方便投资者查询;3、从互联网上的金融信息中找出每只股票或者行业对应的金融新闻供投资者分析。-2-网络信息体系结构创业计划,市场分析由于我们从大量的信息中提取了关于股票的新闻、股评、交易信息和公司的基本信息,再加上我们给了用户参与评价的机会使我们的系统不断地得到改进,大大方便了用户的浏览和查询。所以我们系统的顾客群体为所有的投资者(公司或者个人)。所有对股票交易感兴趣的人,都是我们的潜在客户。如果我们的系统能做得比较有特色,能够有效地对投资者进行有益的指导,这个系统的商业前景是很乐观的。除了所有的投资者决策以外,各大证券交易所也是我们的客户,我们可以向证券交易所批量提供他们感兴趣的兴趣,使他们在同行业的竞争中有更好的竞争基础。现有的股票理财公司或者软件都是我们的竞争者。,技术分析由于现在互联网上的信息很多人都可以得到,所以谁能够给出快速、全面、专业的分析谁才可以赢得客户,所以我们要尽量在技术上取得优势。我们的系统分为3个部分:信息采集、信息处理、信息展示。在信息采集部分,我们将采用网络爬虫、相关性分析、文档自动分类等技术,利用这些技术从互联网上采集到我们需要的和股票有关的金融信息。在信息处理部分,我们将采用了VSM等数据分类技术。在信息展示部分,我们将采用JSP+Servlet技术。而且由于我们系统的三个部分实现了以文件为接口的松散耦合,因此我们可以把系统的三个部分分别在不同的机器上安装运行,这对于资金和设备比较短缺的创业者来说,可以大大降低对设备性能的要求,从而有利于系统的实现和扩充。因为一般的股票查询软件一经投入使用很难扩充,因此我们在这方面有很大的优势。目前,我们搜集信息的网站只有几个,随着业务的扩大,我们完全可以扩充信息的搜集面,进而吸引更多的用户。,收入模型我们的系统可以把采集下来的信息免费提供给客户,增加我们系统的知名度和认可度。如果客户需要使用我们经过处理的信息,则需要交纳一定的费用。对于希望得-3-网络信息体系结构到我们投资指导的客户,需要额外的费用。我们还将开放用户注册功能,记录用户的查询和浏览纪录,对用户提供有偿的个性化服务。另外,我们提供给政权交易所的信息也是我们收入的一项来源。等到我们的资金足够充足以后,我们还可以雇佣一些懂经济的人对股票进行在线评析,进而吸引更多的客户,以获得更大的收益。,风险分析技术上的领先才可以使我们的系统具备核心竞争力,而信息采集和信息处理都是有很大发展空间的领域,能否使用先进的技术是我们系统的成功与否的关键。由于我们系统运营的初期主要目的是提高知名度和用户的认可度,所以很难在段时间内盈利,这也使得我的系统具有一定财务上的风险性。现在市场上已经有了类似的股票理财软件,如何成功夺取他们占有的市场份额,并阻止行业新进入者对我们系统的成功也很关键。-4-网络信息体系结构项目实施,设计策略1、抓取股评模块的设计策略扩展策略:首先针对一两个网站抓取股评,为了今后可以对更多的网站进行抓取,需要将该模块分为两部分:::只负责到某个给定网站上抓取原始股评文章(html格式):负责从html格式的网页提取出纯股评内容。由于各个网站的网页设计不同,因此采取的Purify策略各异。所以Crawler的设计目标是通用性好;Purify则因网站而异,今后若需要对新的网站进行抓取,只要另外写一个针对该网站的Purify添加到系统中就可以了。复用策略:上述扩展策略中Crawler的通用性使得对新的网站进行抓取不需要再设计新的Crawler,因此体现了复用的特点。2、前台显示模块的设计策略:扩展策略:根据我们系统提供的功能,前台显示模块实现了股票浏览、股票查询、焦点信息、用户评价等功能。:现在的我们采用文件系统进行存储,如果增加我们要处理的股票,只需要在根目录文件夹下面添加相应的文件夹即可,有很好的扩展性。:如果把现在的文件系统存储格式换成数据库格式,我们采用了struts框架,则只需要修改相应的action中的内容,有文件处理改为数据库处理,不需要修改jsp页面,也具有比较好的扩展性。复用策略:根据上述扩展策略的设计,如果采用文件系统存储,则整个模块具有复用性,如果改用数据库存储,则jsp页面具有复用性。,系统总体结构1、系统结构系统分为三个部分:采集、挖掘和显示。-5-网络信息体系结构在信息采集这一部分,我们将几个主要的金融信息网站的当日金融信息以网页的形式抓取下来,然后提取出文本信息,再进行初步的分析,并入到以前抓取的信息中,交给挖掘部分处理。挖掘是我们这个系统的最重要的部分。我们从采集来的信息中挖掘出对投资者有价值的信息,再分类整理,存放在服务器上,供投资者访问。显示部分主要包括一个用户界面。投资者通过访问我们的主页就可以访问到服务器上的数据信息,从而可以浏览信息或查找信息。2、,并且专门提取属于沪市股评的超连接,并下载相应的网页。,设置正则文法,对html文件进行语法分析,从而提取纯股评内容。在挖掘部分,主要算法有“SVM(支持向量机)”算法;KMP字符串匹配算法。其中SVM是本系统的核心技术,SVM是以训练误差作为优化问题的约束条件,以置以信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学****方法。SVM的求解最后转化成二次规划问题的求解,最终得到的全局最优解。在SVM的构造过程中,先选定相关的关键词(即特征),然后选取一定的样本,有人工来判别类别,将这些判别的结果输入到SVM中,利用这些着训练出相关参数的值,这样,SVM就构造好了,在分类过程中,只要统计待分类文档中相关特征的词频,然后将其作为输入就能得到对文档的评价。:1、采用基于SunJ2EE平台的MVC框架Struts。2、股票浏览的树采用了jenkov-prizetags开源的tree标签。,系统单元设计,系统单元将系统大致分成5个子系统:1、本信息采集系统本子系统采用一个小的针对股票基本信息的crawler,通过分析动态网页的生成方式,动态生成每个股票的基本信息url,从而将每个股票的基本信息从网上抓取下来;之后对抓取的网页进行分析,去掉其中的冗余信息,形成完整-6-网络信息体系结构的股票基本信息html文件,存入result数据库,供系统调用。2、股评采集系统:本子系统,采用一个股评采集的crawler,从互联网广泛的获取各个股票近期的股评信息,并对其进行处理,同样去除冗余信息,并形成格式文件,存入result数据库。3、类及预处理系统本子系统用来将收集到的股评信息按照固定的标准分发到各个股票对应的位置(例如一个固定的文件夹);为后期JSP生成html文件做准备。4、股评意图自动识别及判断系统(SVM)对抓取的股评进行分析、采用SVM(supportedvetormachine)进行机器学****按照已有的一些关键字(意图关键字),对各股评进行分析,给出机器判定的股评隐含的意思(看涨、看跌、观望)。该部分是系统的核心部分。5、采用JSP的前台GUI系统本子系统用来给根据用户请求,动态的从后台数据库中为其生成相应html页面,显示给用户,也就是说这个子系统主要负责系统与用户的交互部分(GUI)。系统设计的整体用例图:(见下图)metCrawlstockInfomationQuerywalererCollectionDBsendsotckInfoQuerymentQuerystoreresulttomentQuerySVMResultDBuserwindowsViewlaypassparameterstoStockDailyDataQuerystockDailyDataQueryJSP-7-网络信息体系结构,系统层次结构采用采用JSPJSP的前台的前台GUIGUI系统系统股评分类及预处理系统股评分类及预处理系统股评意图自动识别股评意图自动识别股票基本信息采集系统股票基本信息采集系统及判断系统(及判断系统(SVMSVM))股评采集系统股评采集系统,系统单元设计1、抓取股评单元设计:功能:定期到给定网站的网站上自动搜索并抓取沪市股的最新股评文章,并存入数据库。本单元是整个系统的基础,为股评的分类、评价等单元提供数据支持,只与数据库之间有接口。总体设计:html文档文件PurifyCrawler2、股评分类及预处理系统单元功能如下:,放入相应的目录;,运用SVM得到股评的结果;-8-、个股股评分类功能同一般的模式识别中的分类问题一样是通过两步主要过程——特征选择和分类模型构建来实现的(如图1所示)。具体而言,我们这里的两步过程分别是关键词抽取的特征选择和基于SVM的分类模型。关键词特征选SVM股关键词结择评特征分类模型果4、前台显示单元设计:功能:把经过处理后的股票信息显示给用户。,用户界面-9-网络信息体系结构-10-网络信息体系结构-11-网络信息体系结构