文档介绍:箱条 从
圍 切气 4
碩 士 学 位 论文
_
圍 ?
圓
科技云 中 非结构 化数据 向 结构化数据 的转换
方法
晓荣
1 作者姓名马
isa il学校导师姓名 、 职称 鱼滨 教授
企业导师姓名 、 职称 张 晓红 研宄员
一
1
A method for converting unstructed data into
structed data in scientific and technological
cloud
A thesis submitted to
XIDIAN UNIVERSITY
in partial fulfillment of the requirements
for the degree of Master
in Computer Technology
By
Ma Xiaorong
Supervisor: Yu Bin Title: Professor
Supervisor: Zhang Xiaohong Title: Research Fellow
June 2017
April 2017
摘要
摘要
在大数据时代,数据逐渐成为驱动经济增长和社会进步的重要生产力和战略资源,
加快推进这些数据资源的开放共享则是政府转型的内在需求及强大动力。为了更好地
实现科技数据的共享联动和服务管理的高效便捷,陕西省政府充分利用工作中积累的
丰富科技资源,提出了“科技服务管理一体化云平台”的建设目标。但在科技云的建
设过程中所采集的原始数据绝大部分是非结构化的文本数据,许多资源无法直接使用,
而仅仅依靠人工方式从海量数据中提取有效信息,将其转换为结构化数据需要消耗大
量时间和人工成本,无法满足业务需求。基于对非结构化数据转换的迫切需要,本文
提出非结构化数据向结构化数据转换的相关方法。
本文首先分析了科技云中对非结构化数据处理的相关需求和特点,并对非结构化
数据转换的主要方法进行对比,根据实际情况采用基于机器学习的实体关系抽取方法
实现了非结构化数据的结构化,并 将非结构化数据向结构化数据转换的过程分解为三
个关键问题,即分词和词性标注,命名实体识别和实体关系抽取。本文重点对其中的
两个核心任务命名实体识别和实体关系抽取进行了算法研究和实现。
对分类并解析后的非结构化文本,本文 首先利用中科院的 NLPIR(Natural
Language Processing and Information Retrieval)自动分词工具包进行分词和