1 / 81
文档名称:

数据可视化-文本数据可视化教学PPT.doc

格式:doc   大小:1,071KB   页数:81页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据可视化-文本数据可视化教学PPT.doc

上传人:3144187108 2021/8/20 文件大小:1.05 MB

下载得到文件列表

数据可视化-文本数据可视化教学PPT.doc

文档介绍

文档介绍:

2020/5/7 2
2020/5/7 2
2020/r 1
数据可视化


2020/5/7 2
2020/5/7 2
2020/r 1


2020/5/7 2
2020/5/7 2
2020/r 1
文本数据可视化


2020/5/7 2
2020/5/7 2
2020/r 1
文本可视化背景
>文本信息爆炸式增长需要高效的阅读方式 > “一图胜千言”,图形表达信息的优势 >标签云技术、信息文本图等文本可视化技术的不断发展
2020/r 1
2020/r
2020/r 1
文本数据在大数据中的应用及提取
文本信息分析
文本信息可视化
本章小结
2020/r 1
文本数据在大数据中的应用及提取
文本数据在大数据中的应用及提取
2020/5/4 8
2020/5/5 8
2020/r 1
>文本数据在大数据中的应用
>文本信息层级
•词汇级一连串文本中提取的语义单元
语义单元由一个或多个字符组成的词元,是文本信息的最小单元 文本关键字属词汇级别
•语法级一基于文本的语言机构对词汇级语义单元进行提取分析
语义单元的语法属语法级信息,如词性、单复数
语法级信息的提取过程被称作命名实体识别方法
•语义级一研究文本整体所表达的语义内容信息和语义关系
文本的最高层信息
文本数据在大数据中的应用及提取
文本数据在大数据中的应用及提取
2020/5/4 8
2020/5/5 8
2020/r 1
>文本数据在大数据中的应用
>从数据大、类型多、处理速度快' 价值密度低的大数据提取有用信息的重要性
>图像和图形在信息表达上的优势和效率
>需要从不同层级提取与呈现文本信息
>不同级的信息挖掘方法也不同,词汇级当然是用各类分词算法,语法级用一些句法分析算 法,语义级用主题抽取算法
文本数据在大数据中的应用及提取
文本数据在大数据中的应用及提取
2020/r 1
>文本数据在大数据中的应用
>文本可视化流程
•文本信息挖掘一文本数据的预处理、文本特征的抽取、文本特征的度量
•视图绘制一图元设计、图元布局
•人机交互
视图绘制
交互设计
人机交互
文本数据在大数据中的应用及提取
文本数据在大数据中的应用及提取
2020/5/# 8
2020/5/7 8
2020/r 1
>使用网络爬虫提取文本数据
>网络爬虫
•网络爬虫又称网络蜘蛛,将互联网比喻成一个蜘蛛网,Spider就是在网上爬的蜘蛛 •网络爬虫就是根据网页的地址来寻找网页的,也就是URL •解析网页使用的语言为Python
文本数据在大数据中的应用及提取
文本数据在大数据中的应用及提取
2020/5/# 8
2020/5/7 8
2020/r 1
>使用网络爬虫提取文本数据
• URL—般格式 “protocol:// hostname[:port] / path / [;parameters][?query]#fragment” •第一部分:协议protocol,例如百度使用的就是https协议
•第二部分:hostname[:port],主机名(还有端口号为可选参数,端口号一般默认为80)
•第三部分:path是主机资源的具体地址,如目录和文件名等
•网络爬虫就是根据URL对web信息进行获取的