1 / 6
文档名称:

Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介.docx

格式:docx   大小:64KB   页数:6页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介.docx

上传人:春哥知识店铺 2022/9/28 文件大小:64 KB

下载得到文件列表

Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介.docx

相关文档

文档介绍

文档介绍:该【Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介 】是由【春哥知识店铺】上传分享,文档一共【6】页,该文档可以免费在线阅读,需要了解更多关于【Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
1
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
《Python编程基础与应用》电子教案
课题
jieba的安装和简介
授课人
课型
实训
课程
Python编程基础与应用
班级
课时
2
上课时间
上课地点
教学目标
认识中文分词和词云的概念和用途
认识jieba的概念和用途
掌握jieba的安装方法
掌握jieba库的常用函数
重点
难点
学情分析
教学方法
演示法、做中学、项目教学法
教学准备
多媒体电脑机房,云教学平台环境,投影仪
教学过程与内容
设计意图
时间
环节一:中文分词和词云
1、中文分词
在英文的行文中,单词之间是以空格作为自然分界符的,显得相对简单。但是中文比之英文要复杂得多、困难得多。中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法等模块的效果。
2、词云
词云就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览者只要一眼扫过文本就可以领略文本的主旨。词云是数据可视化的一种形式,根据关键词的出现频率而生成的一幅图像,如图9-2。
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
3
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
环节二:了解一些词云
WordItOut词云图。它操作简单,进入网站后只需要输入一段文本,然后就可以生成各种样式的“云”文字。用户可以根据自己的需要对WordItOut进行再设计,比如颜色、字符、字体、背景、文字位置等,保存下载后,可以复制。但是WordItOut是不识别中文的,如果输入中英混合的文本,保存后只显示英文字体,对于不懂英文的同学是比较痛苦的。它的网址为/。
Tagxed词云图。它有几大优点:强大的导入功能(可导入网页、文字等)、自定义设置词云形状(这个真心好)、可导入想要的字体、颜色主题多(各种选择)等。最重要的是它支持中文。它的网址为/。
WordArt词云图。WordArt云可以自定义字体、词云的形状,颜色等,做出来的词云图很酷炫,为网站访问者提供良好的用户体验。它的网址为/。
图悦。这款国内的在线词频分析工具,在长文本自动分词并制作词云方面还是很出众的,而且也容易上手,还可以自定义定制图形模板:标准、微信、地图等,切换自如,用起来体验很不错。它的网址为/。
BDP个人版词云图。这是一款数据可视化工具,除了词云,还有很多其他酷炫的图表,如GIS地图、漏斗图等。BDP很容易上手,直接把词语这个数据拉到维度栏,再选择词云就瞬间呈现词云图表,BDP会自动算好词频,你可以设置颜色,快速实现词云可视化。它的网址为。
wordcloud词云库。它是优秀的词云展示第三方库,词云以词语为基本单位,更加直观和艺术的展示文本。它的网址为
环节三:jieba的安装
“结巴”中文分词支持繁体分词,支持自定义词典,还支持四种分词模式:
1)精确模式,试图将句子最精确地切开,适合文本分析。
2)全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
3
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介

3)搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
4)paddle模式,利用PaddlePaddle深度学****框架,训练序列标注(双向GRU)网络模型实现分词。
它的安装方法很简单,可以直接使用PIP进行安装:
pipinstalljieba
环节四:学生实训和练****br/>应用jieba库的三种分词模式,对字符串“jieba是优秀的中文分词第三方库”进行分词。
结果如下:
精确模式:['Python','是','一门','计算机','编程语言']
全模式:['Python','是','一门','计算','计算机','算机','编程','编程语言','语言']
搜索引擎模式:['Python','是','一门','计算','算机','计算机','编程','语言','编程语言']
加入新词后的精确模式:['Python','是','一门','计算机编程语言']
环节五:小结和布置作业
1、小结
jieba库的常用函数
函数名称
描述
(s)
精确模式,返回一个列表类型。
(s,cut_all=True)
全模式,返回一个列表类型。
(s)
搜索引擎模式,返回一个列表类型。
(w)
向分词的词典增加新词w。
2、作业
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
4
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
教学反思
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
5
Python编程基础与应用教案0901-文本处理库的应用——jieba的安装和简介
感谢您的支持与使用
如果内容侵权请联系删除
仅供教学交流使用