1 / 11
文档名称:

自然语言处理.pptx

格式:pptx   大小:478KB   页数:11页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

自然语言处理.pptx

上传人:wz_198613 2019/10/21 文件大小:478 KB

下载得到文件列表

自然语言处理.pptx

相关文档

文档介绍

文档介绍:自然语言处理工具:jieba分词流程:1将所有文本进行数据清洗,(词性标注)筛选出所有名词,并保存文件2爬取数据,制作景点/酒店名词的用户字典3根据2的用户字典对1中的名词进行筛选(词性标注)筛选出所有景点/酒店名词,并保存文件4在对3中保存文件进行keyword排序(关键词抽取),并保存文件自然语言处理1jieba系统简介"结巴"中文分词:做最好的Python中文分词组件。特点:支持三种分词模式支持繁体分词支持自定义词典MIT授权协议涉及算法:基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),采用动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,采用Viterbi算法进行计算;基于Viterbi算法的词性标注;分别基于tfidf和textrank模型抽取关键词;自然语言处理2jieba系统框架jieba分词系统,主要实现三个模块:1分词2词性标注3关键词抽取其中,分词有三种模式,默认是精确模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词;自然语言处理概念:NaturalLanguageProcessing/Understanding,自然语言处理/理解希望机器能像人一样去理解语言,理解以人类自然语言为载体的文本所包含的信息,并完成一些特定任务。处理文本:中文分词、词性标注、命名实体识别命名实体识别的任务就是识别出待处理文本中的实体名词三大类:实体类、时间类和数字类七小类:人名、机构名、地名、时间、日期、货币和百分比关键词提取、关系抽取、信息抽取、依存分析、词嵌入应用:文本机器翻译、文本摘要、情感分析;知识图谱、问答系统、聊天机器人自然语言处理背景:如何表示词语所包含的语义?怎么用词语表示文本,让机器读懂?向量空间模型(词袋模型):1元素词出现为0,不出现为12元素为出现次数3元素为ti-idf数值WordEmbedding(词嵌入)核心思想:此本无义,义由境生:语义相关的词语,具有相似的上下文环境,例如,苹果和梨子具有相似的上下文语境。怎么得到词向量:训练语料库,将每个词语训练成词向量。总结:语言的表示(词向量)Bags-of-word:维度高、过于稀疏、缺乏语义、模型简单WordEmbedding:维度低、更为稠密、包含语义、训练复杂自然语言处理实践基于gensim包和中文维基语料gensim,word2vec模型介绍:/gensim/models/(语料库):链接https://pan./s/1qXKIPp6密码kade##训练模型sentences=LineSentence('')model=Word2Vec(sentences,size=128,window=5,min_count=5,workers=4)#('word_embedding_128')#加载模型model=("word_embedding_128")#使用模型items=(u'中国')#得到与中国相似的词语(上下文语境相似)(u'学校',u'学生')#得到学校和学生2个向量的相似度自然语言处理用Python做自然语言处理必知的八个工具./article/1048041434?utm_campaign=share&utm_medium=androidShare&utm_u=1030448961&utm_source=weixinMoment自然语言处理加州大学洛杉矶分校UCLA在IN-N-OUT吃饱喝足后便开往很近的UCLA。我的点评:来到LA,还是要来看看世界名校UCLA的。找到了学校里的visitor parking停车场停车。一个小时USD3。不算贵。 7出来走不远就可以看到熊的雕塑和UCLA的一家很大的礼品店。此外,我们还主要参观了UCLA的Student 对面的图书馆(Chicano Studies Research Center Library)。Royce Hall还是挺漂亮的,图书馆也是学****环境很好的地方。顺利降落JFK,回到纽约,行程顺利结束。洛杉矶。加州。自然语言处理分词词性标注自然语言处理命名实体

最近更新

数据统计分析方法 8页

基于高通量测序的刺参白化发生和子代体色分离.. 2页

基于高密度电法的尾矿坝浸润线探测系统设计 2页

新教材高中化学 2.1.2 物质的检验 物质性质和.. 4页

新概念英语同步测试卷答案第一册28套试卷 10页

新版join-in-三年级上册重点单词及句型整理 16页

新编实用英语综合教程1课后习题答案 6页

新苏教版数学四年级下册《解决问题的策略---画.. 8页

新视野大学英语视听说教程第三版第一册第二单.. 13页

中班寄语简短21条 26页

幼儿园小班英语教案 41页

文言文意境小清新句子 24页

无人机巡线无人机巡线使用情况汇报 4页

2023-2024学年度四川广安友谊中学数学七年级上.. 20页

基于量子遗传算法的无线传感器网络能量优化研.. 2页

基于遗传算法的热工过程辨识 2页

2023-2024学年度内蒙古翁牛特旗乌丹第一中学数.. 20页

智慧水务数字孪生IOC系统建设方案 18页

暑假安全教育专题教案 19页

基于过度自信的投资风险管理策略研究 2页

卵巢癌内科治疗新进展课件 62页

危重病人观察要点课件 25页

2023-2024学年安徽无为县襄安中学数学七年级上.. 20页

正确地培养孩子的注意力 26页

卫生洁具清洁质量检查标准 16页

卫生保健消毒知识培训 26页

基于财务运营的战略性新兴产业企业切入国际产.. 2页

基于贝叶斯网络的机械系统可靠性评估 2页

时间飞快的流逝的句子英语 23页

描写雪景的优美句子优选200句 24页