1 / 22
文档名称:

最新最全最小编辑距离算法.pdf

格式:pdf   页数:22页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

最新最全最小编辑距离算法.pdf

上传人:文档库 2015/3/7 文件大小:0 KB

下载得到文件列表

最新最全最小编辑距离算法.pdf

文档介绍

文档介绍:最小编辑距离算法
Minimum Edit Distance
詹卫东
北京大学中文系
编辑距离
编辑前字符串 s
编辑距离定义为
编辑后字符串 t “”
“编辑操作的次数”
编辑操作p:插入、删除、替换
源文:She is a star with the pany.
机器译文:她是与剧院公司的一颗星。计算机器译文
参考译文:她是剧团的明星。跟正确答案之
间的距离
编辑距离:6
删除次数(4次): 与公司一颗
替换次数(2次): 剧院Æ剧团星Æ 明星
如何计算最小编辑距离
s o t 编辑操作1
原始串 s o t
Æ s t o t (,1分,累计1分)
目标串 s t o p
Æ s t o p (,2分,累计3分)
插入操作的权值编辑距离:3
(insertCost):1
s o t 编辑操作2
删除操作的权值
Æ s t t (,2分,累计2分)
(deleteCost):1
替换操作的权值Æ s t o (,2分,累计4分)
(substituteCost):2 Æ s t o p (,1分,累计5分)
编辑距离:5
最小编辑距离计算:动态规划
D(0, 0) = 0 i, 目标串字符位置
D(i, 0) = insertCost * i j, 原始串字符位置
D(0, j) = deleteCost * j
D(i-1, j) + insertCost( targeti )
D(i, j) = min D(i-1, j-1) + substituteCost( sourcej , targeti )
D(i, j-1) + deleteCost( sourcej )
= 0 if target[i] = source[j]
substituteCost
= 2 otherwise
insertCost = 1
deleteCost = 1
最小编辑距离算法描述
function Min-Edit_Distance (target, source)
n = length(target);
m = length(source);
create distance matrix d[n,m];
d[0,0]=0;
d[0,1]=1,… d[0,m]=m;
d[1,0]=1,…d[n,0]=n;
for each i from 1 to n do
for each j from 1 to m do
d[i, j] = min( d[i-1, j] + insertCost(targeti)),
d[i-1, j-1] + substituteCost(sourcej, targeti),
d[i, j-1] + deleteCost(sourcej));
return d[n,m];
最小编辑距离计算示例
source : s o t j
3 t
target : s t o p 2 o
1 s
n = length (target) 0 # s t op
m = length (source) # 0 1 2 3 4
Create matrix d [n, m]; i
i=0 j=0
d[0,0] = 0;
d[0,1] = 1; …; d[0,m] = m;
d[1,0] = 1; …; d[n,0] = n;
最小编辑距离计算示例
source : s o t j
3 t
target : s t o p 2 o
1 s 0
n = length (target) 0 # s t op
m = length (source) # 0 1 2 3 4
Create matrix d [n, m]; i
i=1 j=1
d[0,1]+insert(t[1]) = 2
d[1,1] = min d[0,0]+substitute(s[1],t[1]) =0 = 0
d[1,0]+delete(s[1]) = 2
最小编辑距离计算示例
source : s o t j
3 t
target : s t o p 2 o 1
1 s 0
n = length (target) 0 # s t op
m = length (source) # 0 1 2 3 4
Create matrix d [n, m]; i
i=1 j=2
d[0,2]+insert(t[1]) = 3
d[1,2] = min

最近更新

实用英语应用写作公开课一等奖课件赛课获奖课.. 405页

XX镇人民医院发热门诊工作制度 2页

机械设备维修A 3页

财政部会计司解读企业内部控制配套指引第13号.. 4页

《海底世界》三年级语文公开课一等奖课件赛课.. 38页

精彩的水果拼盘活动 2页

苏科版物理九下18.1能源利用与社会发展学案 1页

家庭团购员 2页

2016海南高考试题及答案-英语 28页

阿房宫赋-完美教案 7页

行程问题基础训练 8页

生物化学与分子生物学专业研究生培养方案 3页

《在长江源头各拉丹冬》导学案 3页

23.2一元二次方程的解法(因式分解法)公开课一.. 22页

2020考研英语一大纲解析之阅读理解 2页

高中数学第3讲柯西不等式与排序不等式第2课时.. 26页

暴力伤医和医闹是一回事吗 2页

2022高考数学全真模拟试题第12707期 18页

暴力传销犯了什么罪 2页

状态-特质焦虑问卷(STAI) 5页

幻想我是一只鸟 2页

专升本——《生理学》题库 82页

福建师范大学19年3月课程考试《课程与教学论》.. 3页

2017中考二次函数压轴题专题分类训练 21页

人教版七年级英语下册第4单元测试题附答案 9页

二零二四年海洋工程产品技术咨询合同 15页

二零二四年电梯维修安装工劳务合同模板 14页

二零二四年美容机构超声刀产品直销与培训合同.. 16页

1.1 定积分的背景——面积和路程问题公开课一.. 45页

(部编)人教版秋九年级历册 第10课中世纪城市和.. 18页