1 / 14
文档名称:

PGIZA的设计概述.ppt

格式:ppt   大小:562KB   页数:14页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

PGIZA的设计概述.ppt

上传人:南北旺 2022/5/20 文件大小:562 KB

下载得到文件列表

PGIZA的设计概述.ppt

相关文档

文档介绍

文档介绍:PGIZA的设计概述
大纲
简介
运行环境及所需程序包
系统设计
性能
总结
2
行业报告 多媒体课件 友友情分享,欢迎收藏
简介
GIZA++:训练统计翻译模型的程序包
EM算法
HMM模型,IBM模型
使用时的问PGIZA的设计概述
大纲
简介
运行环境及所需程序包
系统设计
性能
总结
2
行业报告 多媒体课件 友友情分享,欢迎收藏
简介
GIZA++:训练统计翻译模型的程序包
EM算法
HMM模型,IBM模型
使用时的问题
硬件
时间
3
行业报告 多媒体课件 友友情分享,欢迎收藏
简介
PGIZA:基于GIZA++的平行统计翻译模型训练程序包
IBM模型1、HMM模型、IBM模型3
分而治之的策略
在可以接受的时间内,利用多台普通的PC机实现统计翻译模型的训练
4
行业报告 多媒体课件 友友情分享,欢迎收藏
运行环境及所需程序包
硬件
P4 2G (13台)
1G RAM
1000Mbps Network
软件
Debian
SSH
Simba
Perl
修改的GIZA++
5
行业报告 多媒体课件 友友情分享,欢迎收藏
系统设计
目标:在普通机群环境下实现模型的多机并行训练
缩短训练时间
提高训练语料数量
保证模型质量
基本策略:分而治之
对部分语料分别训练(分机群)
模型合并(主机)
6
行业报告 多媒体课件 友友情分享,欢迎收藏
系统设计
基本流程
主机向分机群分配语料
分机群对部分语料训练部分模型
分机群将部分模型上传至主机
主机对部分模型进行合并
主机将合并后的模型分发至分机群
分机群开始下一次迭代
7
行业报告 多媒体课件 友友情分享,欢迎收藏
系统设计
8
行业报告 多媒体课件 友友情分享,欢迎收藏
系统设计
模型合并
合并频数统计表
二进制方式存储模型
精度高 空间小
按条目排序
多路归并
内存使用量很小,由归并路数决定。
计算频率
频率裁减和平滑
9
行业报告 多媒体课件 友友情分享,欢迎收藏