文档介绍:该【戏剧译本的平行语料库制作 】是由【xinyala】上传分享,文档一共【24】页,该文档可以免费在线阅读,需要了解更多关于【戏剧译本的平行语料库制作 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。选用剧本:剧本Long Day’s Journey Into Night Eugene O’Neil译文:人民出版社和三联书店出版的译文
1 清洁文本
把空格、空行、怪异的字符都去掉。
2 用Editpad pro 来检查文本文件的代码属性
表面上看还是TXT文件,但其代码已经变了。注意保存。
3 TMT tools把TXT文件转成TMX文件。(自动对齐) 所用软件:text2tmx
Text to TMX的选项设置
底部:
在Text to TMX 选项卡上。
顶部:
source text file: ZH-Chinese→→ EN-English; 戏剧原文是英文。
Target Text File: EN-English→→ ZH-Chinese;译文是中文的两个版本。
设置好后,分别打开各自源文件和译文文件,单击go,一次对齐生成一个文件,共生成两个文件。
注意:*.tmx文件需要在同一目录下。而且其所在路径中或子目录名中不能出现中文。否则生成文件中出现的中文可能是乱码。
可用editpad pro软件,打开对齐文件,看其是否正确。一般来说,对于戏剧文件本来讲,对齐的正确度不高,需要人工调整。
4 机助人工校准
CTexT® Alignment Interface
D:\workshop\Tools\autoaligner-liangmaocheng
有时会看到该两行的内容,却出现在了一行上。需用到分割字段,光标停在断开处→右键→split→弹出对话框→OK。
连线:分别不间断地单击两个序号,该两序号就可连线。
断线:连线后,再分别不间断地单击两个序号,该两序号就可断线。
Save alignments: 会存成四文个文件。分别指出已完成和未完成、源语和目标语的情况。