文档介绍：桌面语音识别语音库——人名、地名(70人)资源简述语音库录制70名具有不同口音、年龄和文化层次发音人。其文本内容为人名、国家名、中国城市名、街道名、公司机构名、地理名。、单声道、16bit量化精度的WINDOWSPCMWAV文件。录音数据采用头戴式抗噪麦克风单信道录制。语音库主要用于自然语音的识别测试和训练。标注规范数据校对规则:声音文件要和文本文件一一对应。由于发音人抢录而使语音信号受损的,用[字]表示。如果整个字的语音信号全部没有则用[*字]表示。由于信号传输的问题而使语音信号受损的用{字}表示。没有语音信号的句子,把句子内容删去,留下句子号。按照真实发音修改文本,‘天安门’读成了‘地安门’,文本要按照真实发音把‘天安门’改为‘地安门’。语句文本中数字使用中文状态书写。数据标注:标注工具——Mark_tool工具说明:根据真实发音在文本上标注相应的信息(如:背景杂音、背景语音、及由发音人引起的各种语音信息)。标注注意事项:信号较小的杂音不进行标注。和语音信号重叠的杂音不进行标注。标注信息列表如下:类别名称释义举例由发音人引起的模糊语音发音人语音模糊难辨的、读的不好的。<A></A>“天安门”的“安”字几乎不可分辨读错语音发音人读错字的,更改后语义不通的。<B></B>“奥体”读成“奥qi3”则需标注为“奥<B>{体qi3}</B>”重复语音发音人重复的字或词,添加后不能成为一个完整语义的句子。<R></R>“徐玉芳”读成“徐徐玉芳”语气语音发音人发出的****惯性的、无意义的语气词。<C></C>嗯,呵,哼…及一些难以用汉字表示的声音呼吸声录音人口中发出的呼吸声。<D></D>单纯