文档介绍:声纹识别技术在调度录音分析的应用研究
李豫芹 朱凯进 【摘要】随着电网调控一体模式的应用打破传统的调度的业务范畴,调控拓展成为电网信息通信与设备的集中监视与指挥控制中心,各类生产业务的实时、准确信息逐步汇集到调度台。作为各类声纹识别技术在调度录音分析的应用研究
李豫芹 朱凯进 【摘要】随着电网调控一体模式的应用打破传统的调度的业务范畴,调控拓展成为电网信息通信与设备的集中监视与指挥控制中心,各类生产业务的实时、准确信息逐步汇集到调度台。作为各类监控信息和管理流程的汇集点,调度下令的准确性直接关乎电网运行稳定性。本文针对调度录音系统的需求,通过对声纹识别技术在调度录音分析的应用进行分析研究,期望再进一步通过技术力量改变调度下令不规范,用语不真切的不良****惯,从根本上解决调度下令的多年诟病,提升电网调度下令水平。
【关键词】调度;调度录音;录音分析;声纹识别
调度岗位业务范畴的扩容,直接导致调度人员的工作量上浮,对于日常工作,指挥下令的操作更为频繁,目前调度电话录音每月数量已经接近万条,平均下来每一天都有三、四百条录音文件产生,其中正规调度下令录音占约2/5,目前针对录音内容,采用人工逐一收听的办法来判定录音内容是否规范,下令是否正确。通过人工抽检测听的方式,无法全面有效地评价调度质量,难以确保调度人员正确使用规定的调度术语且调度指令准确、无误;且人工抽检方式工作量大,效率低。
应用语音分析技术,将电网调度中心保存的非结构化的录音数据转为结构化的索引信息(文本结构),通过关键词检索、筛选、业务归类等处理及分析,建立声纹模型以及设定关键字,如拉开、闭合、下令等关键字眼,对调度流程规范进行自动确认和问题分析,大幅度提高质检效率和覆盖面,提升电网调度质量,降低运营成本,提高运营管理水平。
调度录音预处理
输入的调度语音信号需要进行预处理,预处理过程的好坏在一定程度上影响系统的识别效果。在调度录音预处理过程中,采用文本相关的声纹识别技术。
语音转写(识别),是指将非结构化的语音文件转换为结构化的文本信息,是语音分析的核心功能。处理时将分离后的调度录音通过声学模型转换为汉语音标符号,再通过超大词汇网络的语言模型将音标信息识别为文本内容。
由于调度员的本地口音及中文自带的语调,必须优化声学模型和语言模型,以提升语音转写准确率。在具体实施过程中,采用识别词混淆网络(Word Confusion Network,WCN)作为文本分类器的输入,使用WCN中覆盖的词而不是只使用语音转写结果进行文本分类,提高对识别错误的鲁棒性。
调度录音索引及检索
目前,在调度录音中,同一个录音记录了调控人员和运行人员的全部对话。通过场景分割技术对两方通话内容进行分离,进而针对性对调度质量分别进行监控和分析,以识别问题发生点及问题内容。场景分割,是指对通话录音中的双方通话行为进行检测、切割和分离。经过预处理的调度录音经过场景分割,再进行下一步的进行索引与检索。
语音索引,是指将语音中包含的各类信息进行识别和归类,并形成方便查询统计的索过检测电话录音的基频、音高等变化幅度,预测情绪波动并定位其位置信息