文档名称：

质量判别.pptx

格式：pptx 大小：914KB 页数：11页

下载后只包含 1 个 PPTX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

质量判别.pptx

上传人:wenjun1233211 2018/3/30 文件大小：914 KB

下载得到文件列表

质量判别.pptx

相关文档

文档介绍

文档介绍：质量判别
需求场景:
资源提交方数据质量参差不齐
数据处理过程中各种意外频发
多垂类并发迭代
解决方案:质量监控系统
应用无关
自适应
无监督
用户友好
收益:
数据统计观测(原始数据评估)
噪声数据发现(5%)
优质数据扩大召回(15%)
数据质量预警(自动化上线)
质量监控平台
产品背后
产品背后
实体维度:评分卡模型
g(X)=w1f(x1) + w2f(x2) + …+ wnf(xn)
g(X):评分函数----线性模型
f(x): 特征表示----四种通用模型
w: 特征权重----可配置
X: 特征向量----可配置
产品背后
属性维度:特征表示
连续数据
取值在实数区间,取值空间不可数。
假设数据是类高斯分布,使用数据偏离期望(平均值)的标准差个数来模拟偏离度。
顺序数据
取值是自然数区间,取值空间可数,一般个数在50个以内。
数据的顺序值指示偏离的方向,使用概率密度积分来模拟偏离度。
离散数据
取值是类别属性,取值空间不可数。
离散数据的占比指示偏离的方向,使用概率密度积分来模拟偏离度。
字符串数据
取值是字符串,取值空间不可数
使用TF-IDF模型来模拟偏离度
连续数据
假设:
把某个取值为连续数据的属性看作一个随机变量,假设自然实体中,其属性随机变量分布为类正太分布或者多个正态分布的叠加。
建模:
以平均值为该随机变量的期望,以属性偏离期望的标准差个数来度量离群度,也即是异常度。
顺序数据
假设:
顺序取值本身指示数据质量信息,取值越大或者越小越好。
建模:
利用数据差距最优取值的概率大小来模拟异常度,实际等于该值偏离最优值的概率密度积分。(综合了分布和顺序值本身)
离散数据
假设:
随机变量的概率值(也即是热度)本身指示了数据质量好坏的方向。
建模:
将离散数据按照频率从大到小顺序排列,利用离散变量偏离最热值的概率大小(概率密度积分)来模拟异常度。
字符串数据
假设:
字符串的组成term的的频率决定了字符串的频率,越稀疏出现的字符串越异常。
建模
利用TF*IDF模型来模拟字符串的异常度。统计数据空间中字符的IDF,视一个字符串为一个文档,累加每个字符的TF*IDF值得到异常度。
产品背后
集合维度:
使用卡方校验来判定两个数据分布是否一致: