1 / 11
文档名称:

质量判别.pptx

格式:pptx   大小:914KB   页数:11页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

质量判别.pptx

上传人:wenjun1233211 2018/3/30 文件大小:914 KB

下载得到文件列表

质量判别.pptx

相关文档

文档介绍

文档介绍:质量判别
需求场景:
资源提交方数据质量参差不齐
数据处理过程中各种意外频发
多垂类并发迭代
解决方案:质量监控系统
应用无关
自适应
无监督
用户友好
收益:
数据统计观测(原始数据评估)
噪声数据发现(5%)
优质数据扩大召回(15%)
数据质量预警(自动化上线)
质量监控平台
产品背后
产品背后
实体维度:评分卡模型
g(X)=w1f(x1) + w2f(x2) + …+ wnf(xn)
g(X):评分函数----线性模型
f(x): 特征表示----四种通用模型
w: 特征权重----可配置
X: 特征向量----可配置
产品背后
属性维度:特征表示
连续数据
取值在实数区间,取值空间不可数。
假设数据是类高斯分布,使用数据偏离期望(平均值)的标准差个数来模拟偏离度。
顺序数据
取值是自然数区间,取值空间可数,一般个数在50个以内。
数据的顺序值指示偏离的方向,使用概率密度积分来模拟偏离度。
离散数据
取值是类别属性,取值空间不可数。
离散数据的占比指示偏离的方向,使用概率密度积分来模拟偏离度。
字符串数据
取值是字符串,取值空间不可数
使用TF-IDF模型来模拟偏离度
连续数据
假设:
把某个取值为连续数据的属性看作一个随机变量,假设自然实体中,其属性随机变量分布为类正太分布或者多个正态分布的叠加。
建模:
以平均值为该随机变量的期望,以属性偏离期望的标准差个数来度量离群度,也即是异常度。
顺序数据
假设:
顺序取值本身指示数据质量信息,取值越大或者越小越好。
建模:
利用数据差距最优取值的概率大小来模拟异常度,实际等于该值偏离最优值的概率密度积分。(综合了分布和顺序值本身)
离散数据
假设:
随机变量的概率值(也即是热度)本身指示了数据质量好坏的方向。
建模:
将离散数据按照频率从大到小顺序排列,利用离散变量偏离最热值的概率大小(概率密度积分)来模拟异常度。
字符串数据
假设:
字符串的组成term的的频率决定了字符串的频率,越稀疏出现的字符串越异常。
建模
利用TF*IDF模型来模拟字符串的异常度。统计数据空间中字符的IDF,视一个字符串为一个文档,累加每个字符的TF*IDF值得到异常度。
产品背后
集合维度:
使用卡方校验来判定两个数据分布是否一致:

最近更新

重庆制造业产业链上下游投资协同研究 8页

2023年现代谱估计计算机仿真实验报告 37页

2024年云南农业职业技术学院单招职业适应性考.. 56页

2024年云南经贸外事职业学院单招综合素质考试.. 57页

2024年内蒙古建筑职业技术学院单招职业倾向性.. 57页

2024年南京旅游职业学院单招职业适应性考试题.. 55页

2024年厦门华厦学院单招职业倾向性测试必刷测.. 57页

2024年吉林工程职业学院单招职业技能测试必刷.. 57页

2024年哈尔滨应用职业技术学院单招职业倾向性.. 57页

2024年山东信息职业技术学院单招职业倾向性考.. 56页

企业数字化转型二零二五蛇年开年汇报宽屏视觉.. 31页

体育赛事颁奖典礼中2025获奖感言与颁奖词协同.. 25页

公安执法监督全流程电子化2025年标准化操作手.. 29页

土建工程师论文 14页

团队绩效评估结合微立体3D建模效果的2025总结.. 19页

基于数据驱动的2025供应链优化成果与动态图表.. 21页

基于自然科普主题的2025儿童春游安全指南课件.. 26页

初中英语2025届中考核心高频词(词义+音标+考.. 17页

夏季驾驶员安全行车 43页

高中英语 名词性从句专项练习 新人教版必修 5页

埃斯顿机器人 2页

郭德纲、于谦 学电台 台词 13页

梁皇宝忏全文加仪轨 85页

铝扣板吊顶施工方案 18页

全唐文(附唐文拾遗唐文续拾读全唐文札记全5册.. 5页

效法基督第三卷 36页

1南方电网10kV~110kV系统继电保护整定计算规.. 39页