1 / 9
文档名称:

R语言侦测欺诈交易.doc

格式:doc   大小:89KB   页数:9页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

R语言侦测欺诈交易.doc

上传人:miaoshen1985 2018/7/7 文件大小:89 KB

下载得到文件列表

R语言侦测欺诈交易.doc

相关文档

文档介绍

文档介绍:R语言侦测欺诈交易
背景
考虑到在经济和社会领域中经常存在欺诈交易等非法活动,因此欺诈检验是数据挖掘技术的一个重要应用领域。从数据分析的角度,欺诈行为通常和异常的观测值相关联,因为这些欺诈行为是偏离常规的。在多个数据分析领域,这些偏离常规的行为经常成为离群值。数据挖掘的结果有助于公司的事后检查活动,能够提供某种欺诈概率排序作为输出结果,可以使公司以最佳方式来利用其事后检查资源。
目的
侦测欺诈交易的目的是找到“奇怪的”交易记录报告,它可能指出某些销售员涉嫌欺诈。这里用的数据是一个较短时期内的销售数据,销售员可按照自己的策略和公司情况来自由设置销售价格。我们的目的是根据公司过去发现的交易报告中的错误和欺诈企图,帮助公司完成核实这些销售报告真实性的工作。
:
共401 146行数据,每一行包括来自销售员报告的信息。
ID:说明销售员ID的一个因子变量。
Prod:说明销售产品ID号的一个因子变量。
Quant:报告该产品销售的数量。
Val:报告销售记录的总价值。
Insp:有3个可能值的因子变量——ok表示公司检查了该交易并认为该交易有效;fraud表示发现该交易为欺诈;unkn表示该交易未经过公司审核。
:
> sum((sales$Quant) & (sales$Val))
[1] 888
从数据的统计特征初步可以看出v431号雇员录入的数据最多,p1125号产品卖出最多,可以看到产品销售的数量和总价值的四分位数据,公司已检查承认有效的数据有14462,已发现欺诈的数据有1270,未经过审查的有385414,说明大量数据还未经过审核,需要接下来的数据分析来检查其中的欺诈数据。
数据中有大量缺失值,当重要产品销售数和销售总价值同时缺失时,就无法进行分析,这样的数据有888条,在40万组数据中可以忽略不计。
判断数据框中每个变量的属性:
str(sales)
'': 401146 obs. of 5 variables:
$ ID : Factor w/ 6016 levels "v1","v2","v3",..: 1 2 3 4 3 5 6 7 8 9 ...
$ Prod : Factor w/ 4548 levels "p1","p2","p3",..: 1 1 1 1 1 2 2 2 2 2 ...
$ Quant: int 182 3072 20393 112 6164 104 350 200 233 118 ...
$ Val : num 1665 8780 76990 1100 20260 ...
$ Insp : Factor w/ 3 levels "ok","unkn","fraud": 2 2 2 2 2 2 2 2 2 2 ...
可以看到ID,Prod,Insp是因子型变量, Quant整数型,Val数值型。
table(sales$Insp)/nrow(sales)*100
ok unkn fraud

在只考虑已检查过的销售记录,看到欺诈比例较小。
绘制每个交易人员的交易数量和每个产品的交易数量图形
totS <- tab