1 / 20
文档名称:

RFID数据清洗技术研究进展 王健.pdf

格式:pdf   大小:956KB   页数:20页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

RFID数据清洗技术研究进展 王健.pdf

上传人:王夫人 2022/12/4 文件大小:956 KB

下载得到文件列表

RFID数据清洗技术研究进展 王健.pdf

文档介绍

文档介绍:该【RFID数据清洗技术研究进展 王健 】是由【王夫人】上传分享,文档一共【20】页,该文档可以免费在线阅读,需要了解更多关于【RFID数据清洗技术研究进展 王健 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:.
计算机科学与探索
JournalofFrontiersofComputerScienceandTechnology
ISSN1673-9418,CN11-5602/TP
《计算机科学与探索》网络首发论文
题目:RFID数据清洗技术研究进展
作者:王健,乐嘉锦
网络首发日期:2022-08-17
引用格式:王健,[J/OL].计算机科学与探索.
.
网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN2096-4188,CN11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
:.
췸싧쫗랢쪱볤ꎺ2022-08-1710:18:39
췸싧쫗랢뗘횷ꎺ.
JournalofFrontiersofComputerScienceandTechnologydoi:.1673-
RFID
王健1+,乐嘉锦2
,郑州450046
,上海201620
+通信作者E-mail:******@
:无线射频识别(RadioFrequencyIdentification,RFID)技术是一种自动识别方法,它依赖于称为
RFID标签的无线电转发器快速存储和检索数据。随着物联网时代的到来,RFID技术开始广泛应用于人类
的日常生活中,比如零售、供应链管理、物品跟踪等。由于RFID标签与读写器通信时无需直接接触,这
样为短时间内采集大量的数据提供了可能。同时,采集到的数据也产生了诸如漏读、多读、冗余、乱序等
问题,加之其具有的产生速度快、规模大、时效性强等特点,如何在短时间内高效地清洗产生的大规模RFID
数据成为数据库领域的重要研究课题。目前,研究者们也提出了大量的RFID数据清洗技术,为RFID数
据的预处理与应用提供了便利。本文主要对现有的RFID数据清洗技术进行了综述。首先介绍了RFID系
统与数据清洗的问题描述,再次分析了相关研究挑战,接着整理了相关数据集与评价标准,然后从漏读数
据清洗、多读数据清洗、冗余数据清洗、乱序数据处理、RFID系统应用等方面对现有的RFID数据清洗技
术进行了详细的比较、归纳和总结,最后对RFID数据清洗问题上可能的研究方向进行了展望,为相关研
究提供参考。
:RFID;数据清洗;漏读数据;多读数据;冗余数据;乱序数据;系统应用
ATP391
ResearchprogressofRFIDdatacleaningtechnology
WANGJian1+,LEJiajin2
,HenanUniversityofEconomicsandLaw,Zhengzhou450046,
China
,DonghuaUniversity,Shanghai201620,China
Abstract:Radiofrequencyidentification(RFID)technologyisanautomaticidentificationmethod,whichrelieson

thingsera,RFIDtechnologyhasbeenwidelyusedinhumandailylife,suchasretail,supplychainmanagement,
,itispos-
,thecollecteddataalsoproduceproblems
suchasfalsenegativereadings,falsepositivereadings,duplicatedreadings,out-of-orderreadingsandsoon.
Meanwhile,ithasthecharacteristicsoffastproductionspeed,,howto
基金项目:国家自然科学基金(61702161);河南省科技厅科技攻关项目(222102210289,2**********)。
ThisworkwassupportedbytheNationalNaturalScienceFoundationofChina(61702161),theKeyResearchandDevelopmentand
PromotionProgramofHe’nanProvince(222102210289,2**********).:.
2JournalofFrontiersofComputerScienceandTechnology
efficientlycleanthelarge-scaleRFIDdatainshorttimehasbecomeanimportantresearchtopicinthefieldofdata-
,researchershavealsoproposedalargenumberofRFIDdatacleaningtechnologies,whichprovides

,itintroducestheRFIDsystemanddefinitionsofRFIDcleaningproblemindetail.
Secondly,,itgivestherelevantdatasetsandevaluationmetrics.
Forthy,fromtheaspectsoffalsenegativereadingcleaning,falsepositivereadingcleaning,duplicatedreading
cleaning,out-of-orderreadingprocessing,RFIDsystemapplication,itcombstheexistingRFIDdatacleaningtech-
,itpresentsthepossibleresearchdirectionsofRFIDdatacleaningforrelevantresearch.
Keywords:RFID;datacleaning;falsenegativereading;falsepositivereading;duplicatedreading;out-of-order
reading;systemapplication
无线射频识别(RadioFrequencyIdentification,存容量有限,造成的挑战之四是除非刻意保存,一
RFID)技术具有非接触识别、穿透力强、识别速度般每个数据只处理一次。RFID标签一般贴于位置
快、自动检测、节省人力等众多优点,已经广泛的经常变动的物品上,造成的挑战之五是数据时效性
应用于一些需要采集[1]、监控[2]或追踪[3]信息的领域强,必须在很短时间内处理。
中,例如仓储物流运输、门禁考勤、固定资产管理、RFID数据清洗一度成为最流行的研究热点之
车辆识别、行李安检、医疗信息追踪、军事国防安一,研究者们从各个方面出发,提出了许多高质量
全等[4]。伴随着广泛应用而来的是对高数据质量的的方法。为了方便广大研究者借鉴和使用相关方
迫切需求。法,很有必要对RFID数据清洗技术进行综述。文
尽管RFID具有很多优点,但是在面对水和金属中介绍了RFID数据清洗问题的描述,给出了RFID
时穿透能力相对较弱,易受无线电信号干扰,这种数据清洗研究的挑战,整理了典型的数据集和评价
情况下RFID标签的识别准确率就大大降低,造成数标准,梳理了现有的RFID数据清洗技术,并从漏
据的不可靠性[5]。另外,RFID标签的长期停留、多读数据处理[9][10]、多读数据处理[9]、冗余数据处理
读写器的部署、为提高识别率而采取的多个同一标[9]、乱序数据处理[11]、RFID系统应用[9][10]等方面对
签的粘贴,在系统采集数据[6]时也会造成数据的冗RFID数据清洗技术的现有工作进行了详细的归纳
余。在数据传输过程中,由于网络延迟等因素,收和总结,最后对RFID数据清洗上可能的研究方向
集到的数据还会产生乱序的问题。因此,RFID数据进行了展望。
的不可靠性主要包含数据的漏读、多读/交叉读、冗1RFID
余、乱序等[7]。如果应用端直接使用RFID原始数据,

会造成很多问题。因此,预处理系统一般会对RFID
RFID系统通常包含以下几部分:RFID标签、
原始数据进行清洗,以提高RFID数据的质量。[12]
RFID读写器、RFID中间件和后端应用系统。其
在对RFID原始数据清洗的过程中,存在着很中,RFID标签由芯片和标签天线或线圈组成,通
多的挑战。这些挑战一般是由RFID数据流的特点过电感耦合或电磁反射原理与读写器进行通信。
和应用端的需求带来的[8]。RFID数据是突发产生
RFID读写器是读取/写入标签信息的设备。天线可
的,所以造成的挑战之一是其产生和到达速度快。
以内置在RFID读写器中,也可以通过同轴电缆与
只要RFID数据在采集设备(读写器)的读写范围RFID读写器天线接口相连。RFID中间件负责数据
内,就会产生数据,造成的挑战之二是数据流的总清洗[13][14]和复杂事件处理等工作。图1为RFID系
量是无限的。由于RFID数据在传输过程中遇到不
统的示意图。
同的网络状况,造成的挑战之三是数据到达次序不
受应用约束。查询等应用一般在内存中完成,且内
:.
RFID读写器
货架
物品√√√
物理世界RFID读写器中间件应用领域
读取
范围√√√
数据过滤
3√×√
ERPCRM
数据清洗
只有个别数据没读到,这就是RFID数据漏读现象。
EPC
WSM
数据聚集APP
带RFID标签的物品×表示该物品未产生读数,即漏读
图1RFID系统√表示该物品产生读数

RFID读写器
表示物品
RFID标签分为三种类型:无源标签、半无/
有源标签和有源标签[15]。其中源的含义是供电电图2RFID数据的漏读示意图
源,这种电源一般具有体积小、使用时间长等特点。
RFID技术的基本原理是:无源标签进入RFID
定义2(数据的多读)也称假阳性读数(false
读写器的读写范围内时,接收读写器发出的电磁信
positivereadings)、交叉读(crossreadings)或噪声
号,接着自身产生感应电流,然后凭借感应电流产[16][17]
(noise),是指RFID读写器不仅读取到了期
生的能量将存储于芯片上的信息传递给读写器;若货架
望的标签,而且也读取到了不期望的标签。这种现
为有源标签,其不需要借助读写器的信号来产生能
象可以归结于以下几种形式:(物品1)位于RFID正常
量,因为其自身带有电源,所以它会主动发出某一
读取范围之外的标签被读取到。比如,当在采集一
频率的电磁波,这样读写器读取电磁波并解码,然
个箱子内的标签数据过程中,读写器可能从邻近的
后送到中央系统进行后续的数据处理,最后将信息读取
箱子内读到了标签;(2)读写器所处环境中的不确
传递给用户或者应用系统[7]。
定因素,比如,某读写器产生并传送非其探测范围
范围
。图3给出一个数据多读的示意
RFID数据清洗问题主要包括数据的漏读、数图。交叉区域内被两个读写器都捕捉到的数据称为
据的多读、数据的冗余、数据的乱序等。下面给出多读数据(交叉读数据)。
相关定义与描述。
定义1(数据的漏读)也称假阴性读数(false
negativereadings)[16][17][18],是指某个或者某些标签
实际上已经处于RFID读写器的读取范围内,但是
读写器却没有产生相应时间点或者时间段的有关
此标签的数据。在RFID数据采集过程中,漏读是处于读写器交叉区域的物品可能被两个
一个常见的现象。产生漏读的原因有:(1)当许多
读写器同时读到,这些读数就是多读。
标签同时被读写器探测到的时候,无线电波的冲突
图3RFID数据的多读示意图
和信号的干扰经常出现,因此干扰了读写器识别任

何一个标签;(2)水、金属或者无线电波的干扰。
现有的研究与实验表明,在部署有RFID设备的应定义3(数据的冗余)英文称为duplicated
用中,电子标签的识别率通常在60%到70%之间,readings[16][17],是由以下几种原因引起的:(1)标
即超过30%的数据被常规地丢弃掉。图2给出一个签在一个读写器探测范围内的停留很长时间,被读
数据漏读的示意图。在一个货架上放满了带有标签写器读取了许多次;(2)在一个大的区域或者长距
的物品,RFID读写器读取到了大部分标签的数据,离的范围内部署了多个RFID读写器,位于读写器
:.
4JournalofFrontiersofComputerScienceandTechnology
重叠区域的标签被读取了多次;(3)为了提高读取下面介绍一下比较重要的挑战。
精度,许多带有同一标识的标签粘贴于同一物品研究挑战1:数据源源不断产生,规模之大难
上,因此产生冗余现象。图4给出一个数据冗余的以数计。由于RFID技术为感知识别,所以在RFID
示意图。该图含义是某个带有RFID标签的数据在读写器开启的情况下,瞬间可以采集多次,比如1
不同的n个状态(比如不同位置、不同读写器读写)秒钟可以采集1000次。同时RFID读写器是分布式
下产生了多个读数,但是每个状态下有许多冗余,部署的,这样同时采集多个带有RFID标签的物品,
只有每个状态的第一个数据是有效的数据,其他的会形成犹如洪水般的数据流,并源源不断的流向应有效数据
读数可以丢弃。用端。
研究挑战2:数据到达速率极快。RFID技术
状态0感知式采集,采集到的数据通过无线网、有线网、状态1状态...状态n-1状态n
局域网、广电网等不同网络传递到应用端,同时多有效数据冗余数据
图4RFID数据的冗余示意图个网络传输,所以RFID数据流的到达极快。
:数据到达次序不受应用约束。
RFID数据来自周围环境,随机发生,你追我赶,
定义4(数据的乱序)英文为out-of-order
多路并发传播,同时也受网络状况的影响,到达的
readings[11]。由于不同网络传输中的延迟、拥塞等
次序与产生时的顺序完全不同。由于不以任何事物
情况,导致读写器在工作过程中生成的原本产生的意志为转移,所以其到达次序也难以预测。
研究挑战4:除非刻意保存,每个数据都只能
时间戳较早但到达时间戳较晚、或者原本产生时
“看”一次。由于RFID数据规模巨大,受处理机
间戳较晚但到达时间戳较早等非顺序到达的现
内存大小的限制,该数据无法全部容纳于内存之
象。图5给出了一个数据冗余的示意图。该图含中。为了快速处理这些数据,只能扫描一遍。在扫
描一遍数据情况下,如何完成相关工作时间紧迫。
义是在t+1到t+8时刻数据1到8依次产生,然而
数据研究挑战15:数据时效性高,价值2转瞬即逝3。45678数据产生次序
由于网络延迟等原因经过一定的传输时间,其到
由于RFID数据具有独特的时空语义性,带有RFID
时刻t+1t+2t+3t+4t+5t+6t+7t+8
达次序就变得与产生次序完全不一样。标签的物品位置也是在不断变换的,比如带有RFID
标签的书籍,可能刚才还在书架上,短时间内就有
可能被学生借走,出现在借阅处。如果为了实时监
数据15482763数据到达次序
控每一本书籍的情况,就需要不停的处理带有时空
信息的RFID数据,距离当前时刻越近的数据越具
时刻t+11t+12t+13t+14t+15t+16t+17t+18
有应用价值。
图5RFID数据的乱序示意图
-of-orderreadings
3
定义5(RFID数据清洗)是对读写器在工作本节将会介绍典型的RFID数据集以及RFID
过程中产生的漏读、多读、冗余读、乱序到达数据数据清洗的评价标准。
进行填补、去伪存真、约减、排序等工作的过程。
2高质量与合适场景的数据集对RFID数据清洗
RFID数据属于流数据中的一种,其具有流数方法的验证与评估非常重要。本节总结了两个广泛
据的特点[8],这些特点也就形成了若干研究挑战。使用的RFID数据集。表1给出了相关数据集的基
:.
5
本信息,比如数据集名称、年份、来源、描述、文件数量、网址等。
表1常见RFID数据集
Table1TypicalRFIDdataset
数据集名称年份来源描述文件数量网址
数据集是从2008年7月18日至20日举行的第七届HOPE
(地球上的黑客)会议上收集的RFID跟踪数据。与会者佩
与会者在戴了RFID徽章,通过该徽章可以在整个会议空间内唯一地
hope/amd2008会场的运13个文件,
识别和跟踪他们。贡献者是Aestetix和ChristopherPetro。rg/hope/amd/200
动轨迹共25MB。
2008年08月07日上传于CRAWDAD(CommunityResource80807
forArchivingWirelessDataAtDartmouth)网站。
数据集是从2010年7月18日至20日举行的HOPE(地球
与会者在上的黑客)会议上收集的RFID跟踪数据。同样,与会者佩
hope/nh_amd2010会场的运33个文件,
戴了RFID徽章,通过该徽章可以在整个会议空间内唯一地rg/hope/nh_amd/

识别和跟踪他们。贡献者是TravisGoodspeed和Nathaniel20100718
Filardo。2010年07月18日上传于CRAWDAD网站。
hope/amd数据集是从2008年7月18日至20
DD(1)
pacrD
日举行的第七届HOPE(地球上的黑客)会议上收r
集的RFID跟踪数据。与会者佩戴了RFID徽章,数据压缩率指的是原始数据Draw与数据清洗
通过该徽章可以在整个会议空间内唯一地识别和过后的数据Dc的数据量的差值占真正数据Dr的比
跟踪他们。贡献者是Aestetix和ChristopherPetro。重。定义如公式(2)所示:
2008年08月07日上传于CRAWDAD(Community(2)
preduDDrawc
ResourceforArchivingWirelessDataAtDart-mouth)Dr
吞吐量指的是处理过的数据量|Draw|与所用处
网站,该网站是达特茅斯的无线数据存档社区资
理时间T的比值。定义如公式(3)所示:
源。网址为。
数据集中有13个文件,总数据量约为25MB,包含Draw(3)
ptT
了与会者参会期间的位置信息。运行时间是指算法运行稳定时处理数据流所
hope/nh_amd数据集是从2010年7月18日至
需要的时间。
20日举行的HOPE(地球上的黑客)会议上收集的
RFID跟踪数据。目的与hope/amd数据集一致。贡4RFID
献者是TravisGoodspeed和NathanielFilardo。2010本节主要从漏读数据清洗、多读数据清洗、冗余
年7月18日上传于CRAWDAD网站。具体下载地数据清洗、乱序数据处理、RFID系统应用等方面来
址为。数总结现有方法的基本思想、优势、局限和适用场景。
据集中有33个文件,且每个文件的数据量都接近

100MB,,同样包含了与会[19]
Jeffery等人提出一种称为ESP(Extensible
者参会期间的位置信息。
receptorStreamProcessing)的数据清洗方法。其在
,并将多个读写器
由于本研究方向的评价标准表达形式多样,不分组在一个空间粒度中,以纠正漏读数据(亦称假
能一一列举,这里只给出具有代表性的评价标准。阴性数据或误报)并去除异常值。然而,很难确定
精确度指的是清洗后的数据Dc与真正数据Dr不同RFID数据的最佳窗口大小,尤其是在移动环
的交集占真正数据Dr的比重。定义如公式(1)所示:境[20]中。在这样的环境中,重要的是确保两个应用
:.
6JournalofFrontiersofComputerScienceandTechnology
需求(完整性、标签动态)之间的平衡。完整性:优清洗策略,以达到总体开销最小。该方法只解决
确保所有在读写器范围内的RFID标签都被检测了漏读现象,如何解决多读、冗余、乱序到达等问
到;标签动态:捕获标签在读写器检测范围内进出题,还有待进一步研究。该方法的优点在于考虑了
的动态。通过设置较大的窗口大小来消除数据的漏观测值和估计值,然而这些估计值与观测值的关系
读,可以确保数据的完整性,但它们在检测标签跃是由历史数据集得到的,不能动态更新,因而对动
迁时效率不高,还引入了多读数据(假阳性)。然态标签的清洗结果也不十分理想。
而,窗口大小设置较小时能够检测到RFID标签的Baba等人[23]重点研究了原始室内RFID跟踪[24]
移动,但不能补偿漏读数据。数据中的漏读现象。其研究有限制,即室内空间数
Jeffery等人[17]提出一种自适应滑动窗口清洗据,有限制的同时还可以利用时空约束进行数据清
方法,称为不可靠RFID数据的统计平滑(Statistical洗。其次,利用概率距离感知图模型[25]来识别和填
sMoothingforUnreliableRFiddata,SMURF)。补漏读数据。另外,该方案还可以应用于其他类型
SMURF把RFID流数据看成是统计学中的随机事的符号化室内跟踪数据的清洗,例如蓝牙跟踪数
件,并在系统的整个生命周期内不断地根据流数据据。该方法的优点是利用了时空约束信息、应用领
的统计学特点自适应的调整窗口大小(不会向应用域较广,但局限于室内物品产生的数据。
程序公开平滑窗口参数),从一定程度上提高了漏Gu等人[26]通过有效维护和分析监控对象的相
读数据填补的精确度。然而当监控对象在某逻辑区关性,提出了RFID漏读数据的填补模型。监测对
域内的读数完全丢失时,该方法的清洗效果较差。象之间的时空相关性用于填补漏读数据。突破了大
Valentine等人[21]采用SMURF[17]中提出的统计多数RFID数据清洗算法只是根据独立监测对象的
方法,给出了一种称为WSTD(WindowSub-Range历史读数来填补缺失的读数的情况。
TransitionDetection),窗口子范围跃迁检测)的在深入分析RFID对象[27]的关键特征之后,Xie
RFID数据流自适应清洗方案。其具有更高效的标等人[28]提出一种用于高效处理不确定RFID数据的
签迁移检测机制。WSTD能够调整窗口大小,以应框架,并支持各种查询和跟踪RFID对象。特别地,
对环境变化导致的标签和读写器整体性能波动,同提出了一种自适应清洗方法,根据不确定数据的不
时相对准确地检测迁移时间点。然而,由于使用的同速率调整平滑窗口的大小,采用不同的策略处理
窗口较小,它会产生更多的漏读数据。不确定数据,并根据不确定数据出现位置区分不同
现有的清洗技术专注于设计在各种条件下都类型的数据。还提出一种路径编码方案,通过聚合
能很好工作的精确方法,但忽视了在可能有数千个路径序列、位置和时间间隔来显著压缩海量数据。
读写器和数百万个标签的应用场景的高昂开销。该方法的优点在于自适应调整窗口大小,融入了时
Gonzalez等人[22]提出了一个清洗框架,该框架采用空信息,考虑了群体和单个物体的运动。局限在于
RFID数据集和一系列清洗方法以及相关开销,并规则设置的不合理、不完整等都会影响清洗效果。
通过确定廉价方法适用的条件,得出一个清洗计Baba等人[29][30]提出一种称为IR-MHMM
划,