1 / 11
文档名称:

基于大数据的用户行为轨迹及预警系统的研究.doc

格式:doc   大小:18KB   页数:11页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于大数据的用户行为轨迹及预警系统的研究.doc

上传人:学习好资料 2022/6/25 文件大小:18 KB

下载得到文件列表

基于大数据的用户行为轨迹及预警系统的研究.doc

文档介绍

文档介绍:基于大数据的用户行为轨迹及预警系统的研究
摘 要:为及时对用户提出工作、学****生活等方面的做出指导和帮助,文章以复旦大学为例,综合对用户基础信息、消费信息、上网行为等数据的全方位分析,研发出了一种基于大数据的用户行为轨迹及创新地使用倒排索引,令本文的搜索与分析引擎比常规关系型数据库搜索性能有了极大的提升;数据分析主要是对存储后的数据根据实际需求制定对应的计算规则,计算出对应的指标,如停留时间、消费平均值等,然后进行数据分析。
数据架构设计
本文设计的数据架构,如图1所示。
该架构主要包括AC和AP设备日志数据、校园卡使用记录数据、用户基础信息数据、数据加工、数据管理等。其中AP和AC设备日志数据通过设备自带的系统日志(System log,Syslog)服务输出到分析平台等,校园卡使用记录数据通过HTTP请求校园卡系统的Open API或者连接数据库读取。用户基础信息数据通过用户管理系统Open API或者连接数据库读取;而数据加工是将读取的原始数据进行解析处理为可用于计算分析的KV表数据,并针对复旦大学的实际情况加入地理位置和地理信息系统(Geographic Information System,GIS)坐标的关系源数据、危险网站网址和网站性质等信息源数据。通过实时计算和离线计算,计算出用户的出现位置、出现次数、停留时间、消费行为指标、上网行为指标等指标型数据;数据管理则为管理已经加工好的GIS源数据、危险网站源数据,可对这类数据进行增删改等管理操作,管理日志数据的生命周期、行为轨迹数据的生命周期等。原始数据和加工后的数据分别存储在数据检索引擎和离线计算引擎上;数据应用是将加工后的数据用于基于GIS的用户行为轨迹的展示,建立用户上网行为模型等。 物理架构设计
本架构主要包括数据采集、数据接收、数据处理、数据存储、数据备份等。其中数据采集将采集数据客户端部署在被采集数据的服务器上,有资源占用少、性能稳定、读取数据延迟小等特点;数据接收服务端主要接收采集客户端采集到的数据。、支持高,可用在4核、8GB配置的机器上,每秒可接收40万条数据[2];数据缓存集群主要用于数据接收和处理之间的缓存,保证系统在高并发冲击下的稳定性和数据安全性。数据处理服务端是对数据进行高效实时的处理,作为可以分析的数据;数据备份是将基本数据库的数据进行备份,用于恢复和汇总[3];数据搜索与分析集群是将原始数据与分析数据按照结构化存储,分别存储到分析引擎和搜索引擎。分析引擎和搜索引擎都会存放原始数据和分析数据,存储在搜索引擎的数据作为日志管理的索引用途,储存在分析引擎的数据作为可视化和预警的统计分析用途。其中,搜索引擎在复旦大学环境中可共用已有厂商提供的搜索引擎服务,无需再额外部署,减少资源投入成本,并提高数据的可用性[4];Web控制台主要负责对数据进行实时计算和离线计算的数据分析、数据搜索和数据可视化及其相关应用场景等,对外提供数据API接口。
3 系统功能
数据采集功能
针对网络设备、路由器、交换机等硬件设备,日志平台使用服务器采集,通过Syslog协议将该设备日志转发至服务器,再由日志平台Agent前往服务器进行采集。其中,日志采集关键的数据结构是文件发送状态数据结构State。State描述的是文件的全局唯一信息和当前的上传位置(offset)[5]。而日志采集程序对日志原文进行打标签处理,打标签的目的是对日志数据进行分类,同时指定日志的解析规则和保存周期[6]。
数据处理功能
本系统可以用正则解析、JSON解析、字段值拆分、数值转换等抽取有用字段信息。
以AC日志数据为例,主要应用正则解析对其进行数据处理。过程说明为:
对AC日志的数据处理,需要处理两类日志:
(1)样例日志1
1)日志原文:
2)解析规则: fudantrace
3)解析结果:
(2)样例日志2
1)日志原文:
2)解析规则:fudantrace
3)解析结果:
数据计算功能
一是基于时间顺序进行用户数据的检索,根据出现在某一建筑物以及根据登录退出状态作为一个行为记录点,按照时间出现的先后顺序作为轨迹行为路径;二是基于当前数据的完整性分析以及合理性分析,在得到行为数据后,通过百度地图Getpoint获取对应的经纬度信息以及AP和复旦大学建筑物的关系网,得到AP和经纬度以及建筑物对应关系的详情信息。
轨迹可视化功能
轨迹的可视化系统建设,位置数据的准确性取决于设备、地图以及两者如何匹配。本