1 / 28
文档名称:

金融投资大数据实践分享.ppt

格式:ppt   页数:28页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

金融投资大数据实践分享.ppt

上传人:xwhan104 2015/4/23 文件大小:0 KB

下载得到文件列表

金融投资大数据实践分享.ppt

文档介绍

文档介绍:金融投资大数据实践分享
龙白滔博士
2014年12月14日
目录
•金融大数据 vs (消费)互联网大数据
•金融数据生产
•金融大数据存储
•金融大数据分析和挖掘
•在线交互式金融编程分析研究平台
(消费)互联网
金融
研究对象
比较偏重研究个体的行为
体征
比较偏重研究群体行为和趋势
数据相关性
与个体强相关的数据比较
容易获得(例如浏览器
cookie),数据噪音小
与群体行为强相关的数据比较难获
得,数据噪音大
算法复杂度
因为数据质量高,所以算
法可以相对较简单
因为数据噪音大,因此对算法要求
很高
数据容量

更大,互联网大数据+ 金融专门的
大数据(例如行情数据、行业数据、
分析师报告等)
数据类型
多种结构化和非结构化数

更多,互联网的数据类型+ 金融特
别的数据类型,例如时间序列数据
数据速度
一般数据处理速度要求不

对数据处理速度要求比较高,例如
量化交易、动态风险定价、反信用
卡欺诈、实时新闻分析和处理等
金融大数据 vs (消费)互联网大数据
金融数据生产
数据采集
•分布式爬虫系统
•基于主题关注度的
数据采集
•优化每日增量爬取
策略
•实现代理机制
•支持动态网站爬取
数据抽取和
解析
•自动抽取OFFICE、
PDF 等文档中的数
字、文字、表格、
公式等
•利用OCR和图片处
理技术抽取图像数

•行业分类:国泰君
安和证监会的分类
标准
•财务数据支持中国
的会计准则
数据质量检

•支持多vendor 数据
质量平台
•添加自动数据质量
校验
•人工校验结果作为
反馈输入到机器学<br****模型,进一步提
升自动化处理的质

•众包平台来提升数
据质量检查的效果
和降低成本
•人工定义和机器学<br****抽取/ 解析规则
•自动化数据抽取和
解析的流程
结果:几乎完全自动化地采集、抽取、解析和质检传统的金融数据,包括
上市公司基本信息、财务信息、公司事件和公告等,包括历史数据,质量
和效率全面超越了传统的金融信息服务提供商。
金融大数据的存储
•财经类新闻,每天8000篇左右
•过去10年所有财经类新闻,1000万篇左右
•元数据和处理过后的数据,例如新闻分类、故事(新闻聚类)、事件和
标签等
•暂存:Cassandra vs MongoDB
•历史数据存储:HDFS
新闻数据和社交媒体数据(文本类型)
•数据量不大,目前我们用MySQL
• Cassandra在逐渐代替传统RMDB(包括MySQL和Oracle)在企业内部的作
用,作为大容量实时或者近实时存储和分析平台,例如全球最大的云应
用Netflix(95%的数据从O-&gt;C,拥有50个C集群共750个节点)、纽交所、
works(MySQL-&gt;C)
行业数据和宏观经济数据(RMDB的结构化数据)
金融大数据的存储(续)
•商用:
 KDB,传统金融机构标配,高富帅,专用开发语言q(复杂但高效)
•开源:
 Cassandra在国外已经得到比较成功的应用(物联网和能源数据)
 row key的设计非常适合将时间序列数据分散到集群各个节点进行存储
提供类SQL的查询语言CQL
分布式集群提供卓越的水平扩展性和较好的查询性能(典型查询100ms
级,集群处理70请求/s)
 NASA(安全数据), Tendril(目前5T/月,未来20T/月能源时间序列数
据),Agentis Energy(150亿个时间序列记录,Cassandra集群跨越2个数
据中心)
我们目前的选择-InfoBright
列存数据库,高数据压缩率(-&gt;140GB,期货
和其它历史数据5-6T-&gt;250G)
 Partition-index:快速实现对数据某个区域的查询
 SQL兼容,提供较好的查询性能;(典型查询50ms级别,单机300处理
300请求/s)
开源版本支持单机和单核,扩展性有限
市场行情数据(实时+历史)(时间序列数据)
Log
Collection
金融大数据分析和挖掘
News/Report
Social Media
Event
Research
Intelligent
Report
Theme
Discovery
Data API
Trading Data
Knowledge Graph
CEP
puting/Cloud
Semi-
Supervised
Learning
puting: Hadoop/Spark
Machine Learning &amp;Data