文档介绍:: .
金融投资大数据实践分享Evaluation • 财务数据支持中国 据质量检查的效果
的会计准则 和降低成本
• 人工定义和机器学
习抽取/解析规则
• 自动化数据抽取和
解析的流程
结果:几乎完全自动化地采集、抽取、解析和质检传统的金融数据,包括
上市公司基本信息、财务信息、公司事件和公告等,包括历史数据,质量
和效率全面超越了传统的金融信息服务提供商。金融大数据的存储
新闻数据和社交媒体数据(文本类型)
• 财经类新闻,每天8000篇左右
• 过去10年所有财经类新闻,1000万篇左右
• 元数据和处理过后的数据,例如新闻分类、故事(新闻聚类)、事件和
标签等
• 暂存:Cassandra vs MongoDB
• 历史数据存储:HDFS
行业数据和宏观经济数据(RMDB的结构化数据)
• 数据量不大,目前我们用MySQL
• Cassandra在逐渐代替传统RMDB(包括MySQL和Oracle)在企业内部的作
用,作为大容量实时或者近实时存储和分析平台,例如全球最大的云应
用Netflix(95%的数据从O->C,拥有50个C集群共750个节点)、纽交所、
Splunk和Barracuda Networks(MySQL->C)金融大数据的存储(续)
市场行情数据(实时+历史)(时间序列数据)
• 商用:
KDB,传统金融机构标配,高富帅,专用开发语言q(复杂但高效)
• 开源:
Cassandra在国外已经得到比较成功的应用(物联网和能源数据)
row key的设计非常适合将时间序列数据分散到集群各个节点进行存储
提供类SQL的查询语言CQL
分布式集群提供卓越的水平扩展性和较好的查询性能(典型查询100ms
级,集群处理70请求/s)
NASA(安全数据), Tendril(目前5T/月,未来20T/月能源时间序列数
据),Agentis Energy(150亿个时间序列记录,Cassandra集群跨越2个数
据中心)
我们目前的选择-InfoBright
列存数据库,高数据压缩率(->140GB,期货
和其它历史数据5-6T->250G)
Partition-index:快速实现对数据某个区域的查询
SQL兼容,提供较好的查询性能;(典型查询50ms级别,单机300处理
300请求/s)
开源版本支持单机和单核,扩展性有限金融大数据分析和挖掘
Event Intelligent Theme
Data API
Research Report Discovery
Collection
News/Report