1 / 50
文档名称:

python高级数据处理与可视化.pdf

格式:pdf   大小:2,614KB   页数:50
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

python高级数据处理与可视化.pdf

上传人:977562398 2018/10/18 文件大小:2.55 MB

下载得到文件列表

python高级数据处理与可视化.pdf

文档介绍

文档介绍:Advanced Data Processing and Visualization of Python
Python高级数据处理与可视化
Department puter Science and Technology
Department of University puter Teaching
用Python玩转数据
聚类分析
Nanjing University
聚类 3
•聚类分析(cluster analysis)
以相似性为基础把相似的对象通过静态
分类的方法分成不同的组别或者更多的子集
–特性
•基于相似性
•有多个聚类中心
Nanjing University
K-MEANS 4
K-均值算法表示以空间中k个点为中心进行聚类,对最靠近他们的对
象归类。
A B
任意选择k个
对每个点确定
对象作为初始
其聚类中心点
聚类中心
不收敛
计算每个新聚
聚类完成
类的聚类中心
C 收敛 D
Nanjing University
一个日常小例子 5
高数英语 Python 音乐 File

小明 88 64 96 85 # Filename:
大明 92 99 95 94 from pylab import *
from import *
小朋 91 87 99 95 list1 = [88,74,96,85]
大朋 78 99 97 81 list2 = [92,99,95,94]
list3 = [91,87,99,95] 后其参数只支持
小萌 88 78 98 84 和,所
list4 = [78,99,97,81] float double
大萌 100 95 100 92 以此处的数字都要
list5 = [88,78,98,84] +.0改成浮点数形式
list6 = [100,95,100,92]
data = vstack((list1,list2,list3,list4,list5,list6))
Output: centroids,_ = kmeans(data,2)
[0 1 1 1 0 1] result,_= vq(data,centroids)
print result
Nanjing University
另一个例子 6
按相邻两天的收盘价涨跌规律对2014年第3季度(7月-9月)构成道
琼斯工业指数的30只股票聚类

File

# Filename:
listDji = ['AXP','BA','CAT','CSCO',…, 'VZ','WMT','XOM']
quotes = [ [0 for col in range(90)] for row in range(30)]
listTemp = [ [0 for col in range(90)] for row in range(30)]
for i in range(30):
quotes[i] = quotes_historical_yahoo_ochl(listDji[i], start, end)
listTemp[i][j] = 1 or -1 # 1 if the latter is larger than former, otherwise the result is -1
data = vstack(listTemp)
centroids,_ = kmeans(data,4) 同前一页,此处
result,_= vq(data,centroids) 需要改成浮点数
Nanjing University
另一个例子 7
Output:
[0 3 3 2 0 3 0 1 1 3 2 2 0 1 2 0 1 2 2 1 1 3 2 1 3 0 1 2 0 0]
第0类 AXP,CVX,DIS,JNJ,MCD,UTX,WMT,XOM
第1类 GE,GS,JPM,MMM,NKE,PFE,TRV,V
第2类 CSCO,IBM,INTC,KO,MRK,MSFT,T,VZ
第3类 BA,CAT,DD,HD,PG,UNH
Nanjing University
8
用Python玩转数据
MATPLOTLIB
绘图基础
Nanjing University
Matplotlib绘图 9