本章主要介绍数据采样,标准差,协方差和相关系数的使用方法。
一、数据采样
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
参数 | 说明 |
---|---|
n | 抽样的行数 |
frac | 表示抽取的比例,frac=0.1,表示抽取总体数据的10% |
replace | 表示是否以有放回抽样的方式进行选择,默认为False,取出数据后不再放回 |
weights | 可选参数,每个样本的权重 |
random_state | 控制随机状态,默认为 None,表示随机数据不会重复;若为 1 表示会取得重复数据 |
axis | 表示在哪个方向上抽取数据(axis=1表示列,axis=0 表示行)。 |
二、描述统计
DataFrame.describe(percentiles=None, include=None, exclude=None)
三、标准差
df_inner['price'].std() |
四、协方差
df_inner['price'].cov(df_inner['m-point']) |
五、相关分析
df_inner['price'].corr(df_inner['m-point']) |