day1数据预处理


缺失值处理

1.删除法:适用于缺失值占比少的

2.插补法

①用众数,平均值和中值,视函数图像而定

②回归法

③极大似然估计:

(1)根据总体的分布,建立似然函数 img

(2) 当 L 关于 img可微时,(由微积分求极值的原理)可由方程组img定出img,称以上方程组为似然方程.因为 L 与 img有相同的极大值点,所以img也可由方程组img定出 img,称以上方程组为对数似然方程;img就是所求参数img的极大似然估计量。当总体是离散型的,将上面的概率密度函数img,换成它的分布律img

这样看起来似乎有些抽象,那可以看看下面那个例子。通俗理解请点击这里

img

可以看到,这里的p就是参数,而这个似然函数其实是概率函数,如果求导便会发现P(H,T,p)是随着p的增大而增大。

在一般情况下,计算参数可以用期望最大值来计算。

import math
w = 2.0/3  #最大概率
h = 49  #正面次数
t = 31  #反面次数  

数据变换

将不同的数据转换成同一个标准和规格是十分重要的

标准化

离差标准化:

img

缺陷:当有新数据加入时,可能导致max和min的变化,需要重新定义

z-score 标准化(zero-meannormalization)

而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化;也是SPSS中最为常用的标准化方法,也叫标准差标准化,变成均值为0,方差为1img

  • z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。\
  • spss默认的标准化方法就是z-score标准化。
  • 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。

步骤如下:
1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
2.进行标准化处理:
zij=(xij-xi)/si
其中:zij为标准化后的变量值;xij为实际变量值。
3.将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。

归一化方法

img

离散化

将连续的数据分成若干段。

语义转换

用整数数据来替换字符串的数据

数据统计

在matlab中,标准差:std(x) 方差:var(x) 极差:range(x)

偏度统计数据分布偏斜方向和程度的度量,$v_i$>0为右偏态,$v_i$<0是左偏态

定义:

其中img 分别表示二阶和三阶中心矩img

峰度:衡量偏离正态分布的尺度,正态分布的峰度为3,若比3大,这说明有沉重的尾巴

在matlab中,偏度:skewness(x) 峰度:kurtosis(x)

分布统计

分布函数:随机变量最重要的概率特征,分布函数可以完整地描述随机变量的统计规律,并且决定随机变量的一切其他概率特征。

设X为连续型随机变量,其密度函数为img,则有img

数据可视化

参考链接:

https://www.jianshu.com/p/fa73a07cd750

百度百科


文章作者: 古客
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 古客 !
评论
  目录