最近复习概率统计,今天拿起来买回来放置了一段时间的《统计思维》看,第四章连续分布讲到一个陌生的名字,正态概率图,书上写的感觉不清楚,起码翻译版的是这样的。没记错的话本科老师也没有讲到,就写一下起码为没讲的学弟学妹们补充补充必要知识。
先摘录一下书上说的,对于指数分布(x & ln(1-cdf(x)))、帕累托分布(lnx & ln(1-cdf(x)))、威布尔分布(lnln(1/(1-cdf(x))) & lnx),都可以通过简单的转换来判断一个连续分布数是否能用于某份数据集的建模(上述括号内的对应函数均为直线,只需要判断样本数据是否能拟合成一条直线即可)。但是正态分布就不存在这样的变换,这里就需要正态概率图来判断。
先说《统计学》上讲到的标准做法(貌似书的bug也比较严重,修正了一下):
1. 将数据从小到大排列,并从1~n标号,为x1,x2,…,xj,…,xn。
2. 求出样本观测值的标准正态分数zi,使得zi满足
1-α= (j-0.5)/n = P(Z<=z) = Φ(z)
例如,如果(j-0.5)/n=0.95,即Φ(zi)=0.95,也就意味着zi=1.645。[F(ua) =1-a, 上侧分位数P{U≥ua}=a]
3. 将zi作为纵轴,xj作为横轴,绘图,就是标准正态概率图。(即排序后的第j个数据xj对应zi,这里j和i取不同我觉着是为了说明数据不一定完全符合正态分布,zi中的i表示z的序列中第i个对应xj。)
4. 最后画一条拟合大多数点的直线。原理就是如果数据严格意义上服从正态分布,点将形或一条直线。将点形成的图形与画的直线相比较,判断数据拟合正态分布的好坏。对于为什么-0.5我认为应该是为了保证所有的阿尔法值处在(0,1)区间,两个数相差1,所以取0.5这个中间值,覆盖所有n+1个数的中间位置。
以上是理想方法,或者手工方法。这样再看统计思维说的方法就很明白了,因为更实用的方式肯定不是一直去查表得到一个结果,更通用的方式是用大量符合N(0,1)的数值拟合标准正态分布,只要能生成满足分布的随机数值,那么对于其他分布的验证,这个方式也同样适用。
随后文中提到大数据量的生成和计算也是代价较大的,因此提出了一种近似方案。
1. 从N(0,1)分布生成一个跟数据大小一样的样本。
2. 升值排序
3. 作图
其实跟理论方法差不多,只是可能操作起来更方便一些,理想方法可以在程序维持一个分数表就可以实现了,也不是太复杂;后面讲到的方法更有普适性。
抽了点时间写博分享一下,理解也更透彻了一些。最近写博少,期待最近还有东西可以分享。
参考文献:
1. Think Stats(Probability and Statistics for Programmers) 作者 Allen B. Downey
2. 统计学 作者:贾俊平
3. 正态概率图讲解http://wenku.baidu.com/view/03c56baddd3383c4bb4cd2ae
4. 再附上一个Weibull分布的说明吧
http://www.phsciencedata.cn/Share/wiki/wikiView?id=5d817414-eebf-401a-9b44-1d394e335de6
相关推荐
以贝叶斯序惯理性和共轭先验分布为前提,把的先验分布设定为平均值,标准偏差的正态分布,观测的信息遵循平均值,标准偏差的正态分布。
由于分析数据的需要,研究了一下正态分布图,经过在网上的总结,自己通过Excel绘制出了正态分布图,实际也可以叫正态分布概率密度图,正态分布图里面包含着积分学和概率学知识,大学学的东西到现在已经还给老师了,...
用Microsoft Mathematics打开
matlab 概率图纸代码 正态分布 对数正态分布 伽马分布
Excel直方图和正态分布图.rar,直方图是将某期间所收集的计量值数据经分组整理成次数统计表,并使用柱形予以图形化的图表...正态分布是在统计中使用最频繁的分布,正态分布图描述收集的数据在分组区间内出现的概率,其曲
分布如图:其概率密度公式为:其中为标准差,为均值当μ=0,σ=1时称随机变量X服从标准正态分布,其概率密度为:标准正态分布的概率即为φ(x)的标准正态分布的概率
用labview实现的正态分布的随机数并生成对应的直方图(Achieved with labview normally distributed random numbers and generate the corresponding histogram)
matlab开发-高斯正态分布概率密度函数。高斯正态分布是应用最广泛的分布之一。
用matlab画二维正态函数图像 画坐标网格 [x,y]=meshgrid(-5:0.1:5,-5:0.1:5) 正态分布密度函数 f=1/(2*pi*sigma1*sigma2*sqrt(1-p*p))*exp(-1/(2*(1-p*p))*(((x-u1).^2)./(sigma1*sigma1)-2*p*((x-u1)*(y-u2))./...
这是一个mathematica 中模拟正态分布的程序
matlab开发-二元正态分布图。二元法向密度的等值线和面图
在四个子图中,运行序列图 (X[k] vs k)、滞后图 (X[k] 对比 X[k-1])、直方图和正态概率图。 之内在这些轴上,X 的平均值绘制为一条直线。 在此外,第 5 个面板显示了 X 的盒须图。 如果四个基本假设成立,则四个图...
介绍正态分布及3Sigma原理,以便于运用于质量统计。
书中提供了多种多样的图示,如正态概率图、盒形图、散点图、矩阵图和残差图等,通过这些图,读者可以一方面理解数据的特点和概括数据的方法,--方面进一步理解有关统计方法的基本思想和特点。作者很重视统计在解决...
目录 1、scipy库中各分布对应的方法 2、stats中各分布的常用方法及其功能 3、正态分布的概率密度函数及其图象 ... 3)python绘制t分布和正态分布的概率密度函数对比图 6、F分布的概率密度函数
亲测可用,MINITAB可以用于对各类生产管理、运营、质量、效等数据统计分析,这个软件是我在统计培训课上使用的版本,并附上基本上所有的数据分析文件,包括:Example直方图、帕累托图、Distributions正态概率图、DOE...
1.正态分布简介 正态分布(normal distribtution)又...2.在python中画正态分布直方图 先直接上代码 import numpy as np import matplotlib.mlab as mlab import matplotlib.pyplot as plt def demo1(): mu ,sigma = 0,
中间统计 使用R的CSC 465分配 问题解决了 当CV = TRUE时,为什么... (2)剩余数的正态概率图 (3)线性代数课程 (4)从多个角度来理解协方差(协方差) R和降价 (1)R Markdown:权威指南 清除控制台:ctrl + L
正态分布表计算_MFC源码