1. 随机数和随机变量
2. R语言中的随机变量分布函数
3. 统计分布详解
随机数是专门的随机试验的结果。
在统计学的不同技术中需要使用随机数,比如在从统计总体中抽取有代 表性的样本的时候,或者在将实验动物分配到不同的试验组的过程中,或者在进行蒙特卡罗模拟法计算的时候等等。
产生随机数有多种不同的方法。这些方法被称为随机数发生器。随机数最重要的特性是:它所产生的后面的那个数与前面的那个数毫无关系。 真正的随机数是使用物理现象产生的:比如掷钱币、骰子、转轮、使用电子元件的噪音、核裂变等等。这样的随机数发生器叫做物理性随机数发生器,它们的缺点是技术要求比较高。 在实际应用中往往使用伪随机数就足够了。这些数列是“似乎”随机的数,实际上它们是通过一个固定的、可以重复的计算方法产生的。计算机或计算器产生的随机数有很长的周期性。它们不真正地随机,因为它们实际上是可以计算出来的,但是它们具有类似于随机数的统计特征。这样的发生器叫做伪随机数发生器。 在真正关键性的应用中,比如在密码学中,人们一般使用真正的随机数。
概率分布是指事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布(probability distribution)。为了深入研究随机试验,我们先引入随机变量(random variable)的概念。随机数是某次随机试验的结果。作一次试验,其结果有多种可能。每一种可能结果都可用一个数来表示,把这些数作为变量X的取值范围,则试验结果可用变量X来表示,称为随机变量。如果表示试验结果的变量x,其可能取值至多为可列个,且以各种确定的概率取这些不同的值,则称X为离散型随机变量(discrete random variable);如果表示试验结果的变量X,其可能取值为某范围内的任何数值,且X在其取值范围内的任一区间中取值时,其概率是确定的,则称X为连续型随机变量(continuous random variable)。引入随机变量的概念后,对随机试验的概率分布的研究就转为对随机变量概率分布的研究了。
随机变量及其分布是《概率论和数理统计》及《随机过程》的基本研究对象。许多程序语言和软件中(如R语言)都有对应的随机数生成函数。
R语言中提供了四类有关统计分布的函数(密度函数,累计分布函数,分位函数,随机数函数)。分别在代表该分布的R函数前加上相应前缀获得(d,p,q,r)。如:
正态分布的函数是norm,命令dnorm(0)就可以获得正态分布的密度函数在0处的值(0.3989)(默认为标准正态分布)。
同理,pnorm(0)是0.5就是正态分布的累计密度函数在0处的值。
而qnorm(0.5)则得到的是0,即标准正态分布在0.5处的分位数是0(在来个比较常用的:qnorm(0.975)就是那个估计中经常用到的1.96了)。
最后一个rnorm(n)则是按正态分布随机产生n个数据。
上面正态分布的参数平均值和方差都是默认的0和1,你可以通过在函数里显示指定这些参数对其进行更改。如dnorm(0,1,2)则得出的是均值为1,标准差为2的正态分布在0处的概率值。