文档收藏网

首页 » 正文内容 » 第二章_多元正态分布

第二章_多元正态分布

时间:2023-01-26 03:40:24  热度:4°C

1、第2章 多元正态分布及其参数估计/本章内容概述 本章是多元分析的理论基础部分,是必不可少的内容。 主要从复习一元的概率统计入手,进而介绍多元统计的基本概念,特别是以多元正态分布为重点,学习相关概念及其表示,然后是多元正态分布的参数估计。 最后介绍维希特(Wishart)分布///2/主要内容包括:/2/1 一元(概率)分布简要复习 2/2 多元(概率)分布基本概念 2/3 多元正态分布定义及其性质 2/4 多元统计中的基本概念 2/5 多元正态分布的参数估计 2/6 维希特(Wishart)分布定义及性质///3/内容概览 1/一元随机变量R/V/的概率分布 (1)随机变量(R/V/)的定义、

2、类型 (2)随机变量的概率分布(P/D/)定义、分类 (3)另一种描述概率分布的表达方式分布函数F(x) 2/一元随机变量R/V/的数字特征期望与方差 3/期望与方差的性质 4/一元中重要的常见分布 5/一元正态分布的定义/2/1 一元(概率)分布简要复习///4/一元随机变量的概率分布(简称一元分布)/众所周知,一元统计分析是多元统计分析的基础,尤其是一元正态分布自然是多元正态分布的基础,它在统计学的理论和实际应用方面都有着重要的地位。 在一元统计分布中,经常会用到随机变量X的概念及其概率分布问题。///5/(1)随机变量的定义:对于每一个随机结果都对应着某个变量的一个数值,这种对应就是一个

3、函数,用随机变量来表示。 R/V/特点: a/取值的随机性 ,即事先不能确定其取哪一个值; b/取值的统计规律性,即完全可以确定x 取某个值或在某个区间内取值的概率。///6/(2)R/V/的分类:主要分为离散型和连续型下面介绍最重要的随机变量概率分布的含义 (3)R/V/概率分布的定义:对于离散型随机变量x,其概率分布有两种表达形式:一种是用公式表示: 第二种是用表格的形式表示:///7/这两种表达形式揭示出了离散性随机变量概率分布的实质,即它们都表达出了两层含义: 一是随机变量的所有取值是哪些? 二是随机变量取每一个值的概率有多大?///8/对于连续型型随机变量x来说,其概率分布往往用所谓

4、的概率密度函数f(x)来描述,///9/为了统一研究这两类,也可以用分布函数来描述随机变量的概率分布,这一点将在后面的多元情形中看得更加清楚,也更加有必要用分布函数来刻画概率分布。 (4)随机变量X的概率分布函数(简称分布分布)定义为如下一个普通的函数: 它全面地描述了随机变量x的统计规律性。也就是说,用分布函数来研究两类随机变量更加方便,至少不用分开类型来分别说了,可以将二者统一用分布函数来研究,即只要知道了某个随机变量的分布函数也就知道了其概率分布,还有表达简洁的优势。正因为它有这样的优点,很多随机问题都用分布函数来研究。///10/2 随机变量的数字特征数学期望和方差/对于离散型随机变量

5、x/ 其数学期望(或称为均值)和方差分别定义为 对于连续型随机变量x,其期望和方差分别定义为///11/3 数学期望和方差的性质/(1)期望的性质: E(k)=k,即常数的期望等于其自身。 E(kX)=kE(X),即数乘的期望可以直接将该数提出来 E(X1+X2+Xn)=E(X1)+E(X2)+E(Xn) (2)方差的性质: V(k)=0,即常数的方差为0; V(kX)=k2V(X),即数乘的方差等于将常数平方后再乘以原来的X的方差。 设n个随机变量相互***,则有 V(X1+ X2 + Xn)= V(X1)+V(X2)+V(Xn)///12/4 一些重要和常见的一元分布/两点分布 二项分布 泊

6、松分布 均匀分布 指数分布 正态分布(下面将复习一元正态分布)/离散型/连续型///13/5/一元正态分布(Normal distribution)的定义/若某个随机变量X 的密度函数是 则称X服从一元正态分布,也称X是一元正态随机变量(其中有两个参数)。 记为 X 。 可以证明:其期望(也叫均值)正好是参数,方差正好是 ,它是一非负数 。///14/有时候,仅仅用一个随机变量来描述随机现象就不够了,需要用多个随机变量来共同描述的随机现象和问题,而且这些随机变量间又有联系,所以必须要将它们看做一个整体来研究(即不能一个一个地单独研究多个一元随机变量),这就出现了多元随机向量的问题和概念 因而多

7、元随机向量可看作是一元随机变量的推广 而一个随机变量可看作是特殊的一元随机向量///15/2/2 多元(概率)分布基本概念/1/二元随机向量的例子/由于我们的研究对象涉及的是多个变量的总体,所以要用若干个随机变量合在一起看作一个整体,共同用这个整体来描述随机现象。 比如,要考察一射击手向一平面靶子射击的水平,那么,***在靶子上的着点位置是随机的,这个平面上的随机点需要用两个随机变量(即横向的X与纵向的Y)共同来描述,于是(X/Y)就构成了二元(维)的随机向量。///16/射击后的***着落点的位置是随机的/这个点的位置要用两个随机变量X与Y共同描述才能确定,即用(X,Y)数组的取值来确定这个点的

8、位置。 这就是二元随机向量。///17/将二元随机向量(虽然有些教材上仍然采用二元随机变量的叫法,但我认为,用“向量”二字更能体现出多元的特点)完全可以推广到三元甚至更多,于是就产生了多元随机向量问题 欣慰的是,同学们已经学过二元随机向量的相关知识,只要将维度扩展到更高元(或维度)就可以理解了///18/P元(维)随机向量的定义/设 为p个随机变量,将它们合在一起组成的一个整体的向量 称作p元随机向量。 注意:X是列向量,所以横着写时需要转置一下。///19/2/联合分布函数与密度函数/与一元随机变量一样,也可将随机向量分为离散性和连续型两类,但是在表达其概率分布时,就非常不方便了(因为当它是

9、离散型时,需要用***表格表示概率分布,但超过两维时就不容易表示了),这时我们就必须借助于分布函数来刻画它的概率分布。这就充分体现出分布函数在表达联合概率分布时的优势。 对于多元的随机向量,就对应地需要用联合分布函数来刻画其概率分布。///20/复习:二元随机向量的联合分布函数///21/X/Y/x/y/Xx/Yy/ / y /二元联合分布函数的几何意义演示图//(x/y)/F(x/y)= P(Xx/Yy) ,/F(x/y)值为随机点落入***矩形区域内的概率///22/对于p元的随机向量来说,就对应地需要用联合分布函数来刻画其概率分布。///23/联合分布函数的定义:/设 是一随机向量,它的联合

10、分布函数定义为 该定义与一元分布函数的定义是类似的,只是改变为多元函数而已///24/联合密度函数的定义/对于多元连续型随机向量来说,其概率分布也可以用密度函数来描述。 若存在一个非负的p元函数f(),满足 对任意的 都成立,则称p元函数f()为p元随机向量的概率密度函数,并称随机向量为连续型的。///25/联合概率密度函数的基本性质/两条性质是:///26/随机向量的数字特征主要有均值向量和协方差矩阵。 1/均值向量就是每一个分量的均值(或叫期望)所组成的常数向量。用数学符号表示如下: 设p元随机向量为 ,且每个分量的期望 为 ,则将新向量: 定义为该随机向量的期望,也叫均值向量 而一元随机

11、变量的第一个数字特征名称却称为均值或期望请注意一元与多元在对应概念上的称呼的区别/3/p元随机向量的数字特征///27/P元随机向量的协方差阵/注意:一元随机变量与多元随机向量在第二个数字特征方面的表示有很大不同,其原因是在多元情形中还要体现出分量之间的相关关系。 一元的称为方差,而多元的改称为协方差阵。详见教材P13和指导书上的比较表/ 以二元的为例,就会出现两个分量之间的协方差的概念。///28/二元随机向量协方差阵的定义/假设二元随机向量为Z=(X/Y)/定义其协差阵为22的一个方阵,其4个元素是两两分量之间的协方差数,用符号表示,即 称此2阶矩阵为Z=(x/Y)协方差矩阵。其中对角线上

12、的两个数就是分量各自的方差。 以此可以类推到P元随机向量的协差阵的定义。///29/p元随机向量协方差阵的定义/一个P元随机向量 自己 的方差或协差阵的定义,可用D(X)或表示。 两个p元随机向量 与 的协差阵的定义。参见教材P13。///30/综上,可以对一元与多元在概率分布、数字特征等方面进行简单的对比学习,这样容易清楚二者的区别与联系。 请仔细阅读指导书上的第一部分内容中的两张对比的比较表///31/一个简单对比///32/多元正态分布在多元统计分析中的重要地位,就如同一元统计分析中一元正态分布所占重要地位一样,多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上。 原

13、因是/ (1)许多实际问题研究中的随机向量确实遵从正态分布,或者近似遵从正态分布; (2)对于多元正态分布,已经有一套统计推断方法,并且得到了许多完整的结果。 多元正态分布是最常用的一种多元概率分布,下一节就是多元正态分布的定义。///33/2/3 多元正态分布定义及基本性质/在多元分布中,最常见也是最重要的分布就是正 态分布。 定义:若 p 维随机向量 的联合概率密度为 其中,x和都是p维向量,是p阶正定阵,则称 随机向量 服从p元正态分布, 或称p维正态随机向量,简记为XN p(,)///34/具体而言/其中的 的具体形式为 而符号 表示该随机向量的协方差矩阵的行列式,它是个非负数值。由此

14、说明是非负定的。///35/多元正态分布的性质/显然,当p=1时,就是一元正态分布的密度函数;当p=2时,即为二元正态分布。 可以证明: (1)恰好是X的均值向量; (2)恰好是X的协方差矩阵。///36/P元正态分布的性质:/(1)若 N p(,) 则任一分量的边沿(边缘)分布也一定是正态分布。 并且,当协差阵是对角形矩阵时, 则分量 是相互***的。 (2)正态随机向量的线性组合仍然服从正态分布(详见教材P20)////37/在研究社会、经济现象和许多实际问题时,经常遇到多指标的问题。 例如,评价学生在校表现时,要考察他的***思想(德)、学习情况(智)、身体状况(体)等各个方面的情况,仅学习

15、情况就又涉及他在各个年度的每门课程成绩,这里面就有多项指标存在。/2/4多元统计中的基本概念///38/再例如,研究公司的经营情况,就要考察***能力、偿债能力、获利能力、竞争力等多个指标。显然不能将这些指标分割开来进行单独研究,那样就不能从整体上综合把握事物的实质。 一般地,假设我们研究的问题涉及p个指标,对n个个体进行观察,就会得到np个数据,我们的目的就是对观测对象进行分组、分类、或分析考察这p个变量之间的相互关联程度,或者找出内在规律性等等。///39/1/多元样本的概念及其表示法/我们要研究的对象是多个变量的总体,即研究总体的概率分布,特别是关注其数字特征是什么? 采用的研究方法是

16、统计推断方法。 通过从总体中随机抽取一个样本的手段,然后对样本的概率分布(即抽样分布)进行研究,来推断(inference)未知分布的总体的概率分布。///40/观测数据的表示/因而所得到的数据是,同时对某n个个体观测了p项指标(或变量)后得到的np个数据。我们将这p个指标共同表示为 常用向量 表示对同一个体观测到的p个指标。///41/例如,要考察张三的学习情况,就需要观测他的英语、高数、计算机、专业课成绩等多个变量, 我们称对每一个个体的p个变量的一次观测为一个样品(如张三同学是一个个体,也是一个样品)。 我们表示第个样品为/什么是样品(case)?///42/样品的本质/每个样品 在理论

17、上看作是一个P维的随机向量(在没有观测之前) 一旦经过观测之后就确定了一个常数向量。///43/什么是样本(sample)?/我们称对全部n个样品组成的局部整体,叫做一个样本。 例如,从全体工大学生这个总体中随机抽取了200名学生,考察三门公共基础课(数学、外语、计算机)的学习情况,那么这200名学生就组成了一个样本, 在这里,p=3/n=200。///44/一个样本的表示/一个样本用符号表示为 或者,写为///45/例如:考察四个学生三门基础课学习情况,需要用二维表格表示,常称为样本资料阵:///46/一般地说,对于从研究总体中观测到的n个样品,且对每一个样品观测p个变量(指标)的一个样本

18、来说, 注意:其中的每一个是列向量: 则这些样本数据需要用二维表格的形式来表达,就构成了样本资料矩阵。///47/样本资料阵表达为一个np的矩阵:/其中,横向代表的是n个样品,纵向代表的是p个变量(或指标)。 两个方向共同描述了具有多个变量的多元样本的抽样数据。///48/对样本资料矩阵X的说明,/由于每个样品是随机产生的,所以理论上该矩阵X是一个随机矩阵,但是一旦观测值确定之后就成为一个数据矩阵,它是我们分析数据的原始出发点,从中提取有用的信息。///49/简单随机样本是常用的样本(尤其是数学上的证明)/但是,还有的样本就不是随机产生的(取决于抽样方法)。 另外,还有一些观测对象是全体个体,

19、不是样本。 例如,考察全国人口情况的普查资料,如果要根据各省人口状况的多项指标进行地区分类问题,这可以用后面的聚类分析。 可见P23///50/例如,随机抽取的四个学生的学习成绩的(多元)样本资料矩阵为/表示抽取到了4个学生,每个学生考察3门课成绩///51/与前面的随机向量(在统计中,相当于总体的地位)的数字特征相对应,就有了样本的均值向量与样本的协方差阵这两个最重要的数字特征。 样本的均值向量: 它是p维(元)列向量。 样本协方差阵: 它是p阶方阵。/2 多元样本的数字特征///52/计算一下例子中的样本均值向量与样本离差阵S分别是什么?/样本资料阵为///53/以前面的学习成绩为例,计算

20、样本均值向量/求出的平均成绩向量,即样本均值向量的计算方法为///54/2/样本协方差矩阵的定义/样本协方差阵定义为: 它是p阶方阵。///55/对于前面列举的学习的例子,计算其样本协方差矩阵为/请你自己完成最后的计算!///56/2/5 多元正态分布的参数估计(均值向量和协方差阵的估计)/首先应明确,数理统计是本门课程的理论基础,其基本思想是:以样本提供的信息为依据,以统计量为工具,对总体分布中的未知参数或者未知分布进行推断。 简言之,一句话:“用样本来推断总体”。 正因为如此,数理统计也称为“统计推断”。///57/什么是统计推断?/统计推断是根据已经收集到的样本数据来推断总体的分布或者总

21、体中的均值、方差等统计参数(它们往往是数字特征)。 之所以不直接从总体出发,而根据样本数据推断总体的概率分布的原因是: 一是总体数据无法全部收集到;如检验电子器件的寿命,这类检验属于破坏性检验,是不可行的。 二是因为既使总体数据能够收集到,但需要耗费大量的人力、物力和财力。///58/因此大家应牢固树立一个观念:统计推断的结论是有误差的,通常体现为在一定置信度下结论才成立。同时,有些问题的结论也没有必要要求是100%的精确。 所以,统计推断方法既能节省成本、又能满足问题的需要,因而在实际中有着广泛的应用。///59/统计推断内容的两大组成部分/一大部分内容是“参数估计”。 另一大部分内容是“假

22、设检验”。 这两种思维方式有很大的差异///60/统计推断之一:参数估计/参数估计的基本思想:直接利用样本提供的信息对总体分布中的未知参数进行估计,这就叫做参数估计。 其思维方式是正向的、直接的、即直接地想方设法去寻找总体中的未知参数的估计值。///61/假设检验的基本思想:由于不知道总体的概率分布或者分布中的未知参数是什么,于是就首先提出一个类似于猜想的所谓的统计假设,然后再利用样本数据来检验这个假设是否可接受,或者利用样本数据检验一下是否支持这个假设。 如果样本数据不支持这个假设(即发生了意料之外的现象),则认为这个假设不可接受,否则,就认为没有充分的理由拒绝原来的假设。 这就叫做假设检验。/统计推断之二:假设检验///62/很明显,/假设检验的思维方式是逆向的、间接的,即不是直接地想方设法去寻找总体中的未知参数的估计值,而是先猜测它是某个值,然后,再去检验这个猜测是否可接受。 在SPSS的参数检验中,最关键的要看伴随(或相伴概率)概率与显著性水平a进行比较,若概率Sig/a/2, 就接受原来的零假设。///63/下面首先学习的是“多元正态总体的参数估计”问题。 在给出多元正态分布定义和性质的基础上,在实际问题中,通常可以假定被研究对象遵从多元正

温馨提示:
1. 文档收藏网仅展示《第二章_多元正态分布》的部分公开内容,版权归原著者或相关公司所有。
2. 文档内容来源于互联网免费公开的渠道,若文档所含内容侵犯了您的版权或隐私,请通知我们立即删除。
3. 当前页面地址:https://doc.bogoing.com/doc/229f8e88413629c6.html 复制内容请保留相关链接。