





生物统计基础知识
基本概念
总体:数理统计上,称研究对象的全体称为总体。由许多客观存在的具有某种共同性质的总体单元所构成的集合体。
构成总体的每个单元称为个体。
对个体的某种性状加以考察如称量、度量、计数或分析化验所得的数值,称为观测值。
总体所包含的个体数目(N)称为总体容量。
总体具有以下三个特征:大量性、变异性、同质性
样本:从总体中抽取的一部分个体组成的集合。
样本必须对总体有代表性
所以抽样必须满足随机抽样的要求
- 等可能性:每次抽样时各个体具有同等机会被抽取
- 独立性:每次抽样不影响下次抽样时各个体被抽取的机会
n≥30的样本称大样本;n<30时称小样本
统计特征数:参数与统计数统称为统计特征数.
-
参数:用于描述总体特征的一些数值,如总体平均数、总体标准差等
-
统计数:根据样本观测值计算得到的一些数值称为样本统计数.统计数用于估计相应的总体参数。
利用样本资料计算得到的用于描述样本内部个体间的变异程度或集中性趋势等特征的一些指标,如样本平均数、样本标准差等称为样本统计数,简称统计数。
误差:事物的观测值,因受许多偶然因素影响而偏离真值,这种偏差称为随机误差,简称误差。
任何试验结果都具有误差,一切科学试验过程中自始至终存在误差,这称为误差公理。
错误:因工作出错造成的观测值与真值的偏差
准确性:观测值与真值的相符程度
精确性:重复观测值之间的相符程度
连续性变异资料:是指个体间数据存在很小差别,当总体足够大时,随着度量精度的提高这种差别可达到人为可测的任意精度。
这类资料是通过称量、度量、测量或分析测试获取的,其取值精度取决于量测工具的精密度。
间断性变异资料:用计数的方法所得到的数据资料,其取值只限于非负整数。
统计特征数
平均数
算术平均数
定义:一组数据的总和除以该组数据的个数所得的商
意义:
-
指出一组数据资料的中心位置,标志着资料所代表性状的数量水平和质量水平
-
可作为样本或资料的代表数与其他资料进行比较。对称分布
性质:离均差的总和为零、离均差平方和最小
Excel中对应函数:AVERAGE()
几何平均数
当数据资料属于某种比率时,求平均比率需用几何平均数
定义:几何平均是n个观测值的连乘积并开n次方的根,记作G
$$G=\sqrt[n]{ {x_1}{x_2}…{x_n} }$$
意义:可以反映对数正态分布或近似对数分布资料以及等比级数资料的集中趋势。
Excel中对应函数:GEOMEAN()
调和平均数
公式
$$H=\frac{ {f_1}+{f_2}+\cdots +{f_n} }{\frac{ {f_1} }{ {x_1} }+\frac{ {f_2} }{ {x_2} }+…+\frac{ {f_n} }{ {x_n} } }$$
$$H=\frac{n}{\frac{1}{ {x_1} }+\frac{1}{ {x_2} }+…+\frac{1}{ {x_n} } }$$
调和平均数是均数的另一种表现形式,有时由于掌握资料的局限性,但又需要计算平均数,则可以把调和平均数作为均数的变形应用。
Excel中对应函数:HARMEAN()
中数
一组数据由大到小排列,位于中间位置的数据称为中数,或当样本容量为偶数数时居中的两个数据的平均值为中数。
在环境与资源科学研究中收集的数据,有时会比较分散,个别是离群偏远,这时往往要用中位数来表征平均特征。
Excel中对应函数:MEDIAN()
众数
一组数据中出现次数最多的数值为众数。
Excel中对应函数:MODE()
变异数:用于描述数据资料变异程度的统计特征数
极差$R$(变幅)
$$R={y_\max}-{y_\min}$$
描述一组数据的变异幅度
方差
样本$S^2$
$$\begin{matrix} {} & {S^2} \ \end{matrix}=\frac{\sum\limits_{i=1}^{n}{ {(}{x_i}-\bar{x}{ {)}^{2}}}}{n-1}$$
总体$σ^2$
$$\begin{matrix} {} & { {\sigma }^{2}} \
\end{matrix}=\frac{\sum\limits_{i=1}^{n}{ {(}{x_i}-\mu { {)}^{2}}}}{N}$$
描述样本(总体)内个体间的变异程度
标准差
样本$S$
$$\begin{matrix} {} & {S} \ \end{matrix}=\sqrt{\frac{\sum\limits_{i=1}^{n}{ {(}{x_i}-\bar{x}{ {)}^{2}}}}{n-1}}$$
总体$σ$
$$\begin{matrix} {} & { {\sigma}} \ \end{matrix}=\sqrt{\frac{\sum\limits_{i=1}^{n}{ {(}{x_i}-\mu { {)}^{2}}}}{N}}$$
变异系数
$$ CV = \frac{\rm S}{\bar x} $$
描述样本的相对变异程度(比较平均数相差悬殊和度量单位不同)
标准误差${ {\sigma }_{ {\bar{x}}}}$
$${ {\sigma }_{ {\bar{x}}}}=\frac{\sigma }{\sqrt{n}}$$
描述样本平均数总体内个体(样本平均数)间的变异程度
${ {S}_{ {\bar{x}}}}$
标准误差${ {\sigma }_{ {\bar{x}}}}$的估计值
$${ {S}_{ {\bar{x}}}}=\frac{S}{\sqrt{n}}$$
描述样本平均数的抽样误差
平均数差数的标准误(样本)
$${ {s}_{ { { {\bar{x}}}_1}-{ { {\bar{x}}}_2}}}$$
描述样本平均数差数的抽样误差
差数平均标准误 ${ {s}_{ {\bar{d}}}}$
描述成对数据差数平均的抽样误差
回归系数 $b$ 标准误
$$S_{b}=\sqrt{\frac{S_{e}^{2}}{SS_{x}}}$$
回归截距$b_0$标准误
$$S_{ {b_0}}=S_{e}\sqrt{\frac{1}{n}+\frac{ { { {\bar{x}}}^{2}}}{SS_x}}$$
描述回归截距的抽样误差
概率分布与抽样分布
概念
概率分布:表示随机变量取值的概率规律。即随机变量取哪些值以及取得这些值的相应概率。
分布律:适用于离散型随机变量
分布函数(累积概率函数):表示随机变量X取得小于或等于某一实数值的概率,记作:
$$F\left( {x_i} \right)=P\left( X\le {x_i} \right)$$
概率密度及密度函数:若随机变量X的分布函数分布函数$F\left(x\right)$可导,则其一阶导函数
$f\left( x \right)=F{ {\left( x \right)}^{\prime }}$称为$X$的概率密度函数,简称密度函数。
几个常用概率分布
二项分布
$$f\left(x\right)=F{ {\left(x\right)}^{\prime }}$$
参数:
- 平均数:$\mu =np$
- 方差:${ {\sigma}^{2}}=npq$
分布性质:
$p$等于$q$等于0.5时,呈对称分布
$p$或$q$小于0.5时,呈偏态分布
正态分布和标准正态分布
正态分布,记作$X\sim N(\mu ,{ {\sigma}^{2}})$
$$f(x)=\frac{1}{\sqrt{\text{2}\pi }\sigma }{ {e}^{-\frac{1}{2}{ {(\frac{x-\mu }{\sigma })}^{2}}}}$$
标准正态分布
$$f(z)=\frac{1}{\sqrt{2\pi }}{ {e}^{-\frac{1}{2}{ {z}^{2}}}}$$
总体平均数$μ$决定曲线的中心位置;
总体标准差$s$决定正态分布的离散程度
$x=μ$处,曲线最高$f(x)$最大;
正态曲线以$μ$为中心对称分布;
$\frac{(x-μ)}{s}$的绝对值越大,$f(x)$越小,
$f(x)>0$,正态分布曲线以x轴为渐近线
$P\left( -1.96<Z<1.96 \right)=0.95 $
$P\left( -2.58<Z<2.58 \right)=0.99 $
抽样分布
$\bar{x}$ 分布
样本平均数总体的平均数${ {\mu }_{ {\bar{x}}}}$等于原始总体平均数$\mu$
样本平均数总体的方差$\sigma _{ {\bar{x}}}^{2}$等于原始总体方差除以样本容量。
$${ {\mu }_{ {\bar{x}}}}=\mu \begin{matrix}
, & {} & \sigma _{ {\bar{x}}}^{2}=\frac{ { {\sigma }^{2}}}{n} \
\end{matrix}$$
- 若原始总体服从正态分布,则样本平均数也服从正态分布;
- 若原始总体的分布不呈正态,样本平均数的分布随样本容量n的增大逐渐趋近正态。
$({\bar{x}_1}-{\bar{x}_2})$ 分布
-
样本平均数差数总体的平均数等于两个原始总体平均数之差。
${ {\mu }_{ {\bar{x}_1}-{\bar{x}_2}}}={ {\mu_1}-{\mu_2}}$
-
样本平均数差数总体的方差等于两个原始总体方差除以各自样本容量之和。
-
若两个原始总体服从正态分布,则样本平均数差数总体也服从正态分布;
-
若两个原始总体的分布不呈正态,则样本平均数差数总体的分布随样本容量$n_1$,$n_2$的增大逐渐趋近正态。
$t$ 分布
n=30 t分布 接近标准正态分布
${ {\chi }^{2}}$ 分布
n个独立正态离差的平方之和
$F$ 分布
统计假设检验的基本原理
小概率原理
-
试验数据波动原因:
- 处理效应:即试验处理(条件)不同造成的试验数据波动,表现为处理平均数间的变异;
- 试验误差:即试验过程中的未控因素及偶然因素造成的试验数据波动,表现为处理内部观测值间的变异和处理平均数间的变异
-
统计假设检验的任务:
通过比较处理效应与试验误差的大小,判别处理效应的显著性 -
小概率原理:
把小概率事件在一次试验中看成是实际不可能发生的事件 -
无效假设与备择假设
- 无效假设$H_0$:试验实得差异系随机误差
- 备择假设$H_A$:跟无效假设$H_0$对立,在$H_0$被否定时准备接受
-
显著性水平
判定无效假设能否成立的临界小概率水准,记作$α$
- 显著:当无效假设成立的概率小于$α$等于0.05时认为效应显著
- 极显著:当无效假设成立的概率小于$α$等于0.01时认为效应极显著
-
接受区间与否定区间
- 接受区间:由显著性水平划定的统计数分布的大概率范围,当统计数位于该范围时接受无效假设
- 否定区间:由显著性水平划定的统计数分布的小概率范围,当统计数位于该范围时否定无效假设
-
检测
- 两尾检验:否定区间在统计数分布的两侧,于检验处理是否有效H0:μ1=μ2,HA:μ1≠μ2
- 一尾检验:否定区间在统计数分布的一侧
- 左尾检验:否定区间位于统计数分布的左侧,用于检验处理是否使指使标值降低H0:μ1≥μ2,HA:μ1<μ2
- 右尾检验:否定区间位于统计数分布的右侧,用于检验处理是否使指标值增加H0:μ1≤μ2,HA:μ1>μ2
-
错误
- 弃真错误(α错误):统计推断犯否定正确H0 的错误,弃真错误的概率为α
- 存伪错误(β错误):统计推断犯接受不正确H0 的错误,存伪错误的概率为β
- 减少两类错误的途径:
- 减少弃真错误:提高显著性水平(α取值小)
- 减少存伪错误
a. 降低显著性水平(α取值大)
b. 增加重复次数,降低试验误差
统计假设检验的一般步骤
-
提出无效假设H0及备择假设HA
- 无效假设H0:试验实得差异系随机误差
- 备择假设HA:对立于无效假设H0,当H0被否定时准备接受的假设
例如:
H0:μ=36,HA:μ≠36
H0:μ1=μ2,HA:μ1≠μ2 -
确定显著性水平α
显著性水平:判定无效假设能否成立的临界小概率水准,记作α传统:α=0.05(显著) α=0.01(极显著)
-
计算实得结果属随机误差的概率P
实际中:求统计量$Z$,$t$,$F$,${ {\chi }^{2}}$值及相应的上位概率P: -
根据小概率原理作出统计推断
P>α 接受H0 否定HA
P<α 接受HA 否定H0
方差分析
方差分析的基本假定
- 效应可加性:指试验的处理效应、环境效应以及误差效应是可加的。
- 误差正态性:指试验误差应当是服从正态分布的独立的随机变量。
- 误差方差同质性:指各试验误差方差应具备同质性或称齐性,即${ {\sigma }_1}^{2}={ {\sigma }_2}^{2}=…{ {\sigma }_n}^{2}={ {\sigma }^{2}}$
数据转换方法
多重比较的方法及特点
回归与相关分析
基本原理与概念
变量之间相互关系的类型、产生相关关系的原因、回归分析的基本内容、相关分析的作用;最小二乘法原理、离均差乘积和与平方和、回归平方和、剩余平方和、回归方程显著性检验、回归系数显著性检验、依变量的预报、自变量的控制;相关系数与决定系数、增广矩阵、高斯消元法。
变量之间相互关系的类型:根据变量之间数量关系的确定性程度,可分为两大类,包括:
-
完全确定性关系即函数关系 指两个相互关联的变量之间存在着确定的函数关系,当一个变量取某一定值时,另一个变量将按一定的规律有一个完全确定的数值与之对应。
-
非完全确定性关系即相关关系 指两个相互关联的变量之间存在着一定的数量关系,而这种关系并不是完全确定的,当一个变量发生变化时,另一个变量也按一定的规律作相应的变化,但当一个变量取某一定值时,另一个变量的对应值却不是完全确定,而是具有一定的随机性,是在一定范围内变化的。例如土壤有机质含量与土壤全氮含量的关系
产生相关关系的原因:是在于一个体系中两个相互关联的变量间除了存在自身相互制约的数量关系外,其它一些未知变量也同时在起作用,从而干扰了这两个变量间定量关系的表达,因而偏离了确定性关系。所以,相关关系是人们对客观事物认识的初级阶段,当影响某变量的各种因素的作用都认识清楚后,则相关关系就可望成为函数关系。