试验设计与统计方法
一、常用术语
1、总体与样本
⑴总体:根据研究目的确定的研究对象的全体。 ⑵个体:总体中的一个研究单位称为个体
⑶样本:总体的一部分称为样本 ⑷有限总体:含有有限个个体的总体
⑸无限总体:包含有无限多个个体的总体 ⑹假想总体:实际并不存在,但假设其存。
⑺样本容量:样本中所包含的个体数目;通常把n≤30的样本叫小样本,n >30的 样本叫大样本。
⑻随机抽取:指总体中的每一个个体都有同等的机会被抽取组成样本。
2、参数:由总体计算的特征数叫参数;
统计量:由样本计算的特征数叫统计量
总体平均数
总体标准差
样本平均数
样本标准差
试验的正确性和准确性
第二章田间试验设计与实施
一、田间试验的误差
(一)田间试验的误差来源
(二)控制田间试验误差的途径
二、田间试验的原则
1、重复:一套完整的试验处理为一个重复(区组),二次以上的重复试验可以估计试验误差,因为同一个处理有二个以上的资料,它们之间的差异为试验误差;重复可降低试验误差。误差的大小与重复次数的平方根成反比,多重复试验的结果较精确。
2、随机排列:指一个区组中每一个处理有相同的机会设置在任何一个试验位置,以免任何主观的影响。随机与重复可无偏估计试验误差。
3、局部控制:就是将整个试验环境分成若干个相对最为一致的小环境,并在小环境内设置整套处理,使试验条件最大程度地保持一致,控制误差。
(一)顺序排列的试验设计
1、对比法设计(contrast design):直接与对照进行比较,重复较多。往往在处理较少的情况下采用,如品种对比试验、农药试验等常用些法。优点是直观。
2、间比法设计(interval contrast design):处理较多时往往采用的方法。如育种试验的初级试验。
顺序排列的优缺点: 顺序排列设计简单,操作方便,可按植株生育特性安排试验材料,减少边际效应,但无法无偏估计误差,理论上不能进行显著性测定。
(二)随机排列的试验设计
1、完全随机区组设计:将各处理完全随机的分配到各个试验单元中。一般适用于实验室等条件一致的试验。随机数据来源:计算机给出、抽签、查表附表1使用方法:
2、随机区组设计(完全随机区组设计):根据局部控制的原则,将所有处理分配到一个区组中,区组内各处理排列完全随机,是最基本的农业试验设计。
3、拉丁方设计: 拉丁方试验中的处理数与重复数相等。可双向控制土壤肥力,具有较高的试验精度,但缺乏伸缩性。
4、 裂区设计:多因素试验中常用到的试验设计。有主区和副区, 般根据处理方便程度来安排主区和副区。以下几种情形时常用裂区试验。
第三章、次数分布和平均数、变异系数
一、试验资料的性质与分类
1、数量性状资料;(1)不连续性或间断性变数:计数统计。(2)连续性变数:称量或测量统计资料
2、质量性状资料:(1)统计次数法:各性状的个体数。(2)赋值统计法:给各性状以相对数量进统计的方法。
二、次数分布表
(一)间断性变数资料的整理
(二)连续性变数资料的整理
(三)属性变数的整理
三、次数分布图
三、次数分布图
1、方柱形图 2、多边形图
四、平均数
算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数。 算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。
五、变异数
(一)极差: 是表示资料中各观测值变异程度大小最简便的统计量。但是全距只利用了资料中的最大值和最小值,并不能准确表达资料中各观测值的变异程度,比较粗略。当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。
(二)方差: 为了准确地表示样本内各个观测值的变异程度 ,人们首先会考虑到以平均数为标准,求出各个观测值与平均数的离差,称为离均差。
虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有负 ,离均差之和为零,即Σ ( ) = 0 ,因 而 不 能 用离均差之和Σ ( )来 表 示 资料中所有观测值的总偏离程度。
(四)变异系数:变异系数是衡量资料中各观测值变异 程度的另一个统计量。标准差与平均数的比值称为 变异系数,记为C•V。 变异系数可以消除单位 和 (或)平 均数不同对两个或多个资料变异程度比较的影响。
第四章 理论分布和抽样分布
一、事件和事件发生的概率
在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类:
二、事件间的关系
和事件:事件A和事件B至少有一个发生构成事件A和B的和事件,(A+B),如取到能发芽种子和不发芽种子。
积事件:事件A和事件B同时发生构成的新事件称为事件A和B的积事件,AB同时发生。
互斥事件:事件A和事件B不同能同时发生,即为事件A和B的互斥事件。如取到白色种子事件,A.B=V
对立事件:事件A和事件B不可能同时发生,但必发生其一,称为事件A和B的对立事件。A+B=U
完全事件:事件A1、A2、A3…两两互斥,且每次试验结果必发生其一,称之
事件的独立性:事件A的发生不影响事件B发生的可能性,则相A、B相互独立
三、事件概率的计算法则
互斥事件:两个互斥事件的总概率:加法法则。如花色概率
独立事件:两个独立事件同时发生的概率:乘法法则。
对立事件:一个对立事件的概率为另一对立事件的1-P。
完全事件系的概率:1。
非独立事件:P(AB)=P(A)P(B|A)
四、二项总体及二项分布
(一)二项式分布的概率计算方法
(二)二项式分布的形态和参数
五、正态分布
(一)正态分布曲线的特征
(二)正态分布曲互区间面积或概率的计算方法
(三)标准化正态分布及计算和查表方法
六、抽样分布
(一)样本平均数的抽样及分布
(二)样本总和数的抽样及其分布
(三)两个独立样本平均数的抽样及其分布
(四)二项总体的抽样分布
第五章 统计假设测验
一、统计假设测验的基本原理
无效假设(null hypothesis):无效应的假设
备择假设(alternative hypothesis):否定了无效假设则接受备择假设
二、统计假设测验的基本方法
(一)对研究的总体首先提出一个无效假设
(二)在承认无效假设的前提下,获得平均数的抽样分布,计算假设正确的概率。
(三)计算概率
在假设正确前提下,抽取平均值为330kg的概率,或随机误差为30kg的概率。
该分布属于正态分布,将其转化为标准正态分布:
因为检验不等于300,要证300<和>300,则查两尾表概率为0.04~0.05之间
(四)计算接受区和否定区
该样本的标准差为15kg, 则:
(五)接受或否定假设
1、当样本平均值与假设平均值之差由于误差造的概率小于5%或1%时,为小概率事件,它不可能出现,否定假设。
2、上例中30kg的差异是属于误的概率小于5%,否定H0,接受HA
3、5%或1%为假设测验的概率标准,称为显著水平,用a表示。其中<5%说明样本与总体的差异达到显著水平,1%说明样本与总体的差异达到极显著水平
(六)假设测验的步骤
1、对样本总体提出统计假设(无效/备择)
2、规定测验的显著水平值
3、在H0正确的假设下,计算出正态分布的u值,并查表得其由误差造成的概率
4、比较显著水平a和u值的概率,接受无效假设或接受备择假设
三、假设测验的两类错误
1、第一类错误:无效假设正确,但否定了无效假设
错误I:显著水平a为第一类错误的概率,即冒着a概率的错误下的结论;因此,可提高显著水平的标准可降低其错误I的概率。
2第二类错误:无效假设错误,但接受了无效假设
错误II:其概率为ß。如总体平均值300,标准差15 , 样本平均值为315,标准差15,则总体和样本的分布:
第二节 平均数的假设测验
四、平均数的假设测验
(一)t分布
(二)单个样本平均数的假设测验
(三)两个平均数相比较的假设测验
1、成组数据的比较:
2、成对数据的比较
每次观察值有一对,y1,y2,两者之间的差d=y1-y2则:
五、 二项资料的百分数假设测验
许多资料是百分数表示的 理论上是二项式展开,但当p值不过小,样本容足够大时,属正态分布,用u测验。
(一)单个样本百分数的假设测验
测定某一样本百分数所属总体的百分数(某值)的差异显著性,样本百分数的标准误及正态离差值:
(二)两个样本百分数相比较的假设测验
(三)两项样本假设测验的连续性矫正
1、单个样本百分数假设测验的连续矫正
2、两个样本百分数矫正
六、 参数区间估计
第六章 方差分析
一、自由度和平方和的分解
简单试验:设有k组数据,每组有n观察值,共有nk观察值:
二、F分布与F测验
概念:在正态分布中抽取两个独立样本,分别求其均方,两者的比值定义为F:
F具有两个自由度: 若在给定的k和n的条件下, 继续从该总体进行一系列抽样,则可获得一系列的F值。这些F值 所 具 有 的 概 率 分 布 称 为 F 分 布 ( F distribution)。F 分 布密度曲线是随自由度df1、df2的变化而变化的一簇偏态曲线,其形态随着df1、df2的增大逐渐趋于对称。
三、 多重比较
1、最小显著差数法 (LSD法)
2、q检验法(q test)
2、新复极差法(SSR法)
四、多重比较结果的表示法
1、列梯形表法 此法是将多重比较结果直接标记在平均数多重比较表上。此法的优点是简便直观,缺点是占的篇幅较大。
2、字母表示法
3、划线表示法
五、方差分析的基本步骤
(一)计算各项平方和与自由度;
(二)列出方差分析表,进行F检验;
(三)若F检验显著,则进行多重比较。
六、单向分组资料的方差分析
七、两向分组资料的方差分析
第七章 卡平方(c2)测验
一、卡平方(c2)的定义和分布
二、卡平方的计算方法
三、c2在方差同质性测验中的应用
四、用卡平方进行适合性检验
五、用卡平方进行独立性检验
第八章 直线回归与相关
一、概念:
二、计算方法
三、直线回归的区间估计
1、直线回归的抽样误差: 从总体中抽取的样本,a和b均有误差。
2、回归截距的置信区间:
四、相关系数的计算方法
第九章 常用试验设计及统计分析
一、对比法和间比法试验的统计分析
二、单因素完全随机和随机区组试验的统计分析
三、单因素随机区组试验的缺区估计
四、拉丁方试验的统计分析
五、二因素试验的统计分析
(一)二因素随机区组试验结果的分析
1、自由度分解
2、平方和的分解
(二)裂区试验结果的分析
1、自由度分解
2、平方和的分解
六、三因素试验的统计分析
一)三因素完全随机试验结果的分析
1、自由度分解
2、平方和的分解
(二)三因素随机区组试验结果的分析
1、自由度分解
2、平方和的分解