再议农业科学实验数据处理
再议农业科学实验数据处理
我在体系内部批评了李少昆滥用统计术语和忽悠人的做法,他回函反驳。我没有就事论事,只建议他阅读教科书。实际上,他的反驳暴露出另一个基础性缺失。统计检验的出发点和最后结论是接受或拒绝一个解消假说。即使你内心没有这个概念,不知道你想要做什么,像个实验员一样只会在电脑上录入数据和等待结果,但最后结局都是接受或拒绝一个解消假说。只不过中国学生缺少这根弦罢了。从李少昆的辩解看出来,在他和他的学生、助手的心里没有检验假说的概念,所以才发生滥用统计术语和胡乱做出解释的现象。
他对籽粒含水量与机械收获破损率之间的相关分析作辩解,但是他用n=396的庞大数据却得到r=0.392**的相关性,说明两个因素之间相关性很低,属于低度相关。但更可能是数据来源有问题,而他没有发现其他干扰因素或者试验设计本身可能有错误。他还说,损失率与籽粒水分呈二次曲线关系(r=0.407**,n=318)。我估计他说的是上扬曲线,应该比简单相关分析结果更靠谱,但实际情况没有改变试验结果的不可靠性。
作为案例,我在体系内部批评他,只是建议他回过头去检查试验设计或数据采集错在什么地方,检查数据的分布,然后再检查模型拟合。现在说白了,应该自己去找试验设计的漏洞,而不是辩解。
按说根据生产经验和前人的研究结果,能够对籽粒含水量和机械化收获破损率之间的关系以及影响因素作出预判,但李少昆的统计结果却是r=0.4,这说明他的试验设计、实施和数据采集环节可能有问题。旁观者只能提醒他检查差错,至于错在哪个环节,错到什么程度,那是他自己的事。
至于说回归分析的某些R2数值低于0.1,更暴露出他的数据不可靠,按照他的统计结果,两个因素之间没有任何关系。但这显然与经验不符。所以,需要检查各个环节,到底问题出在哪里,而不是简单地作概念性辩解。以后不要瞎糊弄。
回到北京,查阅资料,推荐两本教科书:
Kwanchai A. Gomez & Arturo A. Gomez, Statistical Procedures for Agrocultural Research (2nd edition) John Wiley and Sons, New York. 1984 该书作者分别是菲律宾国际水稻研究所统计学部门负责人和菲律宾大学教授。这是我在CIMMYT进修期间学习的经典教科书。
现在,有一本新教科书,在内容上有许多更新:
Alan G. Clewer and David H. Scarisbrick, Practical Statistica and Experimental Design for Plant and Crop Science. John Wiley and Sons, Ltd. 2001.