李艳丽:大数据在我国农业生态环境领域的应用展望
网络信息技术与移动通信技术的高速融合,极大地促进了互联网、物联网、云计算和智能传感器的快速兴起和发展,信息数据量呈现出史无前例的爆发式增长,大数据时代已经走来。从2008年《自然》刊登大数据专题,到2012年3月奥巴马政府发布“大数据研究和发展”倡议,2015年9月中国政府发布“关于促进大数据发展的行动纲要”(国发〔2015〕50号),2016年国务院办公厅印发“关于“互联网+政务服务”技术体系建设指南”(国办函〔2016〕108号 ),2017年国务院办公厅印发“关于政务信息系统整合共享实施方案”(国办发〔2017〕39号 ),中国政府加快推动实施国家大数据战略,加快建设数字中国,大数据已经引起越来越多人的重视。全球的大数据应用处于发展初期,大数据应用在各行各业的发展呈现“阶梯式”格局,互联网行业是大数据应用的领跑者,金融、零售、电信、公共管理、医疗卫生等领域正积极尝试大数据,而我国农业生态环境大数据应用则刚刚起步。
1、农业生态环境大数据的特点
农业生态环境大数据是指大数据技术、理念、思维在农业生态环境领域的应用,从更深层次考虑,农业生态环境大数据是智慧化、智能化、精准化和网络化的现代信息技术不断发展而衍生的一种计算机技术在农业生态环境应用的高级阶段,是结构化、半结构化、非结构化的多维度、多粒度、多模型、多形态的海量农业生态环境数据的抽象描述,是农业清洁生产、农业资源、农业环境以及界面过程等全产业链的农业生态环境数据大集聚的有效工具,是加快农业现代化、实现农业绿色发展的必经过程。
大数据在解决农业生态环境问题时形成了农业生态环境大数据独特的特征。第一,生态环境大数据具有“空天地一体”的巨大数据量。随着卫星遥感、雷达和农业物联网等技术的发展,数据不仅来源于传统人工监测,还包括航空航天和地面数据,产生了海量农业生态环境数据。第二,农业生态环境大数据的类型、来源和格式具有复杂多样性。数据来自于农业气象、农田水利、国土、农业和社会经济等不同部门,目前缺少统一的标准规范,使得难以整合不同部门之间的同类数据。第三,农业生态环境大数据具有很高的应用价值。利用大数据技术从海量数据中挖掘出最有用的信息,把低价值数据转换为高价值数据,为农业抗灾减损、清洁生产和废弃物资源化高效利用提供科学依据。
2、大数据在解决生态环境问题中的优势和机遇
目前农业生态环境问题突出表现在耕地污染、极端气候事件增加、耕地退化、水资源短缺以及外来生物入侵等方面。这些问题往往涉及尺度大、过程复杂、驱动因素众多,解决起来难度大。随着大数据时代的到来,大数据为我国农业生态环境问题的解决提供了巨大空间。
(1)大数据在减缓气候变化中的优势
近百年来,由于气候波动和人类活动引起的温室效应,地球正经历一次以全球变暖为主要特征的显著变化。全球变暖导致了极端气候事件频率增加、厄尔尼诺现象影响范围变大、水资源短缺加重、农业病虫害频度与强度加剧和作物品种抗逆性降低等。大气中温室气体浓度增加引起了大气温室效应增强,并最终导致了全球气候变暖。为了减缓和预测全球变暖的速度,政府间气候变化专门委员会(IPCC)和各个国家编制了各种温室气体的排放源和吸收汇的清单,但目前这些温室气体清单还都不是实时清单,主要因为缺少温室气体的实时监测数据和处理海量数据的技术。在大数据时代,温室气体、气候等大量实时监测数据和与之相关的非结构化数据的获取,分布式数据存储技术与传统的关系型数据库相结合海量数据的存储和管理,离线静态数据的批量处理和在线数据的实时流式处理及实时交互计算的可能性,编制实时温室气体清单和预测未来温度变化幅度,可以为制定减排措施提供科学依据。
(2)大数据在保证农业清洁生产的优势
农田污染的产生受到多方面的影响,治理起来比较困难。首先,农田污染涉及的过程复杂,包括污染物排放的生物过程、污染物在承载体(大气、水和土壤)中的物理和化学过程;其次,污染成因很多,主要包括大气干湿沉降、污水灌溉、过量施肥、过量施药和农膜残留等;最后,影响污染因素多,因素之间存在相互重叠和交叉作用。仅靠传统单因素治理污染不能解决根本问题,需要利用云计算、多元数据同化、多尺度数据耦合和时空分配等大数据技术对农田污染进行多因素融合,分析不同污染过程中污染物的演变规律,统筹规划治理方案,分步推进和重点突破污染治理,保证我国农业清洁生产。
(3)大数据在改善耕地退化中的优势
随着全球人口数量的增长和社会经济的发展,生态系统退化越来越严重,已经成为全球严重的生态环境问题之一。当前耕地质量退化主要表现在耕地水土流失、耕地沙化、有机质下降、耕地盐渍化、耕地污染和非农业占用等方面,严重的耕地质量退化会造成耕地资源生产潜力下降和生态环境恶化,制约社会经济可持续发展。首先,引起耕地质量退化因素较多,主要包括过度农垦、农业面源污染、陡坡开垦、生境丧失、水环境遭破坏、外来物种入侵等。另外,耕地质量退化是一个复杂和综合的动态过程,它涉及跨领域、跨学科、跨部门的各种农业生态环境数据,涉及土壤、农学、生态、环境和生物等学科的先验知识。过去几十年,传统技术不能系统地整理分析和清洗这些数据集,也不能完全提纯数据背后的价值信息,使得政府对耕地质量退化防治无力。目前,大数据技术可以系统地收集整理和存储与耕地退化相关的地面监测、遥感影像、社会经济、科学研究、互联网等方式发布的信息,利用分布式数据库、云计算、人工智能、认知计算等技术,并结合算法库、模型库和知识库实现数据与模型的融合,挖掘隐藏在海量数据背后的各种信息,为治理和预防耕地退化提供正确的科学决策。
3、农业生态环境大数据面临的挑战
虽然大数据为解决各种生态环境问题提供了新的机遇,然而农业生态环境大数据的大规模应用才刚刚起步。农业生态环境大数据的真正实施在数据开放和共享、大数据处理技术、资金投入、专业人才、应用创新和数据管理等方面还面临着诸多挑战。
(1)缺乏数据共享机制
农业生态环境大数据需要整合和集成多部门和社会多来源的数据(农户、农场和企业),要想挖掘隐藏在农业生态环境大数据背后的潜在价值,实现数据共享是关键。然而,实现数据共享还面临巨大挑战。首先,我国生态环境大数据包括气象、水利、国土、农业、社会经济等其他部门的大数据,涉及多领域、多部门和多源数据,虽然目前这些部门已经建立了自己的数据平台,但这些平台之间互不连通,只是单个的“数据孤岛”。其次,数据没有规范化,数据存储格式不一致。另外,数据开放严重不足,主要表现在数据开放总量偏低,可机读性差,大多为静态数据,且集中在经济发达、政府信息化基础发展好的地区。最后,农业生态环境数据的整合和脱敏也是一项重大挑战,需要耗费巨大人力物力的工作。
(2)缺乏技术创新
在数据来源方面,农业生态环境大数据来源多种多样,既包括各种卫星和无人机的监测和调查数据,也包含影像、声音和视频等非结构化数据,如何将这些多源异构数据转换成合适的格式和类型,并在存储和处理之前对采集的数据进行清洗,是农业生态环境大数据面对的一大技术挑战。在数据存储方面,当前农业生态环境大数据由于各种移动终端和网络的视频、文本、图片、照片等非结构性数据流爆发性增长,未来存储技术的效率对于提高大数据的价值至关重要。在数据分析方面,目前Google的MapReduce系统、Twitter的Storm系统和Yahoo的S4系统等分别从离线批量计算和图数据处理,都是针对不同的计算场景建立的不同计算平台,管理运营成本很高,所以专门研发适合多种计算模型的通用架构是生态环境大数据建设和发展的急切需求。
(3)资金投入不足
目前,我国对农业生态环境大数据的资金投入尚不足。缺乏农业生态环境监测设备、计算机资源和数据资源等基础设施的投入,包括网络服务器、数据处理和存储系统、数据仓库系统和云计算平台等。还没有成熟的大数据产业推广模式。
(4)缺乏大数据专业人才
农业生态环境大数据涉及的学科众多,大数据时代需要大量的复合型专业人才,既需要生态、环境、气象、水文、土壤等专业知识,也需要数学、统计、人工智能等模型技术以及计算机、通讯等工程技术。农业高校和科研院所还没有大数据相关专业和课程的设置,也缺少大数据农业环境监测、农业生态信息学和农业环境信息学等方面人才培养。
4、应用展望
农业生态环境大数据是多源异构农业生态环境数据的集成,是对各类生态环境数据进行深入分析并与其他相关数据进行关联分析后的数据产品,同时农业生态环境大数据还能对未来农业生态环境存在的重大风险进行预测和规避,给决策者和终端用户提供科学依据。今后要不断加强大数据技术研发应用、加大资金投入、加强复合型人才培养、加强数据开放共享和集成等,同时加强国际交流,使我国农业生态环境大数据分析技术与国际接轨,最终实现农业生态环境决策管理定量化、精细化,服务多样化、专业化和智能化,为我国绿色农业发展和乡村振兴战略奠定基础。
作者李艳丽,系中国农业科学院农业环境与可持续发展研究所农业环境数据中心主任