基于众包的农业大数据采集平台构建.doc
《基于众包的农业大数据采集平台构建.doc》由会员分享,可在线阅读,更多相关《基于众包的农业大数据采集平台构建.doc(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、江苏农业科学 2018 年第 46 卷第 5 期 191 顾戈琦,李 瑾 基于众包的农业大数据采集平台构建 J 江苏农业科学, 2018, 46( 5 ) : 191 194 doi: 10 15889 /j issn 1002 1302 2018 05 051 基 于 众 包 的 农 业 大 数 据 采集 平 台 构 建 顾戈琦,李 瑾 ( 北京农业信息技术研究中心 /国家农业信息化工程技术研究中心 /农业部农业信息技术重点实验室 / 北京市农业物联网工程技术研究中心 北京, 100097) 摘要: 众包可以将非特定社会大众引入到农业大数据 采集中,能有效 扩充数据采 集队伍,扩大数据 采集
2、范围 。介 绍 了众包及农业大数据采集的内涵 针对参与众包大数据采集的 农户 农场, 、 、农企的特性进行分析 并建立数据采集 平, 台运 行机制,设计平台多种数据接入、数据源质量评级、数据隐私分级等 功能,分析众包农业大数据采集平台对现有 农 业数 据采集工作的优势 为农业大数据的采集工作进一步提升助力, 。 关键词: 众包; 农业; 大数据; 数据采集; 平台构建 中图分类号: S126 文献标志码: A 文章编 号: 1002 1302( 2018) 05 0191 03 众包即为打破原有 体制限制,将原来 须由系统 内部工作 人员将完整的任务置于 开放平台上,使 非特定的社 会大众可
3、以根据自己的能力选择 适合自己的 采集任务,而不 须成为发 布任务的单位中的一员 。现 阶段,采集农 业大数 据多依 托特定的政府部门 企事业单 位建立有独 立的数据 采集团队、 进行特定农业数据的采集,采集到的数据部分进 行公开分享, 部分留于系统内部使用,这种采集方式具有采集成本高、采集 队伍管理难度大等问题。众包农业大数据采集平台能打破不 同单位间体系,将原来以特定 体系为核心 的任务完 成方式转 化成以特定任务为核心 的网络化社 会生产,只要具 备数据采 集能力的社会大众都可 以参与农业 大数据采 集工作中,有效 地扩充了数据 采集 队伍,扩 大了 数据 采集 覆盖 范围 ,同 时,应
4、用先进的大数据技术 能有效减少在采集众包数据中产, 生的误差,在保证数据采 集质量的前提下,降低采集成 本、扩 大采集范围。 1 众包及农业大数据采集 众包别称网络化社 会生产,是指把过去 由员工执 行的工 作任务,以自由、自愿的形式外包 给非特定大众网络的 做法, 具有生产成本低 联动潜在生产资源、 、生产效率高以及满足用 户个性化需求等优势 。众包 具有组织 开放性,众 包发布 者将公开发布需求,参与者不受组织边界的限制,无论是否属 于发布者的组织 都可以参与解决众包问题, ,组织可以借助外 部资源解决内部问题; 众包具有地域分散性,众包发布者与参 与者不受地理 位置的限制,均可以通过信息
5、技术手段沟通、讨 论、解决问题,具有明显 的个体分布 特点 ; 众包具 有参与自 收稿日期: 2016 10 18 基金项目: 北京农林科学院创新 能力建设 专项; 工 程院咨询 课题( 编 号: 2016 ZD 03 04 ) ; 北 京 市自 然科 学基 金面 上项 目 ( 编号: 9162006) 。 作者简介 顾戈琦: ( 1988) ,男,江苏泰兴人 硕士 助理研究员 研究, , , 方向为农业农村信息化。 E mail: gugeqi qq com。 通信作 者: 李 瑾,博 士,研 究 员,研 究 方 向 为 农 业农 村 信 息 化。 E mail: lij nercita o
6、rg cn。 主性,参与 者根据 自己的 能力自主 选择合 适的众 包需求,用 “由下至上 ”的需求匹 配模式代 替 “由 上至下 ”的任务 布置模 式,大幅度提高了团队能力和任务需求的匹配程度。 最早于 1980 年由著名 未来 学家阿 尔文 托夫勒 提出大 数据的概念 ,直到 2008 年以后,大数 据的概念 才逐步被 认可,并被政府、企业以及学术界所广泛传播 。大数据有 5 个主要技术特点,可总结为 5V 特征: ( 1) 大体 量( volume) ,即 可从数 百 太 字 节 ( terabyte,简 称 TB) 到 数 十 数 百 拍 字 节 ( petabytes,简 称 PB)
7、 、甚 至艾 字 节( exabytes,简 称 EB) 的规 模; ( 2) 多样性( variety) ,即大 数据包括各 种格 式和 形态的数 据; ( 3) 时效性( velocity) ,即很多大数据需要在一定的时间限 度下得到及时处理; ( 4) 准确性( veracity) ,即处理结果要保证 一定的准确性; ( 5) 大价值( value) ,即大数据包含很多深度的 价值,大数据分析挖掘和 利用将 带来巨 大的商业 价值 。 农业大数据是 指大数据技术、理念、思维在农业领域的 应用, 利用智慧化、智能化、网络化的现代信息技术,为农业生产、流 通、消费过程服务 。农业大 数据首
8、先要解 决的问 题就是 数据采集 ,只有采集到海量、多样、及时、准确的数据,农业大 数据才能发掘出数据中的价值,更好地为农村农业发展、农业 经济转型升级服务 。 2 农业大数据众包采集平台模式设计 2 1 平台众包对象 2 1 1 农户 农户受限于自身技术水平,应用数据指导生产 的能力较弱,但因其具有人 数众多、时间相对充裕、生产经验 较为丰富 收入偏低等特点 在众包农业大数据采集中可以作、 , 为广泛的数据采 集源。农 户利 用闲散 时间 上传相 关数 据信 息,并结合其丰富的生产经验 对数据的准确 定期进行人工审, 查,同时,由于其收入偏低,数据采集费用也相对较低。 2 1 2 合作社 农
9、业合作社 具有一定的 规模及资金 实力和 技术能力,每天都会产生大 量生产、销售数据,如对这些数据 进行汇总分析可产 生巨大的价 值。同时,合作社具有 初步应 用数据能力但大多没有 专业的数据 分析人员,无法 针对数据 进行深入分析进而指导 生产,但可以通过 数据共享交 换数据 1 2 2 3 4 7 8 192 江苏农业科学 2018 年第 46 卷第 5 期 服务的方式,使合作社参与到众包农业大数据采集中。 2 1 3 农 业企业 农业企 业是指围绕农业生产、流通、消费 各环节提供增值服务的企业,其生产经营具有较强的专业性。 企业内部大多建有信息 管理系统,具有一 定的数据 意识和数 据分
10、析能力,数据对于企业生产经营效率提升较为显著,故其 使用数据的意愿较为强烈。在众 包农业大数 据采集中,一方 面可以将企业信息系统 中的数据进 行脱敏采 集 交 换对应的, 数据,另一 方面可以让企业支付一定的费用,获取其需要的目 标数据。 2 2 平台机制 2 2 1 多 源采集机制 平 台集合农业合作社、农业企业、个 体农户等多种采 集主体,通过传感器直采、信息系统接 入 农、 户手机上报等多 种采集方式,采集生产环境、生命信息、农田 变量信息 农产品市场经济等多种类型的数据、 ,广泛采集农业 相关数据 实现多来源 多类型数据的全覆盖, 、 。 2 2 2 多重校验机制 平 台采用多重校验
11、机制,不同质量级 别的数据源对应不同的 数据检验方 法 评 级低的数 据源须进, 行多次、多种校验。不同来源 的数据通过 智能算法 进行交叉 校验,对于部分质量不达 标的数据会 进行二次人 工审核。在 使用数据的过程 中 用户 也可以对数据进行审 查 如有 误 可, , , 提交纠错,实现多层次、多方法的数据校验。 2 2 3 用户激励机制 平台可根据用户采集数据的数 量 质、 量、时 效性等特征,将用户采集的数据 统一转化成数据分,用 户可以使用自己的数据 分交换平台 上的原始数 据、数据分析 报告等数据服务或者直 接交换现金,使不 同的数据采 集用户 都可以在平台上获取有效激励。 2 3
12、平台设计思路 众包农业大数据采集 平台利用 众包的思想,转变 数据采 集工作思路与采集人员 队伍建设,将传统 的独立成体 系的数 据采集队伍打散 将普通社会 大众纳入到 农业大数据 采集队, 伍中,每一个普通社会大众利 用闲散时间 就可自主参 与农业 大数据采集工作,平台利用大数据技术进行交叉校验、结合人 工数据检验 可以有效保证数据质量, ,数据需求方也可根据自 身需求 发布数 据采集 任务,减少 自建数据 采集队 伍的成 本。 这样既可以扩大数据采集范围 又可以降低数据采集成本 能, , 有效地提高农业大数据采集效率。 3 平台功能设计 3 1 系统接入功能 政府机关 科研单位 农业企业及
13、部分农业合作社多已建、 、 有管理信息系统,这些信 息系统覆盖气象、农产品市场 价格、 生产环境、土肥配方等领域,包含从政府宏观层面到企业微观 层面的信息 但由于功能设计 应用 技术 数据结构等原因 系, 、 、 , 统与系统之间的数据相互孤立,平台通过建立通用开放接口, 连通多种类型信息系统接 入数据,数据源 可根据接入 数据的 质量与数量获取相应的金钱收入或交换对应的数据服务。 3 2 物联网设施数据直采功能 无线射频识别( radio frequency identification,简 称 RFID ) 技术、空气温湿度传感器、土壤温湿度传感器等物联网设施在 农业领域应用逐渐 深入,采
14、 集到海量生产环境、物流、产品 溯 源等信息 平台建有物联网数据 采集模块 直接接入物 联网信, 息采集硬件设备,直接读取硬件设备采集的多种信息,减少信 息采集中间环节,减少物联 网设施安装、软件系统构建成 本。 同时,数据源可根据接入数据的 质量与数量 获取相应 的金钱 收入或交换对应的数据服务。 3 3 数据人工直采功能 在农业生产各个环节 中,很多 数据的采 集还须依赖 人工 进行 现阶段采集手段多为人工记录, ,然后统一上传到特定的 信息系统中,部分地区还使用原始的人工纸笔记录,逐 级上报 的信息采集手段,平台建有移动信息采集端,可以安装到信息 采集人员的手机上,也可以适配移动扫码枪
15、移动电子秤等移、 动信息采集端,及时、完整地将采集到 的信息汇集到平台 中, 减少时间延误和上报过程中的误差。人工直采信息员可以是 企业、政府 等有组织的信息员,也可以是 普通个人用户,可以 在私人手机上安装信息采 集端上传数 据,根 据接入数 据的质 量与数量获取相应的金钱收入或交换对应的数据服务。 3 4 网络数据抓取功能 互联网包含海量数据 很多与农业直接相关的数据 如农, , 产品价格 农产品供需 气象 政策法规等数据 还有很多与农、 、 、 , 业间接相关数据,例如宏观经济、市民生活、交通物流等数据, 在大数据技术支持下,间接数据 可以作为直 接数据应 用的有 力补充,提高数据应用效
16、果。平台建有互联网数据爬虫,广泛 采集互联网农业直接相关 和间接相关 的各类数 据,构 建农业 综合数据库。 3 5 数据源质量评级功能 根据数据源的获取方 式 接 入渠道、 ,对数据源 进行分 级, 如是物联网设施直采 数据,政府、科研单位、知名企业、大型农 场信息系统接入数据以及有组织的人工直采数据,评级较高, 进行简单清洗统一结构即可接入平台 网络抓取数据 零散的; 、 人工上报数据、小型信息化水平 较低单位的 信息系统接 入数 据,则评级 较低 须进 行数据清洗校验接 入平台, ,同时保留原 始数据供用户深入分析。高级别的数据可以减少数据清洗校 验的环节,提高数据采集的时效 性,同时,
17、用户也可 以参考评 级分类 选择适合自己的数据, 。 3 6 数据隐私评级功能 数据具有隐私性,部分隐私程 度高的数据 只能供给 特定 用户使用 例如部分政府数据只能供给特定的研究机构使用, , 部分企业数据也无法做到完全公开。平台提供数据隐私评级 功能 数据提供方可以在接入平台的时候 选择自己的数据隐, , 私评级,保护自己的数据权益,这样才能让更多的数据源接入 采集平台。 3 7 数据智能清洗汇总功能 将数据采集到大 数据平台之后须进行简单的清洗,首先剔 除格式错误 乱码数据等形式错误 然后针对异 源同类数据进、 , 行校验,如来源不同的同类数据出现不同,则标 注数据存入异 常数据库中,再
18、将异源同类数据进行合并汇总,减少数据重复。 3 8 数据人工纠错功能 受限于现阶段的数据清洗技术单纯的计算机无法高效准 确地清洗所有数据,平台同时开放人工数据审核功能 用户可, 以根据自己的特点申请分 级审核资格,在获 取分级审 核资格 之后,针对 目标数据进行人工审 核,可根 据审核工作量、审核 挑出 的错误数,获取相应收入。 江苏农业科学 2018 年第 46 卷第 5 期 193 3 9 数据订单悬赏功能 , 存在的系统性错误,剔除异源同类型数据中存在的错误,可以 。 虽然大数据采集平 台广泛采集 各类农业数 据 但 部分数 据无法满足需求,用户可以根 据自己的数 据需求进 行订单化 数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 农业 数据 采集 平台 构建
限制150内