基于数据统计分析的知识发现.pdf
《基于数据统计分析的知识发现.pdf》由会员分享,可在线阅读,更多相关《基于数据统计分析的知识发现.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、高技术通讯2 0 0 1 1 1 基于数据统计分析的知识发现。柴毅黄席樾李佳潦运华何 离废(重庆大学 自动化学院 重庆 4 0 0 0 4 4)摘要以数据 库 中的数据 为对 象建立 数据 的统 计模 型,提 出了一种定 量统 计分 析方法,对数据进行有序的组织,结合定性描进的归纳性知识,找 出规律,形成可用于生产 实践的 知识规则。最后,甩所提出的方法对农业生产数据进行 了分析,归纳出生产管理的决策知 识 用 于指 导生 产。关键词知识发现,统计分析,数据库 0 引言 在 生产 实践 和社 会 生 活 中,无 论 是 投 入产 出 或 者是产品的质量、数量等,都产生 了大量的数据及丰 富的信
2、息资料,在这些数据 和资料中隐藏着各种有 规律的信息和知识。怎样对数据进行有序 的分析,找出规律,从大量低层次的原数据集 中抽出高层次 的知识,形成可用于生产实践的知识规则就显得非 常重要。近年来,随着计算机技术和数据库技术 的 广泛应用,为数 据中的知识发 现(K D D)提供 了基 础。数据 挖掘 可 以从 大量 数据 中提取 出 隐藏在数 据 之中的有用信息,基 于数据库的知识发现是识别数 据中有潜在规律、有效 的和最终可被理解的数据并 归纳和推 理 的过程。各个 领域 都从 不 同的角度 利用 相 应的理 论 和分析 方法进 行 数据挖 掘 的研 究 和开发 二 =作,数据挖掘和知识发
3、 现所采用 的方法涉及到机 器学 习、统计分析、数据库 分析、模式识别、神经 网 络、不确定性推理、模糊逻辑和粗集理论等。本 文 以农 业 生 产 为对 象,针对 农 业 生产 实 践 中 的品种、产量、质量等数据,利用数理统计的方法,处 理偏差强化正例,发现农业生产管理知识。1 知识发现 与数据 的有序组 织 1 1 知 识发现 的关键 知 识发现 是解 决如何从 大量 数 据 中获 取 知识 的 关 键。与“人 工”方式向领域专家获取专门知 识不 同,自学 习获取知识强调利 用 领域 知识 对学 习过程 的控 制提 供约束,在建立的知识获取 自动 化的研究中要强调知识获取 的通用性、真实性
4、和可 靠性。中国农业生产有着长期、重复和家庭式耕作 的 特点,加之农 村中生产习惯等因素,一个村,甚至一 个镇栽种 品种、操作管理方式差别不大,直接反映为 一个 品种 的农 产 品产量 和质量 会 在一个 时期维 持 相 对 的稳 定。那 么 在长期 的生产 中,“生产操 作有 无 问 题?该品种是否适合于在该地区生产?”等等 问题,就 需要有 科学 的解答 和 指导。因此,只有 从 大量 农 业 生产数 据 中进行 归 纳 发 现 知识,提 供 决 策来 指 导 生 产。数据 中的知识 发现取 决 于大量 数据 的有序 组织 和归纳。在 农 产 品 的产 量 和 质量 数 据 处 理 中,定
5、 量 分析的方法是知识有效归纳获取 的关键,通过定量 的数学 分 析,对 数据 进 行 加 工处 理,运 算 求 解,归 纳 出 问题 的 本质,再 经 过 定性 分 析,概 括 出 知识 因 此,知识 的 有效获 取 就取 决 于数 据 的 有效 组 织 和处 理方 式。由于农业生产数据 的不精确,严格的数学归纳 结 果又 不适 用,所 以归纳 结 果 的 有 效 程度 取 决 于 所 使用的归纳算法和可以使用的数据集合。1 2 作 物生产 数据描 述 数 据 库 系 统 可 以 被 描 述 为 一 个 四 元 组:S=(R,A ,),其中 R是 一组对象 的有限集 合,设 有 个对 象,则
6、 R 可 表 示 为:R:j r l,r ,A 表示有限个属性的集合,设有 m 个属性,则 A,可表 示 为:A =l,“2,d ,V 是 属 性 的 值 域 集,V=Vl,V2,值域=口?2 I ,f是 a和 r的函数,V =f(a ,r _)。农业 生产是一个 复杂的系统工程,作物的产量 和质量不仅仅与品种有关,除 了作物生长过程中的 害彗 毕 譬 ;箍;器 :人 工 智 能 专 家 幕 ,数 字 信 ;联 系 (收稿 日期:2 0 0 1 0 l 一 1 2;修订 日期:2 0 0 1 0 5 1 2)一3 2一 维普资讯 http:/ 柴毅等:基 于数 据统计分析 的知识发现 栽培技术
7、和管理技术之外,还涉及栽培期的气候情 况、土质情 况、栽种地 区环境条 件、栽 培 方式 等 这些 数据可用 四元组 s来描述。其 中集合 R 为记录数,集合 A 中有 6个元 素,即 6个字段,n =“农 户”n =“土质情况”,n =“气象”,a =“栽种种类”,a =“产量”,n 6=“质量”。例如,V6,=f(r 6,a,)表 示第 6条记录的第 7 个字段(,=1,2,3,4,5,6)。(1)农户信息 N(农户)=;乡镇 名,村 组名,农户 名 ;(2)土质情 况 GI(地理信 息)=O t e a r a l e(地 名)酸碱度,有机质,全氮,全磷,碱解氮,速效磷,速效钾 ;(3)
8、气候情况 wI(气象年型)=正常年,暖年,冷年 ;(4)环境条件和栽培方式 E I=;环境条件(沿江河谷,丘陵平坡,低 山区),栽培方式(地膜,露地,温室,遮荫);(5)栽种作物种类 z(作物)=作物种类:B;B=品种 l 作 钎 种 类 ;(6)生产产量和质量 P(产 量)=P:Z(B)l wI GI,C I l Q(质量)=优,良,合格:z(B)j wl,GI,C I I 这样 就 描述 了 某地 所生 产 的某 个 的 农 产 品 z(B)在土壤状况、气象年型、环境条件和栽培方式 的约束下某农户所获得的产量和质量。对各地区的乡、镇农业生产数据的收集和整理 就可以建成农业统计信息综合数据库
9、,从而为大量 数据中的知识发现提供了条件。2 基于统 计推 断的数据分析 2 1 农 作物生产 数 据 的统计模 型 对于每一个品种 的农作物,在该地区栽培时,由 于土质、栽培技术和操作管理的相似 环境条件和栽 培方式 的一致,其亩产量 c(数据库 中的产量数据集 合)表现为围绕当地基本亩产量 A 波动。用 i 表示 年份,k表示各家各户,则某地第 年某种农作物的 亩产 量 为 c (c C),可表 示 为:c =c ,c ,一,c ,c ,=1 2,一,M 其 中 c 表示 当地第 i 年 农户的某种农作 物的亩产 量。若某农户栽种某个品种 的亩数 为 J,则可 表示 为:c =c 】,c
10、2,c ,c ,=1,2,L 式 中 c 表示第 i 年 k农户第J亩的产量 由于随机因素的影响,使得这种产量 c 的波动 是一个随机值,样本 的取 值遵从一定 的统计 规律。因为,农户 每年 的生 产相 互 独 立,即 c 是 相 互 独 立 的,以 E 表示随机 误差,则:,=A;【1)i=1,2,-,N;k=1 2,-,M;J=1,2 一 L 那 么样 本 C 的分 布 由(】,2,E 3,M)的 分 布 决 定,随机误差 的分布通常满足以下条件:(1)的分 布与 无关,1,2,N,k=1,2,一,M;(2)1,2,E 3,M 相互独立;(3)】,2,E 3,M是 相 同分布 的;(4)
11、的分布属于连续型,且关于 0对称。因为 受大量随机 因素的影响,在正常生产情 况下 它对 产量 的 影 响很 小 根 据 中 心极 限定 理 可 以认 为 服从 正态 分 布,N(0,),因而 c 也 服 从 正态分 布:c N(A )(2)=1,2,一,N;=1,2,M 2 2 特征的求解 对于 同一地 区 同一 品种 的产 量,可 以认 为是 同 一正态总体下的样本 c ,用均值 H 表示基本亩产 量A 对数据库 中的数据集合按时 间顺序排列,进 行有序的组合,使之成为一个 向量,从而可以用线性 代数的方法对它进行处理,则式(1)可写成如下向量 形 式:C=Xu +8 (3)式 中:=q1
12、,q2 ,qL,c ,c 2,c U i:,x:0 O O o 1 L 1 L E:矗1,2,L,1,e 2,e (1)H 的最小二乘估计为,有:j l X u a j l,rai n I:V H =(,“,“)令 Q()一3 3 (4)维普资讯 http:/ 高技 术通 讯2 0 0 1 1 1 :()2(C )+()凼 为:x Ou 丛 :2 x a 于是有:a(鱼 f):一2 Xr C +2 x x a 令 旦 ):0,得 到正 规方程 Xr Cr:x X u 。当 x 满秩 r a n k(X)=时,x x 为非 奇异 方 阵,方 程 有 唯一 解:=(x x)x c (5)XTX X
13、 Cz:由(5)式 可得 M 0 0 M 0 0 1+C:+C l C 1+2+M C l+C 2+C M 1 M l 0 0 0 1 0 (2)由残差 向量 R =C 。计 算!的估计 量:一 L l R l=R o R =()(7)=l J=1 得 的无偏估 计:ll 里 (8)sm 式 中 P=r a n k(x),n 为某 一 品种 生 产 的样 本 总 数 2 3 偏 差数 据的处 理 假设 检验计 算 同一正 态 总体每户 产量 的均 值差 异。假设:一3 4一 H:“=“;一 K:“N 旦2(8)1。J 其 中 t 1 i 和 N 分别 为某一 品种 的某 个 用户 栽 种 的亩
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 统计分析 知识 发现
限制150内