2023年数据分析与挖掘实验报告.pdf
《2023年数据分析与挖掘实验报告.pdf》由会员分享,可在线阅读,更多相关《2023年数据分析与挖掘实验报告.pdf(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 数 据 挖 掘 实 验 报 告 目 录 1.关 联 规 则 的 基 本 概 念 和 方 法.错 误!未 定 义 书 签。1.1数 据 挖 掘。错 误!未 定 义 书 签。1.1.1 数 据 挖 掘 的 概 念。错 误!未 定 义 书 签。1.1.2 数 据 挖 掘 的 方 法 与 技 术.错 误!未 定 义 书 签。1.2关 联 规 则.错 误!未 定 义 书 签。1.2.1 关 联 规 则 的 概 念.错 误!未 定 义 书 签。1.2.2 关 联 规 则 的 实 现 Apr i o r i算 法 错 误!未 定 义 书 签。2.用 M a t la b实 现 关 联 规 则。错 误!未
2、定 义 书 签。2.IM a tla b概 述.错 误!未 定 义 书 签。2.2 基 于 M a t la b 的 A p r i o r i算 法.错 误!未 定 义 书 签。3.用 ja v a实 现 关 联 规 则.错 误!未 定 义 书 签。3.1 ja v a 界 面 描 述。错 误!未 定 义 书 签。3.2J a v a 关 键 代 码 描 述。错 误!未 定 义 书 签。4、实 验 总 结.错 误!未 定 义 书 签。4.1实 验 的 局 限 性 和 改 善.错 误!未 定 义 书 签。4.2 实 验 心 得.错 误!未 定 义 书 签。1.关 联 规 则 的 基 本 概 念
3、 和 方 法 1.1 数 据 挖 掘 1.1.1数 据 挖 掘 的 概 念 计 算 机 技 术 和 通 信 技 术 的 迅 猛 发 展 将 人 类 社 会 带 入 到 了 信 息 时 代。在 最 近 十 几 年 里,数 据 库 中 存 储 的 数 据 急 剧 增 大。数 据 挖 掘 就 是 信 息 技 术 自 然 进 化 的 结 果。数 据 挖 掘 可 以 从 大 量 的、不 完 全 的、有 噪 声 的、模 糊 的、随 机 的 实 际 应 用 数 据 中,提 取 隐 含 在 其 中 的,人 们 事 先 不 知 道 的 但 又 是 潜 在 有 用 的 信 息 和 知 识 的 过 程。许 多 人
4、将 数 据 挖 掘 视 为 另 一 个 流 行 词 汇 数 据 中 的 知 识 发 现(KDD)的 同 义 词,而 另 一 些 人 只 是 把 数 据 挖 掘 视 为 知 识 发 现 过 程 的 一 个 基 本 环 节。知 识 发 现 过 程 如 下:数 据 清 理(消 除 噪 声 和 删 除 不 一 致 的 数 据)数 据 集 成(多 种 数 据 源 可 以 组 合 在 一 起)数 据 转 换(从 数 据 库 中 提 取 和 分 析 任 务 相 关 的 数 据)数 据 变 换(从 汇 总 或 聚 集 操 作,把 数 据 变 换 和 统 一 成 适 合 挖 掘 的 形 式)数 据 挖 掘(基
5、本 环 节,使 用 智 能 方 法 提 取 数 据 模 式)模 式 评 估(根 据 某 种 爱 好 度 度 量,辨 认 代 表 知 识 的 真 正 有 趣 的 模 式)知 识 表 达(使 用 可 视 化 和 知 识 表 达 技 术,向 用 户 提 供 挖 掘 的 知 识)。1.1.2 数 据 挖 掘 的 方 法 与 技 术 数 据 挖 掘 吸 纳 了 诸 如 数 据 库 和 数 据 仓 库 技 术、记 录 学、机 器 学 习、高 性 能 计 算、模 式 辨 认、神 经 网 络、数 据 可 视 化、信 息 检 索、图 像 和 信 号 解 决 以 及 空 间 数 据 分 析 技 术 的 集 成 等
6、 许 多 应 用 领 域 的 大 量 技 术。数 据 挖 掘 重 要 涉 及 以 下 方 法。神 经 网 络 方 法:神 经 网 络 由 于 自 身 良 好 的 鲁 棒 性、自 组 织 自 适 应 性、并 行 解 决、分 布 存 储 和 高 度 容 错 等 特 性 非 常 适 合 解 决 数 据 挖 掘 的 问 题,因 此 近 年 来 越 来 越 受 到 人 们 的 关 注。典 型 的 神 经 网 络 模 型 重 要 分 3大 类:以 感 知 机、bp反 向 传 播 模 型、函 数 型 网 络 为 代 表 的,用 于分 类、预 测 和 模 式 辨 认 的 前 馈 式 神 经 网 络 模 型;以
7、 hopf i el d 的 离 散 模 型 和 连 续 模 型 为 代 表 的,分 别 用 于 联 想 记 忆 和 优 化 计 算 的 反 馈 式 神 经 网 络 模 型;以 a r t模 型、k。h。1 o n模 型 为 代 表 的,用 于 聚 类 的 自 组 织 映 射 方 法。神 经 网 络 方 法 的 缺 陷 是“黑 箱 性,人 们 难 以 理 解 网 络 的 学 习 和 决 策 过 程。避 传 算 法.,遗 传 算 法 是 一 种 基 于 生 物 自 然 选 择 与 遗 传 机 理 的 随 机 搜 索 算 法,是 一 种 仿 生 全 局 优 化 方 法。遗 传 算 法 具 有 的
8、隐 含 并 行 性、易 于 和 其 它 模 型 结 合 等 性 质 使 得 它 在 数 据 挖 掘 中 被 加 以 应 用。s u n i l已 成 功 地 开 发 了 一 个 基 于 遗 传 算 法 的 数 据 挖 掘 工 具,运 用 该 工 具 对 两 个 飞 机 失 事 的 真 实 数 据 库 进 行 了 数 据 挖 掘 实 验,结 果 表 白 遗 传 算 法 是 进 行 数 据 挖 掘 的 有 效 方 法 之 一。遗 传 算 法 的 应 用 还 体 现 在 与 神 经 网 络、粗 糙 集 等 技 术 的 结 合 上。如 运 用 遗 传 算 法 优 化 神 经 网 络 结 构,在 不 增
9、 长 错 误 率 的 前 提 下,删 除 多 余 的 连 接 和 隐 层 单 元;用 遗 传 算 法 和 bp算 法 结 合 训 练 神 经 网 络,然 后 从 网 络 提 取 规 则 等。但 遗 传 算 法 的 算 法 较 复 杂,收 敛 于 局 部 极 小 的 较 早 收 敛 问 题 尚 未 解 决。决 第 湖 协 法.决 策 树 是 一 种 常 用 于 预 测 模 型 的 算 法,它 通 过 将 大 量 数 据 有 目 的 分 类,从 中 找 到 一 些 有 价 值 的,潜 在 的 信 息。它 的 重 要 优 点 是 描 述 简 朴,分 类 速 度 快,特 别 适 合 大 规 模 的 数
10、 据 解 决。粗 糙 集 方 法:粗 糙 集 理 论 是 一 种 研 究 不 精 确、不 拟 定 知 识 的 数 学 工 具。粗 糙 集 方 法 有 几 个 优 点:不 需 要 给 出 额 外 信 息;简 化 输 入 信 息 的 表 达 空 间;算 法 简 朴,易 于 操 作。粗 糙 集 解 决 的 对 象 是 类 似 二 维 关 系 表 的 信 息 表。目 前 成 熟 的 关 系 数 据 库 管 理 系 统 和 新 发 展 起 来 的 数 据 仓 库 管 理 系 统,为 粗 糙 集 的 数 据 挖 掘 奠 定 了 坚 实 的 基 础。但 粗 糙 集 的 数 学 基 础 是 集 合 论,难 以
11、 直 接 解 决 连 续 的 属 性。而 现 实 信 息 表 中 连 续 属 性 是 普 遍 存 在 的。因 此 连 续 属 性 的 离 散 化 是 制 约 粗 糙 集 理 论 实 用 化 的 难 点。覆 箴 正 以 排 斥 反 例 方 宏.它 是 运 用 覆 盖 所 有 正 例、排 斥 所 有 反 例 的 思 想 来 寻 找 规 则。一 方 面 在 正 例 集 合 中 任 选 一 个 种 子,到 反 例 集 合 中 逐 个 比 较。与 字 段 取 值 构 成 的 选 择 子 相 容 则 舍 去,相 反 则 保 存。按 此 思 想 循 环 所 有 正 例 种 子,将 得 到 正 例 的 规 则
12、(选 择 子 的 合 取 式)。比 较 典 型 的 算 法 有 m i c h a l s k i 的 a q 11方 法、洪 家 荣 改 善 的 a q l5方 法 以 及 他 的 ae 5 方 法。记 录 分 析 方 法:在 数 据 库 字 段 项 之 间 存 在 两 种 关 系:函 数 关 系(能 用 函 数 公 式 表 达 的 拟 定性 关 系)和 相 关 关 系(不 能 用 函 数 公 式 表 达,但 仍 是 相 关 拟 定 性 关 系),对 它 们 的 分 析 可 采 用 记 录 学 方 法,即 运 用 记 录 学 原 理 对 数 据 库 中 的 信 息 进 行 分 析。可 进 行
13、 常 用 记 录(求 大 量 数 据 中 的 最 大 值、最 小 值、总 和、平 均 值 等)、回 归 分 析(用 回 归 方 程 来 表 达 变 量 间 的 数 量 关 系)、相 关 分 析(用 相 关 系 数 来 度 量 变 量 间 的 相 关 限 度)、差 异 分 析(从 样 本 记 录 量 的 值 得 出 差 异 来 拟 定 总 体 参 数 之 间 是 否 存 在 差 异)等。模 糊 集 方 法.即 运 用 模 糊 集 合 理 论 对 实 际 问 题 进 行 模 糊 评 判、模 糊 决 策、模 糊 模 式 辨 认 和 模 糊 聚 类 分 析。系 统 的 复 杂 性 越 高,模 糊 性
14、越 强,一 般 模 糊 集 合 理 论 是 用 从 属 度 来 刻 画 模 糊 事 物 的 亦 此 亦 彼 性 的。李 德 毅 等 人 在 传 统 模 糊 理 论 和 概 率 记 录 的 基 础 上,提 出 了 定 性 定 量 不 拟 定 性 转 换 模 型 一 云 模 型,并 形 成 了 云 理 论。尚 有 接 下 来 重 点 介 绍 的 关 株 规 殿 方 法。1.2关 联 规 则 1 2 1关 联 规 则 的 概 念 关 联 规 则 的 一 个 典 型 例 子 是 购 物 篮 分 析。它 是 由 著 名 的 全 国 五 百 强 沃 尔 玛 发 现 的,沃 尔 玛 有 着 世 界 最 大
15、的 数 据 仓 库 系 统,为 了 可 以 准 确 了 解 顾 客 在 其 门 店 的 购 买 习 惯,沃 尔 玛 对 其 顾 客 的 购 物 行 为 进 行 购 物 篮 分 析,想 知 道 顾 客 经 常 一 起 购 买 的 商 品 有 哪 些。沃 尔 玛 数 据 仓 库 里 集 中 了 其 各 门 店 的 具 体 原 始 交 易 数 据。在 这 些 原 始 交 易 数 据 的 基 础 上,沃 尔 玛 运 用 数 据 挖 掘 方 法 对 这 些 数 据 进 行 分 析 和 挖 掘。一 个 意 外 的 发 现 是:跟 尿 布 一 起 购 买 最 多 的 商 品 竟 是 啤 酒!通 过 大 量
16、实 际 调 查 和 分 析,揭 示 了 一 个 隐 藏 在“尿 布 与 啤 酒”背 后 的 美 国 人 的 一 种 行 为 模 式:在 美 国,一 些 年 轻 的 父 亲 下 班 后 经 常 要 到 超 市 去 买 婴 儿 尿 布,而 他 们 中 有 3 0%40%的 人 同 时 也 为 自 己 买 一 些 啤 酒。产 生 这 一 现 象 的 因 素 是:美 国 的 太 太 们 常 叮 嘱 她 们 的 丈 夫 下 班 后 为 小 孩 买 尿 布,而 丈 夫 们 在 买 尿 布 后 又 随 手 带 回 了 他 们 喜 欢 的 啤 酒。关 联 规 则 由 此 进 入 人 们 的 视 野。关 联 规
17、 则 挖 掘 被 定 义 为 假 设 I 是 项 的 集 合。给 定 一 个 交 易 数 据 库 D,其 中 每 个 事 务(Tra nsaction)t 是 I 的 非 空 子 集,即 每 一 个 交 易 都 与 一 个 唯 一 的 标 记 符 T ID(T r ansa c tio n ID)相 应。关 联 规 则 在 D 中 的 支 持 度(s u p p o r t)是 D 中 事 务 同 时 包 含 X、丫 的 比 例,即 概 率;置 信 度(c o n f i d e n c e)是 包 含 X 的 事 务 中 同 时 又 包 含 丫 的 比 例,即 条 件 概 率。下 面 举 个
18、 例 子 来 更 好 地 说 明 关 联 规 则。给 定 A ll E le c tro n ic s关 系 数 据 库,一 个 数 据 挖 掘 系 统 也 许 发 现 如 下 形 式 的 关 联 规 则 A ge(X,“2 0.2 9”)Aincom e(X,2 0,0 00.29,0 0 0 w)?=buys(X,“C D-P 1 aye r”)Suppor t=2 0%,Co n f i d e n t=6 0%其 中 X是 变 量,代 表 顾 客,该 关 联 规 则 表 达 所 研 究 的 Al 1 Ele c tronics数 据 库 中,顾 客 有 2 0%在 20-29岁,年 收
19、 入 在 20,000-29,00 0 之 间,并 且 购 买 C D机;这 个 年 龄 和 收 入 组 的 顾 客 购 买 C D机 的 也 许 性 有 60%。1.2.2关 联 规 则 的 实 现-Apr i o r i算 法 1.2.2.1算 法 描 述 A priori算 法 在 发 现 关 联 规 则 领 域 具 有 很 大 影 响 力。算 法 命 名 源 于 算 法 使 用 了 频 繁 项 集 性 质 的 先 验(P r i o r)知 识。在 具 体 实 验 时,A p rio ri算 法 将 发 现 关 联 规 则 的 过 程 分 为 两 个 环 节:第 一 步 通 过 迭 代
20、,检 索 出 事 务 数 据 库 中 的 所 有 频 繁 项 集,即 支 持 度 不 低 于 用 户 设 定 的 阈 值 的 项 集;第 二 步 运 用 频 繁 项 集 构 造 出 满 足 用 户 最 小 信 任 度 的 规 则。其 中,挖 掘 或 辨 认 出 所 有 频 繁 项 集 是 该 算 法 的 核 心,占 整 个 计 算 量 的 大 部 分。Ap r i or i 算 法 使 用 一 种 称 作 逐 层 搜 索 的 迭 代 方 法,K 项 集 用 于 搜 索(K+1)项 集。一 方 面,通 过 扫 描 数 据 库,累 积 每 个 项 的 计 数,并 收 集 满 足 最 小 支 持 度
21、 的 项,找 出 频 繁 1项 集 的 集 合。该 集 合 记 作 L 1。然 后,L 1用 于 寻 找 频 繁 2 项 集 的 集 合 L 2,L 2用 于 寻 找 L 3,如 此 下 去,直 到 不 能 再 找 到 频 繁 K 项 集。为 提 高 频 繁 项 集 逐 层 产 生 的 效 率,一 种 称 作 A p r i o ri的 重 要 性 质 用 于 压 缩 搜 索 空 间。Ap r io!i 性 质:频 繁 项 集 的 所 有 非 空 子 集 也 必 须 是 频 繁 的。如 何 在 算 法 中 使 用 A p ri。r i 性 质?重 要 有 两 步 过 程 组 成:连 接 步 和
22、 剪 枝 步。(1)连 接 步:为 找 LK,通 过 将 L(i)与 自 身 连 接 产 生 候 选 K 项 集 的 集 合。该 候 选 项 集 合 记 作 CKo 设 11和 12是 Lk”中 的 项 集。记 号 1而 表 达 h 中 的 第 j 项。执 行 L(k-i)连 接 Lg),假 如 它 们 的 前(K 2)项 相 同 的 话,其 中 L(kr)的 元 素 是 可 连 接 的。(2)剪 枝 步:为 压 缩 C K,可 以 用 A p r iori的 性 质:任 何 非 频 繁 的(K-1)项 集 都 不 是 频 繁 K 项 集 的 子 集。因 此,假 如 候 选 K 项 集 的(K
23、1)项 子 集 不 在 L g)中 厕 该 候 选 也 不 也 许 是 频 繁 的,从 而 可 以 从 C K 中 删 除。1.2.2.1算 法 举 例 A p ri o r i 算 法 的 伪 代 码 Input:DB,mi n _su pOut p ut:resu It=所 有 频 繁 项 集 的 他 们 的 支 持 度 方 法:Result:=;K:=l;G:=所 有 的 1-项 集 W h i I e(Ck)dob e g i n为 每 一 个 Ck中 的 项 集 生 成 一 个 计 数 器;For(i=1;iDB;i+)beg i n对 第 i个 记 录 T 支 持 的 每 一 个
24、Ck中 的 项 集,其 计 数 器 加 1;en dLk:=Ck中 满 足 大 于 mins u p 的 全 体 项 集;Lk支 持 度 保 存;Result:=R e s u ItIL KCk+i:=所 有 的(k+1)-项 集 中 满 足 其 k-子 集 都 在 Lx里 的 全 体;k=k+l;end d o下 面 举 个 例 子 来 说 明 Ap r i o r i算 法。设 某 个 数 据 库 中 有 9 个 事 务。即|D|二 9。使 用 图 1.2解 释 A p rio ri算 法 发 现 D 中 的 频 繁 项 集。表 1.1某 超 市 的 销 售 项 目 的 事 务 记 录 T
25、ID ItemsT100 11/2/3T200 I2J4T300 I2J3T400 I1J2J4T500 I1J3T600 I2J3T700 I1J3T800 I1J2J3J5T900 11/2/3(1)在 算 法 的 第 一 次 迭 代 时,每 个 项 都 是 候 选 1项 集 的 集 合 C i的 成 员。算 法 简 朴 地 扫 描 所 有 的 事 务,对 每 个 项 的 出 现 次 数 计 数。(2)假 设 最 小 支 持 度 计 数 为 2,即,m i n _ s u p=2 o可 以 肯 定 频 繁 1项 集 的 集 合 L i。(3)为 了 发 现 频 繁 2 项 集 的 集 合
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 数据 分析 挖掘 实验 报告
限制150内