数据预处理实验.docx
《数据预处理实验.docx》由会员分享,可在线阅读,更多相关《数据预处理实验.docx(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、实验报告课程名称: 数据挖掘理论与实践指导教师:向前学号20191106078姓名龚永好上机地点信-506专业电子信息工程班级电信1902班时间2022年5月12日上机内容实验二:数据预处理实验一、实验目的及要求目的:熟悉数据挖掘的过程;进一步学会Python环境搭建,以及Python数据分析工具的使用;学会对数据进行探索分析、预处理;学会数据转换及属性提出。要求:1 .进一步熟悉Python环境搭建的使用。2 .完成对数据的探索分析,包括水流量状况条形图、水量分布箱型图。3 .完成数据预处理,包括属归约、划分类型、确定阈值、构造用水时长和频率属性、筛选洗 浴事件。二、实验设备(环境)及要求1
2、 .硬件要求:CPU在2.0 GHz以上,内存在4G以上,建议8G。2 .软件要求:Widows7系统及以上系统,Anaconda编译环境。三、实验内容(一)Python安装的检查血管理员 C:Windowssystem32cmd.exe - python XMicrosoft Windows 版本 (c) 2020 Microsoft Corporation.保存所有权利。C:UsersAdmini stratorpythonPython 3. 8. 3 (default, Jul 2 2020, 17:30:36) MSC v. 1916 64 bit (AMD64) : Anaconda
3、, Inc. on Win32 lype help , copyright , credits or license for more information.控制台1/A大小值AStopDataFrame(106, 4)Column names:停顿开始编号,停顿结束编 号,停顿时长,停顿归属事件dataDataFrame(18840, 11)Column names:发生时间,开关机状态. .IIlist320 days 00:01:00, 0 days 00:01:15,MhDataFrame(32, 4)Column names :阈值,事件数,斜率,斜率 指标iint1171inpu
4、tfilestr1C:/Users/Administrator/Desktop/ original_data.xlsIvjnoveint6417418lv_nonint64111422V变量管理器File explorer 帮助 Proileur工Python控制台&XX,仇Ldj:ruriTiLekc:/users/AaminisTraTor/uesKTop/snujuwajue-sniyanz/z-5.py当阑值为4分钟的时候事件数目为:172In 16: runfile(C:/Users/Administrator/Desktop/shujuwajue-shiyan2/2-4.py) 计
5、算出的单次用水时长的阈值为:。days 00:04:00In 17: runfile(C:/Users/Administrator/Desktop/shujuwajue-shiyan2/2-5.py) 用水事件用水时长与频率特征构造M成后额据的特征为:Index(U事件序号、,事件起始编号3 事件终止编号,事件开始时间I,事件结束时间,,洗浴时间 点3 ,总用水时长3,总停顿时长I ,停顿次数3 ,平均停顿时长3 ,用水时长3 ,用水/总时长dtype=*obect1)用水事件用水时长与频率特征构造完成后数据的前5行5列特征为:事件序号.事件结束时间012014-10-1907:01:56.5
6、00122014-10-1907:38:16.500232014-10-1909:47:15.500342014-10-1911:50:17.500452014-10-1913:56:21.5005 rows x 5 columnsIn 18: data - DataFrameIndex发生时目开关机状态加热中耳G二热水量水流量加嘲余时间当前设置温度停匿束时间停翎始时闻02014-10-19 06:39:17关关关300%0给钟50NaTNaT12014-10-1907:01:54关关关3060吩钟502014-10-1997:01:54,500-NaT22014-10-19 07:01:56
7、关关关300%8盼钟50NaTNaT32014-10-1907:12:30关关关300%0的钟50NaT2014-10-1907:12:29.50042014-10-1907:12:36关关关290S0扬钟50NaTNaT52014-10-1907:16:02关关关300%0防钟50 NaTNaT62014-10-19 07:16:08关关关290%0给钟50NaTNaT72014-10-19 07:20:05关关关30居0硼钟50 NaTNaT82014-10-1907:20:10关关关290%0的钟50 NaTNaT92014-10-1907:21:53关关关300%0粉钟50 NaTNa
8、T102014-10-1907:21:59关关关290%0物钟50 NaTNaT112014-10-1907:22:17关关关300%0明钟50 NaTNaT122014-10-1907:22:19关关关290%0明钟50NaTNaT132014-10-1907:22:26关关关29eC队0吩钟50NaTNaT142014-10-19 07:23:54关关关300%0吩钟50NaTNaT152014-10-19 07:24:00关关关290%0的钟50NaTNaT162014-10-19 07:27:57关关关300%0的钟50NaTNaT172014-10-1907:28:03关关关290%
9、0防钟50NaTNaT182014-10-19 07:28:27关关关300%0的钟50NaTNaT192014-10-19 07:28:33关关关29居0吩钟50 NaTNaT202014-10-19 07:30:10关关关300%0的钟50 NaTNaT212014-10-1907:30:16关关关290%0硼钟50 NaTNaT222014-10-1907:30:46关关关300%0粉钟50 NaTNaT232014-10-1907:30:52关关关290%0给钟50NaTNaT242014-10-1907:31:16关关关30队0明钟50NaTNaT252014-10-19 07:31
10、:23关关关298C队0咐钟50NaTNaT262014-10-19 07:31:29关关关30eC0%0的钟50NaTNaT272014-10-19 07:31:35关关关29OS0的钟50NaTNaT282014-10-1907:32:07关关关300%0防钟50NaTNaT292014-10-19 07:32:13关关美300%0财钟50NaTNaT302014-10-19 07:32:25关关关29段0的钟50 NaTNaTH Stop - DataFrameIndex停顿时长停顿归息事件2384384136453454116966766718ie7647658281310631064
11、5410161143114311219134713471142813501350114211353135311422135613561142313681368114241371137111425137713771142613881388114271424142411432157815781183315821582118361713171454204121662166124422172217212443217421741244421822182124462254225518325472283228917125482296229612552246524651282-6代码(构建用水量和用水波动属性
12、)170171 172 2-6173174 data水流量=data“水流量/ 66 #175 sj ”总用水量”=6 #给总用水量赋一个初始4龈176 for177178179180181182183184185186187188i in range(len(sj):Start = sj.loci,”事件起始编号-1End = sj.loci,事件终止编号-1 if Start != End:for j in range(Start,End): if data.locj,“水淆量!= 0:sj.loci,总用水量”=(data.locj + 1,发生时间- data.loc j,发生时间).
13、seconds* data.loc j水流量+ sj 总用水量sj.loci,总用水量=sj.loci,总用水量+ dgta.locEnd,水流量* 2else:sj.loci,总用水量=data.locStart, * 2189 sj 平均水流量”】=sj总用水量1/ sj用水时长”#定:190#构造特征:水流量波动191 #水流量豉融(单次水流的值-平均水流量)八2)*持蟆时间)/用水时长192 sj水淡量波动”=。H给水流量波汾赋一个初始值e193 for194195196197198199200201202 203# 204#i in range(len(sj):Start = sj.
14、loci,事件起始编号-1End = sj.loci,事件终止编号-1for j in range (Start, End + 1):if data.locj,水流量!= 0:slbd = (data.locj,水流量”-sj .loc i,”平均水流量)*2slsj = (data.loc j + 1,发生时间-data.loc j发生时间).seconds sj .loc i,水注量波动”=slbd * slsj + sj .loc i,水流量波动sj.loci,水流量波动=水流量波动/ sj.loci,“用水时长构造特征:停顿时长波动停顿时长波弗*(单次停顿时长-平均停顿时长)入2)“持
15、续时闻)/总停顿时长295 sj ”停幡时长波动=0 #给停顿时长波动赋一个初始做206 for2072082092102112121 in range(len(sj):if sj.loci,”停顿次数” 1:说建为6做时,停顿时长波动值为8,故排除for j in Stop.locStop停顿归属事件=(i+1)停顿时长.values:停顿时长波动=(j - sj.loci,”平均停顿时长)*2) * j + sj停顿时长波动sj.loci,停顿时长波动=sj.loci,“停顿时长波动/ sj.loci,总停顿时长” 213 print(,用水量和波动特征构造完成后数据的特征为:n ,sj
16、.columns)214 print(,用水量和波动特征构造完成后数据的前5行5列特征为:n ,sj .iloc :5, :5)2-6运行结果品大小值Endint64118800Startint64118800StopDataFrame(106, 4)Column names:停顿开始编号,停顿结束编号,停顿时长, 停顿归属事件dataDataFrame(18840, 11)Column names:发生时间,开关机状态,加热中,保温中dtlist320 days 00:01:00, 0 days 00:01:15, 0 days 00:01:30, 0 days 00:01:45, 0 .h
17、DataFrame(32, 4)Column names:阈值,事件数,斜率,斜率指标iint1171变里管理器File explorer 帮助工Python控制台(5 x0 12 34123452014-10-192014-10-192014-10-192014-10-192014-10-1907:01:56.50007:38:16.50009:47:15.50011:50:17.50013:56:21.500dtype=object)用水事件用水时长与频率特征构造完成后数据的前5行5列特征为:事件序号 事件结束时间012014-10-1907:01:56.500122014-10-1907
18、:38:16.500232014-10-1909:47:15.500342014-10-1911:50:17.500452014-10-1913:56:21.5005 rows x 5 columns用水里和波动特征构造完成后数据的特征为:lndex( 事件序号,事件起始编号,,事件终止编号I ,事件开始时间L ,事件结束时间3 ,洗浴时间点3 ,总用水时 长,总停顿时长I ,停顿次数,1平均停顿时长,用水时长,1用水/总时长I ,总用水里I 平均水流里,水 流里波动,僖顿时长波动dtype=*object)用水里和波动特征构造完成后数据的前5行5列特征为:事件序号.事件结束时间5 rows
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 预处理 实验
限制150内