机器学习实验报告(共11页).docx

资源ID：14486737 资源大小：727.70KB 全文页数：11页
资源格式： DOCX 下载积分：20金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要20金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

机器学习实验报告(共11页).docx

精选优质文档-倾情为你奉上 1一月二月三月产品名称数量金额利润产品名称数量金额利润产品名称数量金额利润合计合计合计四月五月六月产品名称数量金额利润产品名称数量金额利润产品名称数量金额利润合计合计合计1. 问题描述：用逻辑回归根据学生的考试成绩来判断学生是否可以入学，因此，需要根据trainging set 训练出一个classification model。然后，拿着这个classification model来评估新学生能否入学。训练数据的成绩样例如下：第一列表示第一次考试成绩，第二列表示第二次考试成绩，第三列表示入学结果（0-不能入学，1-可以入学）。2. 内容：逻辑回归根据学生的考试成绩来判断学生是否可以入学，训练数据图形表示如下：橫坐标是第一次考试的成绩，纵坐标是第二次考试的成绩，右上角的 + 表示允许入学，圆圈表示不允许入学。该训练数据的图形可以通过Matlab plotData函数画出来,它调用Matlab中的plot函数和find函数，图形画出来之后，对训练数据就有了一个大体的可视化的认识了。接下来就要实现模型了，这里需要训练一个逻辑回归模型。对于 logistic regression而言，它针对的是 classification problem。这里只讨论二分类问题，比如上面的“根据成绩入学”，结果只有两种：y=0时，成绩未合格，不予入学；y=1时，可入学。即，y的输出要么是0，要么是1，而如果引入了sigmoid function，就可以把假设函数的值域“约束”在0, 1之间。总之，引入sigmoid function，就能够更好的拟合分类问题中的数据，即从这个角度看：regression model 比 linear model 更合适 classification problem.3. 知识：（1）逻辑回归 Logistic regression （逻辑回归）是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。之前在经典之作数学之美中也看到了它用于广告预测，也就是根据某广告被用户点击的可能性，把最可能被用户点击的广告摆在用户能看到的地方，然后叫他“你点我啊！”用户点了，你就有钱收了。这就是为什么我们的电脑现在广告泛滥的原因了。还有类似的某用户购买某商品的可能性，某病人患有某种疾病的可能性啊等等。这个世界是随机的（当然了，人为的确定性系统除外，但也有可能有噪声或产生错误的结果，只是这个错误发生的可能性太小了，小到千万年不遇，小到忽略不计而已），所以万物的发生都可以用可能性或者几率（Odds）来表达。“几率”指的是某事物发生的可能性与不发生的可能性的比值。Logistic regression可以用来回归，也可以用来分类，主要是二分类。还记得上几节讲的支持向量机SVM吗？它就是个二分类的例如，它可以将两个不同类别的样本给分开，思想是找到最能区分它们的那个分类超平面。但当你给一个新的样本给它，它能够给你的只有一个答案，你这个样本是正类还是负类。例如你问SVM，某个女生是否喜欢你，它只会回答你喜欢或者不喜欢。这对我们来说，显得太粗鲁了，要不希望，要不绝望，这都不利于身心健康。那如果它可以告诉我，她很喜欢、有一点喜欢、不怎么喜欢或者一点都不喜欢，你想都不用想了等等，告诉你她有49%的几率喜欢你，总比直接说她不喜欢你，来得温柔。而且还提供了额外的信息，她来到你的身边你有多少希望，你得再努力多少倍，知己知彼百战百胜，哈哈。Logistic regression就是这么温柔的，它给我们提供的就是你的这个样本属于正类的可能性是多少。还得来点数学。（假设我们的样本是x, y，y是0或者1，表示正类或者负类，x是我们的m维的样本特征向量。那么这个样本x属于正类，也就是y=1的“概率”可以通过下面的逻辑函数来表示：这里是模型参数，也就是回归系数，是sigmoid函数。实际上这个函数是由下面的对数几率（也就是x属于正类的可能性和负类的可能性的比值的对数）变换得到的：所以说上面的logistic回归就是一个线性分类模型，它与线性回归的不同点在于：为了将线性回归输出的很大范围的数，例如从负无穷到正无穷，压缩到0和1之间，这样的输出值表达为“可能性”才能说服广大民众。当然了，把大值压缩到这个范围还有个很好的好处，就是可以消除特别冒尖的变量的影响（不知道理解的是否正确）。而实现这个伟大的功能其实就只需要平凡一举，也就是在输出加一个logistic函数。另外，对于二分类来说，可以简单的认为：如果样本x属于正类的概率大于0.5，那么就判定它是正类，否则就是负类。实际上，SVM的类概率就是样本到边界的距离，这个活实际上就让logistic regression给干了。（2）模型的代价函数(cost function)把训练好的模型对新数据进行预测，那预测结果有好有坏。因此，就用cost function 来衡量预测的"准确性"。cost function越小，表示测的越准。这里的代价函数的本质是”最小二乘法“-ordinary least squares代价函数的最原始的定义是下面的这个公式：可见，它是关于 theta 的函数。(X，y 是已知的，由training set 中的数据确定了)那如何求解 cost function的参数 theta，从而确定J(theta)呢？有两种方法：一种是梯度下降算法(Gradient descent)，另一种是正规方程(Normal Equation)，本文只讨论Gradient descent。而梯度下降算法，本质上是求导数(偏导数)，或者说是：方向导数。方向导数所代表的方向-梯度方向，下降得最快。而我们知道，对于某些图形所代表的函数，它可能有很多个导数为0的点，这类函数称为非凸函数(non-convex function)；而某些函数，它只有一个全局唯一的导数为0的点，称为 convex function可以看出，引入log 函数（对数函数），让non-convex function 变成了 convex function再精简一下cost function，其实它可以表示成：4. 环境：win10,matlab5. 步骤：（1）加载数据（2）引入sigmoid （3）调用costfunction.m文件中定义的coustFunction函数，从而运行梯度下降算法找到使代价函数J(theta)最小化的逻辑回归模型参数theta。（4）逻辑回归的正则化6. 结果：7. 程序：costFunctionReg.m function plotData(X, y)pos = find(y=1);neg = find(y=0);plot(X(pos, 1), X(pos, 2), 'k+', 'LineWidth', 2, 'MarkerSize', 7);plot(X(neg, 1), X(neg, 2), 'ko', 'MarkerFaceColor', 'y', 'MarkerSize', 7);% hold off;Enddata = load('ex2data1.txt'); X = data(:, 1, 2); y = data(:, 3);plotData(X, y);% Put some labels hold on;% Labels and Legendxlabel('Exam 1 score') %标记图形的 X 轴ylabel('Exam 2 score') %标记图形的 Y 轴% Specified in plot orderlegend('Admitted', 'Not admitted') %图形的右上角标签hold off;function g = sigmoid(z)%SIGMOID Compute sigmoid functoonEndplotData.mfunction plotData(X, y) figure; hold on; pos = find(y=1);neg = find(y=0);plot(X(pos, 1), X(pos, 2), 'k+', 'LineWidth', 2, 'MarkerSize', 7);plot(X(neg, 1), X(neg, 2), 'ko', 'MarkerFaceColor', 'y', 'MarkerSize', 7); hold off;enddata = load('ex2data1.txt'); X = data(:, 1, 2); y = data(:, 3);plotData(X, y);function g = sigmoid(z)g = zeros(size(z);g = 1./(ones(size(z) + exp(-z); % 点除表示 endhold on;xlabel('Exam 1 score') %标记图形的 X 轴ylabel('Exam 2 score') %标记图形的 Y 轴legend('Admitted', 'Not admitted') hold off;function J, grad = costFunction(theta, X, y)m = length(y); % number of training examplesJ = 0;grad = zeros(size(theta);J = ( log( sigmoid(theta'*X') ) * y + log( 1-sigmoid(theta'*X') ) * (1 - y) )/(-m);% theta = theta - (alpha/m)*X'*(X*theta-y);grad = ( X' * ( sigmoid(X*theta)-y ) )/m;endoptions = optimset('GradObj', 'on', 'MaxIter', 400); theta, cost = . fminunc(t)(costFunction(t, X, y), initial_theta, options);prob = sigmoid(1 45 85 * theta); %这是一组测试数据，第一次考试成绩为45，第二次成绩为85fprintf('For a student with scores 45 and 85, we predict an admission ' . 'probability of %fnn', prob);% Compute accuracy on our training setp = predict(theta, X);% 调用predict函数测试模型fprintf('Train Accuracy: %fn', mean(double(p = y) * 100);fprintf('nProgram paused. Press enter to continue.n');pause;For a student with scores 45 and 85, we predict an admission probability of 0.Train Accuracy: 89.Costfunction.mfunction J, grad = costFunction(theta, X, y)%COSTFUNCTION Compute cost and gradient for logistic regression% J = COSTFUNCTION(theta, X, y) computes the cost of using theta as the% parameter for logistic regression and the gradient of the cost% w.r.t. to the parameters.% Initialize some useful valuesm = length(y); % number of training examples% You need to return the following variables correctly J = 0;grad = zeros(size(theta);% Instructions: Compute the cost of a particular choice of theta.%J = (log(theta'*X')*y + (1-y)*log(1-theta'*X')/(-m);%attention matlab's usageJ = ( log( sigmoid(theta'*X') ) * y + log( 1-sigmoid(theta'*X') ) * (1 - y) )/(-m);% theta = theta - (alpha/m)*X'*(X*theta-y);grad = ( X' * ( sigmoid(X*theta)-y ) )/m;% In this exercise, you will use a built-in function (fminunc) to find the% optimal parameters theta.% Set options for fminuncoptions = optimset('GradObj', 'on', 'MaxIter', 400);% Run fminunc to obtain the optimal theta% This function will return theta and the cost theta, cost = .fminunc(t)(costFunction(t, X, y), initial_theta, options);% After learning the parameters, you'll like to use it to predict the outcomes% on unseen data. In this part, you will use the logistic regression modelprob = sigmoid(1 45 85 * theta); %这是一组测试数据，第一次考试成绩为45，第二次成绩为85fprintf('For a student with scores 45 and 85, we predict an admission ' . 'probability of %fnn', prob);p = predict(theta, X);% 调用predict函数测试模型fprintf('Train Accuracy: %fn', mean(double(p = y) * 100);fprintf('nProgram paused. Press enter to continue.n');pause;For a student with scores 45 and 85, we predict an admission probability of 0.Train Accuracy: 89.Predict.mfunction p = predict(theta, X)m = size(X, 1); % Number of training examplesp = zeros(m, 1);p = X*theta >= 0;EndcostFunctionReg.mfunction J, grad = costFunctionReg(theta, X, y, lambda)m = length(y); % number of training examplesJ = 0;grad = zeros(size(theta);J = ( log( sigmoid(theta'*X') ) * y + log( 1-sigmoid(theta'*X') ) * (1 - y) )/(-m) + (lambda / (2*m) * ( ( theta( 2:length(theta) ) )' * theta(2:length(theta) );%grad = ( X' * ( sigmoid(X*theta)-y ) )/m;grad = ( X' * ( sigmoid(X*theta)-y ) )/m + ( lambda / m ) * ( 0; ones( length(theta) - 1 , 1 ).*theta );Endinitial_theta = zeros(size(X, 2), 1);plotDecisionBoundary(theta, X, y);hold on;title(sprintf('lambda = %g', lambda)xlabel('Microchip Test 1')ylabel('Microchip Test 2')legend('y = 1', 'y = 0', 'Decision boundary')hold off;p = predict(theta, X);fprintf('Train Accuracy: %fn', mean(double(p = y) * 100);8. 总结：该程序是对logistic regression的总结。对logistic regression 各个知识点和代码、实现原理作了详细的解释。由于自己理解的还不透彻，有些知识点没有掌握到，通过老师和同学的帮助，让我从中学习到很多，也使我这次作业能够顺利完成。下午13：0017：00B实行不定时工作制的员工，在保证完成甲方工作任务情况下，经公司同意,可自行安排工作和休息时间。312打卡制度3.1.2.1公司实行上、下班指纹录入打卡制度。全体员工都必须自觉遵守工作时间，实行不定时工作制的员工不必打卡。3.1.2.2打卡次数：一日两次，即早上上班打卡一次，下午下班打卡一次。3.1.2.3打卡时间：打卡时间为上班到岗时间和下班离岗时间； 3.1.2.4因公外出不能打卡：因公外出不能打卡应填写外勤登记表,注明外出日期、事由、外勤起止时间。因公外出需事先申请，如因特殊情况不能事先申请，应在事毕到岗当日完成申请、审批手续，否则按旷工处理。因停电、卡钟（工卡）故障未打卡的员工，上班前、下班后要及时到部门考勤员处填写未打卡补签申请表，由直接主管签字证明当日的出勤状况，报部门经理、人力资源部批准后，月底由部门考勤员据此上报考勤。上述情况考勤由各部门或分公司和项目文员协助人力资源部进行管理。3.1.2.5手工考勤制度3.1.2.6手工考勤制申请：由于工作性质，员工无法正常打卡（如外围人员、出差），可由各部门提出人员名单，经主管副总批准后，报人力资源部审批备案。3.1.2.7参与手工考勤的员工，需由其主管部门的部门考勤员(文员)或部门指定人员进行考勤管理，并于每月26日前向人力资源部递交考勤报表。3.1.2.8参与手工考勤的员工如有请假情况发生，应遵守相关请、休假制度，如实填报相关表单。3.1.2.9 外派员工在外派工作期间的考勤,需在外派公司打卡记录;如遇中途出差,持出差证明,出差期间的考勤在出差地所在公司打卡记录;3.2加班管理3.2.1定义加班是指员工在节假日或公司规定的休息日仍照常工作的情况。A现场管理人员和劳务人员的加班应严格控制，各部门应按月工时标准，合理安排工作班次。部门经理要严格审批员工排班表，保证员工有效工时达到要求。凡是达到月工时标准的，应扣减员工本人的存休或工资；对超出月工时标准的，应说明理由，报主管副总和人力资源部审批。 B因员工月薪工资中的补贴已包括延时工作补贴，所以延时工作在4小时（不含）以下的，不再另计加班工资。因工作需要，一般员工延时工作4小时至8小时可申报加班半天，超过8小时可申报加班1天。对主管(含)以上管理人员，一般情况下延时工作不计加班，因特殊情况经总经理以上领导批准的延时工作，可按以上标准计加班。3.2.2.2员工加班应提前申请，事先填写加班申请表，因无法确定加班工时的，应在本次加班完成后3个工作日内补填加班申请表。加班申请表经部门经理同意，主管副总经理审核报总经理批准后有效。加班申请表必须事前当月内上报有效，如遇特殊情况，也必须在一周内上报至总经理批准。如未履行上述程序，视为乙方自愿加班。3.2.2.3员工加班，也应按规定打卡，没有打卡记录的加班，公司不予承认；有打卡记录但无公司总经理批准的加班，公司不予承认加班。3.2.2.4原则上，参加公司组织的各种培训、集体活动不计加班。3.2.2.5加班工资的补偿：员工在排班休息日的加班，可以以倒休形式安排补休。原则上，员工加班以倒休形式补休的，公司将根据工作需要统一安排在春节前后补休。加班可按1：1的比例冲抵病、事假。3.2.3加班的申请、审批、确认流程3.2.3.1加班申请表在各部门文员处领取，加班统计周期为上月26日至本月25日。3.2.3.2员工加班也要按规定打卡，没有打卡记录的加班，公司不予承认。各部门的考勤员(文员)负责加班申请表的保管及加班申报。员工加班应提前申请，事先填写加班申请表加班前到部门考勤员(文员)处领取加班申请表，加班申请表经项目管理中心或部门经理同意，主管副总审核，总经理签字批准后有效。填写并履行完审批手续后交由部门考勤员(文员)保管。3.2.3.3部门考勤员（文员）负责检查、复核确认考勤记录的真实有效性并在每月27日汇总交人力资源部，逾期未交的加班记录公司不予承认。下午13：0017：00度。全体员工都必须自觉遵守工作时间，实行不定时工作制的员工不必打卡。3.1.2.2打卡次数：一日两次，即早上上班打卡一次，下午下班打卡一次。3.1.2.3打卡时间：打卡时间为上班到岗时间和下班离岗时间； 3.1.2.4因公外出不能打卡：因公外出不能打卡应填写外勤登记表,注明外出日期、事由、外勤起止时间。因公外出需事先申请，如因特殊情况不能事先申请，应在事毕到岗当日完成申请、审批手续，否则按旷工处理。因停电、卡钟（工卡）故障未打卡的员工，上班前、下班后要及时到部门考勤员处填写未打卡补签申请表，由直接主管签字证明当日的出勤状况，报部门经理、人力资源部批准后，月底由部门考勤员据此上报考勤。上述情况考勤由各部门或分公司和项目文员协助人力资源部进行管理。3.1.2.5手工考勤制度3.1.2.6手工考勤制申请：由于工作性质，员工无法正常打卡（如外围人员、出差），可由各部门提出人员名单，经主管副总批准后，报人力资源部审批备案。3.1.2.7参与手工考勤的员工，需由其主管部门的部门考勤员(文员)或部门指定人员进行考勤管理，并于每月26日前向人力资源部递交考勤报表。3.1.2.8参与手工考勤的员工如有请假情况发生，应遵守相关请、休假制度，如实填报相关表单。3.1.2.9 外派员工在外派工作期间的考勤,需在外派公司打卡记录;如遇中途出差,持出差证明,出差期间的考勤在出差地所在公司打卡记录;3.2加班管理3.2.1定义加班是指员工在节假日或公司规定的休息日仍照常工作的情况。A现场管理人员和劳务人员的加班应严格控制，各部门应按月工时标准，合理安排工作班次。部门经理要严格审批员工排班表，保证员工有效工时达到要求。凡是达到月工时标准的，应扣减员工本人的存休或工资；对超出月工时标准的，应说明理由，报主管副总和人力资源部审批。 B因员工月薪工资中的补贴已包括延时工作补贴，所以延时工作在4小时（不含）以下的，不再另计加班工资。因工作需要，一般员工延时工作4小时至8小时可申报加班半天，超过8小时可申报加班1天。对主管(含)以上管理人员，一般情况下延时工作不计加班，因特殊情况经总经理以上领导批准的延时工作，可按以上标准计加班。3.2.2.2员工加班应提前申请，事先填写加班申请表，因无法确定加班工时的，应在本次加班完成后3个工作日内补填加班申请表。加班申请表经部门经理同意，主管副总经理审核报总经理批准后有效。加班申请表必须事前当月内上报有效，如遇特殊情况，也必须在一周内上报至总经理批准。如未履行上述程序，视为乙方自愿加班。3.2.2.3员工加班，也应按规定打卡，没有打卡记录的加班，公司不予承认；有打卡记录但无公司总经理批准的加班，公司不予承认加班。3.2.2.4原则上，参加公司组织的各种培训、集体活动不计加班。3.2.2.5加班工资的补偿：员工在排班休息日的加班，可以以倒休形式安排补休。原则上，员工加班以倒休形式补休的，公司将根据工作需要统一安排在春节前后补休。加班可按1：1的比例冲抵病、事假。3.2.3加班的申请、审批、确认流程3.2.3.1加班申请表在各部门文员处领取，加班统计周期为上月26日至本月25日。3.2.3.2员工加班也要按规定打卡，没有打卡记录的加班，公司不予承认。各部门的考勤员(文员)负责加班申请表的保管及加班申报。员工加班应提前申请，事先填写加班申请表加班前到部门考勤员(文员)处领取加班申请表，加班申请表经项目管理中心或部门经理同意，主管副总审核，总经理签字批准后有效。填写并履行完审批手续后交由部门考勤员(文员)保管。3.2.3.3部门考勤员（文员）负责检查、复核确认考勤记录的真实有效性并在每月27日汇总交人力资源部，逾期未交的加班记录公司不予承认。专心-专注-专业

注意事项

本文（机器学习实验报告(共11页).docx）为本站会员（飞****2）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。