【大数据分析分享系列】之数据挖掘和统计名词汇总.pdf
《【大数据分析分享系列】之数据挖掘和统计名词汇总.pdf》由会员分享,可在线阅读,更多相关《【大数据分析分享系列】之数据挖掘和统计名词汇总.pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 【大数据分析分享系列】【大数据分析分享系列】之之数据挖掘和统计名词汇总数据挖掘和统计名词汇总 目 录 一、数据挖掘术语一、数据挖掘术语 .1 1 二、统计名词二、统计名词 .2 2 三、其他三、其他 .1010 1 一、数据挖掘术语一、数据挖掘术语【算法】指的是用于实现某一数据挖掘技术如分类树、辨识分析等等的特定程序。【属性】也被称为“特性”、“变量”、或者从数据库的观点,是一个“域”。【个体】是关于一个单元的测量值的集合例如一个人的身高、体重、年龄等等;它也被称作“记录”、或 者“行”(每一行通常代表一个记录,每一列代表一个变量)。【置信度】在形如“如果买了 A 和 B,就要买 C”的关联
2、法则里有特定的含义。置信度是已经买了 A 和 B,还要买 C 的条件概率。【因变量】在有约束学习里是那个被预测的变量;也被称作“输出变量”、“目标变量”、或者“结果变量”【估计】指的是预测一个连续型输出变量的值;也被称作“预测”。【特征】也被称作“属性”、“变量”,或者从数据库的观点,称为“域”。【输入变量】是在有约束学习里作预测的变量;也被称作“自变量”、“预测变量”。【模型】通常指的是一个数学公式,包括为它设置的参数(许多模型具有用户可以调节的参数)。【结果变量】在有约束学习里是那个被预测的变量;也被称作“因变量”“输出变量”、“目标变量”、或者“输出变量”。【P(A|B)】读作“已知 B
3、 已经发生,A 将发生的概率”【预测】指的是预测一个连续输出变量的值;也被称作“估计”。2 【记录】是关于一个单元的测量值的集合例如一个人的身高、体重、年龄等等;它也被称作“个体”、或者“排”(每一排通常代表一个记录,每一列代表一个变量)。【分数】指的是一个估计的值或者类。【给新数据打分】意思是利用用训练数据得出的模型预测新数据里的输出值。二、统计名词二、统计名词【统计】就是“统而计之”对所考察事物的量的取值在其出现的全部范围内作总体的把握,全局性的认识。【教育统计】对教育领域各种现象量的取值从总体上的把握与认识,它是为教育工作的良好进行,科学管理、革新发展服务的。【教育统计学】社会科学中的一
4、门应用统计,是数理统计跟教育学、心理学交叉结合产物 【测量】按一定规则给对象在某种性质的量尺上指定值。【教育测量】就是给所考察研究的教育现象,按一定的规则在某种性质量尺上指定值 【心理量表】心理测验工具与常模的结合 【数据】用数量或数字形式表示的资料事实称为数据。【计数数据】是以计算个数或次数获得的,多表现为整数。【测量评估数据】借助测量工具或评估方法对事物的某种属性指派给数字后所获数据。人工编码数据以人们按一定规则给不同类别的事物指派适当的数字号码后所形成的数据 3 【称名变量】只说明某一事物与其他事物在名称、类别或属性上的不同,并不说明事物与事物之间差异的大小、顺序的先后及质的优劣。【顺序
5、变量】是指可以就事物的某一属性的多少或大小按次序将各事物加以排列的变量,具有等级性和次序性的特点。【等距变量】除能表明量的相对大小外,还具有相等的单位。【比率变量】除了具有量的大小、相等单位外,还有绝对零点。比率变量数据可以进行加、减、乘、除运算 【次数分布】一批数据中各个不同数值所出现次数多少的情况,或者是这批数据在数轴上各个区间内所出现的次数多少的情况。【简单次数分布表】通常简称为次数分布表,其实质是反映一批数据在各等距区组内的次数分布结构。【相对次数】各组的次数 f 与总次数 N 之间的比值 【次数分布曲线】从理论上讲,如若总次数无限增大,则随着组距的缩小,这些折线所接近的极限便将成为极
6、光滑而富有规则性的曲线,称为次数分布曲线 【散点图】用平面直角坐标系上点的散布图形来表示两种事物之间的相关性及联系模式。散点图适合于描述二元变量的观测数据。【线形图】以起伏的折线来表示某种事物的发展变化及演变趋势的统计图,适用于描述某种事物在时间序列上的变化趋势,也适用于描述一种事物随另一事物发展变化的趋势模式,还可适用于比较不同的人物团体在同一心理或教育现象上的变化特征及相互联系 【观测数据不仅具有离散性的特点,而且还具有向某点集中的趋势,反映次数颁分布集中趋势的量数叫集中量数。4 【中位数】位于数据分布正中间位置上的那个数。如果一组数据从小到大排列,则中位数通常是将这批数据个数一分为二,居
7、于中间的那个数。【众数】一个次数分布中出现次数最多的那个数,众数不唯一可有一个或多个。用符号 Mo 表示。【离中趋势】数据具有偏离中心位置的趋势,它反映了一组数据本身的离散程度和变异性程度。【差异量数】反映一组数据离散程度的量 【一批数据的算术平均数指的是这批数据总和数除以数据总次数后所得的商数。【平均差】各数据与其平均数的离差绝对值的平均值。【方差】数据的离差平方数的算术平均数。【标准差】方差的算术平方根 【差异系数】差异量数和集中量数两相对比后所形成的相对差异量数。【地位量数】凡反映次数分布中各数据所处地位的量就叫地位量数 【相关】行为变量或现象之间存在着种种不同模式、不同程度的联系。这种
8、联系叫做相关。【直线性相关】两个变量的成对观测数据在平面直角坐标系上描点构成的散点图会环绕在某一条直线附近分布 【原始分数】在测量工具上直接得到的测值(数字),叫原始分数。【相对评分分数】通过被试间相互比较而确定意义的分数叫相对评分分数。5 【绝对评分分数】通过拿被试测值跟应有标准作比较来确定其意义的分数叫绝对评分分数 【常模】测验常模简称常模即指一定人群在测验所测特性上的普遍水平或水平分布状况。【组内常模】解释被试原始分数的参照体系,即被试所属那类群体的人,在所测特性上测验取值的分布状况。【标准分数常模】用被试所得测验分数转换成的标准分数来揭示其在常模团体中的相对地位的组内常模 【线性变换】
9、对所有要作变换的值,都乘以同一确定值然后再都加上另一确定值。【测绘项目的难度】被试完成项目作答任务时所遇到的困难程度。【项目的难度指数】定量刻画一个测验项目的被试作答困难程度的量数就叫项目的难度指数。【得分率(通过率)】最通用的项目难度指数的求法,就是计算被试在项目上的得分率或者说通过率。【项目区分度】就是项目区别被试水平高低的能力的量度。【测验信度】测验在测量它所测特质时得到的分数(测值)的一致性。它是对测验控制误差能力的量度,是反映测验性能的一个重要质量指标 【观察分数】如果从测验实施过程中实际得到的被试分数叫观察分数。【真分数】被试在所测特质上客观具有的水平值。【测量误差】观察分数与真分
10、数的差就是测量误差。6 【信度系数】利用同一测验向同一批被试重测两次所得的两批独立测值,求出其间的相关系数,就可利用这种重测相关系数作为测验信度的估计值。这样的相关系数就叫信度系数。【稳定性系数】由于重侧法十分强调特质的稳定性,所以用这种方法求取的信度系数就叫做稳定性系数。【等值性系数】用平行形式相关求得的信度系数,因为特别强调两测验形式的等值关系所以又叫等值性系数 【测量标准误】实际测验中所得测值偏离真分数的程度叫做测量标准误可记为SEM。【测验效度】测验实际上测到它打算要测的东西的程度。【内容效度】测验项目构成应测行为领域代表性样本的程度。【效标关联效度】测验预测个体在类似或某种特定情境下
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据分析分享系列 数据 分析 分享 系列 挖掘 统计 名词 汇总
限制150内