statistica全套教程包括数据挖掘说课材料.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《statistica全套教程包括数据挖掘说课材料.doc》由会员分享,可在线阅读,更多相关《statistica全套教程包括数据挖掘说课材料.doc(308页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、BASIC STATISTICS AND TABLES3Basic Statistics and Tables-Descriptive Statistics3Basic Statistics and Tables-Correlation Matrices5Basic Statistics and Tables-t-Test, Independent, by Groups6Basic Statistics and Tables-t-Test for Independent Samples, by Variables9Basic Statistics and Tables-t-Test, Depe
2、ndent samples10Basic Statistics and Tables-t-Test, Single Sample12Basic Statistics and Tables-Frequency Tables14Basic Statistics and Tables-Breakdown and One-Way ANOVA16Basic Statistics and Tables-Crosstabulation Tables17Basic Statistics and Tables-Stub and Banner Tables19MULTIPLE REGRESSION22Standa
3、rd Multiple Regression22Stepwise Multiple Regression23ANOVA26Main Effects ANOVA26Factorial ANOVA29Repeated Measures ANOVA31NONPARAMETRICS34(1)Observed vs. Expected Chi-Square34(2)Correlations (Spearman, Kendall Tau, Gamma)35(3)Comparing Two Independent Samples (Groups)37(4)Comparing Multiple Indep.
4、Samples (Groups)39(5)Comparing Two Dependent Samples (Variables)40(6)Comparing Multiple Dep. Samples (Variables)42DISTRIBUTION FITTING45ADVANCED LINEAR AND NONLINEAR MODELS471.General Linear Models472.Generalized Linear and Nonlinear Models563.General Regression Models614.General Partial Least Squar
5、es Models675.Variance Components716.Survival Analysis737.Nonlinear Estimation878.Log-Linear Analysis of Frequency Tables959.Time Series and Forecasting9810.Structural Equation Modeling138MULTIVARIATE EXPLORATORY TECHNIQUES1421.Cluster Analysis1422.Factor Analysis1513.Principal Components and Classif
6、ication Analysis1554.Canonical Correlation1605.Reliability and Item Analysis1625.1、Reliability and Item Analysis1626.Classification Trees1647.Correspondence Analysis1708.Multidimensional Scaling1759.Discriminant Analysis17810.General Discriminant Analysis183INDUSTRIAL STATISTICS AND SIX SIGMA1911.Qu
7、ality Control Charts191DATA MINING1951.Neural Networks1952.Independent Component Analysis2213.Generalized Cluster Analysis2244. General Classification And Regression Tree Models2305.General CHAID Models2436.Advanced C and RT, CHAID (using Interactive Trees)2617.Boosted Trees2818. Generalized Additiv
8、e Models2869. MARSplines29110. Machine Learning29311.Rapid Deployment29912.Goodness Of Fit30113.Combining Groups303Basic Statistics and Tables在许多研究问题中,收集之资料大部份皆杂乱无章,而且当数据笔数过多时无法直接从观察所有数据去了解数据的情形,因此为了使收集的数据能清楚,知道数据的特质及所代表的意义,可以透过简单地整理让数据以表格或者图形或者量数的方式出现,则这就是叙述统计,即对资料本身作简单地说明、分析与解释。在Statistica软件中,大致上是
9、由10个不同的节点对资料作叙述统计分析。Basic Statistics and Tables-Descriptive Statistics此节点主要是对数据有基本认识,诸如对连续型变量可以做平均数、中位数、标准差等等,亦可对间断型变量或是连续型变量做次数分配表与直方图。在此一提,Statistica也可对连续型变量做次数分配表或直方图,使用者可依造自己偏好选择分类的方法,前提是需先把连续型变量分段成数个区段,而Statistica内建的设定是把连续型变量约分成10份区块,使用者也可自己设定。间断变量若是以编码表示,Statistica可以选择要以代码或是间断符号表示在图表上。另外,Stati
10、stica还提供峯度、偏度、众数等;此外,若还需要更详细的信息,也可用此节点对变量求出常态机率图、做K-S检定、做常态性检定等,对数据有概略性认识。【范例说明】从Statistica内建的例子选取”Employees.sta”,总共有11个变量,其中3个为间断型变量,分别是GENDER、DEPART、EDUC,其余皆为连续型变量。主要是对此笔数据有一个概略性的了解,因此我们对此数据做次数分配表与直方图。在此我们也会对连续型变量做直方图,由Statistica内建的指令来区分变量。【范例结果】a. 对连续型变量做叙述性统计分析,其中包括次数、平均数、中位数、众数、标准差等等。b. 接下来对连续型
11、变量”AGE”做分隔,约略分成9部分,以次数分配表形式表现出来,并以此为依据做一直方图。不管是从次数分配表,或是直方图都可以看出最多人的年龄层是25-30岁,人数以此往两端下降,可以由图上明显发现此变量服从常态性假设。c. 最后我们对间断型变量”DEPART”做次数分配表,搭配直方图表示。从次数分配表或是从图上可以发现Bake与Package在此笔数据中所占的比例相当,而Ship的人数略少。Basic Statistics and Tables-Correlation Matrices在分析数据前,分析者急欲探索变量间的相关性,藉由变量间的关系可以推论出许多意想不到的论述。很多统计分析的目的就
12、是想了解变量间的关系,因此使用者可以藉由此节点约略了解变量间的相关性,Statistica主要是用矩阵的形式所表现出来,也可搭配散布图或是对变量做回归估计式。此节点只有在变量均为连续型的情况下才可使用,若想知道间断型变量间的关系,就须另谋他法。【范例说明】依旧采用”Employees.sta”的例子来说明,此时我们欲知道连续型变量之间的关系,因此使用Correlation Matrices这个节点。【范例结果】Statistica会把有显着相关的变量以红字显示出来,因此我们从表中可以发现AGE与SENIOR、SALARY有正相关,与INI_PROF有负相关,其中SENIOR与SALARY的相关
13、程度高达95%。在相关矩阵中,其左上右下的对角数值必为1,因为这是代表自己与自己的相关程度。Basic Statistics and Tables-t-Test, Independent, by Groups此节点是比较在同笔数据中,利用数据中的间断型变量把数据区分为两部分,对这两部分做一致性检定,比较此两部分是否有差异。此外,在Statistica还可对数据提供变异数一致性检定、盒须图与常态机率图等。【范例说明】在”Employees.sta”的例子中,若欲比较男女之间的薪资是否有差异。首先利用GENDER把男与女的数据区分开,再使用t-Test, Independent, by Group
14、s对此两群体做分析。【范例结果】a. Statistica会自动的依照GENDER把数据区分成男与女,Group1是代表女性,Group2是代表男性。接着对此两群体各个连续型变量做比较。Statistica会把有显着差异的变量用红字表示,从表中可以发现男与女的差异只有发生在HEIGHT这部分(其P值小于0.05),对于其它变量则无显着性差异。b. 为了清楚显示出HEIGHT所造成的差异,因此画出HEIGHT的盒须图,可以更清楚的显示出此两群体的相异性。(此只列出有差异性的变量图表)从盒须图发现男性与女性的身高差距非常明显,由图中可以知道男性身高高于女性身高,女性身高大致上分部于60英吋到69英
15、吋,大多数人集中在63到65英吋。而男性身高分布于63-73英吋,大部分人集中在67-69英吋。c. 做此检定之前,必须确定数据服从常态分配。使用此方法之前,必须确定数据服从常态分配。从上图来看,不管是男性或是女性,其身高皆服从常态假设,表示使用此分析方法所得出的结果是可信的。Basic Statistics and Tables-t-Test for Independent Samples, by Variables此节点与上述节点差异最大的地方在于此节点是比较两变量间的差异。把不同变量视为不同群体,并且比较两变量间数据的相异性,前提为此变量需为连续型变量。此法提供变异数一致型检定,Stat
16、istica内设是Levene的变异数一致性的检定方法,另外还有盒须图与常态机率图提供给使用者参考。【范例说明】由”Employees.sta”的例子中,我们可以发现INI_PROF与CUR_PROF同构型较高,因此我们比较此两变量下的数据是否有差异。使用此节点分析在此两个变量之下,数据是否有差异。【范例结果】从表中可以发现在平均数这部分的P值小于0.05,表示在INI_PROF与CUR_PROF的资料有显着差异。在标准差的比较上,可以发现并没有太大的不同,之后再用Levene做一次标准差的比较,也是得到相同的结果。我们可以解释说在INI_PROF与CUR_PROF确实会造成平均数的差异,但就
17、两者的分散情况而言,并没有太大差别。从图形上来看,也可以明显看出平均数的差异确实很大,但是从数据分布的程度来看,却差异不大。Basic Statistics and Tables-t-Test, Dependent samples许多统计数据中,数据间彼此是有相依性的,举个例子来说,在实验室做实验时,固定某种状态下,分别对两种物质(A,B)的反应做纪录,这时可以称此数据为两相依母体,因为在情况1之下,所抽取的A物质,必须与情况1之下的B物质做比较。若对分属不同情况下的物质来做比较,则失去此实验的意义。因此,此节点主要是透过成对抽样的方法比较两相依母体是否有差异。【范例说明】选取Statisti
18、ca内建的例子”Characteristics”,此例子主要说明不同个体对于比赛项目的得分是否会造成差异。我们欲比较每个人对Wellness1与Wellness2所得分数是否有差异。【范例结果】a. 分别比较Wellness1与Wellness2的平均数与变异数是否有所差异。由上表可知,每个个体对于Wellness1与Wellness2的得分有显着差距,表示每个个体在于Wellness1与Wellness2的得分上并无前后的相关性。b. 对这两个变数画盒须图。由盒须图可以发现Wellness1与Wellness2在平均数有些微差距,而Wellness1的散布程度又比Wellness2大。Bas
19、ic Statistics and Tables-t-Test, Single Sample前面叙述的方法都是在比较两个不同的群提间的差异,在此提供一个对单一母体做检定的方法,此节点主要是对一个群体做推论的检定方法,可以比较所搜集到的数据与本身主观意识的认知上是否有差异。Statistica在此还提供盒须图、直方图或是常态机率图等,有助使用者对数据有概念性了解。【范例说明】采用Statistica内建的”Income.sta”的例子,此数据有3个变量,其中COUNTY为间断型变量,ASSET与INCOME为连续型变量。在此节点中,我们想要把ASSET与INCOME分别拿来与常数3比较。【范例结
20、果】a. 若实验者依照自己的主观概念猜测ASSET与INCOME约等于3左右,把此数值与所搜集到资料做比较。由上表可以发现ASSET与我们所猜测的常数3相差不远,但是对于INCOME来说,此数值就稍小了点。由此可推论,ASSET大约在3左右,但是INCOME普遍来说高于3。b. 对两变量做常态性检定。(在此只附上对ASSET的常态性检定)由图可知,ASSET大致上来说服从常态性假设。但为了保险起见,我们还是对ASSET做常态机率图(下图)证。c. 验证是否符合常态分配。Basic Statistics and Tables-Frequency Tables图表比起文字更能加深阅读者的印象,因此
21、统计上常常使用图表来辅助使用者对数据的了解。此节主要是用来对变量做次数分配表与直方图,做法与之前雷同,若是间断型变量则可以选择是否使用编码代替类别符号,若是连续型变量则须加以分段,再用次数分配表与直方图表示。而Statistica对于间断型变量内建的设定是以类别符号来替代编码,使用者可依照自己需要加以调整。【范例说明】在此使用Statistica中内建的”Fastfood.sta”来当此节点的例子。此笔数据中接式间断型变量,我们欲利用次数分配表来对这些间断型变量做一个概括性了解。其中我们针对消费者购买Food1时,会搭配何种食物。【范例结果】从表中可以发现消费者在购买Food1时,约有34%的
22、消费者会搭配Pizza,其次有23.5%的消费者会搭配Hamburger。接下来我们利用直方图表示出购买Food1时,会搭配食物种类的人数。从此图可以更容易发现购买Food1的消费者大部分会搭配Pizza与Hamburger,至于搭配其它食物的人数则不相上下,没有明显差异。Basic Statistics and Tables-Breakdown and One-Way ANOVA主要是利用间断型变量把数据分类分群,对各群做简单的叙述性统计,诸如平均数、标准差、相关性、百分比等,在此不限制间断型变量只有两类,此节点可以应用到有间断型变量有多个类别,并且算出各类别的变异数分析。若读者有需要,St
23、atistica可以提供盒须图、常态机率图,另一个特殊的地方就是可以针对各类别的平均数与标准差做效用图,以此获得更进一步的信息。【范例说明】在此依旧采用”Employees.sta”的例子,不过此时以GENDER与EDUC为分类变数,欲探讨其对SALARY、SENIOR、INI_PROF、CUR_PROF的影响。【范例结果】a. 先对区分后的资料做叙述性统计分析。Statistica会先对选取的变量做叙述性统计分析,表格前两列可知GENDER有两个类别,EDUC有三个类别,所以会把数据区分成六部分。上列表格只贴出GENDER对EDUC做SALARY部分的叙述性统计,因为篇幅关系无法贴出对SEN
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- statistica 全套 教程 包括 数据 挖掘 材料
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内