中国房地产影响因素与地区分类及基于多元线性回归与BP神经网络的房价预测讲课讲稿.doc
《中国房地产影响因素与地区分类及基于多元线性回归与BP神经网络的房价预测讲课讲稿.doc》由会员分享,可在线阅读,更多相关《中国房地产影响因素与地区分类及基于多元线性回归与BP神经网络的房价预测讲课讲稿.doc(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Good is good, but better carries it.精益求精,善益求善。中国房地产影响因素与地区分类及基于多元线性回归与BP神经网络的房价预测-中国房地产影响因素与地区分类及基于多元线性回归与BP神经网络的房价预测北京邮电大学薛元、陈立、朱嵩目录摘要3Abstract3一、问题背景4二、思路5三、分析过程63.1主成分分析63.2聚类分析103.3判别分析15四、模型验证及相关预测154.1线性回归预测154.2BP神经网络预测16五、结论18六、附录19附录A2009年全国各地区影响房屋销售价格因素表19附录B全国31个省区市的主成分得分表(按主成分得分排序)21参考文献
2、22摘要房地产市场的发展一直是近年来社会关注的焦点。尤其是这两年全国房价普遍飞涨,连带引起中国一系列社会经济问题之后,政府对于房价又采取了一系列调控措施。本文首先致力于探究影响房价的全方面因素,运用主成分分析得到地区经济实力,人口密度,CPI是影响房价的三大主要原因。其次,本文利用聚类分析的方法把中国房地产市场分成了五类进行类讨论,并用判别分析验证了我们所采取的分类的准确性。最后,我们分别应用多元线性回归预测以及神经网络预测给出了2010年个别地区房价的预测值。其中,前者给出的北京、上海、福建、广东和甘肃等五个省市的房屋价格预测向量是(13200,14378,8003,9201,4832)后者
3、对应的价格向量是(12683,13055,7322,8308,4067)。关键词:主成分分析、聚类分析、判别分析、多元线性回归预测、神经网络预测AbstractThedevelopmentofrealestatehasbeenalwaysconcernedbywholesociety,especiallywhenthepricesofrealestatesoardramaticallyinrecentyears,whichhavecausedaseriesofsocialandeconomicproblems.Thus,thegovernmenthastakenaseriesofmeasure
4、stocontroltheprices.Intheoutsetofthisarticle,wediscussthegeneralfactorswhichcouldaffecttherealestateprices,andbyPrincipalComponentAnalysis,wegettheconclusionthatregionaleconomiccondition,densityofpopulationandCPIarethemajorfactors.Asfollowing,wedivide31regionsofChinainto5clustersbyClusterAnalysisand
5、verifyourclassificationbyDiscriminantAnalysis.Atlast,wepredicttherealestatepricesofsomecertainregionsbythemethodsofMultipleLinearRegressionandNeuralNetwork,respectively.Specifically,astoBeijing,Shanghai,Fujian,GuangdongandGansu,thevectorofthepredictivepricesofrealestateofthe5regionsis(13200,14378,80
6、03,9201,4832)byMultipleLinearRegression,while(12683,13055,7322,8308,4067)byNeuralNetwork.Keywords:PrincipalComponentsAnalysis,ClusterAnalysis,DiscriminantAnalysis,MultipleLinearRegression,NeuralNetwork一、问题背景自本世纪初以来,中国大陆迎来了一波前所未有的房地产投资浪潮,内地房地产业迅速升温。内地房地产投资额从2001年的6245亿元急剧攀升到2010年的48267年亿,增长幅度达到672.89
7、%。再加上建筑原材料资源的不断紧缺,成本上涨,人力资源紧俏,房屋建设成本也在不断提高。在此背景下,房价得到快速拉升。以北京市为例,2001年住宅用商品房平均销售价格为4716元/平方米;到了2009年涨到了13799元/平方米,部分地段部分楼盘的价格甚至超过了10万元/平方米。因此,国务院先后采取了土地、金融、税收等调控手段,以抑制房价过快增长。2011年,在国务院办公厅关于进一步做好房地产市场调控工作有关问题的通知中指出:要进一步落实地方政府责任,加大保障性安居工程建设力度,调整完善相关税收政策,加强税收征管,强化差别化住房信贷政策,严格住房用地供应管理,合理引导住房需求,落实住房保障和稳定
8、房价工作的约谈问责机制,坚持和强化舆论引导。国八条的出台为中国房价调控带来了一丝曙光,但也不免使人产生疑惑:房价调控真的有用吗?未来房价的走势又将是怎样的?为了解决这个问题,我们就要从影响房价的因素入手,通过对影响房价的因素的构成进行分析来对房价进行拟合。从中找出房价结构模型,并利用该模型对未来房价进行模拟预测,以期从中寻找到一些可以有效抑制房价过快增长的措施。本项目中采用了多元统计分析中的主成分分析、聚类分析、判别分析、线性回归分析以及神经网络等多种分析方法,利用2010年国家统计局统计年鉴中的统计数据对影响房价的因素进行了模拟、验证并对未来房价进行了预测。通过验证我们可以知道,这组方法是切
9、实可行的。二、思路问题提出结论对比预测结果BP神经网络预测线性回归预测模型检验及预测判别分析离差平方和法对比重心聚类法离差平方和法组内连接法聚类分析主成分分析模型假设三、分析过程3.1主成分分析主成分分析(PrincipalComponentsAnalysis)由美国著名数理统计学家哈罗德霍特林(HaroldHotelling,1895-1973)于1933年提出的一种多元统计方法。主成分分析利用降维的思想,在损失可以接受的信息量的前提下,把原本多个变量综合为少数几个变量,以达到简化问题、便于分析问题的目的。适合做主成分分析的问题要求原始变量之间有较强的相关性,包含可以提取的重叠信息。因此,首
10、先需要对问题做相关性度量的检验。这里选择了通常认为与商品房住宅有关的7个变量来做主成分分析。原始数据详见附录A。通过Markway5.0软件,我们把这7个变量之间的Pearson相关系数矩阵求出如下:表1Pearson相关系数矩阵相关系数CPI地方财政收入人口密度人均可支配收入人均GDP消费水平房屋造价CPI1.0000-0.40350.0925-0.4071-0.2711-0.3348-0.2345地方财政收入-0.40351.0000-0.16270.74580.65530.73260.5461人口密度0.0925-0.16271.0000-0.2936-0.2750-0.2582-0.0
11、984人均可支配收入-0.40710.7458-0.29361.00000.92500.95890.6923人均GDP-0.27110.6553-0.27500.92501.00000.91450.6993消费水平-0.33480.7326-0.25820.95890.91451.00000.6924房屋造价-0.23450.5461-0.09840.69230.69930.69241.0000其中有13个相关系数大于0.3,占所有相关系数个数的61.90%;另外下方的巴特莱特球性检验表也表明该组数据适合做主成分分析。表2巴特莱特球性检验表参数值卡方值175.3955自由度21显著性0.000
12、0由于这几个变量受量纲影响非常大,因此这里采用原始变量的相关矩阵,得到全部七个主成分如下:表3主成分表主成分特征根方差贡献率%累计贡献率%14.298061.399961.399920.954313.632775.032630.872312.460787.493340.42276.039193.532550.33624.803298.335760.08151.164999.500670.03500.4994100.0000考虑85%的累计贡献率,取前三个主成分,可以得到对于7个原始变量分别的信息提取量:表4原始变量的信息提取率提取结果CPI0.9669地方财政收入0.6968人口密度0.983
13、6人均可支配收入0.9439人均GDP0.9008消费水平0.9267房屋造价0.7059可以看出除了地方财政收入和房屋造价有一定的信息损失外,余下5个变量的信息基本都被提取。由主成分载荷矩阵表5主成分载荷矩阵主成分1主成分2主成分3CPI-0.4572-0.23780.8374地方财政收入0.81660.1362-0.1069人口密度-0.31490.92030.1935人均可支配收入0.9707-0.01790.0363人均GDP0.9284-0.04780.1916消费水平0.9555-0.00240.1167房屋造价0.77830.17210.2654除以各个主成分的特征根的平方根,可
14、以得到三个主成分由7个原始变量线性表示的系数:表6主成分-原始变量线性系数表主成分1主成分2主成分3CPI-0.220532711-0.243427360.896602655地方财政收入0.3938911020.139423071-0.114457635人口密度-0.1518935930.9420782130.207180098人均可支配收入0.468222009-0.018323590.038866344人均GDP0.447818392-0.0489311510.205145771消费水平0.460890213-0.0024567940.124950477房屋造价0.3754169050.1
15、761726180.284163297从系数表中可以看出,主成分2和3分别主要提取的是人口密度和CPI信息,但主成分1的系数较为均衡,不太容易解释。下面通过主成分法对数据做因子分析,利用因子分析中的因子旋转,来更好的解释对这3个综合变量。经过方差极大正交旋转后的因子载荷矩阵以及提取率如下:表7因子载荷矩阵因子1因子2因子3CPI-0.18210.96570.0328地方财政收入0.7465-0.3704-0.0479人口密度-0.12460.03350.9834人均可支配收入0.9199-0.2436-0.1957人均GDP0.9276-0.0805-0.1841消费水平0.9338-0.16
16、91-0.1613房屋造价0.8368-0.02530.0708表8因子提取率提取值CPI0.9669地方财政收入0.6968人口密度0.9836人均可支配收入0.9439人均GDP0.9008消费水平0.9267房屋造价0.7059从表中可以清楚地看出,因子1主要包含的是地方财政收入、人均可支配收入、人均GDP、消费水平和房屋造价等因素,因此可以把它解释为地区的经济发达程度,因子2和3则可以解释为地区的CPI和人口密度。从上面的主成分分析和因子分析可以看出,影响一个地区的商品房住宅的因素主要包括经济状况、CPI以及人口密度。结合31个地区的主成分(未旋转因子)得分表(详见附录B),我们绘制了
17、主成分得分排名图:图1各个省区市主成分得分排名图注:图中序号表示该地区主成分得分的排名,图中所示区域的颜色越深表明其排名越靠前。3.2聚类分析主要思想:为了把大量样本分为一些有意义的类别,我们采用聚类分析的方法。首先,聚类分析会构造一个统计量来衡量样本间的相似程度。其次,把经过初始分类的样本进行合并,其准则是相似度大的样本先和为一类。然后不断循环直到所有样本都合并完毕。最后画出样本聚类谱系图。由于选择不同的统计量会有不同的聚类结果,我们考察了组内连接法,重心聚类法,离差平方和法,希望能获得和实际最贴近的分类。最后我们选用离差平方和并将所有样品分成五类。具体的谱系图如下:图2对31个省区市分层聚
18、类的谱系图注:纵轴分类单元代号分别为:1-北京市;2-天津市;3-河北省;4-山西省;5-内蒙古自治区;6-辽宁省;7-吉林省;8-黑龙江省;9-上海市;10-江苏省;11-浙江省;12-安徽省;13-福建省;14-江西省;15-山东省;16-河南省;17-湖北省;18-湖南省;19-广东省;20-广西壮族自治区;21-海南省;22-重庆市;23-四川省;24-贵州省;25-云南省;26-西藏自治区;27-陕西省;28-甘肃省;29-青海省;30-宁夏回族自治区;31-新疆维吾尔自治区根据上步进行的主成分分析对31个省区市进行分类,得到如下分类表:表931个省区市分类情况分类第一类第二类第三类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国房地产 影响 因素 地区 分类 基于 多元 线性 回归 BP 神经网络 房价 预测 讲课 讲稿
限制150内