淘宝批发商铺数据分析及销量预测_宋唯一.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《淘宝批发商铺数据分析及销量预测_宋唯一.doc》由会员分享,可在线阅读,更多相关《淘宝批发商铺数据分析及销量预测_宋唯一.doc(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、淘宝批发商铺数据分析及销量预测 吉林大学宋唯一王瑜王东 指导教师王德辉 摘要 在当前社会背景下,互联网贸易已经成为广泛的商业贸易活动中重要组成部 分。而在网络贸易形成的过程中会产生大量的数据,利用这些数据我们能够得到 很多有用的结果服务我们的生产生活。在本文中,我们选取淘宝若干家商家的价 格,销售指数及其他数据指数,利用竞争力模型,时间序列模型等方法对上述数 据进行探宄,分析出对销量影响较高的几种因素,并对其做具体分析。依据我们 所得出 的结果,可对商家某相应产品做出销售预测,以及应对已得结果对商家提 出合理化建议。 关键词 : 品牌竞争力模型时间序列分析主成分分析 R 语言 MATLAB 1
2、注 :该论文获得由中国统计教育学会举办的“ 2015 年(第四届)全国大学生统计建模大赛”市场调查分析 类研宄生组三等奖。 1 引言 一、 研究背景 当前社会,互联网贸易己经成为商业贸易活动的重要组成部分。随着中国互 联网的蓬勃发展,网络购物在 近些年得到飞速发展。网络购物不仅给购买者带来 极大的实惠与便利,亦是给予商家契机使其得到了空前的机遇与发展。互联网购 物的蓬勃兴起,打破了原有的产业格局,对商家来说既是机遇也是极大的挑战。 不同于传统销售的成熟盈利模式,互联网购物对广大商家来说是新奇而又陌生 的,它带来的是全新的销售模式。对此,我们需要用更科学的方法更迅速地寻找 到这样一种模式,在飞速
3、发展的网络购物大环境中使自己成长壮大起来。 在互联网贸易过程中,会将许多传统模式中不被量化的因素量化后展示给消 费者,例如己购买者对购买商品及所在店铺的打分即 店铺评分,商品评分。这些 极大地影响着消费者是否购买该商品的决定。除此之外,己有销量,店铺信誉等 因素也影响着消费者购买欲望,这些复杂了店家对商品销量的预估,需要用数学 手段来建立合理模型确定影响销量的若干因素及其影响程度,从而为新产品的销 量情况有着更合理的预估。 二、 理论综述 (一) 竞争力模型 品牌竞争力是企业竞争力的外部表现,是在产品竞争过程中表现出来的竞争 能力。品牌竞争力模型主要是基于消费者的角度,评价多个品牌的优劣。品牌
4、竞 争力模型将消费者心理和消费者行为 结合起来,尽可能的贴近消费者的真实消费 行为。对于影响品牌竞争力模型的因素,也都是从消费者的角度出发,根据电商 所提供的、消费者可以观测到的具体数据作为影响因素,尽可能的贴近消费者心 理以及消费者行为。 (二) 时间序列分析 时间序列分析是一种动态处理数据的统计方法。该方法基于随机过程理论和 数理统计学方法,研究随机数据序列所遵从的统计规律,用以解决实际问题。时 间序列侧重研宄数据序列的互相依赖关系,所研宄的是随时间变化的相关结构, 对离散指标的随机过程的统计分析。它的应用非常广泛,从海洋学到金融学都是 它 的应用范围。 2 三、数据来源 在众多电子商务平
5、台中我们选取淘宝若干家店铺作为目标对其数据进行整 理研宄,为保护隐私我们将店铺名用字母代替。我们选取的店铺均为彩虹伞热销 店铺,以此为特例研宄进而推广到更广泛的商品领域。我们在淘宝网以及淘宝指 数收集数据,如成交价格,成交总量等。详见附录。 四、研究综述及研究思路 本文主要任务是通过淘宝店铺相关数据分析影响销量的若干种因素及其影 响程度 。我们首先将抽取出来的数据进行简单的整理与分析,便于我们有直观的 认识与理解。而后,我们利用竞争力量化回归模型对影响销量的若干因子做具体 分析。而后利用时间序列分析做出影响销量的具体模型,最后对相应的新产品做 出销量预测,进而利用此模型,拓展应用到更广泛的商品
6、领域,对其它商品销量 做具体分析,服务于商家。 第一章数据的简单处理与分析 我们从淘宝网以及淘宝指数上得到的原始数据类目较多且较为繁琐,故先行 进行一些简单处理。 我们共选取了三家店铺,为 0家居, Y 户外以及 S伞业,并 且此三家店铺 均为淘宝采购批发店铺。选取三家店铺中销量最高的彩虹伞作为主要研宄对象。 对于三家店铺,购买者对商品与描述相符情况,店铺服务态度,商品到货速度均 可以打分 ( 5 分为满分),图 1为该三家店铺打分情况以及同行业平均值 : 店铺评分 描述相符 服务态度 到货速度 0 家居 口 Y户外 口 S 伞业 同行业平均值 图 1 3 同行业平均值是指淘宝平台上所有伞业店
7、铺评分的平均值。由上图我们可以 直观看到各店铺打分及与平均值相较情况。由于我们选择的店铺均是采购批发店 铺,故各家店铺对买家不同购买量均有相应价格调整,我们选择的是各家店铺销 量最高的彩虹伞,具体数据见表 1。 表 1 家居 购买量(把) 5-59 60-599 600 价格(元) 15 13. 5 12. 5 Y 户外 购买量(把) 5-79 80-9999 10000 价格(元) 10. 5 10 9.4 S 伞业 购买量(把) 50-1000 1001-9999 10000 价格(元) 11 9. 8 8. 5 截至 6月 3 日,各店铺成交总量见图 2。 成交总量 160000 140
8、000 120000 100000 80000 60000 40000 20000 0 图 2 己购买者可以对己购买商品进行打分,从低到高依次为一星到五星 ,图 3 图 5是各个店铺彩虹伞的打分情况: 4 0 家居买家打分情况 5 S 伞业买家打分情况 图 5 由于店铺为得到买家的高分评价,通常会采用“好评返现”办法,即买家收 到货品后若给店家全部五星好评,店家会返还买家少数现金作为酬谢。故淘宝店 铺的打分情况通常要高于实际情况。但由于这种情况在淘宝平台较为普遍,故我 们在本文并未排除这一影响因素。 第二章品牌竞争力模型 _ 品牌完争力 品牌竞争力是企业竞争力的外部表现,是在产品竞争过程中表现
9、出来的竞争 能力。品牌竞争力模型主要是基于消费者的角度,评 价多个品牌的优劣。品牌竞 争力模型将消费者心理和消费者行为结合起来,尽可能的贴近消费者的真实消费 行为。对于影响品牌竞争力模型的因素,也都是从消费者的角度出发,根据电商 所提供的、消费者可以观测到的具体数据作为影响因素,尽可能的贴近消费者心 理以及消费者行为。 对于某一位消费者来说,他对某品牌商品的反应过程应该大致见图 6所示。 6 图 6 对于一位普通的消费者来说,当他在电子商务平台上搜索某类商品后,他能 够直接看到的是电子商务平台根据搜索关键字列出的,并按照一定的规则排序的 产品信息。 由于各商家排序分类有:综合、销量、回头率、价
10、格四个方面,同时又根 据大众的消费心理与行为,本文数据采用销量排行靠前部分商家信息进行分析。 因此当消费者搜索到自己需要的产品之后,按照大多数人的行为习惯,需要点开 该商品寻找进一步信息来了解该商品。 进入商品页面之后,作为消费者可以看到 的商家展示的因素包括产品图片, 产品价格,商家信息,产品详细信息,成交量,产品评价,订购说明以及联系方 式。消费者通过网页上的其他链接还可以间接的获得其他信息,比如店铺评分, 商家规模等。 我们搜集了作为一位普通消费者通过直接或者间接方式可以获得的信息(见 图 7)。 7 图 7 上述十三个因素是消费者可以在网站上搜集到的数据,也是建立模型时采用 的影响因素
11、。虽然各因素都对竞争力有所影响,但是影响因素同竞争力之间不一 定有直接的因果关系,同时各个因素之间也可能有某种联系,在建模的时候,我 们会进行相应的标准化、独立化处理。 由于影响因素较多,而且数据量较大,因此对于这些因素的处理,我们选用 了主成分分析的方法。 二、主成分分析 主成分分析是将多指标化为少数几个综合指标的一 种统计分析方法。主成分 分析的主要思想是降低维度,用较少的综合变量来代替原来较多的变量,且这几 个综合变量又能够尽可能多的反应原来变量的信息且彼此之间不相关。 由于该模型统计分析处理的变量个数太多,并且彼此之间存在着一定的相关 性,因此使得所观察的数据在一定程度上反应的信息有所
12、重叠,同时在高维空间 中研宄样本的分布规律比较复杂,变量个数的增加势必增加分析问题的复杂性, 因此选用以降维思想所产生的主成分分析法进行分析建模。 (一)相关名词解释 定义 1 设尤 =(;,;,.,;为 p 维随机向量,称 Z, 为 X 的 第 1 个主成分 ( i=l,2,.,p), 如果: ( i ) a: at =l(i = l,2,.,p); (ii)当 il 时, 8 (iii) VarZi)= max Far(aX). aa=l, Za7 =0(y=l, ., z-l) 定理 l 设 z为 p 维随机向量,且协方差阵 D(; n=s,E 的特征值为次 2&为 相 应 的 单 位
13、正 交 特 征 向 量 ,则 X 的 第 i 个主成分为: Z; =a/Z (/ = l,2,.j). 定义 2 f,=文為,通常成为 ;为原总体 X 的总方差(或称总惯量 )。 1= 1= 1= 定义 3 主成分 Z, 与 原 始 变 量 X, 的 相 关 系 数 为 P(zk, x,) = a,k (k,i = ,2,-p) 并把主成分 Z,与原始变量 X,的相关系数成为因子负荷量 ( 或因子载荷量)。 定义 4 我 们 称 为 主 成 分 Z, 的 贡 献 率 ; 又 称 为 主 成 分 i= k= i= .人 ( m600 15 13.5 12.5 b 5-79 80-9999 100
14、00 10.5 10 9.4 c 50-1000 1001-9999 10000 11 9.8 8.5 d 3-50 51-499 彡 500 13.9 13.5 12.9 e 50-999 1000-9999 彡 10000 10 9.8 9.6 f 50-1999 2000-19999 =?20000 9.8 9.5 8.6 g 1-199 200-99999 =5100000 13 11 10.5 h 0-59 60-299 =?300 16.5 13.3 13 i 1-59 60-2999 =?3000 19.5 9.5 8.9 j 1-499 500-1999 =?2000 8.8
15、8.4 8.3 k 3-59 60-299 =?300 15 13 11.5 1 500-4999 5000-9999 =510000 9.8 9.7 9.6 m 1000-4999 =?5000 10.5 9.9 由图标可以看出价格的影响因素与购买数量相关,而且各店家所确定的价格 区间各不相同。 这里我们对于价格区间做一个简单的小分类,不 考虑价格区间的具体分类, 只是简单分成三段,那么我们可以得到三组向量: px =(15,10.5,11,13.9,10,9.8,13,16.5,19.5,8.8,15,9.8,10.5) p2 =(13.5,10,9.8,13.5,9.8,9.5,11,1
16、3.3,9.5,8.4,13,9.7,9.9) 10 p3 = (12.5,9.4,8.5,12.9,9.6,8.6,10.5,13,8.9,8.3,11.5,9.6,0) (1) 对这三组向量求均值与 方差可得: 五 (凡 ) =12.5615, Far(凡 ) =10.3692。 ( 2) 五 (/?2) =10.8385, F a r = 3.2909。 ( 3) 由于第三组数据最后一项为 0,为了避免大的误差,因此并没有计算第三组 数据的均值及方差。 通过均值与方差,我们可以发现,不同商家的价格波动并不大,并且根据消 费者的心理,不可能选择价格过于低廉的或者价格极端昂贵的商品。 对于其
17、他十二个因素,仅从数据上就可以看出,数据比较易于处理,而且均 是影响消费者判断的因素。 因此为了简化模型,方便建立模型,我们在建模的时候忽略了价 格因素,只 考虑其他十二个因素的影响。我们选取的样本值如附件 1所示,由于各个影响因 素计量单位大小不同,为了避免不同因素因为计量单位不同导致的差异,我们将 数据进行了处理,使得具体数值都处于 100 10000 之间,处理后的数据如附件 2 所示。 (二)模型建立 由于影响因素较多,所以我们选择主成分分析法对数据进行分析,使用 MATLAB软件,对数据进行了初步分析,详细程序见附件 3。 步骤 1:对原始数据进行标准化处理,计算相关系数矩阵及得分矩
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 淘宝 批发商 数据 分析 销量 预测 唯一
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内