大数据分析分享部分.ppt
《大数据分析分享部分.ppt》由会员分享,可在线阅读,更多相关《大数据分析分享部分.ppt(83页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分析大数据分析大数据分析大数据分析分享部分 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分析大数据分析大数据分析20222022年年年年1111月月月月2222日日日日一、大数据时代一、大数据时代二、大数据分析基础二、大数据分析基础三、相似项发现三、相似项发现四、流数据分析四、流数据分析提纲提纲一、大数据
2、时代一、大数据时代一、大数据时代一、大数据时代二、大数据分析基础二、大数据分析基础三、相似项发现三、相似项发现四、流数据分析四、流数据分析电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分析大数据分析大数据分析20222022年年年年1111月月月月2222日日日日一、大数据时代一、大数据时代二、大数据分析基础二、大数据分析基础三、相似项发现三、相似项发现四、流数据分析四、流数据分析提纲提纲一、大数据时代一、大数据时代二、大数据分析基础二、大数据分析基础二、大数据分析基础二、大数据分析基础三、相似项发现三、相似项发现四、流数据分析四、流数据分析电子商务新进展:电
3、子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分析大数据分析大数据分析20222022年年年年1111月月月月2222日日日日准备知识准备知识vv向量空间模型向量空间模型向量空间模型向量空间模型(Vector Space Model)(Vector Space Model):模型根据文本中的词汇:模型根据文本中的词汇:模型根据文本中的词汇:模型根据文本中的词汇出现在整个文本集中的频次为每个词汇计算出一个权重,形成出现在整个文本集中的频次为每个词汇计算出一个权重,形成出现在整个文本集中的频次为每个词汇计算出一个权重,形成出现在整个文本集中的频次为每个词汇计算出一个权重,形成关于该
4、文本的关于该文本的关于该文本的关于该文本的 向量空间。向量空间。向量空间。向量空间。vv假定文档集中有假定文档集中有假定文档集中有假定文档集中有N N篇文档,词项篇文档,词项篇文档,词项篇文档,词项i i出现在出现在出现在出现在n ni i个文档中且在文档个文档中且在文档个文档中且在文档个文档中且在文档j j中中中中出现的次数为出现的次数为出现的次数为出现的次数为f fij ij,文档,文档,文档,文档j j包含的词数为包含的词数为包含的词数为包含的词数为f fj j,则:,则:,则:,则:TF(Term Frequency):TFTF(Term Frequency):TFij ij=f fi
5、j ij/f fj jIDF(Inverse Document Frequency)IDF(Inverse Document Frequency):IDFIDFi i=log=log2 2 N/N/n ni ivv则词项则词项则词项则词项i i在页面在页面在页面在页面j j上的权重上的权重上的权重上的权重w wij ij计算如下:计算如下:计算如下:计算如下:w wij ij=TF=TFij ijIDFIDFi i(TFIDFTFIDF模型:模型:模型:模型:有多种计算策略有多种计算策略有多种计算策略有多种计算策略)i i1 1i i2 2.i ik k0.120.120.500.50.0.0
6、70.07电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分析大数据分析大数据分析20222022年年年年1111月月月月2222日日日日准备知识准备知识vv哈希函数哈希函数哈希函数哈希函数h h:将哈希键值(整数)随机化。:将哈希键值(整数)随机化。:将哈希键值(整数)随机化。:将哈希键值(整数)随机化。输入:哈希键值输入:哈希键值输入:哈希键值输入:哈希键值(hash-key)(hash-key)输出:桶编号输出:桶编号输出:桶编号输出:桶编号(bucket number)(bucket number)不同类型的数据都可以转化成比特位序列,从而都可以解不同类
7、型的数据都可以转化成比特位序列,从而都可以解不同类型的数据都可以转化成比特位序列,从而都可以解不同类型的数据都可以转化成比特位序列,从而都可以解释为整数。释为整数。释为整数。释为整数。vv用哈希函数构建索引用哈希函数构建索引用哈希函数构建索引用哈希函数构建索引输入:用于建立索引的一个或多个字段输入:用于建立索引的一个或多个字段输入:用于建立索引的一个或多个字段输入:用于建立索引的一个或多个字段输出:桶编号,每条记录映射到一个桶,具有相同输入的输出:桶编号,每条记录映射到一个桶,具有相同输入的输出:桶编号,每条记录映射到一个桶,具有相同输入的输出:桶编号,每条记录映射到一个桶,具有相同输入的不同
8、字段,可以映射到同一个桶。不同字段,可以映射到同一个桶。不同字段,可以映射到同一个桶。不同字段,可以映射到同一个桶。vv其他相关知识:磁盘存储、幂律分布其他相关知识:磁盘存储、幂律分布其他相关知识:磁盘存储、幂律分布其他相关知识:磁盘存储、幂律分布电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分析大数据分析大数据分析20222022年年年年1111月月月月2222日日日日基于基于Map-Reduce的基本运算的基本运算vv矩阵矩阵矩阵矩阵-向量乘积向量乘积向量乘积向量乘积假定矩阵假定矩阵假定矩阵假定矩阵M=mM=mij ij nnnn,向量,向量,向量,向量V
9、=vV=vj j n n,n,n足够大,但足够大,但足够大,但足够大,但V V可以一次读入内存可以一次读入内存可以一次读入内存可以一次读入内存MapMap函数:函数:函数:函数:每个每个每个每个MapMap任务将任务将任务将任务将整个向量整个向量整个向量整个向量V V和矩阵和矩阵和矩阵和矩阵MM的一个文件块作为输的一个文件块作为输的一个文件块作为输的一个文件块作为输入。对每个矩阵元素入。对每个矩阵元素入。对每个矩阵元素入。对每个矩阵元素mmij ij,MapMap任务会产生键值对任务会产生键值对任务会产生键值对任务会产生键值对(i,m(i,mij ijv vj j)。例如,。例如,。例如,。例
10、如,(i,(i,mmi1i1v v1 1),(i,m),(i,mininv vn n)ReduceReduce函数:函数:函数:函数:ReduceReduce任务将所有与给定键任务将所有与给定键任务将所有与给定键任务将所有与给定键i i关联的值相加即可得到。关联的值相加即可得到。关联的值相加即可得到。关联的值相加即可得到。电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分析大数据分析大数据分析20222022年年年年1111月月月月2222日日日日基于基于Map-Reduce的基本运算的基本运算vv矩阵矩阵矩阵矩阵-向量乘积向量乘积向量乘积向量乘积假定矩阵假定矩
11、阵假定矩阵假定矩阵M=mM=mij ij nnnn,向量,向量,向量,向量V=vV=vj j n n,n,n足够大且足够大且足够大且足够大且V V无法一次读入内存无法一次读入内存无法一次读入内存无法一次读入内存处理思路:处理思路:处理思路:处理思路:vv将将将将MM分割成分割成分割成分割成k k个宽度相等的垂直条,对应的将个宽度相等的垂直条,对应的将个宽度相等的垂直条,对应的将个宽度相等的垂直条,对应的将V V分成分成分成分成k k个高度相个高度相个高度相个高度相等的水平条。分割后的每个水平条都能够放入内存。等的水平条。分割后的每个水平条都能够放入内存。等的水平条。分割后的每个水平条都能够放入
12、内存。等的水平条。分割后的每个水平条都能够放入内存。vv将每个垂直条、水平条都存成一个文件将每个垂直条、水平条都存成一个文件将每个垂直条、水平条都存成一个文件将每个垂直条、水平条都存成一个文件vv这样就转换成向量可读入内存的矩阵这样就转换成向量可读入内存的矩阵这样就转换成向量可读入内存的矩阵这样就转换成向量可读入内存的矩阵-向量乘积。向量乘积。向量乘积。向量乘积。电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分析大数据分析大数据分析20222022年年年年1111月月月月2222日日日日基于基于Map-Reduce的基本运算的基本运算vv关系选择关系选择关系选
13、择关系选择对关系对关系对关系对关系R R的每个元组应用条件的每个元组应用条件的每个元组应用条件的每个元组应用条件C C,得到仅满足条件,得到仅满足条件,得到仅满足条件,得到仅满足条件C C的元的元的元的元组,记为组,记为组,记为组,记为 C C(R)(R)。(select*where C from R)(select*where C from R)MapMap函数:函数:函数:函数:对对对对R R中的每个元组中的每个元组中的每个元组中的每个元组t t,检测它是否满足,检测它是否满足,检测它是否满足,检测它是否满足C C。如果。如果。如果。如果满足,则产生一个键值对满足,则产生一个键值对满足,则
14、产生一个键值对满足,则产生一个键值对(t,t)(t,t)。键和值都是。键和值都是。键和值都是。键和值都是t t。ReduceReduce函数:函数:函数:函数:类似于恒等运算,将每个键值对传递到输类似于恒等运算,将每个键值对传递到输类似于恒等运算,将每个键值对传递到输类似于恒等运算,将每个键值对传递到输出部分即可。出部分即可。出部分即可。出部分即可。电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分析大数据分析大数据分析20222022年年年年1111月月月月2222日日日日基于基于Map-Reduce的基本运算的基本运算vv关系投影关系投影关系投影关系投影对关
15、系对关系对关系对关系R R的某个属性子集的某个属性子集的某个属性子集的某个属性子集S S,从每个元组中得到仅包含,从每个元组中得到仅包含,从每个元组中得到仅包含,从每个元组中得到仅包含S S中属性的元素。记为中属性的元素。记为中属性的元素。记为中属性的元素。记为 S S(R)(R)。(select S from R)(select S from R)MapMap函数:函数:函数:函数:对对对对R R中的每个元组中的每个元组中的每个元组中的每个元组t t,剔除,剔除,剔除,剔除t t中属性不在中属性不在中属性不在中属性不在S S中的中的中的中的字段得到元组字段得到元组字段得到元组字段得到元组t
16、t,输出键值对,输出键值对,输出键值对,输出键值对(t,t)(t,t)。将可能存在。将可能存在。将可能存在。将可能存在t t相同的相同的相同的相同的多个键值对转换成键值表对,即多个键值对转换成键值表对,即多个键值对转换成键值表对,即多个键值对转换成键值表对,即(t,t,t,t)(t,t,t,t)ReduceReduce函数:函数:函数:函数:将将将将(t,t,t,t)(t,t,t,t)转换成转换成转换成转换成(t,t)(t,t)输出,以保证输出,以保证输出,以保证输出,以保证对任意键对任意键对任意键对任意键t t仅产生一个键值对仅产生一个键值对仅产生一个键值对仅产生一个键值对(t,t)(t,t
17、)。电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分析大数据分析大数据分析20222022年年年年1111月月月月2222日日日日基于基于Map-Reduce的基本运算的基本运算vv分组与聚合分组与聚合分组与聚合分组与聚合设关系为设关系为设关系为设关系为R(A,B,C)R(A,B,C),分组:分组:分组:分组:按照属性子集按照属性子集按照属性子集按照属性子集A A对元组进行分对元组进行分对元组进行分对元组进行分割,割,割,割,A A的所有属性值相同的元组分为一组。的所有属性值相同的元组分为一组。的所有属性值相同的元组分为一组。的所有属性值相同的元组分为一组。聚
18、合:聚合:聚合:聚合:对每个对每个对每个对每个组中所有元组的组中所有元组的组中所有元组的组中所有元组的B B属性值进行属性值进行属性值进行属性值进行 运算,运算,运算,运算,运算包括运算包括运算包括运算包括sum,sum,count,avg,min,maxcount,avg,min,max。A,A,(B)(B)(R)(R),A A、B B由用户指定。由用户指定。由用户指定。由用户指定。MapMap函数:函数:函数:函数:对对对对R R中的每个元组中的每个元组中的每个元组中的每个元组(a a,b b,c c),生成键值对,生成键值对,生成键值对,生成键值对(a a,b b)ReduceReduc
19、e函数:函数:函数:函数:对于相同的键对于相同的键对于相同的键对于相同的键a a,输入到对应的,输入到对应的,输入到对应的,输入到对应的ReduceReduce任务任务任务任务的键值表对为的键值表对为的键值表对为的键值表对为(a a,b b1 1,.,.,b bn n),对值表,对值表,对值表,对值表 b b1 1,.,.,b bn n 进行进行进行进行 操作,操作,操作,操作,得到得到得到得到结结结结果果果果x x。则键则键则键则键a a对应的输出为:对应的输出为:对应的输出为:对应的输出为:(a a,x x)电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分
20、析大数据分析大数据分析20222022年年年年1111月月月月2222日日日日基于基于Map-Reduce的基本运算的基本运算vv两个关系的并两个关系的并两个关系的并两个关系的并对两个属性集相同的关系对两个属性集相同的关系对两个属性集相同的关系对两个属性集相同的关系R R、S S中的所有元组进行中的所有元组进行中的所有元组进行中的所有元组进行“并并并并”操作。操作。操作。操作。Union(R,S)Union(R,S)MapMap函数:函数:函数:函数:将每个输入元组将每个输入元组将每个输入元组将每个输入元组t t转变为键值对转变为键值对转变为键值对转变为键值对(t,t)(t,t)。输入文件。输
21、入文件。输入文件。输入文件可能来自关系可能来自关系可能来自关系可能来自关系R R的文件块,也可能来自关系的文件块,也可能来自关系的文件块,也可能来自关系的文件块,也可能来自关系S S的文件块。的文件块。的文件块。的文件块。ReduceReduce函数:函数:函数:函数:和每个键关联的可能有一个值或两个值,和每个键关联的可能有一个值或两个值,和每个键关联的可能有一个值或两个值,和每个键关联的可能有一个值或两个值,两种情况下都输出两种情况下都输出两种情况下都输出两种情况下都输出(t,t)(t,t)。电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分析大数据分析大数据
22、分析20222022年年年年1111月月月月2222日日日日基于基于Map-Reduce的基本运算的基本运算vv两个关系的交两个关系的交两个关系的交两个关系的交对两个属性集相同的关系对两个属性集相同的关系对两个属性集相同的关系对两个属性集相同的关系R R、S S中的所有元组进行中的所有元组进行中的所有元组进行中的所有元组进行“交交交交”操作。操作。操作。操作。Intersection(R,S)Intersection(R,S)MapMap函数:函数:函数:函数:将每个输入元组将每个输入元组将每个输入元组将每个输入元组t t转变为键值对转变为键值对转变为键值对转变为键值对(t,t)(t,t)。R
23、educeReduce函数:函数:函数:函数:和每个键关联的可能有一个值或两个值,和每个键关联的可能有一个值或两个值,和每个键关联的可能有一个值或两个值,和每个键关联的可能有一个值或两个值,如果键值表对为如果键值表对为如果键值表对为如果键值表对为(t,t,t)(t,t,t),则输出,则输出,则输出,则输出(t,t)(t,t);若键值表对为;若键值表对为;若键值表对为;若键值表对为(t,t)(t,t),则输出,则输出,则输出,则输出(t,NULL)(t,NULL)电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分析大数据分析大数据分析20222022年年年年111
24、1月月月月2222日日日日基于基于Map-Reduce的基本运算的基本运算vv两个关系的差两个关系的差两个关系的差两个关系的差对两个属性集相同的关系对两个属性集相同的关系对两个属性集相同的关系对两个属性集相同的关系R R、S S中的所有元组进行中的所有元组进行中的所有元组进行中的所有元组进行“差差差差”操作。操作。操作。操作。Difference(R,S)=R-SDifference(R,S)=R-SMapMap函数:函数:函数:函数:将每个输入元组将每个输入元组将每个输入元组将每个输入元组t t转变为键值对转变为键值对转变为键值对转变为键值对(t,R)(t,R)或或或或(t,S)(t,S)。
25、ReduceReduce函数:函数:函数:函数:输入到输入到输入到输入到ReduceReduce函数的键值表对有三种情函数的键值表对有三种情函数的键值表对有三种情函数的键值表对有三种情况,即况,即况,即况,即(t,R),(t,S),(t,R,S)(t,R),(t,S),(t,R,S),如果键值表对为,如果键值表对为,如果键值表对为,如果键值表对为(t,R)(t,R),则输,则输,则输,则输出出出出(t,t)(t,t);否则输出;否则输出;否则输出;否则输出(t,NULL)(t,NULL)电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:大数据分析大数据分析大数据分析大数据分析20
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 分享 部分
限制150内