欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    2022年HIVE开发规范 .pdf

    • 资源ID:35292644       资源大小:42.78KB        全文页数:3页
    • 资源格式: PDF        下载积分:4.3金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要4.3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2022年HIVE开发规范 .pdf

    Hive 开发规范1. 表建表示例1.1. 命名表名称由字母、数字、下划线组成,不同单词之间用下划线分开采用 “数据层次缩写_数据表名“ 格式命名。数据层次缩写包括(dpods,dpdw,dpmid,dpdm,dprpt)dpods:存放从原系统采集来的原始数据dpdw:保存经过清洗,转换和重新组织的历史数据,数据将保留较长时间,满足系统最细粒度的查询需要.dpmid:模型计算中间结果。减少重复计算,降低事实表访问和计算压力。dpdm:数据集市。基于部门或某一特定分析主题需要dprpt:直接面向用户的报表临时表命名: dpstg_数据表名_YYYYMMDD外部表命名:数据层次缩写_ext_数据表名其它团队表命名:数据层次缩写_团队名缩写_数据表名1.2. 文件格式缺省使用 RCFILE 1.3. 分隔符:Hive 表缺省使用:FIELDS TERMINATED BY 005 COLLECTION ITEMS TERMINATED BY 002 MAP KEYS TERMINATED BY 003 LINES TERMINATED BY n 1.4 空值所有建表语句原则上执行以下语句设置表的空值选项:ALTER TABLE table_name SET SERDEPROPERTIES(serialization.null.format = ); 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 3 页 - - - - - - - - - 1.5 其他建表和加载分区时加上 if not exists 删除表时加上 drop table if exists 深刻理解 hive 内部表与外部表的区别,删除表操作时要谨慎。如果是内部表的话,删除内部表会将元数据和真实数据全部删除,且不可恢复。2. Column 2.1. 命名字段:小写字母、数字、下划线组成,不同单词之间用下划线分开分区列:采用 “ hp_字段名” 命名分区列2.2. 字段类型时间: STRING , like:yyyy-mm-dd hh:mm:ss 整形: INT, BIGINT 字符串: STRING 浮点: DOUBLE 复杂类型: MAP 、ARRAY 、STRUCT 、UNION 2.3. Partition列Hive Partition 列在 Data 中并不存储,这会导致当以文件形式对外提供数据时,数据会有缺失,为此,我们对所有的Partition 列冗余存储。示例:当以列名为type 的列作为 partition 列时,我们除了保存type 列外,增加一列 hp_type 列做为 partiiton 列。2.4. Bucket列使用 set hive.enforce.bucketing = true 自动控制上一轮reduce 的数量从而适配bucket 的个数2.5. 修改可以修改列数据类型严禁删除列新增列只能加到最后名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 3 页 - - - - - - - - - 3. 视图禁止使用视图!4. 注释表和字段的注释都必须使用comment 语句加以注释。所有字段必须给出准确注释;枚举类型字段必须列举出所有枚举值5. 数据生命周期表注册时,开发需要认真填写生命周期,以便定时清理数据,节约存储。6. 字符集Hadoop 和 Hive 都是用 UTF-8 编码的,所有导入文件的字符必须为UTF-8 格式。7. 小文件合并当一个表存在过多小文件(小于10M )时,不仅会对namenode 造成很大压力,也会降低执行效率,甚至任务无法执行,因此,当发现表出现很多小文件时,请添加如下参数:set hive.mergejob.maponly = true; set hive.merge.mapfiles = true; set hive.merge.mapredfiles = true; set mapred.max.split.size=256000000; set mapred.min.split.size.per.node=256000000; set mapred.min.split.size.per.rack=256000000; set hive.merge.size.per.task = 256000000; set hive.merge.smallfiles.avgsize=100000000; set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; 各字段具体含义参考架构同学yukang.chen的调研报告:Hive Merge Small Files调研名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 3 页 - - - - - - - - -

    注意事项

    本文(2022年HIVE开发规范 .pdf)为本站会员(Che****ry)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开