2022年HIVE开发规范 .pdf

资源ID：35292644 资源大小：42.78KB 全文页数：3页
资源格式： PDF 下载积分：4.3金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要4.3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

2022年HIVE开发规范 .pdf

Hive 开发规范1. 表建表示例1.1. 命名表名称由字母、数字、下划线组成，不同单词之间用下划线分开采用 “数据层次缩写_数据表名“ 格式命名。数据层次缩写包括（dpods,dpdw,dpmid,dpdm,dprpt）dpods：存放从原系统采集来的原始数据dpdw:保存经过清洗，转换和重新组织的历史数据，数据将保留较长时间,满足系统最细粒度的查询需要.dpmid：模型计算中间结果。减少重复计算，降低事实表访问和计算压力。dpdm：数据集市。基于部门或某一特定分析主题需要dprpt：直接面向用户的报表临时表命名： dpstg_数据表名_YYYYMMDD外部表命名：数据层次缩写_ext_数据表名其它团队表命名：数据层次缩写_团队名缩写_数据表名1.2. 文件格式缺省使用 RCFILE 1.3. 分隔符：Hive 表缺省使用：FIELDS TERMINATED BY 005 COLLECTION ITEMS TERMINATED BY 002 MAP KEYS TERMINATED BY 003 LINES TERMINATED BY n 1.4 空值所有建表语句原则上执行以下语句设置表的空值选项：ALTER TABLE table_name SET SERDEPROPERTIES(serialization.null.format = ); 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页，共 3 页 - - - - - - - - - 1.5 其他建表和加载分区时加上 if not exists 删除表时加上 drop table if exists 深刻理解 hive 内部表与外部表的区别，删除表操作时要谨慎。如果是内部表的话，删除内部表会将元数据和真实数据全部删除，且不可恢复。2. Column 2.1. 命名字段：小写字母、数字、下划线组成，不同单词之间用下划线分开分区列：采用 “ hp_字段名” 命名分区列2.2. 字段类型时间： STRING ， like：yyyy-mm-dd hh:mm:ss 整形： INT, BIGINT 字符串： STRING 浮点： DOUBLE 复杂类型： MAP 、ARRAY 、STRUCT 、UNION 2.3. Partition列Hive Partition 列在 Data 中并不存储，这会导致当以文件形式对外提供数据时，数据会有缺失，为此，我们对所有的Partition 列冗余存储。示例：当以列名为type 的列作为 partition 列时，我们除了保存type 列外，增加一列 hp_type 列做为 partiiton 列。2.4. Bucket列使用 set hive.enforce.bucketing = true 自动控制上一轮reduce 的数量从而适配bucket 的个数2.5. 修改可以修改列数据类型严禁删除列新增列只能加到最后名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 3 页 - - - - - - - - - 3. 视图禁止使用视图！4. 注释表和字段的注释都必须使用comment 语句加以注释。所有字段必须给出准确注释；枚举类型字段必须列举出所有枚举值5. 数据生命周期表注册时，开发需要认真填写生命周期，以便定时清理数据，节约存储。6. 字符集Hadoop 和 Hive 都是用 UTF-8 编码的，所有导入文件的字符必须为UTF-8 格式。7. 小文件合并当一个表存在过多小文件（小于10M ）时，不仅会对namenode 造成很大压力，也会降低执行效率，甚至任务无法执行，因此，当发现表出现很多小文件时，请添加如下参数：set hive.mergejob.maponly = true; set hive.merge.mapfiles = true; set hive.merge.mapredfiles = true; set mapred.max.split.size=256000000; set mapred.min.split.size.per.node=256000000; set mapred.min.split.size.per.rack=256000000; set hive.merge.size.per.task = 256000000; set hive.merge.smallfiles.avgsize=100000000; set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; 各字段具体含义参考架构同学yukang.chen的调研报告：Hive Merge Small Files调研名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 3 页 - - - - - - - - -

注意事项

本文（2022年HIVE开发规范 .pdf）为本站会员（Che****ry）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。