AIGC峰会-大模型研发中的数据工程、自动化评估及与知识图谱的结合-发布版.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《AIGC峰会-大模型研发中的数据工程、自动化评估及与知识图谱的结合-发布版.pdf》由会员分享,可在线阅读,更多相关《AIGC峰会-大模型研发中的数据工程、自动化评估及与知识图谱的结合-发布版.pdf(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、DataFunSummit DataFunSummit#2023 2023大模型研发中的数据工程、自动化评估及与知识图谱的结合大模型研发中的数据工程、自动化评估及与知识图谱的结合刘焕勇-360人工智能研究院-算法专家(老刘说NLP公众号作者)大模型研发中的数据大模型研发中的数据工程工程大模型研发中的自动化大模型研发中的自动化评估评估大模型与知识图谱的大模型与知识图谱的结合结合总结总结目录目录 CONTENTCONTENTDataFunSummitDataFunSummit#202320230101大模型研发中的数据大模型研发中的数据工程工程什么是大模型的数据工程-以数据为中心的AI 以数据为中
2、心的AI:模型不变,通过改进数据集质量提升模型效果 大模型的数据工程需要解决的几个关键问题:需要什么数据?数据从哪儿来?数据怎么处理?数据怎么评估?数据怎么管理?回顾:现有大模型基本情况回顾:现有大模型应用场景起底:GPT背后的预训练数据 ChatGPT数据主要来自CommonCrawl、新闻、帖子、书籍及各种网页。CommonCrawl、网页、书籍、维基百科对于训练的贡献量分别为60%、22%、16%、3%。英文维基百科全部内容包含约30亿tokens,仅占到训练数据量的3%。数据上的问题数据上的问题:ChatGPTChatGPT 的知识有限的知识有限 (2021(2021年之前年之前),真
3、实性无法保障。真实性无法保障。参考:lifearchitech.ai起底:英文主流大模型预训练数据的构成-多语种能力起底:英文主流大模型预训练数据的构成多模态大模型数据集多模态大模型数据集大语言模型数据集大语言模型数据集起底:英文主流大模型预训练数据的构成起底:英文主流大模型预训练数据的构成GPT-3GPT-3The Pile v1The Pile v1WebTextWebTextCommon Crawl(C4)Common Crawl(C4)起底:英文主流大模型常用预训数据-维基百科、书籍 维基百科维基百科:维基百科致力于打造包含全世界所有语言的自由的百科全书,由超三十万名志愿者组成的社区编
4、写和维护。截至2023年3月,维基百科拥有332种语言版本,总计60,814,920条目。其中,英文版维基百科中有超过664万篇文章,拥有超4,533万个用户。书籍书籍:主要用于训练模型的故事讲述能力和反应能力,包括小说和非小说两大类。数据集包括Project Gutenberg和Smash words(Toronto BookCorpus/BookCorpus)等。Project Gutenberg是一个拥有7万多本免费电子书的图书馆,包括世界上最伟大的文学作品,尤其是美国版权已经过期的老作品。BookCorpus以作家未出版的免费书籍为基础,这些书籍来自于世界上最大的独立电子书分销商之一的
5、Smashwords。起底:英文主流大模型常用预训数据-论文期刊 期刊可以从ArXiv和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。ArXiv是一个免费的分发服务和开放获取的档案,包含物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学以及经济学等领域的2,235,447篇学术文章。起底:英文主流大模型常用预训数据-WebText、Common crawl RedditReddit链接代表流行内容的风向标链接代表流行内容的风向标。Reddit是一个娱乐、社交及新闻网站,注册用户可以将文字
6、或链接在网站上发布,使它成为了一个电子布告栏系统。WebText是一个大型数据集,它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。CommoncrawlCommoncrawl是2008年至今的一个网站抓取的大型数据集。CommonCrawl是一家非盈利组织,致力于为互联网研究人员、公司和个人免费提供互联网副本,用于研究和分析,它的数据包含原始网页、元数据和文本提取,文本包含40多种语言和不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。WebTextWebText前前3
7、030个域个域 C4 C4前前2323个域名个域名(不包括维基百科不包括维基百科)起底:英文主流大模型常用预训数据-The Pile及代码、论坛 ThePile数据集:一个825.18GB的英语文本数据集,用于训练大规模语言模型。ThePile由上文提到的ArXiv、WebText、Wikipedia等在内的22个不同的高质量数据集组成,包括已经建立的自然语言处理数据集和几个新引入的数据集。除了训练大型语言模型外,ThePile还可以作为语言模型跨领域知识和泛化能力的广泛覆盖基准。起底:中文主流大模型预训数据构成华为盘古大模型华为盘古大模型1.1TB1.1TB中文文本语料库数据组成中文文本语料
8、库数据组成WeLMWeLM大模型训练语料库统计大模型训练语料库统计阿里阿里M6M6预训练数据集构成预训练数据集构成InternVideoInternVideo预训练过程中使用的数据集统计预训练过程中使用的数据集统计起底:中文主流大模型的预训练数据构成起底:中文主流大模型预训练数据的构成-中英对比GPT-3GPT-3 VSVS 盘古盘古alphaalpha与悟道与悟道2.02.0的训练数据来源的训练数据来源参考:lifearchitech.ai起底:中文主流大模型预训练数据的构成-中英语料对应问题的提出:我们需要怎样的预训练数据 AI大模型需要高质量、大规模、多样性的数据集。高质量高质量 高质量
9、数据集能够提高模型精度与可解释性,并且减少收敛到最优解的时间,减少训练时长。信源权威可靠、内容价值观对齐、专业领域知识 规范性、完整性、准确性、一致性、时效性 大规模大规模 Scaling Laws for Neural Language Models中提出LLM模型所遵循的“伸缩法则”(scaling law),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。多样性多样性 数据丰富性能够提高模型泛化能力,过于单一的数据会非常容易让模型过于拟合训练数据。相关性相关性:回答是否和问题相关,避免答非所问。准确性准确性:是否准确,事实性回答要求完全一致,开放性问答
10、要求语义相近。完备性完备性:是否涵盖了所有要点、有总结、有分析、有扩展等。连贯性连贯性:是否表达流畅、有条理、有逻辑性。安全性安全性:是否包含粗鲁、侮辱性等词汇。专业性专业性:不口水话,不啰嗦,书面用语,专业表达。敏感性敏感性:是否涉及到政治领域、黄反、敏感事件等负面信息。AIAI会话场景下的会话场景下的质量要求质量要求预训练模型预训练模型的数据的数据要求要求问题的提出:以数据为中心的预训模型更高质量、更丰富的训练数据是GPT模型成功的驱动力,除模型权重变化之外,模型架构保持相似解决方案:领域预训模型的训练链路-以caMA为例https:/ 以数据为中心的AI:模型不变,通过改进数据集质量提升
11、模型效果解决方案:以数据为中心的大模型预训数据工程-工作流拆解解决方案:以数据为中心的大模型预训数据工程-采集、标注与评估解决方案:以数据为中心的大模型预训数据工程解决方案:以数据为中心的大模型预训数据工程-数据源的选取 目标目标:构建起大规模、多样性的数据,需要广泛收集并标准化各类语料,构建起大规模、多样性的数据,需要广泛收集并标准化各类语料,建立数据体系、数据来源,分开收集。解决方案解决方案:数据源的选取依据数据源的选取依据 数据体系是否完备 站点来源是否权威 数据规模是否大 数据实时性是否足够 下游任务是否有需求 下游技能有哪些表现差的能力 网站数据网站数据 通用网页 搜索数据 问答数据
12、 知识图谱百科 代码推理数据 专业文献专业文献 研究报告 学术论文、期刊、书籍、文学著作 行业数据行业数据 任务评测数据集 多语种数据集 金融、法律、房地产、体育、医药、影视领域语料解决方案:以数据为中心的大模型预训数据工程-站点过滤与噪声信息清洗 目标目标:语料中存在大量不干净、广告、隐私、敏感数据,需要进行剔除,保证高质量。语料中存在大量不干净、广告、隐私、敏感数据,需要进行剔除,保证高质量。解决解决方案方案:质量分档质量分档模型模型 基于高优语料数据,使用fasttext分类器,分为4档,0,1,2,3:2 3 认为是优质数据 特征使用包含title以及CEloss.边缘文本剔除边缘文本
13、剔除模型模型 高优语料数据,使用fasttext分类器,识别正文文本 使用不含title-ce分类器.垂直网页处理垂直网页处理 Pattern级高优语料提取 定制化边缘文本剔除.基于规则的噪声清洗基于规则的噪声清洗 空格、特殊符号剔除,繁简体转换 语种检测 敏感信息,如脏话、煽动性言论和其他非法内容剔除 隐私数据识别与处理(私人信息(即身份号码、电话号码、qq号码、电子邮件地址等).基于模型的噪声清洗基于模型的噪声清洗 PPL判定模型,剔除不连贯文本.解决方案:以数据为中心的大模型预训数据工程-网页分类建模 目的目的:网页分类建模的目的在于挖掘细粒度的网页数据,以满足不同类别数据的需求网页分类
14、建模的目的在于挖掘细粒度的网页数据,以满足不同类别数据的需求 解决方案解决方案 网页标签挖掘 LDA主题词提取 文本关键词提取 人工审核标签 下游技能迭代反馈标签.网页主题分类 预设网页类别体系,体育、历史、金融、医药 等细分领域标签 构造语料分类器,完成语料标签分类:基于BERT.解决方案:以数据为中心的大模型预训数据工程-数据质量控制 目标目标:经过模型自动化质量评估后,可以得到质量较高的数据,但数据质量如何量化,如何给出定性的质量经过模型自动化质量评估后,可以得到质量较高的数据,但数据质量如何量化,如何给出定性的质量分?分?解决方案解决方案 数据质量数据质量评分评分 标计算得分标计算得分
15、计算计算-举例举例:(3分*样本量+2分*样本量+1分*样本量+0分*样本量)/(总量*3)*100 人工确定质量评分标准人工确定质量评分标准 正文的语句通顺连贯 存在噪音标签/文本 存在边框、或者非规范文本 在空短页、投毒、堆砌、其它低质、灌水等无价值内容.数据版本数据版本控制控制 根据数据生成流程的各个阶段备份管理 数据各阶段信息标引.预训数据索引预训数据索引管理管理 训练数据问题反馈、定位.数据随机抽样数据随机抽样 根据数据源抽样送评 人工质量评分 按数据源进行质量分高低排序.解决方案:以数据为中心的大模型预训数据工程-预训数据采样 DoReMi:Optimizing Data Mixt
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIGC 峰会 模型 研发 中的 数据 工程 自动化 评估 知识 图谱 结合 发布
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内