药学数据集化学(T-BIA 15—2023).pdf
ICS 01.040.19 CCS C10 T/BIA 团 体 标 准 T/BIA 15-2023 药学数据集 化学 Pharmaceutical dataset-Chemistry 2023-04-17 发布 2023-04-18 实施 北京信息化协会 发 布 T/BIA 15-2023 I 目 次 前言.II 引言.III 1 范围.4 2 规范性引用文件.4 3 术语和定义.4 4 数据元基本属性说明.5 4.1 数据元基本属性.5 4.2 标识符编码规则.5 4.3 数据元名称.5 4.4 说明.5 4.5 数据类型说明.5 4.6 表示格式说明.6 4.6.1 表示格式中字符含义描述规则.6 4.6.2 表示格式中字符长度描述规则.6 4.7 值域.7 5 概述.7 6 数据元.7 6.1 化合物的基本信息.7 6.2 化合物的结构信息.8 6.3 化合物的物理性质信息.9 6.4 化合物的化学性质信息.9 6.5 化合物的波谱信息.10 6.6 化合物的含量纯度信息.11 6.7 化合物的药物靶点信息.11 参考文献.13 T/BIA 15-2023 II 前 言 本文件按照 GB/T 1.12020标准化工作导则 第 1 部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由北京信息化协会提出。本文件由北京信息化协会归口。本文件起草单位:中国医学科学院药物研究所;国家人口健康科学数据中心;中国医学科学院;中国医学科学院医学信息研究所;北京协和建昊医药技术开发有限责任公司。本文件主要起草人:李燕、潘显道、刘晓宇、周伟、杨金玲、冯志强、范愉、靳洪涛、吴思竹、沈珑瑛、褚迎雪、邓海东、罗葳、刘思齐、张晓宇、王嘉阳、叶铃、刘盛宇。本文件为首次发布。T/BIA 15-2023 III 引 言 药学数据集包括药理学、药物代谢动力学、药物毒理学、药学相关的组学及化学五个部分。本文件是药学数据集的组成部分之一,旨在为药学相关的化学研究提供一套术语规范、定义明确的基本数据元标准,以规范信息记录内容,实现信息在收集、存储、发布、交换等应用中的一致性和可比性,保证药学信息的有效交换、统计和共享,是药学数据清洗工具研发的基础。T/BIA 15-2023 4 药学数据集 化学 1 范围 本文件规定了化合物的基本信息、化合物的结构信息、化合物的物理性质信息、化合物的化学性质信息、化合物的波谱信息、化合物的纯度含量信息、化合物的药物靶点信息,及编码规则。本文件适用于临床前药物研究、技术优化、研发关键技术工具、数据库构建、数据共享等。2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 31074 科技平台 数据元设计与管理 GB/T 7408 数据元和交换格式 信息交换 日期和时间表示法 GB 2312 信息交换用汉字编码字符集 基本集 GB 3102.1-93 空间和时间的量和单位 GB/T 14666 分析化学术语 3 术语和定义 下列术语和定义适用于本文件。3.1 化合物 compound 由两种或两种以上元素的原子组成的纯净物质。具有一定的特性,通常具有一定的组成。3.2 化学性质 chemical properties 化合物在化学变化过程中表现出来的性质。牵扯到化合物分子(或晶体)结构和化学组成的变化。化合物的酸碱性、氧化还原性和络合性等都属化学性质。3.3 物理性质 physical properties 化合物不需要发生化学变化就表现出来的性质,如颜色、性状、气味、熔点、沸点、硬度和密度等。3.4 靶点 target T/BIA 15-2023 5 药物与机体生物大分子的结合部位即药物靶点。药物作用靶点涉及受体、酶、离子通道、转运体、免疫系统、基因等。4 数据元基本属性说明 4.1 数据元基本属性 数据元标识符、数据元名称、英文名称、说明、数据类型、表示格式、计量单位、值域。4.2 标识符编码规则 数据元标识符编码应遵循以下规则:a)规范性引用文件中的数据元标识符编码规则适用于本文件对应数据元。b)非引用类数据元标识符由 2 位大写英文字母与 7 位阿拉伯数字组成。按数据集首字母缩写、大类代码、小类代码、顺序号从左至右顺序排列。结构见图 1。图 1 数据元标识符代码结构 图 1 中:a)标识符前 2 位:数据集首字母缩写 PD,用 2 位大写英文字母表示。b)大类代码:用 2 位数字表示,从 01 开始顺序编码。c)小类代码:用 2 位数字表示,数字大小无含义,在大类内进行排序,从 01 开始顺序编码。大类代码与小类代码之间加“.”区分。d)顺序号:用 3 位数字表示,数字大小无含义,在小类内进行排序,从 001 开始顺序编码。小类代码与顺序号之间加“.”区分。4.3 数据元名称 数据元的名称是标识数据元的主要手段,简称“名称”。4.4 说明 关于数据元的含义和基本特征的说明,并使之区别于其他数据元。4.5 数据类型说明 数据元的数据类型说明见表 1。T/BIA 15-2023 6 表 1 数据类型说明 数据类型 表示符 描述 字符型(string)S 通过字符形式表达的值的类型,可包含字母字符(az,AZ)、数字字符等(默认 GB 2312),其中:S1:不可枚举型,表示数据元的允许值(值域)是不可枚举的,且以字符描述;S2:枚举型,表示数据元的允许值(值域)是可枚举的,通常列表值不超过 3 个;S3:引用型,数据元的允许值(值域)是可枚举的,当列表值超过3个时通常会引用代码表 布尔型(boolean)L 又称逻辑型,采用0(False)或1(True)形式表示的逻辑值的类型 数值型(number)N 通过“0”到“9”数字形式表示的值的类型 日期型(date)D 采用GB/T 7408中规定的YYYYMMDD格式表示的值的类型 日期时间型(datetime)DT 采用GB/T 7408中规定的YYYYMMDDThhmmss格式表示的值的类型(字符T作为时间的标志符,说明时间表示的开始)时间型(time)T 采用GB/T 7408中规定的hhmmss格式表示的值的类型 二进制(binary)BY 上述无法表示的其他数据类型,如图像、音频、视频等二进制流文件格式 4.6 表示格式说明 4.6.1 表示格式中字符含义描述规则 数据元的表示格式中字符含义描述规则见表 2。表 2 表示格式中字符含义描述规则 字符 含义 A 字母字符 N 数字字符 AN 字母或(和)数字字符 D8 采用YYYYMMDD的格式表示,其中,“YYYY”表示年份,“MM”表示月份,“DD”表示日期 T6 采用hhmmss的格式表示,其中“hh”表示小时,“mm”表示分钟,“ss”表示秒 DT15 采用YYYYMMDDThhmmss的格式表示,字符T作为时间的标志符,说明日的时间表示的开始;其余字符表示与上同 4.6.2 表示格式中字符长度描述规则 数据元的表示格式中字符长度描述规则见表 3。表 3 表示格式中字符长度描述规则 类别 表示方法 固定长度 在数据类型表示符后直接给出字符长度的数目,如N4 T/BIA 15-2023 7 类别 表示方法 可变长度 1.可变长度不超过定义的最大字符数,在数据类型表示符后加“.”后给出数据元最大字符数目,如 AN.10 2.可变长度在定义的最小和最大字符数之间,在数据类型表示符后给出最小字符长度数后加“.”后再给出最大字符数,如 AN4.20 有若干字符行表示的长度 按固定长度或可变长度的规定给出每行的字符长度数后加“X”后,再给出最大行数,如AN.40X3,有国家规定行文模板的记做AN.X 有小数位 按固定长度或可变长度的规定给出字符长度数后,在“,”后给出小数位数,字符长度数包含整数位数、小数点位数和小数位数,如N6,2 4.7 值域 允许值的合集。5 概述 药学数据集包括:药理学数据集、药物代谢动力学数据集、药物毒理学数据集、化学数据集、药学相关的组学数据集。从实际应用、数据规范共享角度出发,按照药学分支学科分类。化学数据集按照化合物的不同信息内容分类,对化合物的基本信息、结构信息、物理性质信息、化学性质信息、波谱信息、纯度含量信息、药物靶点信息等进行规范,规定了数据元编码规则、数据类型、表示格式、计量单位(可按照不同试验场景选择对应单位)、值域。6 数据元 6.1 化合物的基本信息 化合物的基本信息数据元见表 4。T/BIA 15-2023 8 表 4 化合物的基本信息数据元 6.2 化合物的结构信息 化合物的结构信息数据元见表 5。表 5 化合物的结构信息数据元 数据元标识符 数据元名称 英文名称 说明 数据类型 表示格式 计量单位 值域 PD05.02.001 化学结构2D two-dimensional chemical structure 用元素符号相互连接,表示化合物分子中原子的排列和结合方式的式子 BY AN.X-PD05.02.002 化学结构3D three-dimensional chemical structure 从三维空间揭示化合物的立体结构 BY AN.X-数据元标识符 数据元名称 英文名称 说明 数据类型 表示格式 计量单位 值域 PD05.01.001 化合物的中文名称 Chinese name 化合物的具体中文名称 S1 AN.50-PD05.01.002 化合物的英文名称 English name 化合物的具体英文名称 S1 AN.50-PD05.01.003 化合物的编号 number of compound 化合物的代号 S1 AN.50-PD05.01.004 化合物的商业名称 trade name 亦称商标名,是一家企业基于商业目的所使用的贸易名称 S1 AN.50-PD05.01.005 化合物CAS号 chemical abstracts service(CAS)registry number 美国化学文摘社登记号 S1 AN.50-PD05.01.006 分子式 molecular formula 用元素符号表示物质组成的化学式 S1 AN.100-PD05.01.007 分子量 molecular weight 物质的分子或特定单元的平均质量与核12C原子质量的1/12之比 N N.7,2-0 T/BIA 15-2023 9 PD05.02.003 化合物结构SMILES compound structure of simplified molecular input line entry system 用ASCII字符串明确描述分子结构的规范 S1 AN.100-6.3 化合物的物理性质信息 化合物的物理性质信息数据元见表 6。表 6 化合物的物理性质信息数据元 数据元标识符 数据元名称 英文名称 说明 数据类型 表示格式 计量单位 值域 PD05.03.001 外观 appearance 化合物的外在表现形式 S1 AN.50-PD05.03.002 沸点 boiling point 当某液体的饱和蒸气压与外压相等时液体就沸腾时的温度 N N.6,2 C 0或0 PD05.03.003 燃点 ignition point 在规定的试验条件下,应用外部热源使化合物表面起火并持续燃烧一定时间所需的最低温度 N N.6,2 C 0 PD05.03.004 闪点 flash point 液体表面的蒸气和空气混合物与火接触而初次发生蓝色火焰的闪光时的温度 N N.6,2 C 0或0 PD05.03.005 熔点 melting point 一定压力下,加热固体使之达到固液共存时的温度 N N.6,2 C 0-300 PD05.03.006 比旋度 optical rotation 平面偏振光通过含有某些光学活性化合物液体或溶液时能引起旋光,使偏振光的平面向左或向右旋转的度数 N N.6,2 0或0 6.4 化合物的化学性质信息 化合物的化学性质信息数据元见表 7。T/BIA 15-2023 10 表 7 化合物的化学性质信息数据元 数据元标识符 数据元名称 英文名称 说明 数据类型 表示格式 计量单位 值域 PD05.04.001 化学稳定性 chemical stability 在化学因素作用下保持原有物理化学性质的能力 S1 AN.100-PD05.04.002 解离常数 dissociation constant 化合物溶于水时,受水作用离解为水合阴、阳离子平衡时的常数 N N.5,2 pKa 0或0 PD05.04.003 溶解性 solubility 化合物在一种特定溶剂里溶解能力大小的一种属性 N N.6,2%,g/L,mg/L,g/L,ng/L,g/mL,mg/mL,g/mL,ng/mL 0-999 PD05.04.004 化学反应 chemical reaction 分子破裂成原子,原子重新排列组合生成新分子的过程。在反应中常伴有发光、发热、变色、生成沉淀物等,判断一个反应是否为化学反应的依据是反应是否生成新的分子 S1或BY AN.X-6.5 化合物的波谱信息 化合物的波谱信息数据元见表 8。表 8 化合物的波谱信息数据元 数据元标识符 数据元名称 英文名称 说明 数据类型 表示格式 计量单位 值域 PD05.05.001 核磁共振氢谱 proton nuclear magnetic resonance spectrum 质子核磁共振谱 BY AN.X ppm 0-20 PD05.05.002 核磁共振碳谱 carbon-13 nuclear magnetic resonance spectrum 碳-13同位素核磁共振谱 BY AN.X ppm 0-250 T/BIA 15-2023 11 PD05.05.003 二维图谱 two-dimensional NMR spectrum 1H-13C核磁相关谱(HSQC和HMBC)由两个彼此独立时间域函数经两次傅里叶变换得到两个频率域函数的核磁共振谱 BY AN.X ppm 0-250 PD05.05.004 红外谱图 infrared spectrum 电磁波谱中位于可见光区和微波谱区的吸收光谱 BY AN.X cm-1 400-4000 PD05.05.005 紫外光谱图 ultraviolet spectrum 电磁波谱中的紫外波段范围内的发射和吸收光谱 BY AN.X nm 180-400 PD05.05.006 差示扫描量热法 differential scanning calorimetry spectrum 在程序控制温度下,测量试样与参比物之间的能量差随温度变化的一种分析方法 BY AN.X C 0-300 PD05.05.007 质谱 mass spectrometry 组成试样的原子或分子及其碎片按质量大小顺序排列成的谱图 BY AN.X m/e 0 PD05.05.008 粉末X射线衍射 X-ray diffraction spectrum 以单色X射线通过准直管后垂直入射于不断自转的粉状晶样得到粉晶衍射图 BY AN.X 0-100 PD05.05.009 单晶X射线衍射 X-ray single crystal diffraction spectrum 利用单晶体对X射线的衍射效应来测定晶体结构的试验方法 BY AN.X-6.6 化合物的含量纯度信息 化合物的含量纯度信息数据元见表 9。表 9 化合物的含量纯度信息数据元 数据元标识符 数据元名称 英文名称 说明 数据类型 表示格式 计量单位 值域 PD05.06.001 含量 content 某物质中所含某种组分的质量或者体积分数 N N.6,2%0 PD05.06.002 纯度 purity 化学物质中,主成分在该物质中所占的分数 N N.6,2%0 6.7 化合物的药物靶点信息 T/BIA 15-2023 12 化合物的药物靶点信息数据元见表 10。表 10 化合物的药物靶点信息数据元 数据元标识符 数据元名称 英文名称 说明 数据类型 表示格式 计量单位 值域 PD01.05.064 靶点名称 name of the target 药物与机体生物大分子的结合部位即药物靶点。提供化合物一至多个靶点名称,包含中文名称或英文名称 S1 AN.100-PD01.05.065 化合物靶点一级序列 primary sequences 化合物靶点蛋白质中氨基酸残基的排列顺序。提供试验中使用的化合物的靶点一级序列 S1 AN.10000-PD05.07.003 靶点晶体结构 crystal structure 晶体的微观结构,即晶体实际原子、分子或离子的具体排列情况 BY AN.X-PD01.05.011 半抑制浓度 50%inhibiting concentration,IC50 对指定的生物过程(或该过程中的某个组分比如酶、受体、细胞等)抑制一半时所需的药物或者抑制剂的浓度/质量浓度/活度浓度 N N.7,3 浓度:mol/L,mmol/L,mol/L,nmol/L 质量浓度:g/L,mg/L,g/L,ng/L,g/mL,mg/mL,g/mL,ng/mL 活度浓度:Ci/L,mCi/mL,Ci/L,Bq/mL,mBq/mL 0-999 PD01.05.194 抑制率 inhibition rate 受试物抑制能力的强弱。(溶剂对照组数值-药物处理组数值)/溶剂对照组数值 100%N N.6,2%0 PD01.05.138 升高率 increase rate(上升后的数值-上升前的数值)/上升前的数值 100%N N.6,2%0 PD01.05.068 活性 activity 迅速起反应或促进一个快速反应的特性 N N.6,2%0 或0 T/BIA 15-2023 13 参 考 文 献 1 GB/T 39908 数据汇交通用代码集 2 GB/T 18391.3 元数据注册系统(MDR)第 3 部分:注册系统元模型与基本属性 3 GB/T 39909 科学数据汇交通用数据元 4 GB/T 39912 科学数据汇交技术与管理规范 5 杨世杰主编.药理学(全国高等学校教材 供 8 年制及 7 年制临床医学等专业用)第 2 版.北京:人民卫生出版社,2010.08 6 化学化工大辞典编委会.化学化工大辞典.北京:化学工业出版社,2003.01 7 国家药典委员会.中华人民共和国药典 2020 版.北京:中国医药科技出版社,2020.07 8 查锡良等主编.生物化学与分子生物学 第 8 版.北京:人民卫生出版社,2013.03 9 化学名词化学名词审定委员会.化学名词 第 2 版.北京:科学出版社,2017.05