化学数据库

化学数据库是为记录化学信息而专门设计的数据库。这些信息包括了物质的分子结构、晶体结构、谱学信息、相关反应与合成方法，以及化学热力学性质数据等。

化学数据库的种类编辑

分子结构数据库编辑

一般来说，用二维键线式来描述分子结构，对大多数小分子而言是较为常见的方法。尽管这种表述方法对化学家们来说简单明了，却不适合于在数据库中的存储和搜索算法的编写。因此在数据库中小分子（在药物设计领域也常称为配体）通常以将分子中的原子及其键连列表的方式描述，而大分子如蛋白质等，则常用氨基酸组装单元序列等更紧凑的方式表示。

化学文献数据库编辑

化学文献数据库的目的是将化学物质与相关文献——如科学论文或专利——关联起来。此类数据库的典型代表如化学文摘社的STN和SciFinder。许多专注于物质表征的数据库都提供了文献链接。

晶体学数据库编辑

晶体学数据库主要提供物质的X射线衍射数据。这些数据反映了物质的结构信息。最典型的代表是蛋白质资料库和剑桥晶体学数据库。

核磁共振谱数据库编辑

核磁共振谱数据库提供物质的核磁共振波谱信息。这类数据库一般也提供物质的其他谱学信息，如傅立叶变换红外吸收光谱和质谱等。

反应数据库编辑

大多数数据库所记录的都是稳态分子的信息，但也有一些反应数据库，着重记录反应中瞬间产生的亚稳态分子或中间体。这类反应数据库一般还会提供反应前驱物、产物和反应机理的信息。

热物理学性质数据库编辑

热物理学性质包括以下方面：

相平衡热力学数据，如气-液平衡，固溶胶，气溶胶，混合热效应，蒸发焓，熔化焓等；
热量数据，如热容，生成热或燃烧热等；
传热、传质相关数据，如粘度和热导率等。

分子结构的表示编辑

在数字化的化学数据库中，分子结构一般有两种表示方法，包括：

将原子表示为节点，化学键表示为边，将分子表达为连接表或邻接矩阵。采取这一方法的有蛋白质资料库和化学标记语言等。
将分子按照深度优先搜索或广度优先搜索的原则表达为线性字符串。这一方法的典型例子是简化分子线性输入规范（SMILES）。

搜索编辑

亚结构搜索编辑

化学研究者在搜索某一物质时，可以不必输入整个分子式，而只搜索其结构的一部分，或其IUPAC命名法名称的一部分。这种亚结构搜索功能，正是化学数据库与一般数据库最大的区别之一。这种搜索是基于子图同构问题实现的，而这一问题也在图论中被广泛研究。一般来说这类搜索具有O (n³)或O (n⁴)的时间复杂性，其中n是涉及原子的数目。

构象搜索编辑

在一定的空间限制条件下，搜索物质特定的三维构象，也是化学数据库常需要实现的功能之一（尤其是在药物设计领域）。这样的搜索相当消耗资源，因而人们也设计了多种近似方法来加以解决^[1]^[2]^[3]^[4]^[5]。

描述单元编辑

分子的所有性质都可以拆分为具体的物理/化学性质或药学性质，这些性质被称作描述单元。最重要的描述单元当然是化合物名，在这方面，多年来已发展起多种接近标准化的命名方法，从而得以减少含义不清的命名或一物多名现象。其中，IUPAC名是一个很好的选择，不仅对人而言直接可读，从计算机角度也提供了独一无二的字符串。不过，对大分子而言，IUPAC名就显得过分冗长了。至于化合物的俗名，则难免受到数词同音或数词同义的干扰，不适合作为搜索关键词。另一方面，分子的物理/化学描述单元，诸如分子量、（部分）电荷、溶解度等等，几乎可以直接从分子结构计算出来，而药学描述单元则一般能从多元统计分析或实验（药物筛选、生物检定法等）结果中获得。所有这些描述单元都和分子的表达式被储存在一起。

化学相似性编辑

对于化学相似性，并没有统一的定义。不过，仍然可以将化学相似性从应用角度进行定义，比如描述为两种分子在描述单元空间上距离的倒数。例如，如果两种分子的分子量差距（比之其他分子对）较小，那么就可以认为这两种分子较为相似。多种衡量方式可以组合起来，产生多变量的距离度量。根据三角不等式的成立与否，距离度量还可以分为欧几里得度量和非欧几里得度量。通过进行最大共同子图同构问题（MCS）基础上的亚结构搜索^[6] ，来进行距离度量和化学相似性评估的方法也很常见。MCS也被用于药物筛选，即尝试与现有药物具有共同亚结构的不同分子 ^[7]。

数据库中的化学品根据其相似性被归入不同的群组中，对于属性繁多的化学品，既可采用分级分类方法，又可采用不分级的分类方法。而这些化学品的性质则可能通过经验或计算机计算得到。最为广泛应用的分类方法是Jarvis-Patrick算法^[8]。

另外，在面向药学应用的化学数据库中，相似性通常被定义为化合物的生物效应。后者通常可以由分子的物理/化学性质，应用定量构效关系半自动地得到。

化学品登录系统编辑

记录化合物独特性信息的数据库被称为化学品登录系统。这类系统通常被用于化合物的索引化，专利注册以及工业数据库中。物质登录系统一般对化合物在数据库中的唯一表达有强制性要求。一般来说，这样的唯一表达是所谓的“正则”字符串，例如“正则SMILES”。有些化学品登录系统，如CAS则利用计算哈希的方法达到相同的目的。化学品登录系统与一般化学数据库的关键区别在于，前者能够准确地区分一种物质究竟是已知，未知抑或部分已知。譬如说，一般的化学数据库中可能记录了一个分子，但其立体化学信息则付诸阙如，而在化学品登录系统中，登录者将会被要求提供关于分子构象的准确信息——构象已知或未知，是否是混合物乃至外消旋体，等。每一种不同的情形在化学品登录系统中都作为一个单独的记录。化学品登录系统也对分子信息进行一些前处理，避免不重要的差别（如不同的卤离子）产生影响。这类系统的一个典型例子是化学文摘注册系统[1]。参见CAS号。

参见编辑

参考文献编辑

^ Pearlman, R.S.; Smith, K.M. Metric Validation and the Receptor-Relevant Subspace Concept. J. Chem. Inf. Comput. Sci. 1999, 39: 28–35 （英语）.
^ Lin Jr, Hung; Clark, Timothy. An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties. JCIM. 2005, 45 (4): 1010–1016 （英语）.
^ Meek, P. J.; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J. Shape Signatures: speeding up computer aided drug discovery. DDT 2006. 2006, 19–20: 895–904 （英语）.
^ Grant, J. A; Gallardo, M. A.; Pickup, B. T. A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape. JCIC. 1996, 17 (14): 1653–1666 （英语）.
^ Ballester, P. J.; Richards, W. G. Ultrafast shape recognition for similarity search in molecular databases. Proc R Soc A. 2007, 463: 1307–1321 （英语）.
^ S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. doi:10.1186/1758-2946-1-12（英式英语）
^ Rahman, S. Asad; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. Small Molecule Subgraph Detector (SMSD) Toolkit. Journal of Cheminformatics. 2009, 1: 12 [2012-06-28]. doi:10.1186/1758-2946-1-12. （原始内容存档于2020-01-28）（英国英语）.
^ Butina, Darko. Unsupervised Data Base Clustering Based on Daylight’s Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. Chem. Inf. Comput. Sci. 1999, 39: 747–750 （英语）.

外部链接编辑