簡化分子線性輸入規範

美國信息交換標準代碼线符號表示化學物種的結構

簡化分子線性輸入規範(英語:Simplified molecular input line entry specification,簡稱SMILES),是一種用ASCII字串明確描述分子結構的規範。

SMILES
副檔名
.smi
網路媒體型式
chemical/x-daylight-smiles
格式類型化學檔案格式
環丙沙星的 SMILES 生成演算法:打開環,然後寫成一條主鏈上的分支形式

SMILES字串可以被大多數分子編輯軟件匯入並轉換成二維圖形或分子的三維模型。轉換成二維圖形可以使用Helson的「結構圖生成演算法」(Structure Diagram Generation algorithms)[1]

最初的 SMILES 規範始於 1980 年代,已經被多次修改和擴充。 2007 年,開源化學社區開發了一個名為 OpenSMILES 的開放標準

歷史

編輯

最初的 SMILES 規範由David Weininger在1980年代在德盧斯的 USEPA大陸生態部實驗室發起。 [2] [3] [4] [5]感謝他們在早期開發中的貢獻:「Gilman Veith 和 Rose Russo (USEPA) 以及 Albert Leo 和Corwin Hansch (Pomona College) 支援這項工作,以及 Arthur Weininger (Pomona; Daylight CIS) 和 Jeremy Scofield (Cedar River Software, Renton, WA) 為系統編程提供幫助。」 [6]環境保護署資助了開發 SMILES 的初始專案。 [7] [8]

它已被其他人或組織修改和擴充,例如日光化學資訊系統(Daylight Chemical Information Systems)。2007 年,Blue Obelisk開源化學社區開發了一個名為「OpenSMILES」的開放標準。其他字串符號表示方法包括 Wiswesser Line Notation (WLN)、 ROSDAL和SLN (Tripos Inc)。

2006年7月,IUPAC引入了InChI作為公式表示的標準。通常認為SMILES比InChI具有更易於人類可讀的優點;它還擁有廣泛的軟件支援基礎,具有廣泛的理論支援(例如圖論)。

術語

編輯

術語SMILES是指用於編碼分子結構的行符號,特定實例應嚴格稱為 SMILES 字串。然而,術語SMILES也常用於指單個SMILES字串和多個SMILES字串。確切的含義通常從上下文中顯而易見。當應用於SMILES時,術語「規範」和「異構」可能會導致一些混淆。這些術語描述了SMILES字串的不同屬性,並不相互排斥。

可以為一個分子通常具有多個同樣有效的SMILES字串。例如,CCOOCCC(O)C都指定了乙醇的結構。為給定的分子生成相同的SMILES字串的演算法已經被開發完畢;這些演算法在許多可能的字串中只選擇其中一個。依賴於用於生成它的規範化演算法,這個SMILES對於每個結構都是唯一的,這個SMILES被稱為規範SMILES。這些演算法首先將SMILES轉換為分子結構的內部表示;然後演算法會檢查該結構並生成唯一的SMILES字串。下面是一些包含用於生成規範SMILES的演算法的工具,包括Daylight Chemical Information Systems、OpenEye Scientific SoftwareMEDITChemical Computing Group 、MolSoft LLC 和Chemistry Development Kit的演算法。規範 SMILES 的一個常見應用是索引並確保資料庫中分子的唯一性。

描述CANGEN[9]演算法的原始論文聲稱可以為表示分子的圖形生成唯一的 SMILES 字串,但該演算法在許多簡單情況下都失敗了(例如cuneane 、1,2-二環丙基乙烷)並且被認為不能使用正確的方法典型地表示圖形。[10]目前沒有跨商業軟件的系統比較來測試這些軟件套件中是否存在此類缺陷。

SMILES符號允許指定四面體中心的組態和雙鍵幾何形狀。這些是不能僅由連接性指定的結構特徵,因此編碼此資訊的SMILES稱為異構SMILES。這些規則的一個顯着特徵是它們允許對手性進行嚴格的部分說明。術語異構SMILES也適用於指定異構體的SMILES。

基於圖的定義

編輯

就基於圖的計算過程而言,SMILES 是通過深度優先遍歷分子結構式的中遇到的符號節點獲得的字串。首先去除圖內的氫原子,然後打開環以將其變成生成樹。在環中斷的地方插入包含數字字尾的標籤(相同數字的節點表示該兩個原子相連)。括號用於表示支鏈。

生成的 SMILES 形式取決於選擇:

SMILES 定義為上下文無關語言的字串

編輯

從形式語言理論的角度來看,SMILES 是一個詞。 SMILES 可以用上下文無關的解析器解析。基於相似分子具有相似特性的化學資訊科學的主要原理,這種表示的使用一直用於預測生化特性(包括毒性和生物降解性)。預測模型實現了句法圖型識別方法(涉及定義分子距離) [11] ,以及基於統計圖型識別的更強大的方案。 [12]

典範SMILES

編輯

典範SMILES保證每個化學分子只有一個SMILES表達式,常用於分子資料庫的索引。

記法

編輯

原子

編輯

原子由方括號中的化學元素的標準縮寫表示,例如[Au]表示。在以下原子的常見情況下可以省略括號:

  1. 屬於BCNOPSFClBrI的「有機子集」
  2. 沒有形式電荷
  3. 具有 SMILES 化合價模型所暗示的氫的數量(通常是它們的正常化合價,但對於 N 和 P,它是 3 或 5,對於 S,它是 2、4 或 6)
  4. 是正常同位素
  5. 不是手性中心

所有其他元素必須用括號括起來,並明確顯示電荷和氫。例如,的 SMILES 可以寫為O[OH2] 。氫也可以寫成一個單獨的原子;水也可以寫成[H]O[H]

使用括號時,如果括號中的原子與一個或多個氫鍵合,則添加符號H ,如果大於 1,則添加氫原子數,然後添加符號+表示正電荷或-表示負電荷。例如, [NH4+]表示( NH+
4
)。如果有多個電荷,通常寫為數字;但是,也可以根據離子的電荷多次重複該符號:對於(IV) Ti 4+ ,可以寫為[Ti+4][Ti++++] 。因此,氫氧根陰離子OH
) 由[OH-]表示,水合氫陽離子 (H3O+)是[OH3+](III)陽離子(Co 3+ )是[Co+3][Co+++]

化學鍵

編輯

使用其中一個符號表示鍵. - = # $ : / \

除非另有說明,否則脂肪族化合物原子之間的鍵被假定為單鍵,並且通過 SMILES 字串中的鄰接來暗示。雖然單鍵可以寫為- ,但通常省略。例如,乙醇的 SMILES 可以寫成CCOCC-OC-CO ,但通常寫成CCO

雙鍵、三鍵和四分別用符號=#$表示,如 SMILES O=C=O二氧化碳)、 C#N氰化氫HCN)和[Ga+]$[As-]砷化鎵)。

另一種鍵是「不成鍵」,用 表示., 表示兩個部分沒有粘合在一起。例如,氯化鈉水溶液可寫為[Na+].[Cl-]顯示解離。

芳香味化合物的芳香鍵可以用: ,見下面的§ 環

與雙鍵相鄰的單鍵可以使用/\表示立體化學構型;見下面的§ 立體化學

為了形成無環結構,需要在所有環的任意點(某些特定的選擇可能會使結果更簡明)打斷。添加數字標籤以顯示不相鄰原子之間的連接性。

例如,環己烷二噁烷可以分別寫成C1CCCCC1O1CCOCC1。我們將第二個環的順序編為2,例如,十氫化萘可以寫為C1CCCC2C1CCCC2

這是一些符合SMILES規範但很少用的環號編碼方法:

  • 環號的順序可以是任意的
  • 在環結束之後可以重用環號
  • 可以使用0作為環號

但是這通常會使SMILES更難閱讀。例如,環己基環己烷通常寫為C1CCCCC1C2CCCCC2,但也可能寫為C0CCCCC0C0CCCCC0

單個原子後的多個數字表示多個閉環鍵。例如,十氫化萘的另一種SMILES符號是C1CCCC2CCCCC12,其中最終的碳同時結束了環1和環2。

如果需要兩位數的環號,則標籤前面有%,因此C%12是環12的單個閉環鍵。

環號前面可以有一個化學鍵符號用以指示閉環鍵的類型。例如,環丙烯通常寫作C1=CC1,但如果選擇雙鍵作為閉環鍵,則可以寫作C=1CC1C1CC=1C=1CC=1(儘量使用C1=CC1)。不可以對同一個閉環鍵指定多種類型,因此C=1CC-1是非法的。

Ring-closing bonds may not be used to denote multiple bonds. For example, C1C1is not a valid alternative to C=C for ethylene. However, they may be used with non-bonds; C1.C2.C12is a peculiar but legal alternative way to write propane, more commonly writtenCCC.

閉環鍵不能用於表示多重鍵。例如乙烯C1C1不是C=C的有效替代品。但它們可以與不成鍵一起使用;C1.C2.C12是一種特殊但合法的書寫丙烷的替代方式,更常見的是書寫CCC

選擇與支鏈相鄰的斷環點可以得出更簡單的SMILES形式。例如,1,2-環己二醇最簡單地寫為OC1CCCCC1O。選擇不同的位置斷環會產生一個分支結構。

芳香環

編輯

諸如之類的芳香環可以寫成以下三種形式之一:

  1. 具有交替單鍵和雙鍵的凱庫勒CC=CC=C1
  2. 使用芳香鍵符號: ,例如C1:C:C:C:C:C1
  3. 最常見的是,通過分別以小寫形式bcnops編寫構成 B、C、N、O、P 和 S 原子

在最後一種情況下,允許未指出兩個芳香原子之間的鍵是芳香鍵。因此,吡啶呋喃可以分別用 SMILES c1ccccc1n1ccccc1o1cccc1

吡咯中發現的與氫鍵合的芳香氮必須表示為[nH] ;因此咪唑用 SMILES 表示法寫為n1c[nH]cc1

當芳族原子彼此單鍵時,必須明確顯示單鍵。例如聯苯c1ccccc1-c2ccccc2。這是需要單鍵符號-的少數情況之一。(實際上大多數 SMILES 軟件可以正確推斷出兩個環之間的鍵不能是芳香的,因此會接受非標準形式c1ccccc1c2ccccc2)

用於生成規範 SMILES 的 Daylight 和 OpenEye 演算法在處理芳香性方面有所不同。

 
3-氰基苯甲醚 表示為COc(c1)cccc1C#N

分支

編輯

支鏈用括號描述,如丙酸CCC(=O)O氟仿FC(F)F 。括號內的第一個原子和括號內的基團之後的第一個原子都與相同的分支點原子鍵合。化學鍵符號必須出現在括號內,外部(例如: CCC=(O)O )無效。

取代的環可以用環中的分支點書寫,如編碼 3 和 4-氰基苯甲醚異構體的 SMILES COc(c1)cccc1C#N見圖片頁面存檔備份,存於互聯網檔案館))和COc(cc1)ccc1C#N見圖片)所示。以這種方式為替代環編寫 SMILES 可以使它們更易於閱讀。

可以按任何順序編寫分支。例如,二氟一氯一溴甲烷可寫為FC(Br)(Cl)FBrC(F)(F)ClC(F)(Cl)(F)Br等。通常,如果較簡單的分支出現在最前面,則 SMILES 表單最容易閱讀,最後的未加括號的部分是最複雜的。這種重新排列的唯一警告是:

  • 如果環號被重複使用,它們將根據它們在 SMILES 字串中出現的順序進行配對。可能需要進行一些調整以保持正確的配對
  • 如果指定了立體化學,則必須進行調整

不需要括號的一種分支形式是閉環鍵。在合適的位置斷環能減少括號的數量。例如,甲苯通常寫成Cc1ccccc1c1ccccc1C ,避免寫成c1cc(C)ccc1c1cc(ccc1)C時所需的括號。

立體化學

編輯
 
反-1,2-二氟乙烯

SMILES 允許但不要求對立體異構體進行規範。

雙鍵周圍的組態使用字元/\指定,以顯示與雙鍵相鄰的定向單鍵。例如, F/C=C/F見圖示頁面存檔備份,存於互聯網檔案館))是-1,2-二氟乙烯的一種表示,其中氟原子位於雙鍵的相對兩側(如圖所示),而F/C=C\F見圖示)是-1,2-二氟乙烯的一種可能表示形式,其中氟位於雙鍵的同一側。

鍵方向符號總是以至少兩個為一組出現,其中第一個是任意的。也就是說, F\C=C\FF/C=C/F相同。當存在交替的單雙鍵時,基團大於兩個,中間方向符號與兩個雙鍵相鄰。例如,(2,4)-己二烯的常見形式寫作C/C=C/C=C/C見圖示頁面存檔備份,存於互聯網檔案館))。

 
β-胡蘿蔔素,突出顯示了 11 個雙鍵

作為一個更複雜的例子, β-胡蘿蔔素有一個很長的單鍵和雙鍵交替的主鏈,可以寫成CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C見圖示頁面存檔備份,存於互聯網檔案館))。

手性碳的順序由@@@指定。按從字串左側到右側的順序以序列法則考慮四個鍵。從第一個鍵的角度看向碳,其他三個是順時針@@或逆時針@(因為@符號本身是逆時針螺旋)。

 
L-丙氨酸

例如,考慮丙氨酸。它的 SMILES 形式之一是NC(C)C(=O)O ,更完整地寫為N[CH](C)C(=O)OL-丙氨酸,更常見的一種對映異構體,寫作N[C@@H](C)C(=O)O見描述頁面存檔備份,存於互聯網檔案館))。從氮碳鍵看,氫 ( H )、甲基 ( C ) 和羧酸鹽 ( C(=O)O ) 基團順時針出現。 D -丙氨酸可以寫成N[C@H](C)C(=O)O見描述頁面存檔備份,存於互聯網檔案館))。

雖然在 SMILES 中指定分支的順序通常並不重要,但在這種情況下它很重要;交換任何兩個組需要反轉手性指標。如果分支顛倒,因此丙氨酸寫為NC(C(=O)O)C ,那麼組態也會顛倒; L-丙氨酸寫為N[C@H](C(=O)O)C見描述頁面存檔備份,存於互聯網檔案館))。其他寫法包括C[C@H](N)C(=O)O, OC(=O)[C@@H](N)COC(=O)[C@H](C)N

第一個鍵通常出現在手性碳原子的左側,但如果 SMILES 以手性碳開頭,例如C(C)(N)C(=O)O ,那麼所有四個鍵都是右邊。但最先出現的(在這種情況下是[CH]鍵)被用作對以下三個進行排序的參考: L -丙氨酸也可以寫作[C@@H](C)(N)C(=O)O

SMILES 規範包括對@符號的詳細說明,以指示更複雜的手性中心周圍的立體化學,例如雙三角錐形分子構型

同位素

編輯

同位素的指定數字等於原子符號前的整數同位素質素。其中一個原子是碳14寫成[14c]1ccccc1氘代氯仿寫成[2H]C(Cl)(Cl)Cl

例子

編輯
分子 結構 SMILES
氮氣 N≡N N#N
異氰酸甲酯(MIC) CH3−N=C=O CN=C=O
硫酸銅 (II) Cu2+SO2−
4
[Cu+2].[O-]S(=O)(=O)[O-]
香蘭素   O=Cc1ccc(O)c(OC)c1
COc1cc(C=O)ccc1O
褪黑激素(C13H16N2O2)   CC(=O)NCCC1=CNc2c1cc(OC)cc2
CC(=O)NCCc1c[nH]c2ccc(OC)cc12
美農寧G(C17H15N2)   CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4
CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
尼古丁(C10H14N2)   CN1CCC[C@H]1c2cccnc2
魚尾藻毒素(C17H22O2)   CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO
除蟲菊素II(C22H28O5)   CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C
黃麴黴毒素B1(C17H12O6)   O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
葡萄糖(β- D-吡喃葡萄糖)(C6H12O6)   OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1
岩白菜素(C14H16O9)   OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
加利福尼亞介殼蟲的一種資訊素   CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
(2 S ,5 R )-Chalcogran

樹皮甲蟲Pityogenes chalcographus [13]資訊素

  CC[C@H](O1)CC[C@@]12CCCO2
α-Thujone(C10H16O)   CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
硫胺素(維生素B1)(C12H17N4OS+   OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N

為了說明具有超過 9 個環的分子,請考慮頭孢他汀 -1, [14]一種具有經驗式C 54 H 74 N 2 O 10的甾體 13 環吡嗪,從印度洋半脊索動物Cephalodiscus gilchristi中分離出來:

 

從圖中最左邊的甲基開始:

CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

注意%出現在 9 以上的閉環標籤索引前面;見§ 環上面的§ 環

SMILES 的其他例子

編輯

SMILES 符號在 Daylight Chemical Information Systems 提供的 SMILES 理論手冊中進行了廣泛的描述,並提供了許多說明性範例。 Daylight 的描繪實用程式為用戶提供了檢查他們自己的 SMILES 範例的方法,並且是一種有價值的教育工具。

發展

編輯

SMARTS是SMILES基礎之上的改進版。SMARTS中增加的一點是,它允許使用萬用字元表示原子和化學鍵。因此,它在化合物資料庫中廣泛用於結構的電腦化搜尋。這種搜尋的機理是先透過輸入的SMILES式重構化學式,再搜尋子圖的同形;而不是直接經由SMILES式的對比完成的。

USMILES(有時成為廣義SMILES),這種「Unique SMILES」是日光化學資訊系統有限公司關於結構的規範表達。不管內部原子的編碼順序如何,藉由這種演算法總可以得到關於化合物規範的、無歧義的、唯一的描述(化學結構表達的唯一性,可參見國際化合物標識)。

SMIRKS 是「reaction SMILES」的超集和「reaction SMARTS」的子集,是用於指定反應變換的線符號。反應擴充的一般語法是REACTANT > AGENT > PRODUCT (不帶空格),其中任何欄位可以留空或填充以點 ( . ) 分隔的多個分子,以及其他依賴於基本語言的描述。原子還可以用數字標識(例如[C:1] ) 用於對映,例如[15]在 . [16]

SMILES 對應於離散的分子結構。然而,許多材料都是大分子,它們太大(而且通常是隨機的),無法方便地為其生成 SMILES。 BigSMILES 是 SMILES 的擴充,旨在為大分子提供有效的表示系統。 [17]

轉換

編輯

可以使用結構圖生成 (SDG) 演算法將SMILES轉換回二維表示。 [18]SciFinder、ChemDraw均可實現SMILES和結構式的相互轉換。

其他記法及比較

編輯

其他著名的線性記法包括維斯威歇線性表示式Wiswesser Line Notation,WLN),ROSDAL和SLN。最近國際純粹與應用化學聯合會推薦國際化合物標識作為標準的分子式表達式。

然而普遍認為,SMILES與InChI相比更具有(對人來說的)可讀性;而且很多軟件都支援SMILES,其中不少軟件都具有圖論等方面的理論基礎。

另請參照

編輯

外部連結

編輯


  1. ^ Helson, Harold E. Structure Diagram Generation. Lipkowitz, Kenny B. (編). Reviews in Computational Chemistry. Hoboken, NJ, USA: John Wiley & Sons, Inc. 2007-01-05: 313–398 [2022-02-22]. ISBN 978-0-470-12590-8. doi:10.1002/9780470125908.ch6. (原始內容存檔於2022-04-21). 
  2. ^ SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules. Journal of Chemical Information and Computer Sciences. February 1988, 28 (1): 31–6. doi:10.1021/ci00057a005. 
  3. ^ SMILES. 2. Algorithm for generation of unique SMILES notation. Journal of Chemical Information and Modeling. May 1989, 29 (2): 97–101. doi:10.1021/ci00062a008. 
  4. ^ SMILES. 3. DEPICT. Graphical depiction of chemical structures. Journal of Chemical Information and Modeling. August 1990, 30 (3): 237–43. doi:10.1021/ci00067a005. 
  5. ^ https://wayback.archive-it.org/2118/20100925010036/http://64.251.202.97/pubs/asist2002/17-swanson.pdf |chapterurl=缺少標題 (幫助) (PDF). The Entrance of Informatics into Combinatorial Chemistry. Medford, NJ: Information Today. 2004: 205. ISBN 978-1-57387-229-4. 
  6. ^ Acknowledgements on Daylight Tutorial smiles-etc page. 1998 [24 June 2013]. (原始內容存檔於2022-04-24). 
  7. ^ SMILES: A line notation and computerized interpreter for chemical structures (PDF). Duluth, MN: U.S. EPA, Environmental Research Laboratory-Duluth. 1987 [2022-04-18]. Report No. EPA/600/M-87/021. (原始內容存檔 (PDF)於2022-04-11). 
  8. ^ SMILES Tutorial: What is SMILES?. U.S. EPA. [2012-09-23]. (原始內容存檔於28 March 2008). 
  9. ^ SMILES. 2. Algorithm for generation of unique SMILES notation. Journal of Chemical Information and Modeling. May 1989, 29 (2): 97–101. doi:10.1021/ci00062a008. 
  10. ^ https://doi.org/10.1007%2F11530084_13 |chapterurl=缺少標題 (幫助). Assigning Unique Keys to Chemical Compounds for Data Integration: Some Interesting Counter Examples. Lecture Notes in Computer Science 3615. Berlin: Springer. 2005: 145–157 [2013-02-12]. ISBN 978-3-540-27967-9. doi:10.1007/11530084_13. 
  11. ^ NLP-inspired structural pattern recognition in chemical application.. Pattern Recognition Letters. August 2014, 45: 11–16. doi:10.1016/j.patrec.2014.02.012. 
  12. ^ Bridging from syntactic to statistical methods: Classification with automatically segmented features from sequences.. Pattern Recognition. November 2015, 48 (11): 3749–3756. doi:10.1016/j.patcog.2015.05.001. 
  13. ^ Isolation of pheromone synergists of bark beetle,Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay. Journal of Chemical Ecology. March 1990, 16 (3): 861–876. PMID 24263601. doi:10.1007/BF01016496. 
  14. ^ CID 183413. PubChem. [May 12, 2012]. (原始內容存檔於2022-05-25) (英語). 
  15. ^ SMIRKS Tutorial. Daylight Chemical Information Systems, Inc. [29 October 2018]. (原始內容存檔於2022-06-15). 
  16. ^ Reaction SMILES and SMIRKS. Daylight Chemical Information Systems, Inc. [29 October 2018]. (原始內容存檔於2022-01-19). 
  17. ^ BigSMILES: A Structurally-Based Line Notation for Describing Macromolecules. ACS Central Science. September 2019, 5 (9): 1523–1531. PMC 6764162 . PMID 31572779. doi:10.1021/acscentsci.9b00476. 
  18. ^ Reviews in Computational Chemistry 13. New York: Wiley-VCH. 1999: 313–398. ISBN 978-0-470-12590-8. doi:10.1002/9780470125908.ch6.