Mednarodni kemijski identifikator

Iz Wikipedije, proste enciklopedije
Skoči na: navigacija, iskanje

Mednarodni kemijski identifikator IUPAC (InChI, /ˈɪntʃiː/) je besedilni identifikator kemijskih spojin, ki je zasnovan tako, da zagotovi standarden in razumljiv način zapisovanja podatkov o molekuli in omogoča iskanje tovrstnih informacij v bazah podatkov in na spletu. Sistem sta razvila IUPAC in NIST v letih 2000–2005. Oblika in algoritmi niso zakonsko zaščiteni in so prosto dostopni pod pogoji LGPL, sam naziv "InChI" pa je zaščitena blagovna znamka IUPAC.[1]

Ime[uredi | uredi kodo]

Mednarodni kemijski identifikator se je na začetku imenoval IChI (IUPAC Chemical Identifier). Julija 2004 se je preimenoval v INChI (IUPAC-NIST Chemical Identifier), novembra 2004 pa v InChI (IUPAC International Chemical Identifier) in je zaščitena blagovna znamka IUPAC.

Opis[uredi | uredi kodo]

Identifikatorji InChI opisujejo kemijske spojine v vešslojnih informacijah, v katere spadajo atomi in njihove medsebojne povezave ter informacije o tavtomeriji, izotopih, stereokemiji in električnih nabojih. V sistem niso vedno zajeti vsi sloji. Primer: če podatki o tavtomeriji za neko spojino niso pomembni, je tavtomerni sloj lahko izpuščen.

InChI se od od zelo razširjenega števila CAS razlikuje v treh pogledih:

  • ni avtorsko zaščiten
  • lahko se izračuna iz podatkov o zgradbi spojine in ne potrebuje odobritve nobene organizacije
  • večina informacij v InChI je bralcu razumljiva

InChI je torej nekakšna posplošena in skrajno formalizirana verzija IUPAC-ovih imen kemijskih spojin. InChI lahko izrazi več informacij kot enostavnejši SMILES in se od njega razlikuje po tem, da ima vsaka struktura enoznačen InChI, kar je pomembno za uporabo v bazah podatkov. InChI ne daje informacij o trodimenzionalnih koordinatah atomov. Za take primere se lahko uporabi format PDB.

Pretvarjanje strukturnih informacij o spojini v enoten InChI identifikator poteka v treh korakih: normalizacija, ki odstrani vse odvečne informacije, kanonizacija, ki vsakemu atomu pripiše enoznačno (zaporedno) številko, in serializacija, ki podatke pretvori v niz znakov.

Ključ InChI, ki je poznan tudi kot sesekljani InChI, je niz s stalno dolžino 25 znakov, ki je zgoščena digitalna oblika zapisa InChI in za bralca ni razumljiva. Ključ InChI se je začel uporabljati septembra 2007, da bi olajšal iskanje kemijskih spojin na spletu, ker je bilo iskanje s celotnim InChI problematično.[2]

Končna verzija programske opreme InChI z oznako 1.02 je bila izdana januarja 2007. Zadnja verzija generira tako imenovani standardni InChI, ki uporabnikom ne dopušča izbiranja opcij na slojih stereokemije in tavtomerije. Standardni ključ InChI je binarna verzija standardnega niza InChI.

Oblika zapisa in sloji[uredi | uredi kodo]

Vsak InChI se začne z uvodnim nizom "InChI =", kateremu sledi številka verzije, trenutno 1. Ostale informacije so strukturirane kot sekvence slojev in podslojev. Vsak sloj daje specifično vrsto informacij. Sloji in podsloji so ločeni s poševnico "/" in se začenjajo z značilnim predznakom. Izjema je podsloj za kemijsko formulo, ki je del glavnega sloja. Sistem ima šest slojev z nekaj podsloji:

  1. Glavni sloj
    • Kemijska formula (brez predznaka) je edini podsloj, ki mora biti v vseh InChI.
    • Povezava atomov (predznak "c"), v katerem so opisi medsebojnih povezav atomov. Atomi v kemijskih formulah, razen vodika, so oštevilčeni po sekvencah.
    • Vodikovi atomi (predznak "h"). Podsloj opisuje, koliko vodikovih atomov je vezanih na posameznih drugih atomih.
  2. Nabojni sloj
    • Podsloj s pozitivnimi naboji ima predznak "p".
    • Podsloj z negativnimi naboji ima predznak "q".
  3. Stereokemijski sloj
  4. Izotopski sloj
  5. Stalni H-sloj
  6. Povezovalni sloj

Sistem poševnica-predznak ima to prednost, da lahko uporabnik išče identifikatorje, ki se ujemajo samo v izbranih slojih.

Primera[uredi | uredi kodo]

CH3CH2OH
etanol
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3
L-Ascorbic acid.svg
L-askorbinska kislina
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1

Ključ InChI[uredi | uredi kodo]

Zgradba morfina

Zgoščeni 25 znakov dolgi ključ InChI je binarna verzija InChI, narejena z algoritmom SHA-256. Ključ InChI omogoča enostavno iskanje kemijskih spojin na spletu.[2] Večina kemijskih struktur, ki so prišle na splet do leta 2007, je zapisana v formatu GIF, zato se jih na spletu ne da iskati po njihovih kemijskih zgradbah.

Celoten identifikator InChI je za iskanje spojin predolg, zato so razvili ključ InChI. Pri iskanju s ključem obstaja možnost, da imata dve spojini enak ključ, vendar je ta možnost izjemno majhna. Verjetnost podvajanja prvih štirinajstih znakov ključa InChI je ocenjena na eno podvajanje v 75 bazah podatkov, če bi vsaka baza podatkov vsebovala po eno milijardo struktur. Vse baze podatkov skupaj trenutno vsebujejo manj kot 50 milijonov struktur, zato je možnost podvajanja skoraj izključena.

Prvih 14 znakov ključa InChI je rezultat sekljanja podatkov iz InChI o povezavah, ki jim sledi črtica (-). Črtici sledi 8 znakov, ki so rezultat sekljanja ostalih slojev InChI. Predzadnji znak v binarnem nizu je oznaka verzije, zadnji pa kontrolna vsota.

Primer: morfin ima zgradbo, ki je prikazana na zgornji sliki. InChI morfina je:

InChI = 1/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11-,13-,16-,17-/m0/s1,

njegov ključ InChI pa:

BQJCRHHNABKAKU-XKUOQXLYBY.[3]

Zunanje povezave[uredi | uredi kodo]

Dokumentacija in predstavitve[uredi | uredi kodo]

Programska oprema in podpora[uredi | uredi kodo]

  • NCI/CADD Chemical Identifier Resolver Generira in razstavlja InChI/InChI ključe in mnoge druge kemijske identifikatorje
  • Generate InChI, interaktivna podpora na Univerzi Cambridge (interaktivna ali WSDL)
  • Search Google for molecules, generira InChI, zahteva Javascript
  • ChemSketch, nezaščiten programski paket za risanje kemijskih struktur, ki vključuje input in output v InChI formatu
  • PubChem online molecule editor, ki podpira SMILES/SMARTS in InChI
  • ChemSpider Services Omogoča generiranje InChI, in pretvarjanje InChI, na primer v SMILES, in generira tudi druge lastnosti
  • MarvinSketch iz ChemAxona omogoča risanje struktur, odpiranje datotek v drugih formatih in output v InChI formatu
  • BKchem implementira svoj lastni InChI stavek in uporablja IUPACove implementacije za generiranje InChI nizov

Sklici[uredi | uredi kodo]

  1. ^ McNaught, Alan (2006). "The IUPAC International Chemical Identifier:InChl". Chemistry International 28 (6) (IUPAC). Pridobljeno dne 2007-09-18. 
  2. ^ 2,0 2,1 "The IUPAC International Chemical Identifier (InChI)". IUPAC. 5. september 2007. Pridobljeno dne 18. 9. 2007. 
  3. ^ "InChI=1/C17H19NO3/c1-18...". Chemspider. Pridobljeno dne 18. 9. 2007.