6+
Модели и архитектуры нейронных сетей в задаче «Структура-свойство»

Бесплатный фрагмент - Модели и архитектуры нейронных сетей в задаче «Структура-свойство»

Объем: 32 бумажных стр.

Формат: epub, fb2, pdfRead, mobi

Подробнее

РЕШЕНИЯ ЗАДАЧИ ПРОГНОЗИРОВАНИЯ СВОЙСТВ ХИМИЧЕСКИХ СОЕДИНЕНИЙ НА ОСНОВЕ МОЛЕКУЛЯРНЫХ ДЕСКРИПТОРОВ, УЧИТЫВАЮЩИХ ЛОКАЛЬНЫЕ СВОЙСТВА АТОМОВ

Беллонин К. В., Кумсков М. И.

Проведен анализ вычислительных экспериментов построения обобщенного дерева решений на основе выявленных кластеров в обучающей выборке. Использовались различные представления имен вершин молекулярных графов, учитывающих топологические и химические особенности атомов. Показано, что предлагаемый подход может быть обобщен для учета в дескрипторах локальных свойств молекулярной поверхности.


Пусть задана обучающая выборка (набор данных) ТS, которая состоит из N объектов и представляет собой список пар (Объект, «Целевое свойство») в виде:

ТS= {(X1,C1), (X2,C2),…, (XN,,CN)}

где объект — молекулярный граф Х представлен в виде вектора значений признаков-дескрипторов X = (X1, X2,…,XM);

Ci — признак, задающий целевое свойство i-го объекта.

Требуется построить функцию F такую, чтобы на объектах обучающей выборки ее значения приближались к значению С, заданному «учителем»:

F (Xi) = Ci + ei; так, чтобы  ei2 min; i=1,…, N; (1)

Уравнение (1) используется для прогнозирования свойств новых объектов, не принадлежащих обучающей выборке.

Целевой признак C может быть действительным числом, определяющим, например, биологическое свойство химического соединения;

Объекты представляют собой химические структуры, которые могут быть представлены как простые графы [], имеющие метки на ребрах и вершинах (молекулярные графы — М-графы); классифицирующая функция F (X1, X2,…,XK) традиционно имеет линейный вид и заранее не задано векторное представление молекулярных структур::

F (X1, X2,…,XK) = b0 + b1X1 + b2X2+ … + bKXK (2)

М-графы будем описывать набором инвариантов, а именно числом повторения фрагментов, выбранных их заданной библиотеки.

Структурные дескрипторы [,]. Пусть задана библиотека ациклических фрагментов М-графов H= {hj}, j=1,…,L. Тогда структурным дескриптором G [hj] назовем пару (hj, Xj), где Xj — число повторений фрагмента hj в графе G. Фрагмент hj входит в граф G, если существует такой подграф G»G, что hjG». Вектор-строку (X1,X2,…,XL) назовем структурным спектром графа G относительно библиотеки H и обозначим его SS (G|H).

Для различения фрагментов будем использовать их символьное кодирование []. Имя W [hj] фрагмента hj — - есть символьная строка, составленная из меток LAi атомов, входящих в фрагмент hj, записываемых в порядке обхода вершин фрагмента и лексикографически упорядоченных. Тогда по построению имена фрагментов обладают следующим важным свойством:

W [hi] =W [hj]  hi  hj, (3)

т.е. имена фрагментов совпадают, если фрагменты изоморфны и наоборот. Условие (3) позволяет представлять список фрагментов H в виде списка строк-имен и работать только с этими строками.

Для построения структурных спектров М-графов необходимо задать список H структурных фрагментов. Назовем k-фрагментом ациклический фрагмент, состоящий из k атомов. Тогда путем полного перечисления в М-графе G всех его k-фрагментов cформируем список H, который обозначим как Hk [G]. Структурным символьным k-спектром графа G, ISS (k,G) назовем структурный спектр построенный относительно библиотеки Hk [G]:

ISS (k,G) = SS (G| Hk [G]).

Структурным символьным k-спектром выборки ISS (k,U Gi) назовем структурный спектр, построенный относительно объединенный библиотеки Hk [U Gi] = U ISS (k,G):

Используемая маркировка. Введем символьные маркеры, предназначенные для учета топологических и химических особенности атомов в молекулярных структурах. Для различения топологических особенностей атомов в графе будем использовать степень атома — введем маркер p, который будет принимать (для классических М-графов) шесть значений (1, 2, 3, 4, 5, 6). Одного маркера p недостаточно для различения всех вариантов «валентного окружения» атома. Введем маркер типа хим. связи атома b:

— «s» (single) — все связи атома одинарные;

— «d» (double) — у атома есть двойная связь;

— «t» (triple) — у атома есть тройная связь;

— «w» — у атома есть две двойных связи;

Кроме p и b маркеров будем использовать еще один маркер r (ring) — маркер положения атома в кольцевой системе. Определим r-маркер следующим образом:

— c (chain) — атом ациклический (цепной);

— r (ring) — атом «чисто кольцевой»;

— s (substitute) — атом «кольцевой с заместителем».

Метка атома имеет вид:

<Имя атома> <p> <b> <r>

или «NNpbr», где NN — (2 символа) — имя атома; p — (1 символ) — p-маркер; b — (1 символ) — b-маркер; r — (1 символ) — r-маркер. Если маркер не используется, то на его месте ставиться значок «*».

Для исследования в вычислительных экспериментах было выбрано шесть видов базовых k-фрагментов, приведенных в Табл.1: три 2-фрагмента с маркировками атомов «NNp**», «NNpb*» и «NNpbr», — и три 3-фрагмента с теми же маркировками.

Таблица 1. Виды элементов описания

Выборка AMN. Содержит 87 структур полициклических антибиотиков. Целевым свойством является «хроматографическая подвижность» — время выхода из хроматографической колонки, которое коррелирует с липофильностью структуры. Результаты кодирования по каждому типу кода выложены по адресу:

https://github.com/LoggerHead22/Experiment-Space/tree/master/DB_AMN

Коды программ на языке Python в J-блокнотах выложены по адресам:

http://82.202.247.23:1780/report_003/

http://82.202.247.23:1780/report_004/

http://82.202.247.23:1780/report_005/


Таблица 2. Размеры матрицы «Молекула-Дескриптор для выборки AMN размером 87 структур.

Таблица 4. Покрытие элементов AMN выборки формальными элементами. Метрика построена на первых двух главных компонентах соответсвующей матрицы (Табл.3)

1

2

Бесплатный фрагмент закончился.

Купите книгу, чтобы продолжить чтение.