База данных по химическим веществам "ТОКСИКОЛОГИЯ"

для аналитико-информационных технологий

Современные информационные технологии в областях разработки и применения химикатов все более ориентируются на аналитические цели, цели поддержки принятия решений. В аналитических информационных технологиях (АИТ) стандартные задачи сбора, обработки, представления и манипулирования данными представляют лишь первый, часто не самый важный этап, использования информации.

Наиболее существенными частями АИТ наряду с операционной БД являются подсистемы, позволяющие провести анализ информации с тем, чтобы выявить в ней наиболее существенную, с точки зрения решаемой задачи, часть моделирования, синтеза и прогнозирования информации для поддержки принятия решений (аналитическая БД и подсистема моделирования) (см. рис.).

Одна из главных задач моделирования - совершенствование форм представления данных как знаний. Эта задача имеет большое значение для разработки интеллектуальных средств использования химико-структурной и ассоциированной информации, накопленной в базах данных.

Аналитическая БД – это хранилище данных в специально структурированном и/или агрегированном виде, подготовленном для анализа по аспектам моделирования и синтеза информации. В аналитической БД хранятся, как правило, и сами модели, порожденные с помощью специальной подсистемы для моделирования, прогнозирования и синтеза информации.

В настоящее время разрабатываются и поддерживаются ряд проблемно ориентированных фактографических БД химико-биологического профиля, различающихся как по объему и новизне химических веществ, так и по составу и степени формализации включаемых данных. Однако возможности непосредственного их использования как многоаспектных, проблемно ориентированных аналитических БД в значительной мере ограничены либо из-за отсутствия ряда важнейших аспектов информации по химикатам (структурная формула, физико-химические свойства, данные по фармакологии, клинической токсикологии и др.), либо из-за недостаточно глубокой степени формализации и унификации токсикологических данных, что затрудняет анализ и моделирование для целей поддержки принятия решений, прогнозирования и синтеза информации на основе БД, либо, наконец, из-за недостаточного для целей моделирования и синтеза информации количества включенных в БД химикатов.

В связи с этой ситуацией в НИЦ "СИСТЕХ" отрабатывается технология построения, загрузки и эксплуатации многоаспектной и многофункциональной аналитической БД "ТОКСИКОЛОГИЯ", обеспечивающей адекватное для указанных целей представление достаточно широкой предметной области унифицированных медико-биологических и химико-структурных данных с ориентацией на применение в медико-токсикологических исследованиях. Особенность реализуемой информационной технологии заключается в непосредственной ориентации всех ее элементов (рис.1) на конечного пользователя.

Основными функциональными элементами пользовательского интерфейса являются экранные формы:

Структура экранных форм и схема их включения ориентированы на формирование запросов, в том числе и составных, по условиям, заданным в нескольких формах, по всем аспектам информации аналитической БД. При этом поддерживается синхронизированный по воздействующему агенту просмотр и редактирование данных по каждому из реализованных локальных и составных запросов во всех формах, которые обеспечивают:

Разработанные экранные формы пользовательского интерфейса и схема их включения позволяют значительно упростить процедуры реализации сложных запросов (SQL), повысить наглядность и эффективность манипулирования данными.

Интерфейс ориентирован на работу с аналитической БД и создаваемыми программными средствами подсистем загрузки, анализа, моделирования, прогнозирования и синтеза информации. Однако он может легко настраиваться и на работу с внешними БД и приложениями (КИПТС "POISON" - ИКТЦ МЗ РФ, WinSPIRS, TOXLINE, Drug Information Fulltext, RTECS, HSDB, WORD, EXCEL, LINGVO и др.), включая их тезаурусы и пользовательские инструкции.

Программные средства подсистемы анализа, моделирования, прогнозирования и синтеза информации разработаны как самостоятельные приложения и/или как внедряемые в пользовательский интерфейс модули, обеспечивающие: ввод/вывод и манипулирование структурными формулами, порождение дескрипторного описания химикатов, генерацию моделей байесовской классификации, анализ и категорирование количественных данных, регрессионный анализ, моделирование и имитацию статистических распределений медико-биологических данных.

Оригинальный редактор структурных формул является сложным модулем системы, позволяющим не только рисовать и редактировать химические структуры непосредственно на экране, но и порождать внутреннее представление химических структур в виде математического объекта: графа с помеченными ребрами и вершинами для реализации различных целей и задач, включая идентификацию на совпадение и подструктурный поиск химических веществ. Модуль включает встроенные функции для генерации структурных дескрипторов и включения их в поисковые алгоритмы, регистрации новых веществ, в том числе и химико-структурных классов, задаваемых формулами Маркуша, и связыванием их со свойствами (классами свойств) и наблюдаемыми эффектами. В рамках пользовательского интерфейса редактор структурных формул внедряется как OLE-объект непосредственно на форме "Химико-структурные данные". Модуль порождения и визуализации структурных дескрипторов (брутто-формула, атом-валентное состояние, атом-связь-атом, атом-первое окружение, атом-связь-первое окружение и др.) непосредственно включается как в редактор структурных формул, так и в байесовский прогнозатор.

Байесовский прогнозатор является сложным программным модулем и включает блок генерации моделей прогноза, ориентированный на работу с аналитической БД, и блок выполнения прогнозных оценок для заданной химической структуры в соответствии с набором моделей прогноза, релевантных таблицам БД. Генератор прогнозов включает процедуры формирования обучающих выборок химикатов, порождения таблиц статистических характеристик дескрипторов для выбранных классов, построения гистограмм распределений ошибок по обучающим выборкам и нахождения решающего правила для отнесения вещества к заданному классу свойств, а также формирования базы гистограмм - моделей по обучающим выборкам ("Класс" - "Не класс") для классификации других соединений. Блок выполнения прогнозных оценок включает процедуры обмена/импорта химической структуры, заданной для прогноза, генерацию ее дескрипторного представления, поиска необходимых моделей, вычисления соответствующих дискриминантных функций для заданной структуры и шансов ее отнесения по моделям (гистограммам) к тому или иному классу свойств. Модуль, при необходимости выполнения конкретного прогноза, соответствующим образом инициализируется с экранной формы "Данные" пользовательского интерфейса аналитической БД.

Модуль регрессионного моделирования, непосредственно встроенный в пользовательский интерфейс, ориентирован на выявление прогностически значимых статистических моделей связи табличных количественных данных аналитической БД (блок генерации регрессионных моделей) и использование их для прогноза отсутствующих данных (блок формирования прогнозных оценок). Блок генерации включает процедуры формирования регрессионных моделей связи выбираемых таблиц, выполнение необходимых преобразований переменных, задания ограничений по классам свойств и "пропущенным данным" для веществ, включаемых в регрессионный анализ, вычисления оценок моделей и сохранения их в аналитической БД. Блок формирования прогнозных оценок включает процедуры поиска в БД "подходящих" регрессионных моделей и пересчета (прогноза) необходимых данных для заданного вещества исходя из имеющихся по нему в БД других данных. Модуль, при необходимости выполнения конкретного прогноза, соответствующим образом инициализируется с экранной формы "Данные" пользовательского интерфейса аналитической БД.

Программный модуль статистики индивидуальных, групповых и видовых данных (протоколов испытаний химических веществ) включает процедуры моделирования соотношений "доза/концентрация - время - эффекты", нахождения среднеэффективных доз/концентраций и их межвидовой экстраполяции для животных и человека. Дополнительная процедура имитации групповых и индивидуальных данных ориентирована на визуализацию соответствующих протоколов в интерактивном режиме компьютерного моделирования экспериментальных работ по медико-биологическому обследованию химических веществ (компьютерный тренажер). Модуль встроен в экранную форму "Протоколы", но при необходимости выполнения прогноза для отсутствующего вида животных и/или человека, он соответствующим образом инициализируется с экранной формы "Данные" пользовательского интерфейса аналитической БД.

Разработанная и постоянно совершенствуемая технология построения, загрузки и эксплуатации многоаспектной и многофункциональной аналитической (интеллектуальной) БД обеспечивает индексирование и хранение входной информации (доступной из литературных источников, зарубежных и отечественных фактографических и документальных БД) в соответствии с идентификаторами химических веществ и иерархически организованными тезаурусами определителей количественных и качественных данных.

Реорганизованные фактографические данные содержатся во взаимосвязанных таблицах БД, глубокий уровень формализации, унификации и агрегации которых обеспечивает широкие возможности для моделирования и связи данных (отношения "многие ко многим", регрессионные соотношения количественных данных различных профилей, в том числе "структура-свойство", байесовская классификация и ее сочетания с количественными моделями).

БД легко расширяется самими пользователями для включения новых аспектов информации и моделей. На ее основе могут быть сгенерированы системы с более узкой областью приложений (в плане информационной базы и функциональных задач).

При разработке БД использована среда разработки приложений Delphi/C++ и СУБД InterBase (архитектура "клиент-сервер").

На текущий момент БД занимает на сервере свыше 400 МБ дискового пространства и включает около полутора тысяч таблиц данных для более 130 тыс. химикатов, словарь определений из более 300 классов свойств, более 2500 биологических эффектов (симптомов, синдромов и болезней), около 450 тыс. синонимов названий и более 55 тыс. библиографических ссылок.

Развитие БД и ее сопровождение в настоящее время ориентированы, с одной стороны, на тесную интеграцию с другими направлениями создания информационных технологий для токсикологических, фармакологических исследований (фармакокинетика, научно-образовательный сервер по медицинской токсикологии и экотоксикологии, и т.д.), а с другой - на предоставление удаленного сервиса в рамках технологий Active X/OLE.

В.М. Зацепин, В.А. Иванченко

Научно-инженерный центр "СИСТЕХ"