Cоздана крупнейшая база данных растворимости соединений в бинарных смесях

17.04.2026



Сотрудники Института общей и неорганической химии им. Н.С. Курнакова РАН, Московского государственного университета им. М.В. Ломоносова и Национального исследовательского университета «Высшая школа экономики» создали базу данных растворимости органических соединений в бинарных смесях растворителей «MixtureSolDB» и разработали онлайн-приложение для интерактивной визуализации данных.

Представленная база позволяет прогнозировать значения растворимости веществ в бинарных смесях с помощью алгоритмов искусственного интеллекта. Подробные данные об этом эффективном инструменте, перспективном для разработки лекарственных препаратов и создания материалов нового поколения, опубликованы в журнале Scientific Data​.

Растворимость является одним из ключевых свойств соединений, определяющих их применение в химическом синтезе, материаловедении и фармацевтике. В технологических процессах зачастую используют смеси растворителей, что существенно усложняет оценку растворимости. Предсказание значений растворимости в смесях растворителей остаётся сложной задачей для современной хемоинформатики — прежде всего из-за отсутствия больших и разнообразных наборов экспериментальных данных. Для решения этой задачи целесообразно применять методы машинного обучения, которые позволяют предсказывать свойства химических соединений без необходимости проведения экспериментов, что значительно ускоряет научный поиск и делает его дешевле.

Авторы создали самую большую в мире базу данных растворимости органических соединений в бинарных смесях растворителей, которая включает более 175 тысяч экспериментальных значений. Работу прокомментировал один из авторов, младший научный сотрудник лаборатории кристаллохимии и Центра цвета ИОНХ РАН Лев Краснов: «В ходе работы мы обработали 1115 рецензируемых научных публикаций и систематизировали 175 166 экспериментальных значений растворимости — для 810 органических соединений в 750 уникальных бинарных смесях растворителей при температурах от 252 до 383 K. Мы уделяли большое внимание качеству данных: каждая запись проходила проверку, стандартизацию и дедупликацию.

Cоздана_крупнейшая_база_данных_растворимости_соеди_1.jpg (jpg, 30 Kб)

Общая схема создания MixtureSolDB

Молекулярные структуры всех растворённых веществ и растворителей представлены в машиночитаемом формате SMILES — это позволяет напрямую использовать базу данных в задачах машинного обучения без дополнительной предобработки.

Помимо самого набора данных, мы разработали онлайн-приложение для его визуализации и навигации: в нём можно искать значения растворимости как по химической структуре соединения, так и по его названию».

По словам авторов, созданная база данных решает критическую проблему нехватки всеобъемлющих наборов данных для растворимости органических веществ в смесях растворителей, которая ранее существенно ограничивала развитие методов машинного обучения в этой области. Большинство предыдущих исследований были сосредоточены на растворимости в индивидуальных растворителях, тогда как MixtureSolDB впервые предоставляет масштабный систематизированный набор данных для бинарных смесей.

В созданной базе данных представлены как наиболее распространённые бинарные системы, такие как вода–этанол, вода–ацетонитрил, этанол–ацетон, так и другие практически значимые комбинации. Это особенно важно для разработки инновационных химико-технологических процессов: точное знание растворимости в смесях растворителей критично для выбора условий синтеза, при разработке лекарственных форм и создании эффективных методов кристаллизации и экстракции.

Авторы отдельно отмечают вклад студентов первого курса химического факультета МГУ Фёдора Кузнецова, Владимира Елистратова и Матвея Васиярова, для которых данная работа стала первой научной публикацией. Фёдор Кузнецов и Владимир Елистратов являются победителями Международной химической олимпиады 2025 года (IChO-2025), Матвей Васияров — победителем IChO-2024.

Исследование выполнено при финансовой поддержке Министерства науки и высшего образования Российской Федерации в рамках государственного задания ИОНХ РАН.

Источник: Минобрнауки России.

©РАН 2026