Сотрудники Института общей и неорганической химии им. Н.С. Курнакова РАН, Московского государственного университета им. М.В. Ломоносова и Национального исследовательского университета «Высшая школа экономики» создали базу данных растворимости органических соединений в бинарных смесях растворителей «MixtureSolDB» и разработали онлайн-приложение для интерактивной визуализации данных.
Представленная база позволяет прогнозировать значения растворимости веществ в бинарных смесях с помощью алгоритмов искусственного интеллекта. Подробные данные об этом эффективном инструменте, перспективном для разработки лекарственных препаратов и создания материалов нового поколения, опубликованы в журнале Scientific Data.
Растворимость является одним из ключевых свойств соединений, определяющих их применение в химическом синтезе, материаловедении и фармацевтике. В технологических процессах зачастую используют смеси растворителей, что существенно усложняет оценку растворимости. Предсказание значений растворимости в смесях растворителей остаётся сложной задачей для современной хемоинформатики — прежде всего из-за отсутствия больших и разнообразных наборов экспериментальных данных. Для решения этой задачи целесообразно применять методы машинного обучения, которые позволяют предсказывать свойства химических соединений без необходимости проведения экспериментов, что значительно ускоряет научный поиск и делает его дешевле.
Авторы создали самую большую в мире базу данных растворимости органических соединений в бинарных смесях растворителей, которая включает более 175 тысяч экспериментальных значений. Работу прокомментировал один из авторов, младший научный сотрудник лаборатории кристаллохимии и Центра цвета ИОНХ РАН Лев Краснов: «В ходе работы мы обработали 1115 рецензируемых научных публикаций и систематизировали 175 166 экспериментальных значений растворимости — для 810 органических соединений в 750 уникальных бинарных смесях растворителей при температурах от 252 до 383 K. Мы уделяли большое внимание качеству данных: каждая запись проходила проверку, стандартизацию и дедупликацию.

Общая схема создания MixtureSolDB
Молекулярные структуры всех растворённых веществ и растворителей представлены в машиночитаемом формате SMILES — это позволяет напрямую использовать базу данных в задачах машинного обучения без дополнительной предобработки.
Помимо самого набора данных, мы разработали онлайн-приложение для его визуализации и навигации: в нём можно искать значения растворимости как по химической структуре соединения, так и по его названию».
По словам авторов, созданная база данных решает критическую проблему нехватки всеобъемлющих наборов данных для растворимости органических веществ в смесях растворителей, которая ранее существенно ограничивала развитие методов машинного обучения в этой области. Большинство предыдущих исследований были сосредоточены на растворимости в индивидуальных растворителях, тогда как MixtureSolDB впервые предоставляет масштабный систематизированный набор данных для бинарных смесей.
В созданной базе данных представлены как наиболее распространённые бинарные системы, такие как вода–этанол, вода–ацетонитрил, этанол–ацетон, так и другие практически значимые комбинации. Это особенно важно для разработки инновационных химико-технологических процессов: точное знание растворимости в смесях растворителей критично для выбора условий синтеза, при разработке лекарственных форм и создании эффективных методов кристаллизации и экстракции.
Авторы отдельно отмечают вклад студентов первого курса химического факультета МГУ Фёдора Кузнецова, Владимира Елистратова и Матвея Васиярова, для которых данная работа стала первой научной публикацией. Фёдор Кузнецов и Владимир Елистратов являются победителями Международной химической олимпиады 2025 года (IChO-2025), Матвей Васияров — победителем IChO-2024.
Исследование выполнено при финансовой поддержке Министерства науки и высшего образования Российской Федерации в рамках государственного задания ИОНХ РАН.
Источник: Минобрнауки России.