http://www.ras.ru/news/shownews.aspx?id=2267c41a-3f65-435c-8974-fc0d7efdaae2&print=1
© 2024 Российская академия наук

Заявление Экспертного Совета по оценке результативности научных организаций ОМН РАН О «Карте российской науки»

27.12.2013



 

Заявление Экспертного Совета по оценке результативности
научных организаций Отделения математических наук РАН


О «Карте российской науки»

 

В ноябре 2013 г. на сайте http://mapofscience.ru Министерством образования и науки РФ была представлена для тестирования «Карта российской науки».

Министерство образования и науки РФ основной целью разработки «Карты российской науки» декларировало создание основы для принятия управленческих решений в сфере научно-исследовательской деятельности ученых и организаций (стенограмма установочного заседания в МОН от 18.01.2013 г.). С этой целью 26 сентября 2012 года был объявлен открытый конкурс (Лот № 1 2012-2.1-14-521-0020. Формирование системы оценки и мониторинга результатов научно-исследовательской деятельности организаций и ученых для регулярной оценки состояния сферы науки). Победителем конкурса Министерства образования и науки РФ 7 ноября 2012 года стала частная компания с ограниченной ответственностью «PricewaterhouseCoopers Russia (PwC Россия)». Работу предполагалось провести в три этапа. Срок окончания последнего этапа не позднее 1 декабря 2013 года.

Первые же попытки воспользоваться картой в ноябре с.г., проведенные заинтересованными лицами (прежде всего, исследователями, сотрудниками научных учреждений), показали наличие в ней множества дефектов, которые не только затрудняют проведение какого-либо анализа по современному состоянию российской науки, но и создают ложную картину ее состояния и перспектив развития (см. детальный анализ в Замечаниях к базе данных «Карта российской науки» ОМН РАН от 2 декабря 2013 года, размещенных на сайте http://omn.ras.ru). Отметим, что некоторые данные об отдельных исследователях, размещенные на официальном портале государственного органа, наносят ущерб их профессиональной репутации.

Анализ работы «Карты российской науки» был проведен как специалистами во многих областях науки, состояние которых пыталась отразить «Карта», так и специалистами ряда организаций в области IT-технологий, занимающихся разработкой баз данных. В частности, по просьбе Отделения математических наук РАН такую работу провела группа специалистов в области информационных технологий из Института системного анализа РАН. Проведенный анализ позволяет сделать следующий вывод.

Можно предположить, что работой системы управляет следующий общий алгоритм:

В качестве исходных данных информационная система «Карта российской науки» использует метаданные о публикациях из Web of Science, РИНЦ и ФИПС[1]. Метаданные о публикациях содержат сведения об авторах и об организациях, в которых выполнена работа.

При сборе исходных данных автоматически определяется тематика (научное направление) публикации, но не исходя из данных каждой отдельной работы, а по тематике журнала в целом (поскольку тематика каждого журнала в Web of Science и РИНЦ задана).

На основе автоматического определения тематики публикации каждому исследователю сопоставляется его профиль, т.е. множество тематик путём объединения множеств тематических рубрик, приписанных на предыдущем шаге публикациям этого исследователя в различных изданиях. Таким образом, исследователь, опубликовавший даже одну работу в междисциплинарном журнале, сразу же существенно расширяет свою «область компетентности».

На основе данных о принадлежности исследователя к некоторой организации и о его профиле, организации назначаются те тематические рубрики, к которым относятся работы, опубликованные этим исследователем. Они составляют профиль научной организации.

Определяется место организации в рейтинге по некоторой научной тематике (направлению). Место в рейтинге вычисляется по количеству работ, опубликованных её сотрудниками в журналах, включающих эту тематику.

Замечание. Для патентных работ ситуация дополнительно осложняется тем, что в патентных базах используется подробная Международная патентная классификация (МПК). Отображение из МПК в принятую в системе тематическую рубрикацию неоднозначно. Это также приводит к тому, что каждому исследователю сопоставляется неоправданно много научных тематик.

Таким образом, в системе имеются принципиальные дефекты, которые по степени влияния их на получаемый результат, можно разделить на:

Дефекты 1-ого рода связаны с неполнотой данных и, как правило, могут быть исправлены путем определенного набора действий, который предоставляется разработчиками (к ним относятся: предоставление исходных данных пользователями, проверка ими своего профиля). Устранение дефектов 1-ой группы – длительный во времени процесс, связанный с трудозатратами исследователей, не имеющих к разработке данной системы никакого отношения.

Дефекты 2-ого рода относятся к системным ошибкам разработанной базы данных и порождены тем, что разработчики системы «Карта российской науки» не применяли средств автоматического определения тематики отдельных публикаций. Об этом свидетельствует тот факт, что в системе присутствует не один, а несколько профилей для одного и того же исследователя, построенных по данным его работ, опубликованных от разных организаций.

В «Карте» не реализован алгоритм фильтрации публикаций однофамильцев (разделения профилей). Задача дедубликации данных о физических лицах, т.е. выявление однофамильцев и отождествление различающихся упоминаний одного и того же человека, является одной из наиболее распространенных проблем, с которыми сталкиваются разработчики информационных систем. Для ее решения существуют специальные подходы, методы и даже готовые программные продукты. Полностью автоматизировать решение этой задачи невозможно, но существующие технологии позволяют добиться очень высокой степени автоматизации. Общая идеология таких средств - выяснение, один ли и тот же человек упомянут в статьях; здесь специалисту-разработчику необходимо использовать контекст или другие атрибуты (например, место работы, адрес). Для реализации алгоритмов решения задачи дедубликации очень важно участие квалифицированных специалистов по компьютерной лингвистике. Судя по результатам тестирования, можно с большой достоверностью утверждать, что данная система игнорирует имеющийся опыт решения таких задач, не используя даже простейшие из имеющихся методов.

Поскольку область научных интересов исследователя формируется в системе без анализа текстов его печатных работ, это приводит к существенным искажениям, рассмотренным выше. Это приводит затем к искажению профиля организации. При достаточной «массовости» эффектов такого рода, эксплуатация системы и её применение становятся невозможными, поскольку в системе происходит автоматическое накопление ошибок, а исправление их происходит в «ручном режиме».

Указанная принципиальная неадекватность примененного алгоритма с необходимостью будет приводить к росту ошибок и при устранении недостатков первого рода. Так при пополнении базы данных каждый исследователь рано или поздно может стать «специалистом» во всех представленных в базе данных научных или иных направлениях.

Помимо ошибок системы, связанных с работой алгоритмов системы, имеются принципиальные ошибки на первоначальном этапе проектирования такой системы. Именно, создание любой информационной системы начинается с определения основных понятий. Должны быть очень четко и точно описаны типы объектов, определена их структура и семантика, заданы типы связей, определены информационные потоки и др. Полученная информационная модель лежит в основе всей дальнейшей разработки. Тестирование «Карты» показывает, что этот этап был выполнен в принципе неверно.

Так в системе, с помощью которой предполагается анализировать состояние дел в российской науке, не определено, что считается научной организацией. Такое понятие фактически отсутствует: среди организаций, данные о которых хранятся в Карте, есть торговые организации, поставщики продуктов, издательства и т.д. В результате, предлагаемая аналитическая система о российской науке не способна ответить на самый элементарный вопрос – «сколько в России научных организаций». И это не ошибка ввода данных, а принцип системы, в соответствии с которым понятие научной организации является вторичным – это учреждение, которое упоминается в различных научных статьях. Однако научная организация существует независимо от того, что указывается в различных публикациях, она имеет четко зафиксированные направления деятельности, штат и др. Для построения адекватного профиля научной организации разработчики могли бы в качестве одной из основ использовать данные о штатных единицах исследовательской организации, а не массив публикаций с соответствующими признаками в адресах авторов (аффилиациях). В системе также не определено понятие научного сотрудника. Если сотрудник не имеет публикаций за последние 5 лет, то с точки зрения системы он не существует. Соответственно, не реализована такая важная связь между информационными объектами, как работает в организации, представляющая собой бинарное отношение между упомянутыми понятиями.

Эти дефекты являются следствием положенной в основу системы ее заказчиками и разработчиками в принципе неверной идеологии, состоящей в признании публикационной активности основной целью научной деятельности. Цель научной деятельности, принимаемая научным сообществом, состоит, прежде всего, в получении нового знания.

Сделанные замечания фактически означают, что систему необходимо перепроектировать, т.е. нужно начинать все с самого начала.

Из проведенного анализа видна профессиональная несостоятельность сотрудников Министерства образования и науки и подведомственных ему организаций, ответственных за создание Карты российской науки. Предлагаемая база данных не может служить ни источником достоверной информации о российской науке для граждан страны, ни инструментом принятия решений в области государственной научной политики.



[1] Существенной недостатком рассматриваемой системы является то, что в ее основу положены базы только таких данных как публикации и патенты. Во многих прикладных разработках результаты исследований не могут быть учтены только публикациями или патентами. К ним относятся такие активно развивающиеся в настоящее время исследования, как создание и развитие программ с открытым кодом (open source). Работы в этих направлениях проводятся в ряде институтов ОМН РАН, занятых разработками в области наукоемких технологий.