
Основой исследования стал метод выборочного сэмплирования, применяемый для ускорения обучения нейросетей. В процессе инженеры формируют наборы положительных и отрицательных примеров поведения пользователей. Например, лайки или добавленные в корзину товары относятся к позитивным примерам, а страницы, которые не вызвали интереса, — к негативным. Такой метод помогает сократить объем данных, необходимых для обучения моделей, но имеет ряд ограничений.
Одним из слабых мест была формула LogQ, которая не учитывала разницу между положительными и отрицательными примерами. Ученые скорректировали этот инструмент так, чтобы он работал корректно с обоими типами данных.
Новый алгоритм прошел тестирование на популярных наборах данных и показал рост качества рекомендаций. Ожидается, что метод сможет применяться в рекомендательных сервисах разных компаний. Он может улучшить подбор контента на видеохостингах, в онлайн-магазинах и других цифровых платформах, где пользователи полагаются на рекомендации.
По информации Яндекса, компания планирует внедрить новую методику в обучение собственных моделей.