"Яндекс" опубликовал часть данных, собранных его беспилотным подразделением. 1600 часов движения робомобилей, разбитых на 600 000 размеченных отрезков из поездок по дорогам России, Израиля и США в хорошую погоду, в снег и в дождь.
Такой массив данных (а уверяют, что это теперь самый большой набор из общедоступных) компания выложила в открытый доступ для конкурса Shifts Challenge, который "Яндекс" проведет вместе с учёными из Оксфорда и Кембриджа. И, как говорят в компании, самая главная задача конкурса – привлечь внимание к проблеме "сдвига данных" в машинном обучении.
"Сдвиг данных — это примерно следующее. Вот вы приехали в Лондон, а там движение с другой стороны, другие марки машин, немного другие ПДД, и вообще другой город. Вот это сдвиг данных — поначалу вы будете водить осторожно, неуверенно, потом вы быстро адаптируетесь и будет все хорошо. И мы примерно такое же хотим от наших машин: чтобы модели, обученные в одних условиях, так же хорошо работали в других условиях.
Проблема сдвига данных известна давно, и много кто над ней работал, но для ее решения требуются большие корпуса, большое количество данных с большим количество примеров настоящих сдвигов из жизни и для разных задач. Но, к сожалению, большинство датасетов, которые сейчас существуют, маленькие и в них синтетически созданные сдвиги. Этого для успешного решения проблемы не хватает".
Андрей Малинин
Старший исследователь Yandex Research
Для понимания масштабов опыта, которым обладают лидеры отрасли: "Яндекс" в марте этого года объявил, что его робомобили суммарно проехали 10 млн километров. Гугловская Waymo, которая начала беспилотные разработки существенно раньше, разменяла уже 30 млн. И им есть чем поделиться не только с менее крупными компаниями, но и друг с другом. Просто потому, что у каждой из компаний свой набор условий тестирования.
"У нас есть задача предсказания движения траектории других автомобилей, очень важная в беспилотном стеке. И мы можем видеть, что если мы возьмем за обучающую выборку только Москву летом, то качество предсказания траектории в других городах будет ниже. Мы пытаемся придумать другие алгоритмы машинного обучения, у которых качество на Тель-Авиве будет выше. Например, мы как раз разметили, какие сдвиги есть: погодные условия, время дня, города и т.д. У нас даже есть разметка — классификация разных траекторий: траектория ускоряющаяся, обгоняющая, такие вещи. Мне кажется, такой дотошной разметки нет у других датасетов, потому что они нацелены на другие задачи".
Андрей Малинин
Старший исследователь Yandex Research
В компании также подчеркивают, что все опубликованные данные обезличены: датасет содержит высокоточные карты маршрутов и треки всех окружающих машин и пешеходов (их положение, скорость, ускорение и прочее), но не использует видео, где были бы видны номера машин или лица прохожих.
"Яндекс" не первым выкладывает в паблик свой массив накопленных данных с тренировок робомобилей. Это стало хорошим тоном в отрасли. Доступ к своим датасетам, предназначенным для обучения нейросетей беспилотных машин, ранее открыли гугловская "дочка" – компания Waymo, автопроизводители Ford и Audi, компания Aptiv Autonomous Mobility и сервис онлайн-заказа такси Lyft (он, правда, потом свое беспилотное подразделение продал).
