Секреты «Алисы»: как выходец из Microsoft создает в «Яндексе» конкурента гаджетам Amazon и Google

Фото: «Яндекс» для The Bell

Сегодня «Яндекс» представил свой первый за всю историю гаджет – на конференции YaC Аркадий Волож показал мультимедийную систему «Яндекс.Станция», оснащенную уже всем известным голосовым помощником «Алиса» (c ней успел поболтать даже Владимир Путин). Другая новинка – платформа «Яндекс.Диалоги», с помощью которой «Алиса» сможет заказать для вас на сторонних ресурсах пиццу или, например, цветы.

https://www.facebook.com/thebellmirror12.site/videos/381758895671115/

«Умная колонка» от «Яндекса» появилась, а «Алиса» заговорила под руководством Михаила Биленко, который с прошлого года возглавляет управление машинного интеллекта компании.

Биленко – родом из Саратова, но 23 года прожил в США, занимаясь машинным обучением в Microsoft. Перед уходом он возглавлял в корпорации команду Machine Learning Algorithms. О переезде обратно в Москву и смене работодателя Биленко не жалеет: «Microsoft очень большой, но задачи там были более узкие и конкретные. В «Яндексе» их больше и они интереснее».

The Bell подробно поговорил с ним о первом гаджете за всю 20-летнию историю «Яндекса».

«С точки зрения продукта неважно – кто первый, важно – кто лучше»

Свою «умную колонку» «Яндекс» разрабатывал с лета прошлого года. На Западе эти устройства переживают настоящий бум. Продажи Amazon Echo и Google Home растут на сотни процентов в год, но их голосовые помощники не умеют распознавать команды на русском языке. «Яндекс.Станция» сможет выполнять различные поручения, ставить музыку и проигрывать видео при подключении к телевизору. Продажи начнутся этим летом, а стоить она будет 9 990 рублей.

– Вы как будто движетесь след в след за Amazon и его помощником Alexa: сделали «умную колонку», «Яндекс.Диалоги» – аналог «навыков» или «скиллов» в Amazon...

– Не след в след, а впереди! Alexa болтать не умеет, а «Алиса» умеет. «Болталку» пользователи любят, и больше ее нигде нет, кроме нас. Вообще, выяснять, кто первый, кто последний – это неправильно. Технологически этим идеям десятки лет. С точки зрения продукта неважно – кто первый, важно – кто лучше. iPhone не был первым сенсорным телефоном. Microsoft делал смартфоны много лет, но они теперь умерли. Google не был первым поисковиком. Первенство никому не принадлежит. Продуктовое первенство в России – у нас. В этом смысле у нас нет ощущения, что нам нужно догонять.

Технологически в понимании и разборе русского языка мы впереди. С точки зрения кубиков, из которых все это складывается, у нас есть хороший задел. А продуктово это просто вопрос итераций: как сделать из этих технологий то, что людям нравится.

Нужды рынков очень разные. Если посмотреть, как маркетируется «умная колонка» в Северной Америке, то там самый популярный сценарий – это управление «умным домом»: людям рассказывают, как с ее помощью выключать у себя на другом этаже свет. И это сценарии, которые в России для абсолютного большинства людей пока нерелевантны. Нам нужны другие вещи.

– Какие?

– Кто же знает. Мы верим и в музыку, и в видео, и в телесмотрение, и в «умный дом». Везде любят музыку, но в России, действительно, много меломанов.

– У меня есть ноутбук и колонки, которые я могу к нему подключить. Зачем мне еще и «Яндекс.Станция»?

– У нее акустика хорошая, она стоит дома, и она ставит нужную музыку сама. Если смотреть не на маркетинг, а на фактическое использование, то и на Западе музыка – тоже самый популярный сценарий. А с ней – видео и телесмотрение. В сумме это охватывает почти все население: все так или иначе что-то смотрят. Колонка будет включаться в телевизор обычным HDMI-кабелем, как обычный DVD-плеер. Колонке можно будет сказать: «Поставь "Игру престолов"» или «Поставь видео с котиками».

– То есть она будет просто быстрее искать нужное видео или сериал за вас?

– Да, не нужно будет искать пульт, ходить по меню, искать «Игру престолов». Можно просто сказать ей: «Давай смотреть дальше».

– Есть риск, что в России это будет популярно только у небольшого количества технических гиков?

– Нам так не кажется. Хотя бы потому, что «Игру престолов» смотрят миллионы людей. Мы же не требуем сдавать экзамен по матану, чтобы поставить «Игру престолов». Мы наоборот сильно упрощаем доступ к контенту по сравнению с тем, что дает обычный пульт управления. У каждого телепроизводителя какой-то свой сложный пульт. Мы делает продукт, которым людям будет проще пользоваться.

– Вы мерили, сколько у «Яндекс.Станции» потенциальных пользователей в России?

– Мы можем понять, сколько пользователей у медиапартнеров, мы знаем, сколько пользователей у разного типа контента. Много людей смотрят в «Яндексе» видео с котиками. В этом смысле мы знаем, что это гигантский рынок. Если мы в нем делаем людям лучше и проще, то продукт имеет право на жизнь.

– Продажи «умных колонок» вообще бурно растут – на сотни процентов в год. Amazon пока удерживает первое место. Их колонки удобнее, чем у конкурентов, или это просто эффект раннего старта?  

– Просто они были первые, у них был больше отрыв. Amazon Echo появилась гораздо раньше Google Home, Echo Dot появилась раньше Google mini. У них был гигантский отрыв, но Google за последний год очень сильно его сократил. И все активно эту индустрию субсидируют. У каждого есть свои сильные стороны. У Google свой поиск и много существующих сервисов, которые можно напрямую использовать с помощью колонки. У Amazon нет своего поиска, им приходится фактически выстраивать его рядом. У Amazon было преимущество первопроходца, но оно сокращается.

– Новым устройствам будет все сложнее выходить на рынок?

– Зависит от рынка. Рынки очень разные по языкам. Первичным тут является языковой интерфейс, то есть качество обработки естественного языка и умение говорить нем.

– То есть будет такая деглобализация?

– Мы надеемся, но в поиске она получилась не совсем полная. Есть только три страны, где у Google нет абсолютного лидерства – это Китай, Корея, Россия. Что касается голосовых помощников и умных колонок, то пока рынок еще относительно молодой, есть за что побороться.

– У Google и Amazon есть планы по выходу в Россию?

– Их планы для нас загадка.

– Долго ли они будут делать русскоязычный продукт, если вдруг решат выйти на наш рынок? 

– Да, конечно. Потому что это обработка естественного языка, а русский достаточно сильно отличается от романо-германских языков. Понимание естественного языка и его разбор – это немало работы. Одно дело брать любые фразы и вынимать из них разные сущности, но высший пилотаж – именно разговор на свободные темы. То есть одно дело, научить ставить музыку, понимать слова «включи», «поставь» и т.д. А другое – отвечать, кто тебе больше нравится – Oxxxymiron или Гнойный. Для этого требуется намного больше, чем просто вынуть слова. Поэтому работы тут очень много, и не так много есть компаний, которые смогли бы себе позволить при желании сделать помощника на многих языках.

«Люди не хотят выбирать, а хотят быстрый ответ»

– Я слышала, что у «Яндекса» есть амбициозные планы по поводу «Яндекс.Диалогов». Это будет чуть ли не новый интернет в интернете. При этом у Amazon есть «скиллы» – аналог ваших диалогов, и их уже больше 25 тысяч. Есть ли какие-то исследования по поводу того, как использование «скиллов» заменяет обычный поиск?

«Скиллы» от Amazon или «диалоги» от «Яндекса» – это боты или чаты сторонних компаний. Например, «Алису» можно попросить заказать пиццу. Услышав команду, она откроет специального бота одной из пиццерий, у которого вы сможете сделать заказ. Сейчас в «Яндекс.Диалогах» есть 4 тысячи ботов или чатов, с помощью которых можно заказать не только пиццу или цветы, но и узнать баланс мобильного телефона или купить авиабилеты.

– У Amazon «скиллов», на самом деле, уже больше 40 тысяч. Но у нас есть такая поговорка: все соревнуются, у кого больше кладбище «скиллов». У всех технологических компаний есть большая проблема с тем, что большая часть «скиллов», так называемый «длинный хвост», почти не используется. У Amazon очень много «скиллов» с плохими рейтингами. И это открытая задача для всех – чтобы «скиллов» было не только много, но и чтобы их активно использовали. Это просто интерфейсная задача – как сделать «хвост» легко доступным, полезным и используемым.

– Проблема в том, что люди не знают, как вызвать нужный «скилл»?

– И в этом тоже. Часто люди не знают, что какие-то «скиллы» вообще есть.

– Получается, нужно знать отдельный язык вызывания «скиллов»...

– Люди не любят учить языки, особенно если они не естественные. К тому же, много «скиллов» пока относительно невысокого качества. Но опять же на заре интернета многие сайты были не слишком красивые и удобные. Нужно просто, чтобы эволюция прошла, чтобы «скиллы» стали удобнее и легче находились, и у людей появилась привычка легко их вызывать.

– Не получится ли со «скиллами», как с мобильными приложениями? Пользователи устанавливали много приложений, потом их сносили, сейчас огромное количество приложений не используется.

– Это интересный вопрос. С приложениями, кажется, все-таки положительный пример. Сейчас приложения есть даже для самых странных нишевых нужд. Со «скиллами» пока по-другому – мы видим очень низкие цифры того, сколько «скиллов» в реальной жизни использует обычный пользователь.

– Приложения, наверно, проще найти?

– Да, проще найти, больше механизмов их раздачи и популяризации. В этом смысле это более развитая экосистема.

– Допустим, в «Яндекс.Диалогах» есть два равноценных диалога под заказ пиццы – от Papa Jones и Dodo Пицца. Я говорю «Алисе», что хочу заказать пиццу. Чью пиццу «Алиса» мне предложит?

– Тут все возможно. Возможно, вам будет предложено сразу несколько разных вариантов. Но в большинстве случаев люди не хотят выбирать, а хотят быстрый ответ, поэтому иногда проще выбрать лучший за пользователя, при этом предоставив ему возможность в будущем этот выбор изменить.

– Как «Алиса» будет выбирать лучший вариант?

– Это пока открытый вопрос. Есть много способов. Можно придумать разные механизмы, где мы будем показывать их в случайном порядке. А можно смотреть на то, какие диалоги люди больше повторно запрашивали, и более полезные показывать чаще. Но при этом мы не хотим, чтобы у новых диалогов вообще не было шансов показаться. Это классическая проблема всех рекомендательных систем – так называемый «холодный старт». Как правило, что-то новое сначала выводят в топ, и если оно быстро набирает популярность, интересно и релевантно людям, то это продвигают выше. Эти механизмы справедливого промоутирования, безусловно, очень важны для диалогов.

– Внутри «скиллов»в Amazon есть платежи. В «Яндекс.Диалогах» они будут?

– Мы над этим работаем, мы понимаем, что людям это будет интересно.

– Платежи будут реализованы на основе «Яндекс.Денег»?

– Мы пока не определились, потому что понимаем, что это должно быть что-то такое, к чему будет максимально удобно подключаться и платить.

– Давайте поговорим про монетизацию «Яндекс.Диалогов». Amazon отказался от контекстной рекламы в своих «скиллах», у Google жесткого запрета на контекстную рекламу нет, но нет и ее активного использования. Все опасаются, что контекстная реклама в голосовом помощнике снизит градус интимности в общении с пользователем. Какая у «Яндекса» позиция?

– Мы хотим максимизировать градус интимности. Мы будем экспериментировать, но осторожно, чтобы людям не портить пользовательский опыт. Так же, как реклама должна быть релевантна в поиске, так и здесь – любой механизм монетизации должен улучшать опыт общения с продуктом.

– Как вы сами используете «умные колонки» и «скиллы» от Amazon? Не по работе, а в быту?

– Слушаю музыку, узнаю какие-то факты. Я плохо печатаю пальцами, поэтому многие коллеги жалуются, что я часто использую голосовой ввод. Пользуюсь умным будильником, уже отвык пользоваться обычным. Но голосом я стараюсь ничего не покупать, нахожу это неудобным. Покупки и вызов такси без экрана – это неудобно. Иногда важно понять, что «эконом» будет ехать долго, проще взять «комфорт». С одеждой – нужно убедиться, что покупаешь правильный размер, цвет. И я так понимаю, что покупки в целом не очень популярны и у Amazon. Самое популярное – это музыка, погода, факты, шумовые «скиллы», которые помогают засыпать.

«Я хорошо научился говорить с сильным русским акцентом»

– Есть ли у «Яндекса» четкие планы по монетизации «Алисы»? Как долго вы планируете набирать пользовательскую массу, прежде чем начнете зарабатывать?

– Строить будущее дорого. Монетизация фактически только зарождается. Есть пример поиска: монетизация поиска наступила только через несколько лет после того, как поиск появился. В 1990-е были какие-то страшные баннеры, а современная система с аукционами, ключевыми словами и контекстной рекламой была придумана лишь несколько лет спустя, и стала ключевой частью продукта только в этом веке. Чтобы монетизировать помощников, мы предполагаем, понадобится тоже много лет, но сама система будет другая. Важно иметь терпение, и пока не появилась взаимовыгодная система, просто делать лучший продукт для пользователей. Параллельно надо, конечно, пытаться понять, как сделать монетизацию, которая пользователям была бы релевантна и не противна, а партнерам – выгодна. Есть много гипотез, что это будет за монетизация. Например, монетизация приложений – она же фундаментально другая, чем в поиске. И тут будет тоже какое-то свое уникальное решение. Возможно, это будет гибрид. Но масса людей критична, поэтому все готовы инвестировать, чтобы голосовой поиск стал массовым сценарием использования.

– Назовите главные три сложности для «Алисы» сейчас.    

– Первая сложность – нанять еще больше разработчиков-экспертов. Вторая – распознавание названий музыки и видео. Это вообще совсем нетривиальная задача: названия исполнителей и песен могут быть на разных языках, а команды «Алиса» получает на русском. Это значит, что нужно научить ее распознавать фразы, которые одновременно состоят из слов на разных языках. Например, глагол повелительный будет на русском – «включи», «поставь». Потом будет название песни или фильма на английском. Сейчас мы еще сталкиваемся с такой проблемой, что «Алиса» очень хорошо распознает английский с сильным русском акцентом, а чем этот акцент слабее, тем хуже у нее распознавание. Хорошая фонетика американского и британского английского сейчас является проблемной областью. «Алиса» настроена на славянский акцент. Я, например, хорошо научился говорить с сильным русским акцентом. Третья проблема – это пожелания к «болталке» стать еще более релевантной и повысить градус интимности. Качество разговора с «болталкой» – это важная задача, которая еще долго будет нерешенной. Сейчас «Алиса» стала слишком ванильной. Нам кажется, нужно вернуть некоторые вещи. И четвертая задача – сделать навыки в «Яндекс.Диалогах» популярными, а саму платформу – густонаселенной.

Анастасия Якорева