Снова наступило то время года: отчеты о состоянии ИИ на 2021 год отсутствуют. Несколько дней назад это был отчет Мэтта Тёрка по машинному обучению, искусственному интеллекту и данным, о котором рассказал Тони Баер, коллега по ZDNet Big on Data. На этой неделе это Отчет о состоянии искусственного интеллекта в 2021 году, Натан Бенайх и Ян Хогарт.
После выпуска, вероятно, самого полного отчета о состоянии ИИ в 2020 году, Air Street Capital и РАИС основатель Натан Бенайх и AI-ангел-инвестор и UCL IIPP посещая профессора Ян Хогарт вернулись для большего.
По традиции, ставшей важной ежегодной, мы встретились с Бенайхом и Хогартом, чтобы обсудить темы, которые выделялись для нас в отчете.
MLOps, машинное обучение в продакшене
Во-первых, темы, которые освещал Терк и докладывал Баер, частично совпадают, и на то есть веские причины. Как отметил Баер, волна IPO и распространение единорогов превращает этот рынок в отдельный сектор, и это невозможно игнорировать. Чтобы получить обзор рыночных тенденций, мы рекомендуем читателям взглянуть на статьи Бэра.
Тем не менее, мы полагаем, что отчет State of AI 2021 охватывает больше тем: последние разработки в области исследований AI, промышленность, таланты и политику, а также рискует делать прогнозы. Фактически, Бенаих и Хогарт следят за своими прогнозами, и у них все хорошо. Например, в 2020 году они правильно спрогнозировали препятствия на пути приобретения Arm Nvidia, а также IPO, связанные с ИИ и биотехнологиями.
Как отметил Бенаич, благодаря тому, что они являются инвесторами в различных компаниях машинного обучения, в основном на ранних стадиях, они имеют доступ к крупным лабораториям искусственного интеллекта, академическим группам, начинающим и развивающимся стартапам, более крупным компаниям, а также людям, которые работают в правительстве. Поэтому они пытаются объединить все эти разные точки зрения в продукт общественного блага с открытым исходным кодом, цель которого — целостное информирование всех заинтересованных сторон.
Мы выбрали несколько общих тем, которые выделялись для нас в отчете, так как мы также определили их в течение года. Первый — это MLOps — искусство и наука внедрения машинного обучения в производство. При внедрении ИИ акцент смещается с блестящих новых моделей на, возможно, более приземленные, но практические аспекты.
С ростом мощности и доступности моделей машинного обучения выгоды от улучшения моделей стали незначительными. В этом контексте сообщество машинного обучения все больше осознает важность более совершенных методов обработки данных и, в более общем плане, более совершенных MLOps для создания надежных продуктов машинного обучения.
Бенаич отметил, что они считают важным привлечь повышенное внимание к качеству данных и различным вопросам, которые могут быть связаны с данными, которые в конечном итоге распространяются на модели машинного обучения, и определяют, хорошо ли модели предсказывают или нет:
«Многие научные круги были сосредоточены на соревновании по статическим тестам, демонстрации производительности модели в автономном режиме на этих тестах, а затем переходу в отрасль. Итак, первое поколение было очень важным — давайте просто получим модель, которая работает для конкретной проблемы, а затем решать любые проблемы или любые изменения, когда они случаются.
В MLOps было потрачено огромное количество денег, интереса и времени на разработку. И это мотивировано идеей, что машинное обучение — это не статический программный продукт, который можно написать один раз и забыть. Его надо постоянно обновлять, и дело не только в [about] обновление модели.
Вы должны посмотреть, как ваши классы могут дрейфовать со временем, или если вы все еще используете правильные тесты, чтобы определить, будет ли новая модель, которую вы обучили, работать в производственной среде или нет. Вы можете столкнуться с такими проблемами, как выбор разных случайных начальных значений для вашей модели, а затем увидеть совершенно другое поведение в реальных данных, или даже те данные, которые вы использовали, являются мусором ».
Это кажется интуитивно правильным и, вероятно, находит отклик у любого, кто работал с моделями машинного обучения и конвейерами данных. Теперь люди дают названия этим явлениям, таким как сдвиги распределения (несоответствия в версиях наборов данных) и каскады данных (проблемы с данными, влияющими на последующие операции). Поскольку наименование вещей — это первый шаг к тому, чтобы начать их анализировать и относиться к ним более серьезно, это хорошо.
ИИ, ориентированный на данные: хорошие данные, плохие данные, сдвиги в распределении и каскады данных
Сдвиг распределения происходит, когда данные во время тестирования / развертывания отличаются от данных обучения. В производственной среде это часто происходит в форме дрейфа концепций, когда тестовые данные постепенно меняются с течением времени.
Поскольку машинное обучение все чаще используется в реальных приложениях, потребность в твердом понимании распределительных сдвигов становится первостепенной. Это начинается с разработки сложных тестов, заявляют Бенаих и Хогарт в своем отчете.
Бенайх считает, что сложно привести конкретные примеры сдвига распределения в реальном мире, потому что организации, вероятно, не хотели бы, чтобы мир знал, что они затронуты такими проблемами. Но одна из областей, на которые это может повлиять, — это ценообразование на различных веб-сайтах розничной торговли.
Часто в серверной части есть механизм динамического ценообразования на основе машинного обучения, и его результат зависит от того, сколько информации о вас у них есть, — отметил Бенайх. Таким образом, смещение распределения может означать, что вы в конечном итоге получите очень и очень разные цены на конкретный продукт, который вы смотрите, в зависимости от того, какие данные используются. Интересно, что именно эта практика нацелен на регулятор рынка Китая.
Бенайх подчеркнул тот факт, что было выпущено как минимум два основных новых набора данных, направленных на устранение сдвигов в распределении, WILDS и Смены, разработанная рядом американских и японских университетов и компаний, а также Яндексом.
Использование большего количества отраслевых наборов данных в академических кругах означает, что в конечном итоге академические проекты с большей вероятностью будут иметь успех в производственной среде, поскольку при переходе от отрасли к академической среде и наоборот происходит меньшее смещение распределения, — отметил Бенайх.
Исследователи Google определяют каскады данных как «сложные события, вызывающие негативные последующие последствия проблем с данными». Опираясь на опрос 53 практикующих специалистов из США, Индии, стран Восточной и Западной Африки, они предупреждают, что текущая практика недооценивает качество данных и приводит к появлению каскадов данных.
Идея довольно интуитивная — эффект домино. Если у вас возникла проблема в начале, она, скорее всего, исчезнет к тому времени, когда вы доберетесь до последнего домино. Что примечательно, так это то, что подавляющее большинство специалистов по обработке данных сообщают, что столкнулись с одной из этих проблем.
Когда пытались объяснить, почему эти проблемы на самом деле произошли, это было в основном из-за непризнания важности данных в контексте их работы в области ИИ, или отсутствия обучения в предметной области, или отсутствия доступа к достаточно специализированным данным для конкретная проблема, которую они решали.
Это указывает на то, что в мире машинного обучения больше нюансов, чем «хорошие данные» и «плохие данные». Поскольку наборы данных многогранны, разные подмножества используются в разных контекстах, а разные версии развиваются, контекст является ключевым в определении качества данных. Идеи машинного обучения в производстве побуждают сместить акцент с ИИ, ориентированного на модели, на ИИ, ориентированный на данные.
Новым является то, как развивать и пересматривать эти методы в свете современных моделей и методов искусственного интеллекта. Всего несколько лет назад у нас не было долгоживущих систем искусственного интеллекта или нынешнего поколения мощных глубинных моделей.