В последнее время генеративному ИИ уделяется больше внимания из-за его способности генерировать текст и изображения. Однако эти медиаформаты представляют собой лишь небольшую часть данных, генерируемых каждый день в нашем обществе. Данные появляются, когда пациент проходит через медицинскую систему, шторм влияет на полеты самолетов или когда человек взаимодействует с программным приложением.

Использование генеративного искусственного интеллекта для создания реалистичных синтетических данных на основе этих сценариев может помочь организациям более эффективно лечить пациентов, изменять маршрут самолетов или улучшать программные платформы, особенно в ситуациях, когда реальные данные ограничены или конфиденциальны.

В течение последних трех лет компания DataCebo, базирующаяся в Массачусетском технологическом институте, предложила генеративную программную систему под названием Synthetic Data Vault, которая позволяет организациям создавать синтетические данные для таких целей, как тестирование программных приложений и обучение моделей машинного обучения.

Synthetic Data Vault, или SDV, было загружено более 1 миллиона раз, и более 10 000 специалистов по данным используют эту открытую библиотеку для создания синтетических табличных данных. Ее основатели, старший научный сотрудник Калян Вирамачанени и выпускница Неха Патки (’15, SM ’16), объясняют успех компании способностью SDV произвести революцию в тестировании программного обеспечения.

SDV становится вирусным

В 2016 году группа Вирамачанени из лаборатории Data to AI Lab представила набор генеративных инструментов искусственного интеллекта с открытым исходным кодом, которые помогают организациям создавать синтетические данные, соответствующие статистическим свойствам реальных данных.

Компании могут использовать синтетические данные вместо конфиденциальной информации в программах, сохраняя при этом статистические связи между точками данных. Компании также могут использовать синтетические данные для запуска нового программного обеспечения в симуляциях, чтобы увидеть, как оно работает, прежде чем публиковать его.

Группа Вирамачанени столкнулась с этой проблемой при работе с компаниями, которые хотели поделиться своими данными для исследований.

«MIT помогает вам увидеть все эти различные варианты использования», — объясняет Патки. «Вы работаете с финансовыми компаниями и компаниями здравоохранения, и все эти проекты полезны для формулирования решений в разных отраслях».

В 2020 году исследователи основали DataCebo, чтобы создать больше функций SDV для крупных организаций. С тех пор приложения были столь же впечатляющими, сколь и разнообразными.

Например, используя новый симулятор полета DataCebo, авиакомпании могут планировать редкие погодные явления таким образом, что было бы невозможно, используя только исторические данные. В другом приложении пользователи SDV синтезировали медицинские записи, чтобы предсказать исходы заболевания у пациентов с муковисцидозом. Недавно группа из Норвегии использовала SDV для создания синтетических данных о студентах, чтобы оценить, являются ли различные политики приема достойными и свободными от предвзятости.

В 2021 году платформа обработки данных Kaggle провела конкурс для специалистов по обработке данных, использующих SDV для создания синтетических наборов данных, чтобы избежать использования закрытых данных. В мероприятии приняли участие около 30 000 ученых, занимающихся данными, которые разрабатывали решения и прогнозировали результаты на основе реальных бизнес-данных.

И по мере роста DataCebo компания остается верной своим корням в MIT: все нынешние сотрудники компании являются выпускниками MIT.

Ускорьте тестирование программного обеспечения

Хотя их инструменты с открытым исходным кодом используются для различных целей, компания сосредоточена на расширении своего присутствия в сфере тестирования программного обеспечения.

«Для тестирования этих программных приложений необходимы данные», — говорит Вирамачанени. «Традиционно разработчики вручную пишут скрипты для создания синтетических данных. С помощью генеративных моделей, созданных с помощью SDV, вы можете учиться на выборке собранных данных, а затем генерировать большие объемы синтетических данных (которые имеют те же свойства, что и реальные данные) или создавать конкретные сценарии и крайние случаи, а затем использовать данные для информирования ваших приложение. ”

Например, если банк захочет протестировать программу, предназначенную для отклонения переводов с необеспеченных счетов, ему потребуется смоделировать одновременные транзакции со многих счетов. Проведение этого с данными, сгенерированными вручную, заняло бы много времени. Генеративные модели DataCebo позволяют клиентам создавать любые крайние случаи, которые они хотят протестировать.

«Обычно в отрасли имеются данные, которые в некоторой степени конфиденциальны», — говорит Патки. «Работа в пространстве конфиденциальных данных часто сопровождается правилами, и даже если правовых норм нет, в интересах компаний проявлять бдительность в отношении того, кто, к чему и когда получает доступ. Поэтому синтетические данные всегда лучше с точки зрения конфиденциальности».

Синтетическая шкала данных

Вирамачанени считает, что DataCebo добивается прогресса в том, что она называет синтетическими корпоративными данными, или данными, генерируемыми на основе поведения пользователей в основных программных приложениях компаний.

«Этот тип бизнес-данных сложен и не является общедоступным, в отличие от языковых данных», — говорит Вирамачанени. «Когда люди используют наше общедоступное программное обеспечение и говорят нам, работает ли оно по определенному шаблону, мы многое узнаем об этих уникальных шаблонах, и это позволяет нам улучшить наши алгоритмы. С одной стороны, мы создаем корпус этих сложных шаблонов, который уже доступен для языка и изображений».

DataCebo также недавно выпустила функции, повышающие удобство использования SDV, включая инструменты для оценки «реалистичности» получаемых данных, так называемую библиотеку SDMetrics и способ сравнения производительности моделей, называемый SDGym.

«Речь идет о том, чтобы дать организациям уверенность в этих новых данных», — говорит Вирамачанени. «[Наши инструменты предлагают] программируемые синтетические данные, что означает, что мы позволяем компаниям использовать свои конкретные знания и интуицию для создания более прозрачных моделей».

Поскольку компании во всех отраслях стремятся внедрить искусственный интеллект и другие инструменты обработки данных, DataCebo в конечном итоге помогает им делать это более прозрачным и ответственным способом.

«В ближайшие годы синтетические данные генеративных моделей изменят всю область науки о данных», — говорит Вирамачанени. «Мы считаем, что 90 процентов бизнес-операций можно выполнять с использованием синтетических данных».

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

error: Content is protected !!