Пятница, 19 апреля 2024 года

Инструмент для очистки данных поможет улучшить модели прогнозирования

Исследователи из Колумбийского и Калифорнийского университетов разработали интерактивную систему для очистки крупных пакетов информации.

Специалисты утверждают, что подобные структуры полны недействительных данных, что приводит к созданию некорректных моделей прогнозирования, используемых в финансовой, здравоохранительной и других сферах. Программисты из Колумбийского и Калифорнийского (Беркли) университетов постарались решить эту проблему за счет нового инструмента по очистке данных. Система, описанная в статье eurekalert.org, получила название ActiveClean. Она анализирует модели прогнозирования и решает, какие ошибки редактировать в первую очередь, одновременно обновляя ее в процессе работы. Пользователь видит улучшение с каждым циклом.

Команда представит свой проект в Нью-Дели 7 сентября в ходе конференции по вопросу очень больших баз данных. Сегодня подобные структуры часто объединяются и редактируются вручную, с помощью программ, вроде Trifacta, Google Refine или специальных алгоритмов, выполняющих конкретные задания. Процесс потребляет до 80% рабочего времени аналитиков, действия которых основываются на догадках.

«Поможет ли это модели или навредит? Вы не знаете, — сказал Евгений Ву, участвовавший в исследовании. – Ученые либо вычищают все данные, что невозможно в больших базах, либо удаляют случайные пакеты и надеются на лучшее».

ActiveClean старается минимизировать подобные проблемы, исключая человеческий фактор на наиболее важных этапах. Используя машинное обучение, инструмент анализирует структуру модели, чтобы понять, какого типа ошибки навредят ей сильнее всего. Программа обрабатывает эту информацию в первую очередь. Она уменьшает ее приоритет и удаляет столько данных, чтобы пользователь был уверен в точности своей модели. Авторы выложили программу в сеть для бесплатной загрузки.


Выбор редакции


Еда