КЛАССИФИКАЦИЯ ОБРАЩЕНИЙ ГРАЖДАН
Аннотация
В данной научной статье рассмотрена задача классификации обращений граждан с помощью таких методов машинного обучения, как: метод логистической регрессии, метод опорных векторов, метод дерева решений, метод случайного леса, метод дополнительных деревьев, метод градиентного бустинга, метод градиентного бустинга с библиотекой CatBoost. В качестве исходных данных был использован набор обращений граждан Липецкой области. Выполнена предварительная обработка данных. Создан алгоритм на языке Python. Проведен анализ результатов классификации каждого метода машинного обучения по таким метрикам, как F-мера, точность, время обработки и время предсказания.
Внедрение системы электронного документооборота (СЭД) является актуальной задачей для всех крупных организаций, предприятий и учреждений. Одной из задач СЭД считается автоматическая классификация документов. Для уменьшения времени обработки данных рассматриваются разные методы машинного обучения, разные подходы к предобработке текстовой информации.
Цель проекта
Реализовать алгоритмы с использованием разных методов машинного обучения для классификации текстов, выявить лучший метод.Задачи
- - Изучение методов классификации текстов
- - Изучение существующих решений
- - Поиск наиболее подходящего морфологического анализатора
- - Обучение моделей, применяя различные методы машинного обучения
- - Анализ времени обработки методов машинного обучения
- - Проведение анализа результатов обучения модели
- - Выявление лучшего метода