Abstract:
Статья посвящена рассмотрению трех основных технологий рубрикации
текстов (ручного рубрицирования, рубрицирования на базе знаний,
рубрицирования на базе машинного обучения), описываются их
преимущества и возникающие проблемы. Рассматриваются два метода
автоматической рубрикации текстов, направленные на преодоление
недостатков существующих методов, приводятся данные о результатах
их оценки на общедоступных коллекциях. Первым методом является
метод, основанный на большом лингвистическом ресурсе - тезаурусе
РуТез и комплексе автоматической обработки текстов АЛОТ. Второй
метод представляет собой метод машинного обучения, порождающий
описания рубрик в виде булевских формул.