Разработка методов, моделей и алгоритмов анализа релевантности тематического текстового корпуса единице знаний для распознавания ситуаций смысловой близости текстов

Номер гранта:19-01-00006
Область научного знания:математика, механика, информатика
Тип конкурса: (а)(а) конкурс проектов фундаментальных научных исследований
Год выполнения:2019г.
Руководитель: Емельянов ГеннадийМартинович
Статус заявки:поддержана

Аннотация к заявке:

Целью проекта является разработка и совершенствование теоретических основ выделения единиц языковых и предметных знаний из тематического текстового корпуса для задач оценки смысловой близости и смыслосохраняющего сжатия текстов предметно-ограниченного естественного языка (ЕЯ). Основная идея: релевантность текстового корпуса исходной единице знаний может быть оценена по степени охвата слов исходной фразы наиболее значимыми совокупностями их связей относительно документов, в которых составляющие её образа представлены наиболее полно. Предлагается использовать данную оценку для целенаправленного отбора из текстов корпуса фраз, взаимно эквивалентных либо дополняющих друг друга по смыслу и представляющих единый образ. Формируемые при этом знания о синонимии в естественном языке востребованы в задачах текстовой обработки, требующих установления полной или частичной эквивалентности по смыслу как законченных ЕЯ-предложений и их совокупностей, так и отдельных фрагментов фраз. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла в единице знаний, определяемой множеством семантически эквивалентных ЕЯ-фраз. При этом ожидается минимум двукратное сокращение текстовой информации, необходимой для представления выделяемой единицы знаний. При решении задач проекта особое внимание будет уделено статистическим мерам, хорошо зарекомендовавшим себя в задачах анализа текстов и информационного поиска, для выделения в текстах корпуса близких фрагментов знаний и языковых форм их выражения

Аннотации к заявке и отчету приведены в авторской редакции. по состоянию на 22.11.2019.
Помог ли вам материал?
0    0