Создать PDF Рекомендовать Распечатать

Анализ электронных обращений граждан на основе нечетких отношений различия

  • Автор (авторы):
    Борисов Вадим Владимирович, Булыгина Ольга Валентиновна,, Тюкаев Дмитрий Алексеевич
  • Дата публикации:
    03.11.19
  • ВУЗ ИЛИ ОРГАНИЗАЦИЯ:
    филиал ФГБОУ ВО «Национальный исследовательский университет «МЭИ» в г. Смоленске

АНАЛИЗ ЭЛЕКТРОННЫХ ОБРАЩЕНИЙ ГРАЖДАН НА ОСНОВЕ НЕЧЕТКИХ ОТНОШЕНИЙ РАЗЛИЧИЯ

ANALYSIS OF ELECTRONIC CITIZENS’ APPEALS BASED ON FUZZY RELATIONS OF DIFFERENCES

 

Борисов Вадим Владимирович

Borisov Vadim Vladimirovich

доктор технических наук, профессор, профессор кафедры вычислительной техники филиал ФГБОУ ВО «Национальный исследовательский университет «МЭИ» в г. Смоленске, vbor67@mail.ru

 

Булыгина Ольга Валентиновна,

Bulygina Olga Valentinovna,

кандидат экономических наук, доцент кафедры информационных технологий в экономике и управлении филиала ФГБОУ ВО «Национальный исследовательский университет «МЭИ» в г. Смоленске, baguzova_ov@mail.ru

 

Тюкаев Дмитрий Алексеевич

Tyukaev Dmitry Alekseevich

доктор экономических наук, доцент кафедры информационных технологий в экономике и управлении филиала ФГБОУ ВО «Национальный исследовательский университет «МЭИ» в г. Смоленске, tyukaev_da@bk.ru

 

Аннотация. В статье предложен новый подход к анализу электронных обращений граждан, поступающих на официальные веб-сайты и порталы органов государственной власти. Он предполагает формирование древовидной структуры рубричного поля, основанной на нечетких отношениях различия между синтаксическими характеристиками документов. Анализ основывается на определении нечеткого соответствия этих документов по синтаксическим характеристикам со значениями центров кластеров, проводимого последовательно от корня к листьям построенного нечеткого дерева решений.

Abstract. The article proposes a new approach to the analysis of electronic citizens’ appeals received at the official websites and portals of public authorities. It involves the formation of a tree structure of the rubric field, based on fuzzy relation of the differences between the syntactic characteristics of documents. The analysis is based on determining the fuzzy correspondence of these documents by syntactic characteristics with the values of clusters centers, carried out sequentially from the root to the leaves of the constructed fuzzy decision tree.

Ключевые слова: рубрицирование, электронный неструктурированный документ, синтаксическая характеристика, нечеткое различие, иерархическая кластеризация, нечеткое соответствие.

Keywords: rubrication, electronic unstructured document, syntactic characteristic, fuzzy difference, hierarchical clustering, fuzzy matching.

 

ВВЕДЕНИЕ

Программа «Электронное правительство» предполагает активное внедрение информационно-телекоммуникационных технологий в деятельность органов государственной власти. Ее основной целью является повышение эффективности государственного управления и развитие партнерских отношений с населением и бизнесом.

Особое место в реализации указанной программы занимает развитие Интернет-сервисов, которые осуществляют информационную поддержку и предоставляют различные услуги в электронной форме. Их использование позволяет повысить качество и доступность государственных и муниципальных услуг, снизить затраты на их оказание и повысить производительность труда в учреждениях органов власти и местного самоуправления.

Одним из направлений применения информационных технологий для решения поставленных задач является автоматизация процесса анализа электронных обращений (заявлений, жалоб, предложений) физических лиц, поступающих на официальные веб-сайты и порталы органов власти и местного самоуправления.

Важную роль в процессе автоматического анализа поступающих электронных обращений играет рубрицирование, которое заключается в их распределении по тематическим рубрикам, определяющих направления деятельности департаментов, осуществляющих их обработку и подготовку соответствующего ответа.

На сегодняшней день существует множество методических подходов к классификации документов различного типа. Выбор конкретного метода непосредственно определяется особенностями объектов рубрицирования (т.е. документов, поступающих в органы государственной власти) [1].

Проведенный анализ позволил выявить следующие специфические характеристики электронных документов, поступающих на официальные веб-сайты и порталы органов государственной власти, которые необходимо учитывать при выборе метода рубрицирования [2,3,4]:

·сравнительно небольшой размер электронных документов, затрудняющих их статистический анализ;

·отсутствие разметки в этих документах усложняет процедуры структурирования и извлечения значимой для анализа информации;

·наличие грамматических и синтаксических ошибок в электронных сообщениях влечет необходимость их дополнительной обработки;

· нестационарность тезауруса (состава и значимости слов рубрик);

·динамичное изменение нормативно-правовой базы, сложность рубрицирования обрабатываемых текстов;

·ограничения использования в этих условиях методов, основанных на вероятностно-статистическом подходе формирования рубрик и анализа электронных текстов.

Вышесказанное обуславливает актуального разработки нового метода автоматического анализа электронных неструктурированных документов, учитывающего специфические особенности электронных обращений граждан, поступающих на официальные веб-сайты и порталы органов государственной власти.

1. ПОСТАНОВКА ЗАДАЧИ

Исходные данные

1. Для формализованного представления электронных неструктурированных документов (ЭНД) предварительно выполняется «унификация» набора синтаксических характеристик, выделяемых синтаксическим анализатором (парсером), например, LinkGrammar ([5]):

 

где для типового случая ; s1 – корневое слово или сказуемое; s2 – подлежащее; s3 – обстоятельство; s4 – предмет, над которым совершается действие; s5 – сказуемое.

 

2. Имеется множество ЭНД

в котором каждый документ  представляется набором его значимых слов:

где  – значимое слово ЭНД,  – количество слов в k-м ЭНД.

 

3. Множество ЭНД  представляется в виде множества  формализованных документов (ФД):

в котором каждому ЭНД  соответствует ФД :

где  – множество слов из ЭТД , соответствующих синтаксическому параметру  [6]. 

 

Требуется

Предложить метод рубрицирования (формирования рубрик) и анализа ЭНД на основе иерархической кластеризации, использующей нечеткие отношения различия между синтаксическими характеристиками рубрицируемых документов.

2. ОПИСАНИЕ МЕТОДА

Предлагаемый метод рубрицирования и анализа ЭНД включает в себя рассмотренные ниже этапы.

Этап 1. Задание показателей для определения степени соответствия ФД по синтаксическим характеристикам.

Для каждого ФД ,  задается множество значений показателей  для оценки степени его соответствия по всем синтаксическим характеристикам.

Этап 2. Определение степени различия между всеми парами ФД по всем синтаксическим характеристикам.

Рассмотрим пару документов  и , :

 и

 

Для сопоставления этих документов задаются множества значений показателей по всем синтаксическим характеристикам:

 и .

 

В итоге формируется множество значений показателей, характеризующих степени различия документов  и  по всем синтаксическим характеристикам:

,

где, например, .

 

Примечание. Полученное множество значений  можно представить в виде нечеткого множества и трактовать как нечеткое различие между нечеткими множествами  и , носителями которых являются синтаксические характеристики из , а степени соответствия документов этим характеристикам  и  представляют собой степени принадлежности нечеткого множества .

 

Пример. Рассмотрим пример сопоставления документов  и  с учетом указанных ниже значений показателей:

 и

.

 

В итоге формируется следующее множество значений показателей, характеризующих степени различия документов по синтаксическим характеристикам:

.

 

Вычисление степени различия по всем синтаксическим характеристикам выполняется для всех пар документов  и , .

Этап 3. Формирование матриц различий между всеми парами документов.

Результаты предыдущего этапа позволяют сформировать составную матрицу различий между всеми парами документов. На рисунке 1 показан вид такой матрицы.

Этап 4. Иерархическая кластеризация документов на основе нечетких отношений различия между всеми парами ФД по всем синтаксическим характеристикам.

 

 

 

 

 

 

 

 

 

 

Рисунок 1 – Составная матрица различий между всеми парами документов

 

В качестве параметров нечеткой иерархической кластеризации ФД используются показатели , значения которых характеризуют результаты попарного сопоставления  и  раздельно по всем синтаксическим характеристикам .

В основе процедуры иерархической кластеризации целесообразно использовать известные агломеративные методы [7].

В результате иерархической кластеризации выявляются кластеры . Обозначим через  центры этих кластеров, где .

 

Выявленные кластеры  соответствуют рубрикам:

 

где для всех     – j-е значимое слово в рубрике ,  – степень соответствия слова  синтаксической характеристике  в рубрике .

 

Таким образом, результатом выполненной иерархической кластеризации документов является древовидная структура сформированного рубричного поля, основанная на нечетких отношениях различия между синтаксическими характеристиками рубрицируемых документов [8,9,10].

Этап 5. Анализ документов.

Предлагаемая процедура анализа основывается на сопоставлении степеней соответствия  анализируемого ФД  по синтаксическим характеристикам со значениями центров кластеров  последовательно от корня к листьям построенного дерева решений. При этом процедура анализа учитывает специфику выявленных кластеров.

Анализируемый документ  в наибольшей степени относится к той рубрике , степень нечеткого соответствия к которой является максимальной:

 

В качестве же показателя, характеризующего степень нечеткого соответствия ФД  рубрике , целесообразно использовать [11,12]:

 

3. РЕЗУЛЬТАТЫ ПРИМЕНЕНИЯ МЕТОДА

Предлагаемый метод рубрицирования и анализа ЭНД программно реализован и апробирован при автоматизированной обработке и анализе жалоб, предложений и обращений граждан, поступающих в Администрацию Смоленской области.

В результате предварительного анализа выделены 4 типовые ситуации рубрицирования и анализа таких ЭНД с учетом: размера ЭНД; степени пересечения рубрик; достаточности статистических данных. В зависимости от этих типовых ситуаций, в таблице 1 приведены результаты сравнительной оценки правильного рубрицирования и анализа на примере более 10 тыс. сообщений, поступивших в 2018–2019 г.г.

 

Таблица 1 – Результаты сравнительной оценки правильного рубрицирования и анализа ЭНД, поступивших в Администрацию Смоленской области

Типовая ситуация анализа и рубрицирования ЭНД

Результаты рубрицирования и анализа ЭНД, %

Размер ЭНД

Степень пересечения рубрик

Достаточность статистических данных

Вероятностный метод

Нейросетевой метод

Предлагаемый метод

до 150 слов

недостаточно

65

60

65

до 150 слов

недостаточно

62

66

79

до 50 слов

достаточно

69

87

90

более 150 слов

достаточно

89

85

89

 

Для указанных типовых ситуаций предлагаемый метод позволил снизить число ошибочно рубрицированных ЭНД в среднем на 7% по сравнению с вероятностным методом и на 6,3% по сравнению с нейросетевым методом.

 

ЗАКЛЮЧЕНИЕ

В результате применения предлагаемого метода формируется древовидная структура рубричного поля, основанная на нечетких отношениях различия между синтаксическими характеристиками рубрицируемых документов. Анализ же документов основывается на определении нечеткого соответствия этих документов по синтаксическим характеристикам со значениями центров выявленных кластеров последовательно от корня к листьям построенного нечеткого дерева решений.

Предлагаемый метод рубрицирования и анализа ЭНД программно реализован и апробирован при автоматизированной обработке и анализе жалоб, предложений и обращений граждан, поступающих в Администрацию Смоленской области, что позволило обеспечить оперативную и качественную актуализацию рубрик и анализ ЭНД в условиях нестационарности состава тезауруса и значимости слов рубрик.

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований, проект № 18-01-00558_а.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Dli M.I., Bulygina O.V., Kozlov P.Yu. Multimodel method of rubricating the unstructured electronic text documents // Proceedings of the II International Scientific and Practical Conference “Fuzzy Technologies in the Industry – FTI 2018”. Ulyanovsk, Russia, 2018, pp. 366-372.

2. Илюхина Н.А., Хмызова Е.А. Информационныe системы в структуре органов государственной власти Российской Федерации // Современные наукоемкие технологии. 2015. № 9. С. 35-38.

3. Учителев Н.В. Классификация текстовой информации с помощью SVM // Информационные технологии и системы. – 2013. – № 1. – С. 335–340.  

4. Борисов В.В., Дли М.И., Козлов П.Ю. Анализ и мониторинг рубрицирования электронных текстовых документов // Вестник МЭИ. – 2018. –Том 4. – С. 121-127.

5. Протасов С. Грамматика связей LinkGrammar [Электронный ресурс]. URL: http://sz.ru/parser/doc/.

6. Borisov V.V., Dli M.I.,Kozlov P.Yu. The method of fuzzy analysis of texts and their rubrics actualization // Proceedings of the II International Scientific and Practical Conference “Fuzzy Technologies in the Industry – FTI 2018”. Ulyanovsk, Russia, 2018, pp. 259-263.

7. Жамбю М. Иерархический кластер-анализ и соответствия. – М.: Финансы и статистика, 1988. – 345 с.

8. Кафтанников И.Л., Парасич А.В. Особенности применения деревьев решений в задачах классификации // Вестник Южно-Уральского государственного университета. 2015. Том 15. №3. С. 26-32.

9.      Janikow C. Fuzzy Decision Trees: Issues and Methods // IEEE Transactions of Man, Systems, Cybernetics, 1998, vol 28(1), pp. 1-14.

10.    Faifer M., Janikow C. Bottom-up Partitioning in Fuzzy Decision Trees // Proceedings of the 19th International Conference of the North American Fuzzy Information Society. IEEE, 2000, pp. 326-330.

11. Batyrshin I.Z. On definition and construction of association measures // Journal of Intelligent & Fuzzy Systems, 2015, vol. 29, pp. 2319-2326.

12. Batyrshin I.Z. Towards a general theory of similarity and association measures: Similarity, dissimilarity and correlation functions // Journal of Intelligent & Fuzzy Systems, 2019, vol.36, pp. 2977-3004.

 

REFERENCES

1. Dli M.I., Bulygina O.V., Kozlov P.Yu. Multimodel method of rubricating the unstructured electronic text documents // Proceedings of the II International Scientific and Practical Conference “Fuzzy Technologies in the Industry – FTI 2018”. Ulyanovsk, Russia, 2018, pp. 366-372.

2. Ilyukhina N.A., Khmyzova E.A. Information systems in the structure of the government of the Russian Federation // Modern high technologies, 2015, no. 9, p. 35-38.

3. Uchitelev N.V. Classification of text information with the use of SVM // Information technologies and system, 2013, no.1, pp.335-340.  

4. Borisov V.V., Dli M.I., Kozlov P.Yu. Analysis and monitoring of electronic text documents rubrication // MPIE Bulletin, 2018, vol. 4, pp.121-127.

5.  Protasov S. LinkGrammar. URL: http://sz.ru/parser/doc/.

6. Borisov V.V., Dli M.I.,Kozlov P.Yu. The method of fuzzy analysis of texts and their rubrics actualization // Proceedings of the II International Scientific and Practical Conference “Fuzzy Technologies in the Industry – FTI 2018”. Ulyanovsk, Russia, 2018, pp. 259-263.

7. Jambu M. Hierarchical cluster analysis and correspondences. Moscow: Finance and statistics, 1988, 345 p.

8. Kaftannikov I.L., Parasich A.V. Decision Tree’s Features of Application in Classification Problems // Bulletin of the South Ural State University. Ser. Computer Technologies, Automatic Control, Radio Electronics, 2015, vol. 15, no. 3, pp. 26-32.

9.      Janikow C. Fuzzy Decision Trees: Issues and Methods // IEEE Transactions of Man, Systems, Cybernetics, 1998, vol 28(1), pp. 1-14.

10.    Faifer M., Janikow C. Bottom-up Partitioning in Fuzzy Decision Trees // Proceedings of the 19th International Conference of the North American Fuzzy Information Society. IEEE, 2000, pp. 326-330.

11. Batyrshin I.Z. On definition and construction of association measures // Journal of Intelligent & Fuzzy Systems, 2015, vol. 29, pp. 2319-2326.

12. Batyrshin I.Z. Towards a general theory of similarity and association measures: Similarity, dissimilarity and correlation functions // Journal of Intelligent & Fuzzy Systems, 2019, vol.36, pp. 2977-3004.

 

  vakperechen

ОБНОВЛЕННЫЙ СПИСОК ВАК 2016 г.
ОТ 19.04.2016  >> ПРОСМОТРЕТЬ
tass
 
ПО ВОПРОСАМ ПУБЛИКАЦИИ СТАТЕЙ И СОТРУДНИЧЕСТВА ОБРАЩАЙТЕСЬ:
skype SKYPE: vak-uecs
e-mail
MAIL: info@uecs.ru
phone
+7 (928) 340 99 00
 

АРХИВ НОМЕРОВ

(01) УЭкС, 1/2005
(02) УЭкС, 2/2005
(03) УЭкС, 3/2005
(04) УЭкС, 4/2005
(05) УЭкС, 1/2006
(06) УЭкС, 2/2006
(07) УЭкС, 3/2006
(08) УЭкС, 4/2006
(09) УЭкС, 1/2007
(10) УЭкС, 2/2007
(11) УЭкС, 3/2007
(12) УЭкС, 4/2007
(13) УЭкС, 1/2008
(14) УЭкС, 2/2008
(15) УЭкС, 3/2008
(16) УЭкС, 4/2008
(17) УЭкС, 1/2009
(18) УЭкС, 2/2009
(19) УЭкС, 3/2009
(20) УЭкС, 4/2009
(21) УЭкС, 1/2010
(22) УЭкС, 2/2010
(23) УЭкС, 3/2010
(24) УЭкС, 4/2010
(25) УЭкС, 1/2011
(26) УЭкС, 2/2011
(27) УЭкС, 3/2011
(28) УЭкС, 4/2011
(29) УЭкС, 5/2011
(30) УЭкС, 6/2011
(31) УЭкС, 7/2011
(32) УЭкС, 8/2011
(33) УЭкС, 9/2011
(34) УЭкС, 10/2011
(35) УЭкС, 11/2011
(36) УЭкС, 12/2011
(37) УЭкС, 1/2012
(38) УЭкС, 2/2012
(39) УЭкС, 3/2012
(40) УЭкС, 4/2012
(41) УЭкС, 5/2012
(42) УЭкС, 6/2012
(43) УЭкС, 7/2012
(44) УЭкС, 8/2012
(45) УЭкС, 9/2012
(46) УЭкС, 10/2012
(47) УЭкС, 11/2012
(48) УЭкС, 12/2012
(49) УЭкС, 1/2013
(50) УЭкС, 2/2013
(51) УЭкС, 3/2013
(52) УЭкС, 4/2013
(53) УЭкС, 5/2013
(54) УЭкС, 6/2013
(55) УЭкС, 7/2013
(56) УЭкС, 8/2013
(57) УЭкС, 9/2013
(58) УЭкС, 10/2013
(59) УЭкС, 11/2013
(60) УЭкС, 12/2013
(61) УЭкС, 1/2014
(62) УЭкС, 2/2014
(63) УЭкС, 3/2014
(64) УЭкС, 4/2014
(65) УЭкС, 5/2014
(66) УЭкС, 6/2014
(67) УЭкС, 7/2014
(68) УЭкС, 8/2014
(69) УЭкС, 9/2014
(70) УЭкС, 10/2014
(71) УЭкС, 11/2014
(72) УЭкС, 12/2014
(73) УЭкС, 1/2015
(74) УЭкС, 2/2015
(75) УЭкС, 3/2015
(76) УЭкС, 4/2015
(77) УЭкС, 5/2015
(78) УЭкС, 6/2015
(79) УЭкС, 7/2015
(80) УЭкС, 8/2015
(81) УЭкС, 9/2015
(82) УЭкС, 10/2015
(83) УЭкС, 11/2015
(84) УЭкС, 11(2)/2015
(85) УЭкС,3/2016
(86) УЭкС, 4/2016
(87) УЭкС, 5/2016
(88) УЭкС, 6/2016
(89) УЭкС, 7/2016
(90) УЭкС, 8/2016
(91) УЭкС, 9/2016
(92) УЭкС, 10/2016
(93) УЭкС, 11/2016
(94) УЭкС, 12/2016
(95) УЭкС, 1/2017
(96) УЭкС, 2/2017
(97) УЭкС, 3/2017
(98) УЭкС, 4/2017
(99) УЭкС, 5/2017
(100) УЭкС, 6/2017
(101) УЭкС, 7/2017
(102) УЭкС, 8/2017
(103) УЭкС, 9/2017
(104) УЭкС, 10/2017
(105) УЭкС, 11/2017
(106) УЭкС, 12/2017
(107) УЭкС, 1/2018
(108) УЭкС, 2/2018
(109) УЭкС, 3/2018
(110) УЭкС, 4/2018
(111) УЭкС, 5/2018
(112) УЭкС, 6/2018
(113) УЭкС, 7/2018
(114) УЭкС, 8/2018
(115) УЭкС, 9/2018
(116) УЭкС, 10/2018
(117) УЭкС, 11/2018
(118) УЭкС, 12/2018
(119) УЭкС, 1/2019
(120) УЭкС, 2/2019
(03) УЭкС, 3/2019
(04) УЭкС, 4/2019
(05) УЭкС, 5/2019
(06) УЭкС, 6/2019
(07) УЭкС, 7/2019
(08) УЭкС, 8/2019
(09) УЭкС, 9/2019
(10) УЭкС, 10/2019
(11) УЭкС, 11/2019
(12) УЭкС, 12/2019

 Федеральная служба по надзору в сфере связи и массовых коммуникаций

№ регистрации СМИ ЭЛ №ФС77-35217 от 06.02.2009 г.       ISSN: 1999-4516