Применение методов машинного обучения для классификации контента коррупционной тематики в русскоязычных и англоязычных интернет-СМИ

  • Екатерина Леонидовна Артемова Национальный исследовательский университет «Высшая школа экономики», Москва, Россия elartemova@hse.ru ORCID ID https://orcid.org/0000-0003-4920-1623
    elibrary Author_id 742072
    ResearchID D-9569-2014
  • Александр Александрович Максименко Национальный исследовательский университет «Высшая школа экономики», Москва, Россия Maximenko.Al@gmail.com ORCID ID https://orcid.org/0000-0003-0891-4950
    elibrary Author_id 775397
    ResearchID AAZ-8789-2021
  • Дмитрий Андреевич Охрименко Национальный исследовательский университет «Высшая школа экономики», Москва, Россия ohrimenko@hse.ru

Аннотация

В статье предпринята попытка классификации коррупционного медиаконтента русскоязычных и англоязычных интернет-СМИ с помощью методов машинного обучения. Данный методологический аспект является весьма актуальным и перспективным, поскольку, согласно полученным нами ранее данным, используемые в зарубежных публикациях механизмы коррупционного мониторинга, основанные на использовании передовых информационных технологий, обладают неоднозначной потенциальной эффективностью и не всегда адекватно интерпретируются. В работе показаны принципы и основания для выделения идентификационных параметров, а также подробно описана схема разметки собранного новостного массива. В ходе автоматической обработки текстов, проходившей в два этапа (векторизация текста и использование модели обучения), удалось решить 4 основные задачи: выделение значимой цитаты из новостной статьи для идентификации текста коррупционной тематики; предсказание типа новостного сообщения; предсказание статьи УК РФ, по которой определяется ответственность за описанное коррупционное правонарушение, а также предсказание типа взаимоотношений в коррупционных правонарушениях. Полученные результаты продемонстрировали, что современные методы автоматической обработки текстов успешно справляются с идентификацией и классификацией коррупционного контента как на русском, так и на английском языках.
Ключевые слова:
коррупционный контент, коррупционные правонарушения, машинное обучение, автоматическая обработка текстов, интернет-СМИ, русскоязычные медиа, англоязычные медиа

Биографии авторов

Екатерина Леонидовна Артемова, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Кандидат технических наук, доцент факультета компьютерных наук
Александр Александрович Максименко, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Доктор социологических наук, кандидат психологических наук, доцент, эксперт проектно-учебной лаборатории антикоррупционной политики
Дмитрий Андреевич Охрименко, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Студент факультета компьютерных наук

Литература

1. Крылова Д.В., Максименко А.А. Возможности использования искусственного интеллекта в вопросах выявления и противодействия коррупции (обзор международного опыта) // Государственное управление. Электронный вестник. 2021. № 84. С. 245–255.

2. Cruz J.A., Wishart D.S. Applications of machine learning in cancer prediction and prognosis // Cancer informatics. 2007. Vol. 2. P. 59–77.

3. Artificial Intelligence, Machine Learning, and Cardiovascular Disease / P. Mathur [et al.] // Clinical Medicine Insights: Cardiology. 2020. Vol. 14. DOI: 10.1177/1179546820927404.

4. Discovery of novel selective PI3Kγ inhibitors through combining machine learning-based virtual screening with multiple protein structures and bio-evaluation / J. Zhu [et al.] // Journal of Advanced Research. 2022. Vol. 36. P. 1–13.

5. Exploring the Potential of Artificial Intelligence and Machine Learning to Combat COVID-19 and Existing Opportunities for LMIC: A Scoping Review / M. Naseem [et al.] // Journal of Primary Care and Community Health. 2020. Vol. 11. Jan-Dec. DOI: 10.1177/2150132720963634.

6. Recognizing software names in biomedical literature using machine learning / Q. Wei [et al.] // Health Informatics Journal. 2020. Vol. 26 (1). P. 21–33. DOI: 10.1177/1460458219869490.

7. Jain P.K., Pamula R., Srivastava G. A systematic literature review on machine learning applications for consumer sentiment analysis using online reviews // Computer science review. 2021. 100413. DOI: 10.1016/j.cosrev.2021.100413

8. Machine Learning for industrial applications: A comprehensive literature review / M.Bertolini [et al.] // Expert Systems With Applications. 2021. Vol. 175 (6). 114820. DOI: 10.1016/j.eswa.2021.114820

9. MelekAkcay M., Etiz D., Celik O. Prediction of Survival and Recurrence Patterns by Machine Learning in Gastric Cancer Cases Undergoing Radiation Therapy and Chemotherapy // Advances in Radiation Oncology. 2020. Vol. 5. P. 1179–1187.

10. Can machine learning be useful as a screening tool for depression in primary care / E.M. de Souza Filho [et al.] // Journal of Psychiatric Research. 2021. Vol. 132. P. 1–6.

11. Derevitskii I.V., Kovalchuk S.V. Machine Learning-Based Predictive Modeling of Complications of Chronic Diabetes // Procedia Computer Science. 2020. Vol. 178. P. 274–283.

12. Balaji T.K., Annavarapu Ch.S.R., Bablani A. Machine learning algorithms for social media analysis: A survey // Computer Science Review. 2021. May. Vol. 40. 100395. DOI: 10.1016/j.cosrev.2021.100395

13. Value co-creation for open innovation: An evidence-based study of the data driven paradigm of social media using machine learning / A. Adikari [et al.] // International Journal of Information Management Data Insights. 2021. Novmber. Vol. 1. Iss. 2. 100022.

14. Fine-grained assessment of greenspace satisfaction at regional scale using content analysis of social media and machine learning / Zh. Wang [et al.] // Science of The Total Environment. 2021. Vol. 776. Jul 1. 145908. DOI: 10.1016/j. scitotenv.2021.145908.

15. Weimin Z. From Generalization to Specialization: Reflection on the Application of Judicial Artificial Intelligence in China // Legal Forum. 2020. Vol. 35. Iss. 17. P. 20.

16. Wang R. Legal technology in contemporary USA and China // Computer law and security. 2020. Vol. 39. 105459. DOI: 10.1016/j.clsr.2020.105459

17. Lusheng W. Jurisprudence Conflict and Value Balance in the Application of Judicial Big Data: A Survey on the Article 33 of French Judicial Reform Act 2019 // The Journal of Comparative Law. 2020. Vol. 2. Iss. 133. P. 145.

18. Sharma A., Shekhar H. Intelligent Learning based Opinion Mining Model for Governmental Decision Making // Procedia Computer Science. 2020. Vol. 173. P. 216–224.

19. An approach for combining ethical principles with public opinion to guide public policy / E. Awad [et al.] // Artificial Intelligence. 2020. Vol. 287 (7710). 103349. DOI: 10.1016/j.artint.2020.103349

20. Comparing tweet sentiments in megacities using machine learning techniques: In the midst of COVID-19 / Zh. Yao [et al.] // Cities. September. 2021. Vol. 116. 103273.

21. Whether the weather will help us weather the COVID-19 pandemic: Using machine learning to measure twitter users’ perceptions / Gupta M. [et al.] // International Journal of Medical Informatics. 2021. Vol. 145. 104340. DOI: 10.1016/j. ijmedinf.2020.104340

22. Early Warning Scheme of COVID-19 related Internet Public Opinion based on RVM-L Model / R.Zhu [et al.] // Sustainable Cities and Society. 2021. Vol. 74. 103141. DOI: 10.1016/j.scs.2021.103141

23. Conceptualizing social protest and the significance of protest actions to large projects / Ph. Hanna [et al.] // The Extractive Industries and Society. 2016. Vol. 3. Iss. 1. P. 217–239.

24. El Feki Sh. Sexual Politics in the Arab World // International Encyclopedia of the Social & Behavioral Sciences. 2nd еd. Elsevier, 2015. P. 791–796.

25. Schuster J. Intersectional expectations: Young feminists’ perceived failure at dealing with differences and their retreat to individualism // Women’s Studies International Forum. 2016. Vol. 58. P. 1–8.

26. Social media and farmer’s resilience to drought as an environmental disaster: A moderation effect / S.S. Bathaiy [et al.] // International Journal of Disaster Risk Reduction. 2021. 1 June. Vol. 59. 102209.

27. Social media users’ online subjective well-being and fatigue: A network heterogeneity perspective / P. Kaur [et al.] // Technological Forecasting and Social Change. 2021. November. Vol. 172. 121039.

28. Wang J., Jia Y. Social media’s influence on air quality improvement: Evidence from China // Journal of Cleaner Production. 2021. 20 May. Vol. 298. 126769.

29. The role of social media-led and governmental information in China’s urban disaster risk response: The case of Xiamen / I. Boas [et al.] // International Journal of Disaster Risk Reduction. 2020. December. Vol. 51. 101905.

30. Zhao L. The impact of social media use types and social media addiction on subjective well-being of college students: A comparative analysis of addicted and non-addicted students // Computers in Human Behavior Reports. 2021. Vol. 4. P. 100–122.

31. Social media, body satisfaction and well-being among adolescents: A mediation model of appearance-ideal internalization and comparison / H.K. Jarman [et al.] // Body Image. 2021. Vol. 36. P. 139–148.

32. Aggarwal C C., Zhai C.X. A survey of text classification algorithms // Mining text data. Springer. 2012. P. 163–222.

33. Neural Architectures for Named Entity Recognition / G. Lample [et al.] // Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, California, 2016. P. 260–270.

34. Readings in information retrieval / Ed. by K.S. Jones, P. Willett. San Francisco: Morgan Kaufmann, 1997.

35. SQuAD: 100,000+ Questions for Machine Comprehension of Text / P. Rajpurkar [et al.] // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, Austin, Texas, 2016. P. 2383–2392.

36. Кольцова О.Ю., Ефимова Т.Г. Выявление социальных проблем и изменений через анализ больших массивов текстов в блогах и социальных сетях // Социальные коммуникации: универсум профессиональной деятельности. Материалы Всероссийского научно-практического симпозиума 9–10 ноября 2011 г. СПб.: Скифия-принт, 2011. С. 274–284.

37. Kuratov Y., Arkhipov M. Adaptation of deep bidirectional multilingual transformers for Russian language // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2019”. Moscow. May 29–June 1. 2019. P. 333–339.

38. Attention is all you need / A. Vaswani [et al.] // Advances in neural information processing systems (NIPS 2017). Montreal: Curran Associates, 2017. P. 5998–6008.

39. Nallapati R., Zhai F., Zhou B. SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents // Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. 2017. Vol. 31. No 1. Retrieved from: https://ojs.aaai.org/index.php/AAAI/article/view/10958

40. SMOTE: synthetic minority over-sampling technique / N.V. Chawla [et al.] // Journal of artificial intelligence research. 2002. Vol. 16. P. 321–335.

41. Wei J., Zou K. EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Association for Computational Linguistics. Hong Kong, China, 2019. P. 6382–6388.

42. Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. СПб.: Питер, 2017.

43. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / J. Devlin [et al.] // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Vol. 1. Minneapolis, Minnesota: Association for Computational Linguistics, 2019. P. 4171–4186.
Статья

Поступила: 24.08.2021

Опубликована: 20.03.2022

Раздел
ОНЛАЙН-ИССЛЕДОВАНИЯ