Выявление тематической структуры российской блогосферы: автоматические методы анализа текстов

  • Олеся Юрьевна Кольцова Национальный исследовательский университет «Высшая школа экономики» (Санкт-Петербург) ekoltsova@hse.ru
  • Кирилл Александрович Маслинский Национальный исследовательский университет «Высшая школа экономики» (Санкт-Петербург) kmaslinsky@hse.ru
Выражение признательности
Работа выполнена при поддержке Научного фонда НИУ ВШЭгрант № 11- 04-0006 «Разработка методологии сетевого и семантического анализа блогов для социологических задач»благодарность С. Кольцовуразработчику ПО сбора данных для данного исследования

Аннотация

В статье изложены методологические результаты исследования русскоязычных блогов. Произведена адаптация и апробация автоматизированных методов анализа текстов и соответствующего программного обеспечения для решения содержательных задач (выявление тематической структуры блогосферы, описание ее изменений во времени, выявление процесса образования дискуссионных сообществ). Выделяются и описываются два класса методов деления больших массивов текстов на группы – кластерный анализ и тематическое моделирование; из каждой группы выбирается и апробируется программное обеспечение (ПО). Эксперименты проводятся на двух массивах данных в 104 постов каждый. Обосновывается выбор в пользу тематического моделирования, представлено описание полной технологической цепочки от сбора до социологического анализа данных.
Ключевые слова:
Интернет, блоги, методология социологического исследования, кластеризация текстов, тематическое моделирование, «большие данные»

Биографии авторов

Олеся Юрьевна Кольцова, Национальный исследовательский университет «Высшая школа экономики» (Санкт-Петербург)
кандидат социологических наук, руководитель лаборатории интернет-исследований
Кирилл Александрович Маслинский, Национальный исследовательский университет «Высшая школа экономики» (Санкт-Петербург)
научный сотрудник лаборатории социологии образования и науки

Литература

Яндекс-блоги. URL: http://blogs.yandex.ru (дата обращения 05.04.2012)



Biro I. Document Classification with Latent Dirichlet Allocation. PhD thesis. Budapest: Eötvös Loránd University, 2009.



Zha, Y., Karypis G. Evaluation of Hierarchical Clustering Algorithms for Document Datasets//CIKM ‘02 Proceedings of the Eleventh International Conference on Information and Knowledge Management. ACM New York, 2002.



Blei D.M., Ng A.Y., Jordan M.I., Lafferty J. Latent Dirichlet Allocation//Journal of Machine Learning Research. 2003. No. 3. P. 993-1022.



Этлинг Б., Алексанян К., Келли Дж., Палфри Дж., Гассер У. Публичный дискурс в российской блогосфере: анализ публичной политики и мобилизации//Исследования центра Беркмана No 2010-11, 19 октября 2010 г. URL: http://cyber.law. harvard.edu/sites/cyber.law.harvard.edu/files/Public_Discourse_in_the_Russian_Blogosphere-RUSSIAN.pdf (дата обращения 17.04.2012).



Alexanyan K., Koltsova O. Blogging in Russia is not Russian blogging//International Blogging: Identity, Politics and Networked Publics/Ed. A. Russel, N. Echchaibi. N.Y.: Peter Lang, 2009.



Gorny E. Russian LiveJournal: National Specifics in the Development of a Virtual Community. Version 1.0 of 13 May 2004//Russian-cyberspace.org. URL: http://www. ruhr-uni-bochum.de/russ-cyb/library/texts/en/gorny_rlj.pdf (дата обращения 05.04.2012).



Koltsova O. Coverage of Social Problems in St.Petersburg Press//Use and Views of Media in Sweden & Russia/Ed. C. von Feilitzen, P. Petrov Stockholm: Sodertorn University, 2011.



Wu S., Hofman J.M., Mason W., Watts D.J. Who Says What to Whom on Twitter//International WWW Conference 2011, March 28-April 1, 2011, Hyderabad, India.



Sugar C., James G. Finding the Number of Clusters in a Data Set: An Information Theoretic Approach//Journal of the American Statistical Association. 2003. No. 98. P. 750-763.



Carpineto C., Osiński S., Romano G., Weiss D. A Survey of Web Clustering Engines//ACM Computing Surveys (CSUR). 2009. Vol. 41. Iss. 3. No. 17.



Andrews N.O, Fox E.A. Recent Developments in Document Clustering. October 16, 2007. URL:http://eprints.cs.vt.edu/archive/00001000/01/docclust.pdf (дата обращения 17.04.2012).



Kummamuru K., Dhawale A., Krishnapuram R. Fuzzy Co-clustering of Documents and Keywords//FUZZ ‘03: 12th IEEE International Conference on Fuzzy Systems, 2003. P. 772-777.



gCLUTO -Graphical Clustering Toolkit. URL: http://glaros.dtc.umn.edu/gkhome/cluto/gcluto/overview(дата обращения 19.04.2012).



Rasmussen M., Karypis G. gCLUTO: An Interactive Clustering, Visualization, and Analysis System//UMN-CS TR-04-021, 2004.



Zhao Y., Karypis G. Emperical and Theoretical Comparisons of Selected Criterion Functions for Document Clustering//Machine Learning. 2004. Vol. 55. P. 311-331.



Zhao Y., Karypis G. Hierarchical Clustering Algorithms for Document Clustering//Data Mining and Knowledge Discovery. 2005. Vol. 10. No. 2. P. 141-168.



Landauer T.K., Foltz P.W., Laham D. Introduction to Latent Semantic Analysis//Discourse Processes.1998. Vol. 25. P. 259-284.



Hoffman T. Probabilistic Latent Semantic Analysis//Uncertainty in Artificial Intelligence, UAI’99. Stockholm, 1999.



Обзор по вероятностным тематическим моделям/Пер. с англ. К.В. Воронцова, А.В. Темлянцева и др. URL: http://www.machinelearning.ru/wiki/images/9/90/Daud2009survey-rus.pdf (дата обращения 19.02.2012).



Stanford Topic Modeling Toolbox//The Stanford Natural Language Processing Group. URL:http://nlp.stanford.edu/software/tmt/tmt-0.4/(дата обращения 19.04.2012).



Ramage D., Rosen E., Chuang J., Manning C.D., McFarland D.A. Topic Modeling for the Social Sciences//NIPS 2009 Workshop on Applications for Topic Models. URL:http://vis.stanford.edu/papers/topic-modeling-social-sciences (дата обращения 19.04.2012).



Ramage D., Dumais S., Liebling D. Characterising Microblogs with Topic Models//ICWSM. 2010. URL:http://www.stanford.edu/~dramage/papers/twitter-icwsm10.pdf (дата обращения 19.04.2012)



Wallach H., Murray I., Salakhutdinov R. & Mimno D. Evaluation Methods for Topic Models//Proceedings of the 26th International Conference on Machine Learning. Montreal, 2009.



Bellman R.E. Dynamic Programming. Princeton, NJ: Princeton University Press, 1957.



Manning C., Schutze H. Foundations of Natural Language Processing. Cambridge: The MIT Press, 1999.



Chang J., Boyd-Graber J., Wang C., Gerrish S., Blei D.M. Reading Tea Leaves: How Humans Interpret Topic Models//Neural Information Processing Systems, 2009. Vol. 22. P. 288-296.



Li F., Huang M., Zhu X. Sentiment Analysis with Global Topics and Local Dependency//Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10). 2010. Atlanta, USA, July 11-15, 2010. P. 1371-1376.
Раздел
ОНЛАЙН-ИССЛЕДОВАНИЯ