Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук

  • Светлана Васильевна Жучкова Национальный исследовательский университет «Высшая школа экономики» szhuchkova@hse.ru ORCID ID https://orcid.org/0000-0002-4425-725X
  • Алексей Николаевич Ротмистров Национальный исследовательский университет «Высшая школа экономики» arotmistrov@hse.ru ORCID ID https://orcid.org/0000-0003-2386-8710

Аннотация

Статья посвящена процедуре автоматического извлечения данных с веб-страниц, т.е. скрапингу веб-данных. Рассмотрены виды веб-данных (цифровые следы и прочие веб-данные числовой, текстовой и других модальностей), возможности их использования (скорость сбора данных и, как следствие, сплошной охват, оперативность и др.) и ограничения (ограниченная репрезентативность, трудности организации хранения большого объема данных, отклонения от традиционной последовательности постановки исследования и др.) по сравнению с традиционными методами сбора информации. Описаны пути извлечения веб-данных со статических и динамических веб-страниц посредством интерфейса API, пакета requests, фреймворка selenium. Разобраны минимально необходимые для извлечения веб-данных компетенции, в том числе в программировании на языке Python и ориентировании в коде веб-страниц. Также дана подробная иллюстрация на основе фрагмента сбора данных исследования конкурсов для фрилансеров.
Ключевые слова:
автоматическое извлечение данных, большие данные, веб-данные, веб-скрапинг, вычислительные социальные науки, текстовые данные, API, requests, selenium

Биографии авторов

Светлана Васильевна Жучкова, Национальный исследовательский университет «Высшая школа экономики»
Младший научный сотрудник, Национальный исследовательский университет «Высшая школа экономики», Москва
Алексей Николаевич Ротмистров, Национальный исследовательский университет «Высшая школа экономики»
Кандидат социологических наук, старший научный сотрудник, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия

Литература

1. Computational Social Science / D. Lazer, A. Pentland, L. Adamic [et al.] // Science. 2009. Vol. 323. No. 5915. P. 721–723. DOI: 10.1016/j.jocs.2010.12.007

2. Bainbridge W.S. The Scientific Research Potential of Virtual Worlds // Science. 2007. Vol. 317. No. 5837. P. 472–476. DOI: 10.1126/science.1146930

3. Watts D.J. A Twenty-first Century Science // Nature. 2007. Vol. 445. No. 7127. P. 489. DOI: 10.1038/445489a

4. More Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior / J. DiGrazia, K. McKelvey, J. Bollen, F. Rojas // PLoS ONE. 2013. Vol. 8. No. 11. Art. no. e79449. DOI: 10.1371/journal.pone.0079449

5. Gayo-Avello D. A Meta-Analysis of State-of-the-Art Electoral Prediction From Twitter Data // Social Science Computer Review. 2013. Vol. 31. No. 6. P. 649–679. DOI: 10.1177/0894439313493979

6. Jungherr A. Tweets and Votes, a Special Relationship: the 2009 Federal Elec¬tion in Germany // Proceedings of the 2nd Workshop on Politics, Elections and Data – PLEAD’13. New York, 2013. P. 5–14. DOI: 10.1145/2508436.2508437

7. Beyond Binary Labels: Political Ideology Prediction of Twitter Users / D. Preoţiuc-Pietro, Y. Liu, D. Hopkins, L. Ungar // Proceedings of the 55th Annual Meet¬ing of the Association for Computational Linguistics. 2017. No. 1. P. 729–740. DOI: 10.18653/v1/P17-1068

8. Cross-platform and Cross-interaction Study of User Personality Based on Images on Twitter and Flickr / Z.R. Samani, S.C. Guntuku, M.E. Moghaddam [et al.] // PLoS ONE. 2018. Vol. 13. No. 7. Art. no. e0198660. DOI: 10.1371/journal. pone.0198660

9. Chittaranjan G. Who’s Who with Big-Five: Analyzing and Classifying Personality Traits with Smartphones / G. Chittaranjan, J. Blom, D. Gatica-Perez // 2011 15th Annual International Symposium on Wearable Computers. 2011. P. 29–36. DOI: 10.1109/iswc.2011.29

10. Kosinski M. Private Traits and Attributes are Predictable from Digital Records of Human Behavior / M. Kosinski, D. Stillwell, T. Graepel // Proceedings of the National Academy of Sciences. 2013. Vol. 110. No. 15. P. 5802–5805. DOI: 10.1073/pnas.1218772110

11. Automatic Ppersonality Aassessment through Social Media Language / G. Park, H. Schwartz, J. Eichstaedt [et al.] // Journal of Personality and Social Psychology. 2015. Vol. 108. No. 6. P. 934–952. DOI: 10.1037/pspp0000020

12. Smirnov I. Schools are Segregated by Educational Outcomes in the Digital Space // PLoS ONE. 2019. Vol. 14. No. 5. P. 1–9. DOI: 10.1371/journal.pone.0217142

13. Смирнов В. Новые компетенции социолога в эпоху больших данных // Мониторинг общественного мнения: экономические и социальные перемены. 2015. № 2. С. 44–54. DOI: 10.14515/monitoring.2015.2.04

14. Социальные факторы выбора контрагентов на бирже удаленнойработы: исследование конкурсов с помощью «больших данных» / Д.О. Стребков, А.В. Шевчук, А.А. Лукина [и др.] // Экономическая социология. 2019. Т. 20. № 3. С. 25–65. DOI: 10.17323/1726-3247-2019-3-25-65

15. Golder S.A. Digital Footprints: Opportunities and Challenges for Online Social Research / S.A. Golder, M.W. Macy // Annual Review of Sociology. 2014. Vol. 40. No. 1. P. 129–152. DOI: 10.1146/annurev-soc-071913-043145

16. Distilling Digital Traces: Computational Social Science Approaches to Studying the Internet / H. Wesler, M. Smith, D. Fisher, E. Gleave // The Sage Handbook of Online Research Methods. London: SAGE, 2008. P. 116–40.

17. Hampton K.N. Studying the Digital: Directions and Challenges for Digital Methods // Annual Review of Sociology. 2017. Vol. 43. No. 1. P. 167–188. DOI: 10.1146/annurev-soc-060116-053505

18. Grimmer J. Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts / J. Grimmer, B.M. Stewart // Political Analysis. 2013. Vol. 21. No. 3. P. 267–297. DOI: 10.1093/pan/mps028

19. Social Media Analyses for Social Measurement / M.F. Schober, J. Pasek, L. Guggenheim [et al.] // Public Opinion Quarterly. 2016. Vol. 80. No. 1. P. 180–211. DOI: 10.1093/poq/nfv048

20. Social Networking Sites and Our Lives: How People’s Trust, Personal Rela¬tionships, and Civic and Political Involvement are Connected to Their Use of Social Networking Sites and Other Technologies / K.N. Hampton, L.S. Goulet, L. Rainie, K. Purcell. Washington, DC: Pew Research Cent, 2011.

21. A Path to Understanding the Effects of Algorithm Awareness / K. Hamilton, K. Karahalios, C. Sandvig, M. Eslami // Proceedings of the Extended Abstracts of the 32nd Annual ACM Conference on Human Factors in Computing Systems – CHI EA’14. April 26 – May 1, 2014. Toronto, Ontario, Canada. 2014. P. 631–642. DOI: 10.1145/2559206.2578883

22. Rader E. Examining User Surprise as a Symptom of Algorithmic Filtering // International Journal of Human-Computer Studies. 2017. No. 98. P. 72–88. DOI: 10.1016/j.ijhcs.2016.10.005

23. Tourangeau R. The Psychology of Survey Response / R. Tourangeau, L.J. Rips, K. Rasinski. Cambridge: Cambridge Univ. Press, 2000.

24. Lin M. Research Commentary – Too Big to Fail: Large Samples and the p-Value Problem / M. Lin, H.C. Lucas, G. Shmueli // Information Systems Research. 2013. Vol. 24. No. 4. P. 906–917. DOI: 10.1287/isre.2013.0480

25. Tukey J. Exploratory Data Analysis. London: Pearson, 1977.
Статья

Поступила: 11.01.2020

Опубликована: 11.04.2021

Раздел
ОНЛАЙН-ИССЛЕДОВАНИЯ