{"title":"ВЫЯВЛЕНИЕ КЛЮЧЕВЫХ СЛОВ ПО ТЕМЕ «EDUCATION» (НА МАТЕРИАЛЕ КОРПУСА ТЕКСТОВ ОНЛАЙН-ИЗДАНИЯ «EDUCATION TODAY MAGAZINE»)","authors":"Анастасия Юрьевна Башмакова (Стукалова)","doi":"10.32460/ishmu-2021-9-0044","DOIUrl":null,"url":null,"abstract":"Развитие компьютерных технологий оказало значительное влияние на стремительное распространение и растущий интерес к исследованиям в рамках компьютерной лингвистики. В последние годы набирают популярность методы и подходы машинного обучения в обработке естественного языка, разрабатываются библиотеки и специальные инструменты для анализа больших текстовых данных. При этом важной составляющей таких исследований является хорошо подобранный корпус, способный дать репрезентативные результаты. Настоящее исследование ставит перед собой задачу сбора корпуса англоязычных текстов по теме «Education» для дальнейшей обработки и выявления ключевых слов. В статье описываются этапы автоматизированного сбора корпуса новостных статей с сайта онлайн-издания «Education Today Magazine» посредством языка программирования Python, а также процедура выявления ключевых слов методом машинного обучения с использованием предобученных моделей BERT. Для визуализации результатов был выбран формат облака слов, сгенерированного на основе частотности лексем в списке ключевых слов.","PeriodicalId":165995,"journal":{"name":"IX ИНФОРМАЦИОННАЯ ШКОЛА МОЛОДОГО УЧЕНОГО","volume":"70 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"IX ИНФОРМАЦИОННАЯ ШКОЛА МОЛОДОГО УЧЕНОГО","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.32460/ishmu-2021-9-0044","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Развитие компьютерных технологий оказало значительное влияние на стремительное распространение и растущий интерес к исследованиям в рамках компьютерной лингвистики. В последние годы набирают популярность методы и подходы машинного обучения в обработке естественного языка, разрабатываются библиотеки и специальные инструменты для анализа больших текстовых данных. При этом важной составляющей таких исследований является хорошо подобранный корпус, способный дать репрезентативные результаты. Настоящее исследование ставит перед собой задачу сбора корпуса англоязычных текстов по теме «Education» для дальнейшей обработки и выявления ключевых слов. В статье описываются этапы автоматизированного сбора корпуса новостных статей с сайта онлайн-издания «Education Today Magazine» посредством языка программирования Python, а также процедура выявления ключевых слов методом машинного обучения с использованием предобученных моделей BERT. Для визуализации результатов был выбран формат облака слов, сгенерированного на основе частотности лексем в списке ключевых слов.