{"title":"在《今日教育》杂志的在线文本军团材料中发现了“教育”主题的关键词。","authors":"Анастасия Юрьевна Башмакова (Стукалова)","doi":"10.32460/ishmu-2021-9-0044","DOIUrl":null,"url":null,"abstract":"Развитие компьютерных технологий оказало значительное влияние на стремительное распространение и растущий интерес к исследованиям в рамках компьютерной лингвистики. В последние годы набирают популярность методы и подходы машинного обучения в обработке естественного языка, разрабатываются библиотеки и специальные инструменты для анализа больших текстовых данных. При этом важной составляющей таких исследований является хорошо подобранный корпус, способный дать репрезентативные результаты. Настоящее исследование ставит перед собой задачу сбора корпуса англоязычных текстов по теме «Education» для дальнейшей обработки и выявления ключевых слов. В статье описываются этапы автоматизированного сбора корпуса новостных статей с сайта онлайн-издания «Education Today Magazine» посредством языка программирования Python, а также процедура выявления ключевых слов методом машинного обучения с использованием предобученных моделей BERT. Для визуализации результатов был выбран формат облака слов, сгенерированного на основе частотности лексем в списке ключевых слов.","PeriodicalId":165995,"journal":{"name":"IX ИНФОРМАЦИОННАЯ ШКОЛА МОЛОДОГО УЧЕНОГО","volume":"70 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"ВЫЯВЛЕНИЕ КЛЮЧЕВЫХ СЛОВ ПО ТЕМЕ «EDUCATION» (НА МАТЕРИАЛЕ КОРПУСА ТЕКСТОВ ОНЛАЙН-ИЗДАНИЯ «EDUCATION TODAY MAGAZINE»)\",\"authors\":\"Анастасия Юрьевна Башмакова (Стукалова)\",\"doi\":\"10.32460/ishmu-2021-9-0044\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Развитие компьютерных технологий оказало значительное влияние на стремительное распространение и растущий интерес к исследованиям в рамках компьютерной лингвистики. В последние годы набирают популярность методы и подходы машинного обучения в обработке естественного языка, разрабатываются библиотеки и специальные инструменты для анализа больших текстовых данных. При этом важной составляющей таких исследований является хорошо подобранный корпус, способный дать репрезентативные результаты. Настоящее исследование ставит перед собой задачу сбора корпуса англоязычных текстов по теме «Education» для дальнейшей обработки и выявления ключевых слов. В статье описываются этапы автоматизированного сбора корпуса новостных статей с сайта онлайн-издания «Education Today Magazine» посредством языка программирования Python, а также процедура выявления ключевых слов методом машинного обучения с использованием предобученных моделей BERT. Для визуализации результатов был выбран формат облака слов, сгенерированного на основе частотности лексем в списке ключевых слов.\",\"PeriodicalId\":165995,\"journal\":{\"name\":\"IX ИНФОРМАЦИОННАЯ ШКОЛА МОЛОДОГО УЧЕНОГО\",\"volume\":\"70 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2021-11-29\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"IX ИНФОРМАЦИОННАЯ ШКОЛА МОЛОДОГО УЧЕНОГО\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.32460/ishmu-2021-9-0044\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"IX ИНФОРМАЦИОННАЯ ШКОЛА МОЛОДОГО УЧЕНОГО","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.32460/ishmu-2021-9-0044","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
ВЫЯВЛЕНИЕ КЛЮЧЕВЫХ СЛОВ ПО ТЕМЕ «EDUCATION» (НА МАТЕРИАЛЕ КОРПУСА ТЕКСТОВ ОНЛАЙН-ИЗДАНИЯ «EDUCATION TODAY MAGAZINE»)
Развитие компьютерных технологий оказало значительное влияние на стремительное распространение и растущий интерес к исследованиям в рамках компьютерной лингвистики. В последние годы набирают популярность методы и подходы машинного обучения в обработке естественного языка, разрабатываются библиотеки и специальные инструменты для анализа больших текстовых данных. При этом важной составляющей таких исследований является хорошо подобранный корпус, способный дать репрезентативные результаты. Настоящее исследование ставит перед собой задачу сбора корпуса англоязычных текстов по теме «Education» для дальнейшей обработки и выявления ключевых слов. В статье описываются этапы автоматизированного сбора корпуса новостных статей с сайта онлайн-издания «Education Today Magazine» посредством языка программирования Python, а также процедура выявления ключевых слов методом машинного обучения с использованием предобученных моделей BERT. Для визуализации результатов был выбран формат облака слов, сгенерированного на основе частотности лексем в списке ключевых слов.