Компьютерная лингвистика и вычислительные онтологии最新文献

筛选
英文 中文
Методы машинного обучения применительно к задаче выделения глагольных и атрибутивных коллокаций 机器教学方法适用于表示动词和属性对位的任务
Мария Владимировна Хохлова, Екатерина Владимировна Еникеева
{"title":"Методы машинного обучения применительно к задаче выделения глагольных и атрибутивных коллокаций","authors":"Мария Владимировна Хохлова, Екатерина Владимировна Еникеева","doi":"10.17586/2541-9781-2020-4-54-60","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-54-60","url":null,"abstract":"В статье представлены результаты применения алгоритмов машинного обучения к задаче автоматического выявления глагольных и атрибутивных коллокаций . Изучение сочетаемости показало, что дистрибуционные модели могут быть успешно использованы для моделирования отношений внутри словосочетаний. Словосочетание признается значимым, если его векторное представление близко к векторному представлению заглавного слова. Нами были использованы следующие методы оценки коллокаций на основе машинного обучения и векторных представлений текстов: базовый метод, метод аналогии и линейного преобразования. Автоматически выделенные словосочетания сравнивались с данными, приведенными в лексикографических источниках (в толковых словарях и словарях сочетаемости, всего было рассмотрено пять источников), которые образовали так называемый золотой стандарт. Результаты показали, что рассматриваемые методы успешно используются для извлечения словосочетаний, в том числе находят те, которые не отражены в словарях. Данные примеры могут претендовать на лексикографическоое описание, хотя и не приведены в источниках и нуждаются в дополнительной экспертной проверке. Поэтому необходимо дополнительно провести сравнение использованных алгоритмов с другими статистическими метриками и увеличить количество словосочетаний, которые привлечены в качестве золотого стандарта.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"10 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114959562","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Разработка и реализация методов генерации правил для автоматической проверки правописания 为自动拼写检查开发和实现规则生成方法
Павел Ярославович Бахвалов
{"title":"Разработка и реализация методов генерации правил для автоматической проверки правописания","authors":"Павел Ярославович Бахвалов","doi":"10.17586/2541-9781-2020-4-83-97","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-83-97","url":null,"abstract":"Задача автоматической проверки правописания является актуальной: Количество написанного текста увеличивается с каждым годом, также, как и количество людей, начинающих изучать новые языки, и всем нам, как людям, свойственно делать ошибки. Существует два основных подхода к решению данной задачи: подход, основанный на машинном обучении, и подход, основанный на правилах. Первый имеет более высокое качество и не требует привлечение лингвистов, но с другой стороны второй позволяет объяснить пользователю причину ошибки и требует значительно меньше вычислительных ресурсов. Эти подходы можно комбинировать, объединяя их преимущества, и получать выигрыш в качестве. В настоящей работе представлен способ автоматического получения правил из аннотированного набора данных, которыми могут быть расширены системы автоматической проверки правописания после добавления описания. За основу был взят подход Transformation-Based Learning (TBL), который был доработан для использования на данных с большим количеством признаков. В результате были сгенерированы 1238 правил для 36 категорий ошибок. После этого, существующая система по проверке правописания LanguageTool была расширена полученными правилами и показала улучшение качества работы.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"7 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114223144","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Три подхода к определению понятий на основе собственных свойств модели 基于模型自身特性定义概念的三种方法
Станислав Витальевич Микони
{"title":"Три подхода к определению понятий на основе собственных свойств модели","authors":"Станислав Витальевич Микони","doi":"10.17586/2541-9781-2020-4-109-117","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-109-117","url":null,"abstract":"Предлагается применение системного подхода к анализу определения понятия. Оно рассматривается как текстовая модель, к которой применимы собственные свойства модели. Эти свойства выводятся из модели языка предикатов первого порядка, каковой является алгебраическая структура. К собственным свойствам модели отнесены функция объекта, реализующая её операция и структура. Каждое свойство представляется элементарной моделью: функциональной (Ф-модель), операционной (О-модель) и структурной (С-модель) моделью. Использование этих моделей для анализа определения понятия названо соответственно функциональным, операционным и структурным подходом. Сущность каждого подхода поясняется на примере определения термина «менеджмент качества», взятого из международного терминологического стандарта. Для иллюстрации подходов применяются наглядные модели графов. Структурный подход позволяет найти избыточные и недостающие поясняющие слова в определения понятия, представленного в форме повествовательного предложения. Функциональный подход позволяет оценить полноту содержания понятия и наличие порочных циклов. Операционный подход уточняет понятия, относящиеся к категории действия, через элементарные действия.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"74 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127658729","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Применение деревьев решений для анализа сильных позиций текста в задаче атрибуции произведений Ф. М. Достоевского 使用解决方案树来分析文本在定义陀思妥耶夫斯基作品的任务中的强位置。
Александр Александрович Рогов, Александр Александрович Лебедев, Р В Абрамов, Николай Дмитриевич Москин, Кирилл Александрович Кулаков
{"title":"Применение деревьев решений для анализа сильных позиций текста в задаче атрибуции произведений Ф. М. Достоевского","authors":"Александр Александрович Рогов, Александр Александрович Лебедев, Р В Абрамов, Николай Дмитриевич Москин, Кирилл Александрович Кулаков","doi":"10.17586/2541-9781-2020-4-118-127","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-118-127","url":null,"abstract":"В работе рассматривается совокупность статей Ф.М.Достоевского и других авторов (М.М.Достоевский, Н.Н. Страхов, А.А.Головачев, И.Н.Шилль , А.Григорьев, А.У.Порецкий , Я. П. Полонский), опубликованных в журналах «Время» и «Эпоха» в период 1861-1865 гг. В текстах выделялись фрагменты размером 500, 700 и 1000 слов. При этом для увеличения объема выборки использовался шаг для отсчета начала следующего фрагмента: 100, 200 слов и т.п. На основе частеречного распределения фрагментов текстов были построены деревья решений, в узлах которых находятся условия ветвления, основанные на частоте встречаемости той или иной n-граммы (последовательности из n закодированных частей речи). Анализ сильных позиций данных текстов (т.е. фрагментов, расположенных в начале или в конце текста) с помощью деревьев решений показывает возможность стилистической правки, которую вносил Ф. М. Достоевский в тексты изначальных авторов. Для проведения исследования использовалась информационная система СМАЛТ («Статистические методы анализа литературных текстов»), где была реализована автоматизированная разметка произведений с ручным контролем специалистов-филологов.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"6 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122606794","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
К вопросу о формировании набора отношений для корпуса с дискурсивной разметкой текста 关于建立一组具有分散性文本标记的船体关系
Елена Евгеньевна Соколова, Светлана Юрьевна Толдова
{"title":"К вопросу о формировании набора отношений для корпуса с дискурсивной разметкой текста","authors":"Елена Евгеньевна Соколова, Светлана Юрьевна Толдова","doi":"10.17586/2541-9781-2020-4-44-53","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-44-53","url":null,"abstract":"Работа посвящена дискурсивной разметке корпусов. В ней анализируется состав отношений, принятых в корпусе Ru -RSTreebank . Это корпус, размеченный в рамках теории риторических структур В.Манн и С.Томпсон. При разметке корпуса был принят ряд решений относительно модификаций исходного набора отношений. В статье рассматриваются проблемы, вызванные одним из противоречий, с которым сталкиваются разработчики при создании стандартов лингвистической разметки. Это противоречие между стремлением как можно более точно отразить лингвистическую реальность, с одной стороны, и требованием обеспечить устойчивость разметки, с другой. В статье на примере дискурсивной разметки анализируются проблемы, возникающие в случае упрощения разметки для обеспечения необходимой степени согласия аннотаторов .","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"15 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"132072575","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Корпус русского рассказа начала XX века. Пример лингвостатистического анализа.
Александр Олегович Гребенников, Наталия Михайловна Марусенко
{"title":"Корпус русского рассказа начала XX века. Пример лингвостатистического анализа.","authors":"Александр Олегович Гребенников, Наталия Михайловна Марусенко","doi":"10.17586/2541-9781-2020-4-21-28","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-21-28","url":null,"abstract":"Исследование строится на базе представительного «Корпуса русских рассказов 1900 – 1930-х гг.». Для выборки из первого периода включенных в Корпус текстов (100 рассказов с 1900 по 1913 гг. отобранных по принципу не более одного рассказа от каждого из включённых в Корпус авторов) был построен частотный словарь. С целью выявления ключевых слов, соответствующих основной тематике рассказов, а также прослеживания влияния крупномасштабных политических изменений на язык художественной прозы первые 100 наиболее частотных знаменательных слов словаря были сопоставлены с данными полученных авторами ранее частотных словарей отдельных русских писателей – признанных мастеров рассказа и материалами частотного словаря русского языка в целом. Также было проведено сравнение с данными для русских рассказов аналогичного периода начала XXI века, полученными из НКРЯ. Для получения объективных результатов сравнения использовался показатель числа употреблений на миллион слов (ipm ). Полученные результаты показывают, что распределение частот знаменательных слов в верхней зоне словаря может служить хорошим индикатором общей тематики произведений не только отдельного писателя, но и отдельной эпохи, а также отражать актуальные внешние аспекты жизни общества.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"44 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122516999","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Моделирование тибетский номинализованных глагольных групп в онтологии и формальной грамматике
Мария Олеговна Смирнова, Алексей Владимирович Добров, Анастасия Евгеньевна Доброва, Николай Леонидович Сомс, Ольга Владимировна Джангольская
{"title":"Моделирование тибетский номинализованных глагольных групп в онтологии и формальной грамматике","authors":"Мария Олеговна Смирнова, Алексей Владимирович Добров, Анастасия Евгеньевна Доброва, Николай Леонидович Сомс, Ольга Владимировна Джангольская","doi":"10.17586/2541-9781-2020-4-63-72","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-63-72","url":null,"abstract":"В данной статье описываются методы моделирования тибетских номинализованных глагольных групп в формальной грамматике и компьютерной онтологии. В тибетском языке широко используется номинализайия глаголов с помощью добавления к глагольному корню суффиксов-номинализаторов . Помимо основного номинализатораpa , образующего субстантивированные причастия, есть ряд существительных, так называемых квази-номинализаторов , которые могут употребляться и как знаменательные существительные, и как суффиксы-номинализаторы (например, tshul 'способ') . Номинализованный глагол может образовывать глагольную группу любой длины и сложности. Тибетские именные формы глагола и номинализованные глагольные группы могут идиоматизироваться , что требует специального моделирования их значений в компьютерной онтологии. В статье рассматриваются виды тибетских номинализаторов и квази-номинализаторов , особенности образования идиоматизированных глагольных групп с различными назначениями и способы моделирования их в онтологии.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"6 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124679951","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Разрешение стрелочной омонимии в конструкциях с сирконстантами средствами онтологической семантики 本体论语义工具工具结构中的箭头共轭分辨率
Алина Андреевна Захарова
{"title":"Разрешение стрелочной омонимии в конструкциях с сирконстантами средствами онтологической семантики","authors":"Алина Андреевна Захарова","doi":"10.17586/2541-9781-2020-4-73-82","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-73-82","url":null,"abstract":"В статье описывается экспериментальное исследование метода разрешения синтаксической неоднозначности в конструкциях с сирконстантами с помощью онтологической семантики на основе универсального лингвистического процессора AIIRE (Artificial Intelligence Information Retrieval Engine). Выявлены четыре типа неоднозначных конструкций с сирконстантами, и составлены соответствующие поисковые запросы в Национальный корпус русского языка (НКРЯ). В результате получен список из 200 неоднозначных конструкций. Неоднозначность в конструкциях устраняется путем автоматического разбора и последующего ручного выбора его правильных вариантов. Однако на этом этапе возможны следующие проблемы: «разрывы» внутри конструкций, которые обозначают отсутствие нужных семантических связей внутри конструкции, а также большое количество вариантов синтаксического анализа, называемое комбинаторным взрывом. Эти проблемы решаются с помощью таких инструментов AIIRE, как Ontohelper и онтология. Онтология используется для обработки языковых данных и понимается как набор лексических значений или понятий и отношений между ними. Ontohelper – это вспомогательный инструмент с интерфейсом редактирования, где можно моделировать и задавать с помощью онтологическихотношенийвалентностиглаголов. В результате получаются корректные разборы для 66/200 конструкций, и обосновывается,чтоэффективностьданногометодазависитоткачестваиправильностимоделированияпонятийвонтологии.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"23 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"128277468","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Подготовка набора данных для вопросно-ответного поиска по базе знаний. Первый этап: сопоставление сущностей 准备一组数据,以便在数据库中进行问答搜索。第一阶段:实体比较
Владислав Олегович Кораблинов
{"title":"Подготовка набора данных для вопросно-ответного поиска по базе знаний. Первый этап: сопоставление сущностей","authors":"Владислав Олегович Кораблинов","doi":"10.17586/2541-9781-2020-4-98-108","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-98-108","url":null,"abstract":"На текущий момент вопросно-ответный поиск по базам знаний является активно развивающейся областью. Новые подходы демонстрируют стабильное повышение качества, однако такое развитие было бы невозможно без разработки наборов данных, позволяющих обучать модели, измерять их качество и ставить все более сложные задачи. К сожалению, все существующие наборы данных содержат вопросы только на английском языке, что ограничивает исследования в этой области для других языков. Мы хотим заполнить этот пробел, разработав набор данных для оценки методов вопросно-ответного поиска по базам знаний на русском языке. В данной работе описывается способ создания такого набора данных с помощью краудсорсинга , одним из ключевых этапов которого является выделение в текстах вопросов и ответов упоминаний сущностей и их сопоставление с сущностями базы знаний. Разработанный нами алгоритм позволяет строить списки таких возможных упоминаний и находить правильную сущность в 95% случаев. При этом алгоритм автоматически связывает фрагменты текста с сущностями базы знаний Wikidata . Полученные списки в дальнейшем будут использованы для получения разметки вопросов и ответов, необходимой для создания нового набора данных.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"11 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"128517911","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
О возможности использования корпуса NOW в курсе английского для специальных целей для студентов специальности «Биотехнология» 关于使用NOW军团为生物技术专业学生特别使用英语的可能性
И. В. Кузнецова, Марина Самуиловна Коган
{"title":"О возможности использования корпуса NOW в курсе английского для специальных целей для студентов специальности «Биотехнология»","authors":"И. В. Кузнецова, Марина Самуиловна Коган","doi":"10.17586/2541-9781-2020-4-29-43","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-29-43","url":null,"abstract":"В статье исследуются возможности применения лингвистических корпусов для обучения английскому для специальных целей (АСЦ) студентов – биотехнологов . Доказывается целесообразность поиска релевантного корпуса, находящегося в свободном доступе, по сравнению с созданием собственного специального корпуса для данной предметной области. Обосновывается целесообразность исследования/проверки релевантности корпусов COCA и NOW как дополнительного ресурса в курсе АСЦ для направления подготовки «Биотехнология». В качестве критериев релевантности корпуса были выбраны следующие: 1) наличие в корпусе биотехнологических терминов, 2) их частотность и 3) доступность полных текстов, фрагменты которых представлены в конкордансах с терминами по биотехнологии. В ходе эксперимента подготовленные с помощью корпуса NOW задания были опробованы в группе бакалавров-биотехнологов 3го курса, изучающих АСЦ. Рассматриваются примеры заданий, используемые в эксперименте. Это задания с раздаточными материалами, подготовленными преподавателем на основе материалов корпуса, а также задания на прямое использование корпуса студентами - биотехнологами для решения таких задач как поиск коллокатов , выбор правильного артикля, поиск и анализ нетипичных форм множественного числа биотехнологических терминов и др. Показано, что студенты успешно применяли полученные в ходе работы с корпусом знания для развития продуктивных навыков (говорение, письмо) и своих аналитических способностей. Отзывы студентов об экспериментальном курсе в целом положительные. В заключение рассматриваются возможные направления дальнейших исследований в области применения лингвистических корпусов в курсе AC Ц.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"43 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114950929","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
相关产品
×
本文献相关产品
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信