使用DOC2VEC对专利文件进行分类

Tamara Aguiar Tavares Mascaremhas, Andréia Gentil Bonfante, A. W. Mascarenhas
{"title":"使用DOC2VEC对专利文件进行分类","authors":"Tamara Aguiar Tavares Mascaremhas, Andréia Gentil Bonfante, A. W. Mascarenhas","doi":"10.20906/CPS/CBA2018-0986","DOIUrl":null,"url":null,"abstract":"As patentes sao consideradas fontes extremamente uteis para atividades \nrelacionadas a busca e analise de informacoes e para a geracaoo de novos \nconhecimentos. Neste artigo, usamos um algoritmo de vetor de paragrafo \ndoc2vec, uma extensao do word2vec, que aprende representacoes de frases em \num documento, em um esquema de aprendizagem profunda supervisionada para \na classificacao automatica de patentes. A classificacao foi realizada em documentos \ncom resumos de patentes em ingles, em um processo hierarquico que \ncompreende secoes, classes, subclasses, de acordo com a Classificacao Internacional \nde Patentes (IPC). Os testes foram desenvolvidos em quatro etapas, \nnecessaria, devido ao grande numero de classes e subclasses, com o objetivo \nde identificar codigos IPC primario ou secundarios, caso esteja associado a um \nconjunto de classificacoes relacionadas a outros aspectos expressos na patente. \nOs testes apresentaram resultados bastante promissores na classificacao de patentes. \nOs proximos passos serao produzir avaliacoes qualitativas e compara-las \ncom outros modelos de aprendizagem de maquina presentes na literatura.","PeriodicalId":426461,"journal":{"name":"Administração: Princípios de Administração e Suas Tendências - Volume 2","volume":"12 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2017-12-15","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":"{\"title\":\"CLASSIFICAÇÃO DE DOCUMENTOS DE PATENTES USANDO O DOC2VEC\",\"authors\":\"Tamara Aguiar Tavares Mascaremhas, Andréia Gentil Bonfante, A. W. Mascarenhas\",\"doi\":\"10.20906/CPS/CBA2018-0986\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"As patentes sao consideradas fontes extremamente uteis para atividades \\nrelacionadas a busca e analise de informacoes e para a geracaoo de novos \\nconhecimentos. Neste artigo, usamos um algoritmo de vetor de paragrafo \\ndoc2vec, uma extensao do word2vec, que aprende representacoes de frases em \\num documento, em um esquema de aprendizagem profunda supervisionada para \\na classificacao automatica de patentes. A classificacao foi realizada em documentos \\ncom resumos de patentes em ingles, em um processo hierarquico que \\ncompreende secoes, classes, subclasses, de acordo com a Classificacao Internacional \\nde Patentes (IPC). Os testes foram desenvolvidos em quatro etapas, \\nnecessaria, devido ao grande numero de classes e subclasses, com o objetivo \\nde identificar codigos IPC primario ou secundarios, caso esteja associado a um \\nconjunto de classificacoes relacionadas a outros aspectos expressos na patente. \\nOs testes apresentaram resultados bastante promissores na classificacao de patentes. \\nOs proximos passos serao produzir avaliacoes qualitativas e compara-las \\ncom outros modelos de aprendizagem de maquina presentes na literatura.\",\"PeriodicalId\":426461,\"journal\":{\"name\":\"Administração: Princípios de Administração e Suas Tendências - Volume 2\",\"volume\":\"12 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2017-12-15\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"1\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Administração: Princípios de Administração e Suas Tendências - Volume 2\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.20906/CPS/CBA2018-0986\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Administração: Princípios de Administração e Suas Tendências - Volume 2","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.20906/CPS/CBA2018-0986","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1

摘要

专利被认为是与信息搜索和分析以及新知识生成有关的活动的非常有用的来源。在本文中,我们使用doc2vec段向量算法(word2vec的扩展),在一个有监督的深度学习方案中学习文档中的短语表示,用于自动专利分类。根据国际专利分类(IPC),在包含章节、类、子类的分层过程中,对英文专利摘要文件进行分类。测试分四个步骤进行,这是必要的,因为有大量的类和子类,以识别主要或次要IPC代码,如果它与一组与专利中表达的其他方面相关的分类相关。这些试验在专利分类方面显示了很有前景的结果。下一步将产生定性评估,并将它们与文献中出现的其他机器学习模型进行比较。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
CLASSIFICAÇÃO DE DOCUMENTOS DE PATENTES USANDO O DOC2VEC
As patentes sao consideradas fontes extremamente uteis para atividades relacionadas a busca e analise de informacoes e para a geracaoo de novos conhecimentos. Neste artigo, usamos um algoritmo de vetor de paragrafo doc2vec, uma extensao do word2vec, que aprende representacoes de frases em um documento, em um esquema de aprendizagem profunda supervisionada para a classificacao automatica de patentes. A classificacao foi realizada em documentos com resumos de patentes em ingles, em um processo hierarquico que compreende secoes, classes, subclasses, de acordo com a Classificacao Internacional de Patentes (IPC). Os testes foram desenvolvidos em quatro etapas, necessaria, devido ao grande numero de classes e subclasses, com o objetivo de identificar codigos IPC primario ou secundarios, caso esteja associado a um conjunto de classificacoes relacionadas a outros aspectos expressos na patente. Os testes apresentaram resultados bastante promissores na classificacao de patentes. Os proximos passos serao produzir avaliacoes qualitativas e compara-las com outros modelos de aprendizagem de maquina presentes na literatura.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信