Tamara Aguiar Tavares Mascaremhas, Andréia Gentil Bonfante, A. W. Mascarenhas
{"title":"使用DOC2VEC对专利文件进行分类","authors":"Tamara Aguiar Tavares Mascaremhas, Andréia Gentil Bonfante, A. W. Mascarenhas","doi":"10.20906/CPS/CBA2018-0986","DOIUrl":null,"url":null,"abstract":"As patentes sao consideradas fontes extremamente uteis para atividades \nrelacionadas a busca e analise de informacoes e para a geracaoo de novos \nconhecimentos. Neste artigo, usamos um algoritmo de vetor de paragrafo \ndoc2vec, uma extensao do word2vec, que aprende representacoes de frases em \num documento, em um esquema de aprendizagem profunda supervisionada para \na classificacao automatica de patentes. A classificacao foi realizada em documentos \ncom resumos de patentes em ingles, em um processo hierarquico que \ncompreende secoes, classes, subclasses, de acordo com a Classificacao Internacional \nde Patentes (IPC). Os testes foram desenvolvidos em quatro etapas, \nnecessaria, devido ao grande numero de classes e subclasses, com o objetivo \nde identificar codigos IPC primario ou secundarios, caso esteja associado a um \nconjunto de classificacoes relacionadas a outros aspectos expressos na patente. \nOs testes apresentaram resultados bastante promissores na classificacao de patentes. \nOs proximos passos serao produzir avaliacoes qualitativas e compara-las \ncom outros modelos de aprendizagem de maquina presentes na literatura.","PeriodicalId":426461,"journal":{"name":"Administração: Princípios de Administração e Suas Tendências - Volume 2","volume":"12 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2017-12-15","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":"{\"title\":\"CLASSIFICAÇÃO DE DOCUMENTOS DE PATENTES USANDO O DOC2VEC\",\"authors\":\"Tamara Aguiar Tavares Mascaremhas, Andréia Gentil Bonfante, A. W. Mascarenhas\",\"doi\":\"10.20906/CPS/CBA2018-0986\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"As patentes sao consideradas fontes extremamente uteis para atividades \\nrelacionadas a busca e analise de informacoes e para a geracaoo de novos \\nconhecimentos. Neste artigo, usamos um algoritmo de vetor de paragrafo \\ndoc2vec, uma extensao do word2vec, que aprende representacoes de frases em \\num documento, em um esquema de aprendizagem profunda supervisionada para \\na classificacao automatica de patentes. A classificacao foi realizada em documentos \\ncom resumos de patentes em ingles, em um processo hierarquico que \\ncompreende secoes, classes, subclasses, de acordo com a Classificacao Internacional \\nde Patentes (IPC). Os testes foram desenvolvidos em quatro etapas, \\nnecessaria, devido ao grande numero de classes e subclasses, com o objetivo \\nde identificar codigos IPC primario ou secundarios, caso esteja associado a um \\nconjunto de classificacoes relacionadas a outros aspectos expressos na patente. \\nOs testes apresentaram resultados bastante promissores na classificacao de patentes. \\nOs proximos passos serao produzir avaliacoes qualitativas e compara-las \\ncom outros modelos de aprendizagem de maquina presentes na literatura.\",\"PeriodicalId\":426461,\"journal\":{\"name\":\"Administração: Princípios de Administração e Suas Tendências - Volume 2\",\"volume\":\"12 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2017-12-15\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"1\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Administração: Princípios de Administração e Suas Tendências - Volume 2\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.20906/CPS/CBA2018-0986\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Administração: Princípios de Administração e Suas Tendências - Volume 2","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.20906/CPS/CBA2018-0986","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
CLASSIFICAÇÃO DE DOCUMENTOS DE PATENTES USANDO O DOC2VEC
As patentes sao consideradas fontes extremamente uteis para atividades
relacionadas a busca e analise de informacoes e para a geracaoo de novos
conhecimentos. Neste artigo, usamos um algoritmo de vetor de paragrafo
doc2vec, uma extensao do word2vec, que aprende representacoes de frases em
um documento, em um esquema de aprendizagem profunda supervisionada para
a classificacao automatica de patentes. A classificacao foi realizada em documentos
com resumos de patentes em ingles, em um processo hierarquico que
compreende secoes, classes, subclasses, de acordo com a Classificacao Internacional
de Patentes (IPC). Os testes foram desenvolvidos em quatro etapas,
necessaria, devido ao grande numero de classes e subclasses, com o objetivo
de identificar codigos IPC primario ou secundarios, caso esteja associado a um
conjunto de classificacoes relacionadas a outros aspectos expressos na patente.
Os testes apresentaram resultados bastante promissores na classificacao de patentes.
Os proximos passos serao produzir avaliacoes qualitativas e compara-las
com outros modelos de aprendizagem de maquina presentes na literatura.