A Four-Step Cascade Methodology to Classify MCN Codes Using NLP Techniques

Pedro Pinheiro, Luan Siqueira, Marcos Amarís
{"title":"A Four-Step Cascade Methodology to Classify MCN Codes Using NLP Techniques","authors":"Pedro Pinheiro, Luan Siqueira, Marcos Amarís","doi":"10.5753/eniac.2022.227652","DOIUrl":null,"url":null,"abstract":"A NCM é uma Nomenclatura regional para categorização de mercadorias adotada por países do Mercosul. Essa nomenclatura divide produtos usando 8 dígitos, separados em 4 partes, Capítulo, Posição, Subposição e item/Subitem. Há indícios que cerca de 30% das mercadorias enviadas globalmente estão com seu código errado por ser um processo manual. Esse trabalho tem como objetivo desenvolver um processo para classificar as descrições textuais dos produtos presentes nas Notas Ficais eletrônicas (NF-e). A classificação foi feita utilizando as técnicas de Processamento de Linguagem Natural (PLN) e testada usando 2 diferentes algoritmos de aprendizado de máquina, Máquina de Vetores de Suporte (SVM) e Naive Bayes. Para os experimentos foi usada uma base de dados de 340.000 produtos distintos. Dividimos o processo em 4 modelos de classificação, feitos para classificar as 4 partes da NCM. Os dados foram divididos em 80% treinamento e 20% teste e Obteve-se um acurácia de 89% para um total de 98 classes dos 2 primeiros dígitos, e 76% de utilizando uma técnica de cascata para classificar os 8 dígitos.","PeriodicalId":165095,"journal":{"name":"Anais do XIX Encontro Nacional de Inteligência Artificial e Computacional (ENIAC 2022)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-11-28","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Anais do XIX Encontro Nacional de Inteligência Artificial e Computacional (ENIAC 2022)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5753/eniac.2022.227652","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

A NCM é uma Nomenclatura regional para categorização de mercadorias adotada por países do Mercosul. Essa nomenclatura divide produtos usando 8 dígitos, separados em 4 partes, Capítulo, Posição, Subposição e item/Subitem. Há indícios que cerca de 30% das mercadorias enviadas globalmente estão com seu código errado por ser um processo manual. Esse trabalho tem como objetivo desenvolver um processo para classificar as descrições textuais dos produtos presentes nas Notas Ficais eletrônicas (NF-e). A classificação foi feita utilizando as técnicas de Processamento de Linguagem Natural (PLN) e testada usando 2 diferentes algoritmos de aprendizado de máquina, Máquina de Vetores de Suporte (SVM) e Naive Bayes. Para os experimentos foi usada uma base de dados de 340.000 produtos distintos. Dividimos o processo em 4 modelos de classificação, feitos para classificar as 4 partes da NCM. Os dados foram divididos em 80% treinamento e 20% teste e Obteve-se um acurácia de 89% para um total de 98 classes dos 2 primeiros dígitos, e 76% de utilizando uma técnica de cascata para classificar os 8 dígitos.
使用NLP技术对MCN代码进行分类的四步级联方法
NCM是南方共同市场国家采用的商品分类的区域命名法。该命名法使用8位数字将产品划分为4个部分,章节、标题、副标题和项目/副标题。有证据表明,在全球范围内,大约30%的货物的代码是错误的,因为这是一个手工过程。这项工作的目的是开发一个过程来分类产品的文本描述出现在电子笔记(NF-e)。利用自然语言处理(nlp)技术进行分类,并使用支持向量机(SVM)和朴素贝叶斯两种不同的机器学习算法进行测试。实验使用了34万种不同产品的数据库。我们将过程分为4个分类模型,用于对NCM的4个部分进行分类。数据被分为80%的训练和20%的测试,前2位的98类的准确率为89%,使用级联技术对8位进行分类的准确率为76%。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信