Uma Estratégia Híbrida para o Pareamento de Textos Curtos Baseada em Similaridade Léxica e Embeddings Semânticos

Revista da Secao Judiciaria do Rio de Janeiro Pub Date : 2021-11-23 DOI:10.5753/eri-rj.2021.18772

Thiago Pereira Meirelles, Eduardo C. Gonçalves, Daniel Takata Gomes

引用次数: 0

Abstract

Pareamento de textos é a tarefa de escolher, dentre um conjunto de textos possíveis, qual deles faz menção a um mesmo conceito ou objeto que outro determinado texto de entrada faz. Este trabalho propõe uma nova estratégia híbrida que tem por foco o pareamento de textos curtos, como nomes de produtos, marcas e serviços. A estratégia proposta baseia-se na combinação de medidas de similaridade léxica e embeddings semânticos gerados através do modelo Word2vec. Experimentos preliminares realizados em uma base de dados real contendo nomes de produtos e serviços revelam resultados promissores.

查看原文本刊更多论文

一种基于词汇相似性和语义嵌入的短文本配对混合策略

文本匹配是在一组可能的文本中选择哪一种文本与另一种输入文本提到相同的概念或对象的任务。这项工作提出了一种新的混合策略，重点是匹配短文本，如产品名称，品牌和服务。提出的策略是基于词汇相似性度量和Word2vec模型生成的语义嵌入的结合。在包含产品和服务名称的真实数据库中进行的初步实验显示了有希望的结果。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Revista da Secao Judiciaria do Rio de Janeiro

自引率

0.00%

发文量

审稿时长

16 weeks