Vectorisation des processus d'appariement document-requête

V. Claveau, Romain Tavenard, Laurent Amsaleg
{"title":"Vectorisation des processus d'appariement document-requête","authors":"V. Claveau, Romain Tavenard, Laurent Amsaleg","doi":"10.24348/coria.2010.313","DOIUrl":null,"url":null,"abstract":"Dans la plupart des applications de RI, calculer rapidement la proximite entre documents et requetes est crucial. Avec les modeles vectoriels, ce calcul se fait generalement de maniere tres efficace. Cependant, lorsque les requetes sont tres longues ou dans le cas de SRI bases sur des modeles plus avances, ce calcul devient plus complexe et couteux. Dans cet article, nous proposons une technique simple pour transformer n'importe quel processus d'appariement requete-document fournissant un score en un probleme de calcul de distance entre vecteurs. Cette approche peut ainsi beneficier des bonnes performances des outils existants d'indexation et de recherche approximative dans des espaces de grandes dimensions. Au travers de quelques experiences, nous montrons par ailleurs que cette representation n'entraine pas de baisse importante de qualite des resultats, et, lorsque de nombreux documents sont a retourner, ameliore meme le rappel par rapport au SRI original, a taille de resultat egal.","PeriodicalId":390974,"journal":{"name":"Conférence en Recherche d'Infomations et Applications","volume":"27 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2010-03-18","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"15","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Conférence en Recherche d'Infomations et Applications","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.24348/coria.2010.313","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 15

Abstract

Dans la plupart des applications de RI, calculer rapidement la proximite entre documents et requetes est crucial. Avec les modeles vectoriels, ce calcul se fait generalement de maniere tres efficace. Cependant, lorsque les requetes sont tres longues ou dans le cas de SRI bases sur des modeles plus avances, ce calcul devient plus complexe et couteux. Dans cet article, nous proposons une technique simple pour transformer n'importe quel processus d'appariement requete-document fournissant un score en un probleme de calcul de distance entre vecteurs. Cette approche peut ainsi beneficier des bonnes performances des outils existants d'indexation et de recherche approximative dans des espaces de grandes dimensions. Au travers de quelques experiences, nous montrons par ailleurs que cette representation n'entraine pas de baisse importante de qualite des resultats, et, lorsque de nombreux documents sont a retourner, ameliore meme le rappel par rapport au SRI original, a taille de resultat egal.
文档-请求匹配过程的矢量化
在大多数ir应用程序中,快速计算文档和请求之间的接近性是至关重要的。在矢量模型中,这种计算通常是非常有效的。然而,当需求很长或SRI基于更先进的模型时,这种计算变得更加复杂和昂贵。在本文中,我们提出了一种简单的技术,将任何提供分数的需求文档匹配过程转换为向量之间的距离计算问题。因此,这种方法可以利用现有的索引和近似搜索工具在大空间中的良好性能。通过一些实验,我们还表明,这种表示并不会显著降低结果的质量,而且,当返回大量文件时,与原始SRI相比,在相同的结果大小下,它甚至改善了召回。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信