{"title":"A method of matching data","authors":"Naphtali Rishe , Michael Hanani","doi":"10.1016/0270-0255(87)90565-3","DOIUrl":null,"url":null,"abstract":"","PeriodicalId":100895,"journal":{"name":"Mathematical Modelling","volume":"8 ","pages":"172-174"},"PeriodicalIF":0.0000,"publicationDate":"1987-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://sci-hub-pdf.com/10.1016/0270-0255(87)90565-3","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Mathematical Modelling","FirstCategoryId":"1085","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/0270025587905653","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
一种匹配数据的方法
已经开发了一个概率模型和软件实现,以帮助寻找失踪人员和相关应用。该方法通常可以用于寻找两组不精确描述的对象之间最可能的对应关系。这些可以是对疾病与患者(诊断)、工作机会与求职者、特殊任务与人事档案(任务分配问题)等的描述。这两个集合中的每个对象都由一组数据描述,其中很大一部分可能是错误的、不可靠的、不精确的,或者有几个相互矛盾的版本。该方法的参数包括以下关于每个数据项类型及其一些可能组合的信息(参数信息不取决于实际数据):其逻辑特征、相对于其他类型的数据项的重要性,两个待比较对象的该数据项的值之间的亲属关系的含义和相对程度(例如,相等值的亲属关系:语音亲属关系;数字亲属关系,其程度与值之间的算术差的倒数成比例;为可能的值对定义的亲属关系程度矩阵),一个对象的该数据项的多重值的解释,数据项正确性的先验概率(此外,收集实际数据的研究人员可以在一组对象的描述中提供任何对象的任何值的概率),通过软件直接实现该方法将导致大型对象集的不可行的时间复杂性。因此,已经设计了特殊的算法来预处理描述集,以便在概率输出保持不变的情况下,将匹配发现的时间减少一个数量级。
本文章由计算机程序翻译,如有差异,请以英文原文为准。