{"title":"超越fgssjoin:通过集相似性连接的并行算法","authors":"Rafael David Quirino, W. S. Martins","doi":"10.5753/erigo.2022.227677","DOIUrl":null,"url":null,"abstract":"Junções por similaridade de conjuntos são operações de grande importância nos sistemas modernos de bancos de dados, especialmente para os chamados armazens de dados, onde várias operações rotineiras como integração, limpeza e mineração de dados as utilizam com frequência. Algoritmos exatos, que retornam todos os pares similares possíveis de acordo com algum limiar de similaridade são computacionalmente caros, o que impõe lentidão a cargas de trabalho analíticas e destaca a necessidade de soluções paralelas para o problema. Trabalhos recentes apresentam algoritmos paralelos voltados para dispositivos de arquitetura many-core como as GPUs. Nesse artigo apresentamos um novo algoritmo para a etapa de filtragem do fgssjoin, um algoritmo paralelo conhecido, baseado em gpu, para a junção exata por similaridade de conjuntos.","PeriodicalId":338913,"journal":{"name":"Anais da X Escola Regional de Informática de Goiás (ERI-GO 2022)","volume":"92 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-10-25","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Além do fgssjoin: Algoritmos Paralelos para Junções por Similaridade de Conjuntos\",\"authors\":\"Rafael David Quirino, W. S. Martins\",\"doi\":\"10.5753/erigo.2022.227677\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Junções por similaridade de conjuntos são operações de grande importância nos sistemas modernos de bancos de dados, especialmente para os chamados armazens de dados, onde várias operações rotineiras como integração, limpeza e mineração de dados as utilizam com frequência. Algoritmos exatos, que retornam todos os pares similares possíveis de acordo com algum limiar de similaridade são computacionalmente caros, o que impõe lentidão a cargas de trabalho analíticas e destaca a necessidade de soluções paralelas para o problema. Trabalhos recentes apresentam algoritmos paralelos voltados para dispositivos de arquitetura many-core como as GPUs. Nesse artigo apresentamos um novo algoritmo para a etapa de filtragem do fgssjoin, um algoritmo paralelo conhecido, baseado em gpu, para a junção exata por similaridade de conjuntos.\",\"PeriodicalId\":338913,\"journal\":{\"name\":\"Anais da X Escola Regional de Informática de Goiás (ERI-GO 2022)\",\"volume\":\"92 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2022-10-25\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Anais da X Escola Regional de Informática de Goiás (ERI-GO 2022)\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.5753/erigo.2022.227677\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Anais da X Escola Regional de Informática de Goiás (ERI-GO 2022)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5753/erigo.2022.227677","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
Além do fgssjoin: Algoritmos Paralelos para Junções por Similaridade de Conjuntos
Junções por similaridade de conjuntos são operações de grande importância nos sistemas modernos de bancos de dados, especialmente para os chamados armazens de dados, onde várias operações rotineiras como integração, limpeza e mineração de dados as utilizam com frequência. Algoritmos exatos, que retornam todos os pares similares possíveis de acordo com algum limiar de similaridade são computacionalmente caros, o que impõe lentidão a cargas de trabalho analíticas e destaca a necessidade de soluções paralelas para o problema. Trabalhos recentes apresentam algoritmos paralelos voltados para dispositivos de arquitetura many-core como as GPUs. Nesse artigo apresentamos um novo algoritmo para a etapa de filtragem do fgssjoin, um algoritmo paralelo conhecido, baseado em gpu, para a junção exata por similaridade de conjuntos.