共享分布式内存系统关联规则的异步挖掘

Anais do II Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2001) Pub Date : 2001-09-10 DOI:10.5753/wscad.2001.19117

A. Veloso, B. Coutinho, B. Pôssas, G. Menezes, W. Meira Jr., M. Carvalho, C. Amorim

{"title":"共享分布式内存系统关联规则的异步挖掘","authors":"A. Veloso, B. Coutinho, B. Pôssas, G. Menezes, W. Meira Jr., M. Carvalho, C. Amorim","doi":"10.5753/wscad.2001.19117","DOIUrl":null,"url":null,"abstract":"Encontrar as regras de associação presentes em grandes bases de dados é um importante problema em Mineração de Dados. Existe uma grande necessidade de desenvolver algoritmos paralelos para esse problema, uma vez que ele corresponde a um processo computacional muito custoso. No entanto, a maioria dos algoritmos propostos para minerar tais regras seguem uma busca iterativa, que impõe a necessidade de sincronização ao final de cada iteração, degradando o desempenho. Outra deficiência desses algoritmos é proveniente da contenção que ocorre no barramento de entrada e saída, uma vez que todos os processadores devem acessar simultaneamente suas respectivas porções da base de dados. Mais ainda, esses algoritmos usam somente esquemas de balanceamento de carga estático, baseados na decomposição inicial dos dados, e depois disso eles assumem uma carga homogênea, o que eslá longe da realidade, já que a carga pode variar a cada iteração do algoritmo. Nesse artigo nós apresentamos um eficiente algoritmo paralelo para minerar regras de associação em sistemas de memória Distribuída-Compartilhada. Cada processador realiza sua tarefa de mineração sem efetuar nenhuma sincronização, e a carga é continuamente balanceada entre os processadores. Mais importante, nosso algoritmo realiza apenas um acesso à base de dados, evitando o problema de contenção no sistema de entrada e saída. Os experimentos mostram que nosso algoritmo paralelo proporciona ganhos significativos quando comparado com sua parte sequencial.","PeriodicalId":355276,"journal":{"name":"Anais do II Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2001)","volume":"267 3","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2001-09-10","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":"{\"title\":\"Mineração Assíncrona de Regras de Associação em Sistemas de Memória Compartilhada-Distribuída\",\"authors\":\"A. Veloso, B. Coutinho, B. Pôssas, G. Menezes, W. Meira Jr., M. Carvalho, C. Amorim\",\"doi\":\"10.5753/wscad.2001.19117\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Encontrar as regras de associação presentes em grandes bases de dados é um importante problema em Mineração de Dados. Existe uma grande necessidade de desenvolver algoritmos paralelos para esse problema, uma vez que ele corresponde a um processo computacional muito custoso. No entanto, a maioria dos algoritmos propostos para minerar tais regras seguem uma busca iterativa, que impõe a necessidade de sincronização ao final de cada iteração, degradando o desempenho. Outra deficiência desses algoritmos é proveniente da contenção que ocorre no barramento de entrada e saída, uma vez que todos os processadores devem acessar simultaneamente suas respectivas porções da base de dados. Mais ainda, esses algoritmos usam somente esquemas de balanceamento de carga estático, baseados na decomposição inicial dos dados, e depois disso eles assumem uma carga homogênea, o que eslá longe da realidade, já que a carga pode variar a cada iteração do algoritmo. Nesse artigo nós apresentamos um eficiente algoritmo paralelo para minerar regras de associação em sistemas de memória Distribuída-Compartilhada. Cada processador realiza sua tarefa de mineração sem efetuar nenhuma sincronização, e a carga é continuamente balanceada entre os processadores. Mais importante, nosso algoritmo realiza apenas um acesso à base de dados, evitando o problema de contenção no sistema de entrada e saída. Os experimentos mostram que nosso algoritmo paralelo proporciona ganhos significativos quando comparado com sua parte sequencial.\",\"PeriodicalId\":355276,\"journal\":{\"name\":\"Anais do II Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2001)\",\"volume\":\"267 3\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2001-09-10\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"1\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Anais do II Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2001)\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.5753/wscad.2001.19117\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Anais do II Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2001)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5753/wscad.2001.19117","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 1

摘要

在大型数据库中寻找关联规则是数据挖掘中的一个重要问题。对于这个问题，开发并行算法是非常必要的，因为它对应于一个非常昂贵的计算过程。然而，大多数用于挖掘这些规则的算法都遵循迭代搜索，这需要在每次迭代结束时进行同步，降低了性能。这些算法的另一个缺点是发生在输入和输出总线上的争用，因为所有处理器必须同时访问数据库的各自部分。此外，这些算法只使用静态负载平衡方案，基于数据的初始分解，然后假定均匀负载，这与现实相去甚远，因为负载会随着算法的每次迭代而变化。在本文中，我们提出了一种高效的并行算法来挖掘分布式共享内存系统中的关联规则。每个处理器在不同步的情况下执行其挖掘任务，并且负载在处理器之间持续平衡。最重要的是，我们的算法只执行一次数据库访问，避免了输入和输出系统中的争用问题。实验表明，与顺序部分相比，我们的并行算法提供了显著的增益。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

Mineração Assíncrona de Regras de Associação em Sistemas de Memória Compartilhada-Distribuída

Encontrar as regras de associação presentes em grandes bases de dados é um importante problema em Mineração de Dados. Existe uma grande necessidade de desenvolver algoritmos paralelos para esse problema, uma vez que ele corresponde a um processo computacional muito custoso. No entanto, a maioria dos algoritmos propostos para minerar tais regras seguem uma busca iterativa, que impõe a necessidade de sincronização ao final de cada iteração, degradando o desempenho. Outra deficiência desses algoritmos é proveniente da contenção que ocorre no barramento de entrada e saída, uma vez que todos os processadores devem acessar simultaneamente suas respectivas porções da base de dados. Mais ainda, esses algoritmos usam somente esquemas de balanceamento de carga estático, baseados na decomposição inicial dos dados, e depois disso eles assumem uma carga homogênea, o que eslá longe da realidade, já que a carga pode variar a cada iteração do algoritmo. Nesse artigo nós apresentamos um eficiente algoritmo paralelo para minerar regras de associação em sistemas de memória Distribuída-Compartilhada. Cada processador realiza sua tarefa de mineração sem efetuar nenhuma sincronização, e a carga é continuamente balanceada entre os processadores. Mais importante, nosso algoritmo realiza apenas um acesso à base de dados, evitando o problema de contenção no sistema de entrada e saída. Os experimentos mostram que nosso algoritmo paralelo proporciona ganhos significativos quando comparado com sua parte sequencial.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Anais do II Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2001)

自引率

0.00%

发文量