投石机:利用数据流虚拟化的TLP

Anais do X Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD 2009) Pub Date : 2009-10-28 DOI:10.5753/wscad.2009.17393

T. A. Alves, Leandro A. J. Marzulo, F. M. França, V. Costa

{"title":"投石机:利用数据流虚拟化的TLP","authors":"T. A. Alves, Leandro A. J. Marzulo, F. M. França, V. Costa","doi":"10.5753/wscad.2009.17393","DOIUrl":null,"url":null,"abstract":"No modelo DataFlow as instruções são executadas t ão logo seus operandos de entrada estejam disponíveis, expondo, de forma natural, o paralelismo em nível de instrução (ILP). Por outro lado, a exploração de paralelismo em nível de thread (TLP) passa a ser também um fator de grande import ância para o aumento de desempenho na execução de uma aplicação em máquinas multicore. Este trabalho propõe um modelo de execução de programas, baseado nas arquiteturas DataFlow, que transforma ILP em TLP. Esse modelo é demonstrado através da implementação de uma máquina virtual multi-threaded, a Trebuchet. A aplicação é compilada para o modelo DataFlow e suas instruções independentes (segundo o fluxo de dados) são executadas em Elementos de Processamento (EPs) distintos da Trebuchet. Cada EP é mapeado em uma thread na máquina hospedeira. O modelo permite a definição de blocos de instruções de diferentes granularidades, que terão disparo guiado pelo fluxo de dados e execução direta na máquina hospedeira, para diminuir os custos de interpretação. Como a sincronização é obtida pelo modelo DataFlow, não é necessária a introdução de locks ou barreiras nos programas a serem paralelizados. Um conjunto de três benchmarks reduzidos, compilados em oito threads e executados por um processador quadcore Intel R CoreTMi7 920, permitiu avaliar: (i) o funcionamento do modelo; (ii) a versatilidade na definição de instruções com diferentes granularidades (blocos); (iii) uma comparação com o OpenMP. Acelerações de 4,81, 2,4 e 4,03 foram atingidas em relação à versão sequencial, enquanto que acelerações de 1,11, 1,3 e 1,0 foram obtidas em relação ao OpenMP.","PeriodicalId":132055,"journal":{"name":"Anais do X Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD 2009)","volume":"55 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2009-10-28","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":"{\"title\":\"Trebuchet: Explorando TLP com Virtualização DataFlow\",\"authors\":\"T. A. Alves, Leandro A. J. Marzulo, F. M. França, V. Costa\",\"doi\":\"10.5753/wscad.2009.17393\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"No modelo DataFlow as instruções são executadas t ão logo seus operandos de entrada estejam disponíveis, expondo, de forma natural, o paralelismo em nível de instrução (ILP). Por outro lado, a exploração de paralelismo em nível de thread (TLP) passa a ser também um fator de grande import ância para o aumento de desempenho na execução de uma aplicação em máquinas multicore. Este trabalho propõe um modelo de execução de programas, baseado nas arquiteturas DataFlow, que transforma ILP em TLP. Esse modelo é demonstrado através da implementação de uma máquina virtual multi-threaded, a Trebuchet. A aplicação é compilada para o modelo DataFlow e suas instruções independentes (segundo o fluxo de dados) são executadas em Elementos de Processamento (EPs) distintos da Trebuchet. Cada EP é mapeado em uma thread na máquina hospedeira. O modelo permite a definição de blocos de instruções de diferentes granularidades, que terão disparo guiado pelo fluxo de dados e execução direta na máquina hospedeira, para diminuir os custos de interpretação. Como a sincronização é obtida pelo modelo DataFlow, não é necessária a introdução de locks ou barreiras nos programas a serem paralelizados. Um conjunto de três benchmarks reduzidos, compilados em oito threads e executados por um processador quadcore Intel R CoreTMi7 920, permitiu avaliar: (i) o funcionamento do modelo; (ii) a versatilidade na definição de instruções com diferentes granularidades (blocos); (iii) uma comparação com o OpenMP. Acelerações de 4,81, 2,4 e 4,03 foram atingidas em relação à versão sequencial, enquanto que acelerações de 1,11, 1,3 e 1,0 foram obtidas em relação ao OpenMP.\",\"PeriodicalId\":132055,\"journal\":{\"name\":\"Anais do X Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD 2009)\",\"volume\":\"55 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2009-10-28\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"3\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Anais do X Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD 2009)\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.5753/wscad.2009.17393\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Anais do X Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD 2009)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5753/wscad.2009.17393","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 3

摘要

在数据流模型中，指令在输入操作数可用时执行，自然地暴露了指令级并行性(ILP)。另一方面，在多核机器上执行应用程序时，利用线程级并行性(TLP)也成为提高性能的一个非常重要的因素。本文提出了一种基于数据流架构的程序执行模型，将ILP转换为TLP。该模型通过实现多线程虚拟机投石机进行了演示。应用程序被编译为数据流模型，它的独立指令(取决于数据流)在独立于投石机的处理元素(EPs)上执行。每个EP映射到主机上的一个线程中。该模型允许定义不同粒度的指令块，这些指令块将由数据流引导触发，并直接在主机上执行，以降低解释成本。由于同步是通过数据流模型实现的，因此不需要在并行程序中引入锁或障碍。一组三个简化的基准测试，在8个线程中编译，并由四核Intel R CoreTMi7 920处理器执行，允许评估:(i)模型的功能;(ii)定义具有不同粒度(块)的指令的通用性;(iii)与OpenMP的比较。与顺序版本相比，加速度分别为4.81、2.4和4.03，而与OpenMP相比，加速度分别为1.11、1.3和1.0。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

Trebuchet: Explorando TLP com Virtualização DataFlow

No modelo DataFlow as instruções são executadas t ão logo seus operandos de entrada estejam disponíveis, expondo, de forma natural, o paralelismo em nível de instrução (ILP). Por outro lado, a exploração de paralelismo em nível de thread (TLP) passa a ser também um fator de grande import ância para o aumento de desempenho na execução de uma aplicação em máquinas multicore. Este trabalho propõe um modelo de execução de programas, baseado nas arquiteturas DataFlow, que transforma ILP em TLP. Esse modelo é demonstrado através da implementação de uma máquina virtual multi-threaded, a Trebuchet. A aplicação é compilada para o modelo DataFlow e suas instruções independentes (segundo o fluxo de dados) são executadas em Elementos de Processamento (EPs) distintos da Trebuchet. Cada EP é mapeado em uma thread na máquina hospedeira. O modelo permite a definição de blocos de instruções de diferentes granularidades, que terão disparo guiado pelo fluxo de dados e execução direta na máquina hospedeira, para diminuir os custos de interpretação. Como a sincronização é obtida pelo modelo DataFlow, não é necessária a introdução de locks ou barreiras nos programas a serem paralelizados. Um conjunto de três benchmarks reduzidos, compilados em oito threads e executados por um processador quadcore Intel R CoreTMi7 920, permitiu avaliar: (i) o funcionamento do modelo; (ii) a versatilidade na definição de instruções com diferentes granularidades (blocos); (iii) uma comparação com o OpenMP. Acelerações de 4,81, 2,4 e 4,03 foram atingidas em relação à versão sequencial, enquanto que acelerações de 1,11, 1,3 e 1,0 foram obtidas em relação ao OpenMP.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Anais do X Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD 2009)

自引率

0.00%

发文量