{"title":"大数据,你是说大数据吗?","authors":"P. Boelle, R. Thiébaut, D. Costagliola","doi":"10.1051/qsp/2015030","DOIUrl":null,"url":null,"abstract":"\nLe terme de données massives décrit le recueil, la gestion et l’analyse de données de sources\nhétérogènes, d’un volume important, avec une grande vitesse de génération. À côté des données\nomiques, les données de capteurs, les smartphones et les réseaux sociaux créent une énorme quantité\nd’informations utilisables en épidémiologie. Les méthodes statistiques classiques ont des limites\ndans ce contexte qu’on soit dans la situation où l’on a un grand nombre de sujets et un grand nombre\nde variables ou dans celle où le nombre de variables est bien plus grand que le nombre de sujets.\nLes méthodes data-driven ou hypothesis-driven peuvent être utilisées pour réduire l’information et aider\nà l’interprétation des associations mises en évidence. Nous illustrons les aléas et les succès de\nquelques approches développées sur les données massives dans le champ des maladies transmissibles.\nIl faut garder à l’esprit que les données massives ne sont pas une solution magique pour l’interprétation\ncausale des associations, au cœur de la démarche épidémiologique.","PeriodicalId":107952,"journal":{"name":"Questions de santé publique","volume":"66 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2015-09-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":"{\"title\":\"Données massives, vous avez dit données massives ?\",\"authors\":\"P. Boelle, R. Thiébaut, D. Costagliola\",\"doi\":\"10.1051/qsp/2015030\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"\\nLe terme de données massives décrit le recueil, la gestion et l’analyse de données de sources\\nhétérogènes, d’un volume important, avec une grande vitesse de génération. À côté des données\\nomiques, les données de capteurs, les smartphones et les réseaux sociaux créent une énorme quantité\\nd’informations utilisables en épidémiologie. Les méthodes statistiques classiques ont des limites\\ndans ce contexte qu’on soit dans la situation où l’on a un grand nombre de sujets et un grand nombre\\nde variables ou dans celle où le nombre de variables est bien plus grand que le nombre de sujets.\\nLes méthodes data-driven ou hypothesis-driven peuvent être utilisées pour réduire l’information et aider\\nà l’interprétation des associations mises en évidence. Nous illustrons les aléas et les succès de\\nquelques approches développées sur les données massives dans le champ des maladies transmissibles.\\nIl faut garder à l’esprit que les données massives ne sont pas une solution magique pour l’interprétation\\ncausale des associations, au cœur de la démarche épidémiologique.\",\"PeriodicalId\":107952,\"journal\":{\"name\":\"Questions de santé publique\",\"volume\":\"66 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2015-09-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"1\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Questions de santé publique\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.1051/qsp/2015030\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Questions de santé publique","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.1051/qsp/2015030","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
Données massives, vous avez dit données massives ?
Le terme de données massives décrit le recueil, la gestion et l’analyse de données de sources
hétérogènes, d’un volume important, avec une grande vitesse de génération. À côté des données
omiques, les données de capteurs, les smartphones et les réseaux sociaux créent une énorme quantité
d’informations utilisables en épidémiologie. Les méthodes statistiques classiques ont des limites
dans ce contexte qu’on soit dans la situation où l’on a un grand nombre de sujets et un grand nombre
de variables ou dans celle où le nombre de variables est bien plus grand que le nombre de sujets.
Les méthodes data-driven ou hypothesis-driven peuvent être utilisées pour réduire l’information et aider
à l’interprétation des associations mises en évidence. Nous illustrons les aléas et les succès de
quelques approches développées sur les données massives dans le champ des maladies transmissibles.
Il faut garder à l’esprit que les données massives ne sont pas une solution magique pour l’interprétation
causale des associations, au cœur de la démarche épidémiologique.