{"title":"“Data science” versus physical science: is data technology leading us towards a new synthesis?","authors":"","doi":"10.5802/crgeos.24-en","DOIUrl":null,"url":null,"abstract":"Nous vivons, dit-on, dans l’époque de « data science ». L’apprentissage automatique (« machine learning », ou ML) à partir des données nous émerveille avec ses avancées, tels les véhicules autonomes et les outils de traduction, et nous effraye également avec ses capacités de surveillance et d’interprétation des visages, gestes et comportements humaines. Dans les sciences, nous sommes témoins d’une nouvelle explosion de littérature autour de l’apprentissage automatique, capable d’interpréter des quantités massives de données, autrement appelé le « big data ». Certains prédisent que le calcul numérique va bientôt être dépassé par le ML comme outil de compréhension et de prévision des systèmes dynamiques.Aucun domaine scientifique n’est aussi étroitement lié avec le calcul haute performance, que la météorologie et les sciences du climat. Leur histoire remonte à l’aube du calcul numérique, la technologie à laquelle ont donné naissance von Neumann et ses collègues durant l’après-guerre. Nous utiliserons comme exemple, dans cet article, la simulation numérique du système Terre, afin de mettre en évidence quelques questions fondamentales posées par l’apprentissage automatique. Nous reviendrons sur l’histoire de la météorologie pour comprendre la dialectique entre le savoir — notre compréhension de l’atmosphère — et la prévision tout court, par exemple la connaissance de la météo du lendemain. Cette question est posée aujourd’hui de nouveau par l’apprentissage, car il n’est pas nécessairement possible d’interpréter physiquement car issu directement des données. En revanche, le rôle central de la simulation du système Terre pour nous aider à déchiffrer le futur de la planète et le changement climatique, nous demande de sortir de l’actualité des données et de faire des comparaisons avec des Terres fictives (sans émissions industrielles par exemple) et de plusieurs pistes vers l’avenir, ce que nous appelons les « scénarios ». Ici les observations ont un rôle, certes, mais ce sont souvent des données issues des simulations qui sont analysées. Finalement, ces données sur le climat ont un poids sociétal et la démocratisation de l’accès à ces dernières a fortement crû ces récentes années. Nous montrerons ici certains aspects de l’évolution des technologies de la simulation et des données et ses enjeux importants pour les sciences du système Terre. We live, it is said, in the age of “data science”. Machine learning (ML) from data astonishes us with its advances, such as autonomous vehicles and translation tools, and also worries us with its ability to monitor and interpret human faces, gestures and behaviors. In science, we are witnessing a new explosion of literature around machine learning, capable of interpreting massive amounts of data, otherwise known as “big data”. Some predict that numerical computation will soon be overtaken by ML as a tool for understanding and predicting dynamic systems.No field of science is as closely related to HPC as meteorology and climate science. Their history dates back to the dawn of numerical computation, the technology that von Neumann and his colleagues pioneered in the post-war era. In this article, we will use the numerical simulation of the Earth system as an example to highlight some of the fundamental questions posed by machine learning. We will return to the history of meteorology to understand the dialectic between knowledge—our understanding of the atmosphere—and forecasting, for example the knowledge of the weather of the next day. This question is raised again today by learning, because it is not necessarily possible to interpret physically because it comes directly from the data. On the other hand, the central role of Earth system simulation to help us decipher the future of the planet and climate change, requires us to get out of the actuality of the data and make comparisons with fictitious Earths (without industrial emissions for example) and several leads to the future, what we call “scenarios”. Here observations do have a role, but it is often data from simulations that are analyzed. Finally, these climate data have a societal weight, and the democratization of access to them has grown strongly in recent years. We will show here some aspects of the evolution of simulation and data technologies and its important stakes for Earth system sciences.","PeriodicalId":50651,"journal":{"name":"Comptes Rendus Geoscience","volume":null,"pages":null},"PeriodicalIF":2.0000,"publicationDate":"2023-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Comptes Rendus Geoscience","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5802/crgeos.24-en","RegionNum":4,"RegionCategory":"地球科学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"GEOSCIENCES, MULTIDISCIPLINARY","Score":null,"Total":0}
引用次数: 0
Abstract
Nous vivons, dit-on, dans l’époque de « data science ». L’apprentissage automatique (« machine learning », ou ML) à partir des données nous émerveille avec ses avancées, tels les véhicules autonomes et les outils de traduction, et nous effraye également avec ses capacités de surveillance et d’interprétation des visages, gestes et comportements humaines. Dans les sciences, nous sommes témoins d’une nouvelle explosion de littérature autour de l’apprentissage automatique, capable d’interpréter des quantités massives de données, autrement appelé le « big data ». Certains prédisent que le calcul numérique va bientôt être dépassé par le ML comme outil de compréhension et de prévision des systèmes dynamiques.Aucun domaine scientifique n’est aussi étroitement lié avec le calcul haute performance, que la météorologie et les sciences du climat. Leur histoire remonte à l’aube du calcul numérique, la technologie à laquelle ont donné naissance von Neumann et ses collègues durant l’après-guerre. Nous utiliserons comme exemple, dans cet article, la simulation numérique du système Terre, afin de mettre en évidence quelques questions fondamentales posées par l’apprentissage automatique. Nous reviendrons sur l’histoire de la météorologie pour comprendre la dialectique entre le savoir — notre compréhension de l’atmosphère — et la prévision tout court, par exemple la connaissance de la météo du lendemain. Cette question est posée aujourd’hui de nouveau par l’apprentissage, car il n’est pas nécessairement possible d’interpréter physiquement car issu directement des données. En revanche, le rôle central de la simulation du système Terre pour nous aider à déchiffrer le futur de la planète et le changement climatique, nous demande de sortir de l’actualité des données et de faire des comparaisons avec des Terres fictives (sans émissions industrielles par exemple) et de plusieurs pistes vers l’avenir, ce que nous appelons les « scénarios ». Ici les observations ont un rôle, certes, mais ce sont souvent des données issues des simulations qui sont analysées. Finalement, ces données sur le climat ont un poids sociétal et la démocratisation de l’accès à ces dernières a fortement crû ces récentes années. Nous montrerons ici certains aspects de l’évolution des technologies de la simulation et des données et ses enjeux importants pour les sciences du système Terre. We live, it is said, in the age of “data science”. Machine learning (ML) from data astonishes us with its advances, such as autonomous vehicles and translation tools, and also worries us with its ability to monitor and interpret human faces, gestures and behaviors. In science, we are witnessing a new explosion of literature around machine learning, capable of interpreting massive amounts of data, otherwise known as “big data”. Some predict that numerical computation will soon be overtaken by ML as a tool for understanding and predicting dynamic systems.No field of science is as closely related to HPC as meteorology and climate science. Their history dates back to the dawn of numerical computation, the technology that von Neumann and his colleagues pioneered in the post-war era. In this article, we will use the numerical simulation of the Earth system as an example to highlight some of the fundamental questions posed by machine learning. We will return to the history of meteorology to understand the dialectic between knowledge—our understanding of the atmosphere—and forecasting, for example the knowledge of the weather of the next day. This question is raised again today by learning, because it is not necessarily possible to interpret physically because it comes directly from the data. On the other hand, the central role of Earth system simulation to help us decipher the future of the planet and climate change, requires us to get out of the actuality of the data and make comparisons with fictitious Earths (without industrial emissions for example) and several leads to the future, what we call “scenarios”. Here observations do have a role, but it is often data from simulations that are analyzed. Finally, these climate data have a societal weight, and the democratization of access to them has grown strongly in recent years. We will show here some aspects of the evolution of simulation and data technologies and its important stakes for Earth system sciences.
我们生活在一个“数据科学”的时代。基于数据的机器学习(ML)的进步让我们惊叹不已,比如自动驾驶汽车和翻译工具,但它监控和解释人类面孔、手势和行为的能力也让我们感到恐惧。在科学领域,我们正在目睹关于机器学习的新文献激增,机器学习能够解释大量数据,也就是所谓的“大数据”。一些人预测,作为理解和预测动态系统的工具,数值计算将很快被ML所取代。没有哪个科学领域像气象学和气候科学那样与高性能计算密切相关。他们的历史可以追溯到数字计算的黎明,冯·诺伊曼和他的同事在战后发明了这项技术。在本文中,我们将以地球系统的数值模拟为例,以突出机器学习提出的一些基本问题。我们将回到气象学的历史,以理解知识(我们对大气的理解)和简单的预测(例如对明天天气的了解)之间的辩证法。这个问题在今天的学习中再次被提出,因为它不一定可以物理解释,因为它直接来自数据。相形之下,地球系统仿真的核心作用,帮助我们解读未来地球气候变化,要求我们摆脱与及时性,做一些比较虚假土地,无工业排放(例如)和一些场景中走向未来,我们称之为«»。在这里,观测确实起了作用,但分析的往往是模拟数据。最后,这些气候数据具有社会重要性,近年来,获取这些数据的民主化急剧增加。在这里,我们将展示模拟和数据技术发展的一些方面,以及它们对地球系统科学的重要挑战。有人说,我们生活在“数据科学”时代。数据机器学习(ML)的进步让我们震惊,比如自动驾驶汽车和翻译工具,也让我们担心它监控和解释人脸、手势和行为的能力。在科学领域,我们目睹了围绕机器学习的文献的新爆炸,能够解释大量的数据,也被称为“大数据”。= =地理= =根据美国人口普查,这个县的面积为。= =地理= =根据美国人口普查,这个县的土地面积为。= =地理= =根据美国人口普查,这个县的面积为,其中土地面积为,其中土地面积为。在本文中,我们将以地球系统的数值模拟为例,强调机器学习提出的一些基本问题。We will return to the 1974 between the history of知道气象学知识圣母大气——我们的理解和预测,为例》(the knowledge of the weather of the next day)。这个问题在今天的学习中再次被提出,因为不一定可以从物理上解释它,因为它直接来自数据。On the other hand, the central simulation of Earth system to help us decipher角色(the future of the planet and us to get out of the climate change),您就actuality of the data and make with fictitious比较Earths (sans工业排放为例)和几种promenade what we call to the future),“场景”。天狮do have a评论的作用,是it is, data from that are analyzed模拟。最后,这些气候数据具有社会重要性,近年来,获取这些数据的民主化进程取得了巨大进展。在这里,我们将展示模拟和数据技术发展的一些方面及其对地球系统科学的重要利益。
期刊介绍:
Created in 1835 by physicist François Arago, then Permanent Secretary, the journal Comptes Rendus de l''Académie des sciences allows researchers to quickly make their work known to the international scientific community.
It is divided into seven titles covering the range of scientific research fields: Mathematics, Mechanics, Chemistry, Biology, Geoscience, Physics and Palevol. Each series is led by an editor-in-chief assisted by an editorial committee. Submitted articles are reviewed by two scientists with recognized competence in the field concerned. They can be notes, announcing significant new results, as well as review articles, allowing for a fine-tuning, or even proceedings of symposia and other thematic issues, under the direction of invited editors, French or foreign.