Wykorzystanie języka R do statystycznej analizy oraz analizy skupień dla danych geochemicznych

IF 0.3 Q4 ENGINEERING, PETROLEUM

Nafta-Gaz Pub Date : 2023-09-01 DOI:10.18668/ng.2023.09.02

Marek Janiga

{"title":"Wykorzystanie języka R do statystycznej analizy oraz analizy skupień dla danych geochemicznych","authors":"Marek Janiga","doi":"10.18668/ng.2023.09.02","DOIUrl":null,"url":null,"abstract":"W zagadnieniach geologii naftowej metody statystyczne są szeroko stosowane w petrografii, petrofizyce, geochemii, geomechanice, geofizyce wiertniczej czy sejsmice, a analiza skupień jest istotna w klasyfikacji skał – wyznaczaniu stref o pewnych własnościach, np. macierzystych lub zbiornikowych. Artykuł prezentuje użycie metod statystycznych, w tym metod analizy skupień, w procesach przetwarzania i analizy dużych zbiorów różnorodnych danych geochemicznych. Do analiz statystycznych wykorzystano literaturowe dane z analiz składu chemicznego i izotopowego gazów ziemnych. Wyniki zawierały skład chemiczny gazów ziemnych oraz skład izotopowy. Zastosowano algorytmy tzw. nienadzorowanego uczenia maszynowego do przeprowadzenia analizy skupień. Grupowania było przeprowadzone dwiema metodami: k-średnich oraz hierarchiczną. Do zobrazowania wyników grupowania metodą k-średnich można wykorzystać dwuwymiarowy wykres (funkcja fviz_cluster języka R). Wymiary na wykresie to efekt analizy głównych składowych (PCA) i są one liniową kombinacją cech (kolumn w tabeli). Wynikiem grupowania metodą hierarchiczną jest wykres nazywany dendrogramem. W artykule dodatkowo zaprezentowano wykresy pudełkowe i histogramy oraz macierz korelacji zawierającą współczynniki korelacji Pearsona. Wszystkie prace wykonano z użyciem języka programowania R. Język R, z wykorzystaniem programu RStudio, jest bardzo wygodnym i szybkim narzędziem do statystycznej analizy danych. Przy użyciu tego języka uzyskanie wymienionych powyżej wykresów, tabeli i danych jest szybkie i stosunkowo łatwe. Wyniki analiz składu gazu wydają się mało zróżnicowane. Mimo to dzięki algorytmom k-średnich i hierarchicznym możliwe było pogrupowanie danych geochemicznych na wyraźnie rozdzielne zespoły. Zarówno wartości składu izotopowego, jak i skład chemiczny pozwalają wyznaczyć grupy, które w inny sposób nie byłyby dostrzegalne.","PeriodicalId":45266,"journal":{"name":"Nafta-Gaz","volume":"34 1","pages":"0"},"PeriodicalIF":0.3000,"publicationDate":"2023-09-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Nafta-Gaz","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.18668/ng.2023.09.02","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"ENGINEERING, PETROLEUM","Score":null,"Total":0}

引用次数: 0

Abstract

W zagadnieniach geologii naftowej metody statystyczne są szeroko stosowane w petrografii, petrofizyce, geochemii, geomechanice, geofizyce wiertniczej czy sejsmice, a analiza skupień jest istotna w klasyfikacji skał – wyznaczaniu stref o pewnych własnościach, np. macierzystych lub zbiornikowych. Artykuł prezentuje użycie metod statystycznych, w tym metod analizy skupień, w procesach przetwarzania i analizy dużych zbiorów różnorodnych danych geochemicznych. Do analiz statystycznych wykorzystano literaturowe dane z analiz składu chemicznego i izotopowego gazów ziemnych. Wyniki zawierały skład chemiczny gazów ziemnych oraz skład izotopowy. Zastosowano algorytmy tzw. nienadzorowanego uczenia maszynowego do przeprowadzenia analizy skupień. Grupowania było przeprowadzone dwiema metodami: k-średnich oraz hierarchiczną. Do zobrazowania wyników grupowania metodą k-średnich można wykorzystać dwuwymiarowy wykres (funkcja fviz_cluster języka R). Wymiary na wykresie to efekt analizy głównych składowych (PCA) i są one liniową kombinacją cech (kolumn w tabeli). Wynikiem grupowania metodą hierarchiczną jest wykres nazywany dendrogramem. W artykule dodatkowo zaprezentowano wykresy pudełkowe i histogramy oraz macierz korelacji zawierającą współczynniki korelacji Pearsona. Wszystkie prace wykonano z użyciem języka programowania R. Język R, z wykorzystaniem programu RStudio, jest bardzo wygodnym i szybkim narzędziem do statystycznej analizy danych. Przy użyciu tego języka uzyskanie wymienionych powyżej wykresów, tabeli i danych jest szybkie i stosunkowo łatwe. Wyniki analiz składu gazu wydają się mało zróżnicowane. Mimo to dzięki algorytmom k-średnich i hierarchicznym możliwe było pogrupowanie danych geochemicznych na wyraźnie rozdzielne zespoły. Zarówno wartości składu izotopowego, jak i skład chemiczny pozwalają wyznaczyć grupy, które w inny sposób nie byłyby dostrzegalne.

查看原文本刊更多论文

使用 R 语言对地球化学数据进行统计分析和聚类分析

在石油地质学中，统计方法广泛应用于岩石学、岩石物理学、地球化学、地质力学、钻井地球物理学或地震学，而聚类分析在岩石分类--确定具有特定性质的区域（如母岩或储层）--中非常重要。本文介绍了统计方法（包括聚类分析方法）在处理和分析大量不同地球化学数据集中的应用。统计分析使用了陆地气体化学成分和同位素组成分析的文献数据。结果包括地面气体的化学成分和同位素成分。使用所谓的无监督机器学习算法进行聚类分析。聚类分析采用两种方法：K-均值法和分层法。一个二维图形（R 语言的函数 fviz_cluster）可用于直观显示 k-means 聚类的结果。图中的维度是主成分分析（PCA）的结果，是特征（表格中的列）的线性组合。分层聚类的结果是一个称为树枝图的图形。此外，本文还展示了盒图和直方图，以及包含皮尔逊相关系数的相关矩阵。所有工作都是使用编程语言 R 完成的。使用 RStudio 程序的 R 语言是一种非常方便快捷的统计数据分析工具。使用这种语言，获取上述图表和数据既快捷又相对容易。气体成分分析结果似乎差异不大。不过，由于使用了 K 均值和分层算法，可以将地球化学数据归类为明显可分离的集合。通过同位素组成值和化学组成，可以划分出原本无法辨别的组别。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Nafta-Gaz ENGINEERING, PETROLEUM-

CiteScore

0.80

自引率

60.00%

发文量