en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
作者简介:

刘艳鹏,男,1990年生。博士,助理研究员,主要从事数学地球科学研究。E-mail:liuyanpeng@ecut.edu.cn。

通讯作者:

朱立新,男,1963年生。研究员,主要从事勘查地球化学研究。E-mail:lixinz@cags.ac.cn。

参考文献
Ahmed M, Seraj R, Islam S M S. 2020. The K-means algorithm: a comprehensive survey and performance evaluation. Electronics, 9(8): 1295~1936.
参考文献
Ahrens L H. 1953. A fundamental law of geochemistry. Nature, 172(4390): 1148.
参考文献
Ahrens L H. 1954a. The lognormal distribution of the elements (2). Geochimica et Cosmochimica Acta, 6(2): 121~131.
参考文献
Ahrens L H. 1954b. The lognormal distribution of the elements (a fundamental law of geochemistry and its subsidiary). Geochimica et Cosmochimica Acta, 5(2): 49~73.
参考文献
Aitchison J. 1982. The statistical analysis of compositional data. Journal of the Royal Statistical Society: Series B (Methodological), 44: 139~160.
参考文献
Aitchison J. 1986. The Statistical Analysis of Compositional Data. Dordrecht: Springer, 1~460.
参考文献
Alle'gre C J, Lewin E. 1995. Scaling laws and geochemical distributions. Earth and Planetary Science Letters, 132(1): 1~13.
参考文献
Anderberg M R. 1973. Cluster Analysis for Applications: Probability and Mathematical Statistics: a Series of Monographs and Textbooks. Cambridge: Academic Press.
参考文献
Aranganayagi S, Thangavel K. 2007. Clustering categorical data using silhouette coefficient as a relocating measure. International Conference on Computational Intelligence and Multimedia Applications (ICCIMA 2007): 13~17.
参考文献
Bholowalia P, Kumar A. 2014. EBK-means: a clustering technique based on elbow method and K-means in WSN. International Journal of Computer Applications, 105(9): 17~24.
参考文献
Bjørlykke K, Jahren J. 2012. Open or closed geochemical systems during diagenesis in sedimentary basins: constraints on mass transfer during diagenesis and the prediction of porosity in sandstone and carbonate reservoirs. AAPG Bulletin, 96(12): 2193~2214.
参考文献
Bohrson W A, SPERA F J. 2001. Energy-constrained open-system magmatic processes ii: application of energy-constrained assimilation-fractional crystallization (ec-afc) model to magmatic systems. Journal of Petrology, 42(5): 1019~1041.
参考文献
Chayes F. 1960. On correlation between variables of constant sum. Journal of Geophysical Research, 65(12): 4185~4193.
参考文献
Cheng Qiuming, Agterberg F P, Ballantyne S B. 1994. The separation of geochemical anomalies from background by fractal methods. Journal of Geochemical Exploration, 51(2): 109~130.
参考文献
Darnley A, Bjorklund A, Bolviken B, Gustavsson N, Koval P, Plant J, Steenfelt A, Tauchid M, Xie Xuejin. 2005. A global geochemical database for environmental and resource management: recommendations for international geochemical mapping. Final Report of IGCP Project 259, Paris, France, UNESCO, 1~122.
参考文献
de Caritat P, Cooper M, Lech M, McPherson A, Thun C. 2009. National geochemical survey of Australia: sample preparation manual. Canberra, Geoscience Australia Record, 1~28.
参考文献
Egozcue J J, Pawlowsky-Glahn V, Mateu-Figueras G, Barceló-Vidal C. 2003. Isometric logratio transformations for compositional data analysis. Mathematical Geology, 35(3): 279~300.
参考文献
Figueiredo M A T, Jain A K. 2002. Unsupervised learning of finite mixture models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(3): 381~396.
参考文献
Gentle M. 2002. The CRM Project Management Handbook: Building Realistic Expectations and Managing Risk. London: Kogan Page Publishers, 1~227.
参考文献
Ghezelbash R, Maghsoudi A, Carranza E J M. 2020. Optimization of geochemical anomaly detection using a novel genetic K-means clustering (gkmc) algorithm. Computers & Geosciences, 134: 104335.
参考文献
Goodman L A, Kruskal W H. 1979. Measures of association for cross classifications. In: Measures of Association for Cross Classifications. New York: Springer New York, 2~34.
参考文献
Grant J A. 1986. The isocon diagram; a simple solution to gresens' equation for metasomatic alteration. Economic Geology, 81(8): 1976~1982.
参考文献
Hawkes H E, Webb S J. 1963. Geochemistry in mineral exploration. Soil Science, 95(4): 283.
参考文献
Helgeson H C, Brown T H, Nigrini A, Jones T A. 1970. Calculation of mass transfer in geochemical processes involving aqueous solutions. Geochimica et Cosmochimica Acta, 34(5): 569~592.
参考文献
Jain A K, Murty M N, Flynn P J. 1999. Data clustering: a review. ACM Computing Surveys (CSUR) 31(3): 264~323.
参考文献
Johnson C C, Breward N, Ander E L, Ault L. 2005. G-BASE: baseline geochemical mapping of Great Britain and Northern Ireland. Geochemistry: Exploration, Environment, Analysis, 5(4): 347~357.
参考文献
Kaufman L, Rousseeuw P J. 2009. Finding Groups in Data: an Introduction to Cluster Analysis. New York: John Wiley & Sons, 1~342.
参考文献
Kirkwood C, Cave M, Beamish D, Grebby S, Ferreira A. 2016. A machine learning approach to geochemical mapping. Journal of Geochemical Exploration, 167: 49~61.
参考文献
Le Chengsheng, Liu Huihua, Zhong Zhaohui, He Jinhua, Wang Yiwei, Shi Chunwang, Zhang Xianchao, Chen Jinglong, Quan Pinggui, Jiang Zhilin, Zhao Yongli, Hong Yuming. 2011. The reconnaissance survey report of the Zhaojikou Pb-Zn ore deposit in the Dongzhi County, Anhui Province. Anhui Provincial Institute of Nuclear Resource Exploration Technology, 125 (in Chinese).
参考文献
Lepeltier C. 1969. A simplified statistical treatment of geochemical data by graphical representation. Economic Geology, 64(5): 538~550.
参考文献
Lever J, Krzywinski M, Altman N. 2016. Classification evaluation. Nature Methods, 13(8): 603~604.
参考文献
Levinson A A. 1974. Introduction to Exploration Geochemistry (2 Edition). Maywood: Applied Publishing, 1~924.
参考文献
Li Min, Xi Xiaohuan, Xiao Guiyi, Cheng Hangxin, Yang Zhongfang, Zhou Guohua, Ye Jiayu, Li Zhonghui. 2014. National multi-purpose regional geochemical survey in China. Journal of Geochemical Exploration, 139: 21~30.
参考文献
Liu Fan, Deng Yong. 2021. Determine the number of unknown targets in open world based on elbow method. IEEE Transactions on Fuzzy Systems, 29(5): 986~995.
参考文献
Liu Yanpeng. 2017. Metallogenic geochemical mechanism of Zhaojikou epithermal Pb-Zn ore deposit in Anhui Province. Doctoral dissertation of Chinese Academy of Geological Sciences (in Chinese with English abstract).
参考文献
Liu Yanpeng, Ma Shengming, Zhu Lixin, Sadeghi M, Doherty A L, Cao Dawang, Le Chengsheng. 2016. The multi-attribute anomaly structure model: an exploration tool for the Zhaojikou epithermal Pb-Zn deposit, China. Journal of Geochemical Exploration, 169: 50~59.
参考文献
Liu Yanpeng, Zhu Lixin, Ma Shengming, Guo Fusheng, Gong Qiuli, Tang Shixin, Gopalakrishnan G, Zhou Yongzhang. 2019. Constraining the distribution of elements and their controlling factors in the Zhaojikou Pb-Zn ore deposit, SE China, via fractal and compositional data analysis. Applied Geochemistry, 108: 104379.
参考文献
Lloyd S. 1982. Least squares quantization in PCM. IEEE Transactions on Information Theory, 28(2): 129~137.
参考文献
Ma Shengming, Zhu Lixin. 2014. Multidimensional anomaly system for hydrothermal nonferrous metal deposits: taking the Matou porphyry molybdenum copper mine in Anhui Province as an example. Journal of Jilin University (Earth Science Edition), 44(1): 134~144 (in Chinese with English abstract).
参考文献
Ma Shengming, Zhu Lixin, Su Lei, Tang Lilin, Liu Yanpeng. 2016. Mineralizing agent sulfur and metallogenic process. Acta Geologica Sinica, 90(9): 2427~2436 (in Chinese with English abstract).
参考文献
MacQueen J. 1967. Some methods for classification and analysis of multivariate observations. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, 281~297.
参考文献
Marutho D, Handaka S H, Wijaya E. 2018. The determination of cluster number at K-mean using elbow method and purity evaluation on headline news. 2018 International Seminar on Application for Technology of Information and Communication, 533~538.
参考文献
Matschullat J, Ottenstein R, Reimann C. 2000. Geochemical background—can we calculate it? Environmental Geology, 39(9): 990~1000.
参考文献
McKinley J M, Hron K, Grunsky E C, Reimann C, de Caritat P, Filzmoser P, van den Boogaart K G, Tolosana-Delgado R. 2016. The single component geochemical map: fact or fiction? Journal of Geochemical Exploration, 162: 16~28.
参考文献
Morris P A, Pirajno F, Shevchenko S. 2003. Proterozoic mineralization identified by integrated regional regolith geochemistry, geophysics and bedrock mapping in western Australia. Geochemistry: Exploration, Environment, Analysis, 3(1): 13~28.
参考文献
Pearce J A. 2014. Immobile element fingerprinting of ophiolites. Elements, 10(2): 101~108.
参考文献
Reimann C, Garrett R G. 2005. Geochemical background—concept and reality. Science of the Total Environment, 350(1): 12~27.
参考文献
Reimann C, Fabian K, Birke M, Filzmoser P, Demetriades A, Négrel P, Oorts K, Matschullat J, de Caritat P, Albanese S, Anderson M, Baritz R, Batista M J, Bel-Ian A, Cicchella D, De Vivo B, De Vos W, Dinelli E, Ďuriš M, Dusza-Dobek A, Eggen O A, Eklund M, Ernsten V, Flight D M A, Forrester S, Fügedi U, Gilucis A, Gosar M, Gregorauskiene V, De Groot W, Gulan A, Halamić J, Haslinger E, Hayoz P, Hoogewerff J, Hrvatovic H, Husnjak S, Jähne-Klingberg F, Janik L, Jordan G, Kaminari M, Kirby J, Klos V, Kweć ko P, Kuti L, Ladenberger A, Lima A, Locutura J, Lucivjansky P, Mann A, Mackovych D, McLaughlin M, Malyuk B I, Maquil R, Meuli R G, Mol G, O'Connor P, Ottesen R T, Pasnieczna A, Petersell V, Pfleiderer S, Poňavič M, Prazeres C, Radusinović S, Rauch U, Salpeteur I, Scanlon R, Schedl A, Scheib A, Schoeters I, Šefčik P, Sellersjö E, Slaninka I, Soriano-Disla J M, Šorša A, Svrkota R, Stafilov T, Tarvainen T, Tendavilov V, Valera P, Verougstraete V, Vidojević D, Zissimos A, Zomeni Z, Sadeghi M. 2018. GEMAS: establishing geochemical background and threshold for 53 chemical elements in European agricultural soil. Applied Geochemistry, 88: 302~318.
参考文献
Rousseeuw P J. 1987. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20: 53~65.
参考文献
Russell S, Russell S J, Norvig P, Davis E. 2010. Artificial intelligence: a modern approach. Prentice Hall, 90: 33~48.
参考文献
Salminen R, Tarvainen T, Demetriades A, Duris M, Fordyce F, Gregorauskiene V, Kahelin H, Kivisilla J, Klaver G, Klein H. 1998. FOREGS geochemical mapping field manual. Espoo, Geological Survey of Finland, 1~38.
参考文献
Smith D B, Woodruff L G, O'Leary R M, Cannon W F, Garrett R G, Kilburn J E, Goldhaber M B. 2009. Pilot studies for the North American soil geochemical landscapes project—site selection, sampling protocols, analytical methods, and quality control protocols. Applied Geochemistry, 24(8): 1357~1368.
参考文献
Smith D B, Cannon W F, Woodruff L G. 2011. A national-scale geochemical and mineralogical survey of soils of the conterminous United States. Applied Geochemistry, 26: S250~S255.
参考文献
Späth H. 1980. Cluster Analysis Algorithms for Data Reduction and Classification of Objects. Chichester: E. Horwood Halsted Press, 1~226.
参考文献
Steinley D. 2006. K-means clustering: a half-century synthesis. British Journal of Mathematical and Statistical Psychology, 59(1): 1~34.
参考文献
Strehl A, Ghosh J. 2002. Cluster ensembles—a knowledge reuse framework for combining multiple partitions. Journal of Machine Learning Research, 3: 583~617.
参考文献
Xie Xuejing, Mu Xuzhan, Ren Tianxiang. 1997. Geochemical mapping in China. Journal of Geochemical Exploration, 60(1): 99~113.
参考文献
Xie Xuejing, Wang Xueqiu, Zhang Qin, Zhou Guohua, Cheng Hangxin, Liu Dawen, Cheng Zhizhong, Xu Shanfa. 2008. Multi-scale geochemical mapping in China. Geochemistry: Exploration, Environment, Analysis, 8(3): 333~341.
参考文献
Zhou Shuguang, Zhou Kefa, Wang Jinlin, Yang Genfang, Wang Shanshan. 2018. Application of cluster analysis to geochemical compositional data for identifying ore-related geochemical anomalies. Frontiers of Earth Science, 12(3): 491~505.
参考文献
乐成生, 刘惠华, 钟朝晖, 何金华, 王一伟, 史春旺, 张咸超, 陈经龙, 全平贵, 蒋智林, 赵永利, 洪玉明. 2011. 安徽省东至县兆吉口铅锌矿普查报告. 安徽省核工业勘查技术总院, 125.
参考文献
刘艳鹏. 2017. 安徽省兆吉口浅成低温热液型铅锌矿床成矿地球化学机制研究. 中国地质科学院博士学位论文.
参考文献
马生明, 朱立新. 2014. 热液成因有色金属矿多维异常体系——以马头斑岩型钼铜矿为例. 吉林大学学报(地球科学版), 44(1): 134~144.
参考文献
马生明, 朱立新, 苏磊, 汤丽玲, 刘艳鹏. 2016. 矿化剂元素硫(S)与成矿. 地质学报, 90(9): 2427~2436.
目录contents

    摘要

    地球化学数据是应用地球化学研究的重要组成部分,是化学勘查工作的基础成果。勘查地球化学数据基本上以元素的质量百分浓度 (简称浓度)的形式表达,是典型的成分数据。其表达的是“组分/总体”相对质量贡献信息,而不是绝对的质量变化信息。浓度数据分布在单纯形空间,而不是整个欧式空间。对成分数据进行处理之前,进行适当的对数比值转换处理可以提高其信息表达。本文以安徽省兆吉口铅锌矿床土壤中Pb数据为示范案例,通过对数比值转换方法优化浓度数据的结构以提高相对信息的表达,并利用无监督学习K-means聚类方法根据对数比值转换数据分布空间质心的距离识别背景和异常信息,最后对K-means聚类方法识别的背景和异常与迭代2倍标准差法和浓度-面积分形分析法进行比较以衡量其表现。结果表明:浓度数据表达的是相对质量信息,而不是绝对质量关系,不同样品间不能通过比较浓度高低推断出质量的多寡关系。对数比值方法可以有效地提高浓度数据的结构和信息表达,K-means方法能够准确识别对数比值转换数据的背景和异常信息,其效果类似浓度-面积分形分析方法,比迭代2倍标准差法好。

    Abstract

    Geochemical data are important part of applied geochemical research and basic achievements of geochemical exploration survey. Exploration geochemical data are mainly expressed in the form of “percentages of element mass concentration (abbreviated to “concentration”)”, which are typical compositional data. It expresses information on relative mass contribution about the ratio of “parts to whole”, rather than information on absolute mass change. The concentration data are distributed in the simplex space, rather than the entire Euclidean space. Before data processing, application of appropriate logarithmic ratio transformation would improve the structure and information representation of compositional data. In this paper, the Pb concentration data in the soil of the Zhaojikou Pb-Zn deposit in the Anhui Province is taken as a case study. The logarithmic ratio transformation methods were used to optimize the data structure of the Pb concentration to improve the expression of relative information. Then the K-means clustering of unsupervised learning methods was adopted to identify the background and abnormal information according to the distances of the centroids of the distribution space of the logarithmic ratio transformation data. Finally, the background and anomaly identified by the K-means clustering method was compared with the results of iterative 2δ method and the concentration-area fractal analysis method to evaluate its performance. The results show that: ① the log-ratio method can effectively improve the structure and information expression of concentration data; ② K-means clustering method can effectively identify the background and abnormal information of log-ratio transformed data; its performance is similar to the concentration-area fractal analysis method, and better than the iterative 2δ method.

  • 地球化学数据是应用地球化学研究的重要组成部分,是化学勘查工作的基础成果。当样品化学分析结果出来后,应该及时将其以图件形式展示出来(Levinson,1974),以便优选进一步工作部署的决策。地球化学图件为矿产勘查、土壤质量评价和风险评估、环境安全和人类健康、地球化学基准等研究提供着重要参考信息(Xie Xuejing et al.,1997; Morris et al.,2003; Smith et al.,2011)。随着社会经济的发展,不同尺度的地球化学调查项目陆续在全球范围内开展,比如中国多目标地球化学调查(Li Min et al.,2014)、中国多尺度地球化学填图(Xie Xuejing et al.,2008)、UNESCO全球地球化学数据库(Darnley et al.,2005)、英国地球化学基准填图(Johnson et al.,2005)、欧洲农牧地土壤地球化学填图(Reimann et al.,2018)、北美土壤地球化学景观计划(Smith et al.,2011)。这些项目的开展,推动着样品采集和分析的标准化(Salminen et al.,1998; de Caritat et al.,2009; Smith et al.,2009)。通常每个样品会分析50~70多个元素/氧化物,进而产生了海量的地球化学数据。对这些数据进行合理的分析、解释和推断是地球化学勘查工作的基本需求。数据解释的关键步骤是识别物质分布的背景和异常。通常认为背景是“未矿化地质体中元素的正常丰度”,异常是“元素对正常地球化学分布模式的偏离”(Hawkes and Webb,1963)。异常下限是背景和异常的阈值,它的选择受元素的分布模式影响。目前,确定背景和异常的方法主要有:① 相关地区的参考值; ② 平均值+n倍标准偏差(n通常为1,2,2.5,3); ③ 直方图; ④ 累积频率图; ⑤ 定向调查; ⑥ 地质统计; ⑦ 分形(Hawkes and Webb,1963; Lepeltier,1969; Cheng Qiuming et al.,1994; Matschullat et al.,2000)。其中,平均值法和分形方法是目前使用最广泛的方法。平均值法的理论基础是“元素在地球中的分布服从正态或对数正态分布”,通过观察样本数据的频率分布模式、期望和偏差,确定背景和异常。由于n的取值由专家的知识和经验决定,导致平均值法确定的异常下限具有一定主观性。平均值法存在的另一个问题是对离群值(outlier)的清洗。为了使数据满足正态分布的假设,通常在统计分析时会将偏离平均值4倍标准差的样本视为离群值而剔除掉。存在的问题是,没有足够的证据表明这些被视为“离群值”的样本不具有地质统计意义。通过剔除离群值得到的背景有时会相对偏低,比如迭代2倍离差法。分形方法的理论基础是“元素在地球中的分布服从尺度法则,具有分形或多重分形模式”,通过对分形维度的研究,确定背景和异常的阈值(Cheng Qiuming et al.,1994; Allegre and Lewin,1995)。

  • 元素的质量百分浓度(下文简称浓度)数据是典型的成分数据。成分数据的定义是:假设存在向量X =[x1x2,···,xn],如果 xn均为正实数且加和为常数,则X称为成分数据(Aitchison,1982)。x1x2,······,xn等变量称为成分数据的组分。组分携带的是关于“组分与总体”相对信息,而不是单个组分的绝对信息。理想条件下,成分数据最多有n-1个自由维度。成分数据是多个独立的成分相互混合后闭合的产物,具有多元变量属性。受闭合的影响,组分xmximi)之间是相互关联纠缠的,这种相互关联通常与相关性和协方差的解释相矛盾,因此大部分多元统计方法不适合处理成分数据(Chayes,1960)。比如地质样品中元素Pb的浓度,代表的信息是元素Pb的质量在样品总质量中所占的比例,与其相对应的是非Pb组分的浓度。虽然Pb和非Pb物质质量之间不一定具有相关性,但如果只考虑浓度关系,Pb浓度的升高/降低会导致非Pb物质浓度的降低/升高,二者成伪相关(spurious correlation)。识别闭合效应导致的伪相关和误解是成分数据解释的一个主要难点(Chayes,1960)。因此,对成分数据进行的统计分析应满足尺度不变性、排列不变性和子成分一致性的原则(Aitchison,1986)。元素的浓度由所有成分的活动结果共同决定。元素在地质作用中的活动可以分为富集、亏损和不活动三类,通常与其电荷/半径比(离子势)有关。溶液中具有低离子势的元素倾向于形成水合阳离子优先离开,具有高离子势的元素倾向于形成水合氧阳离子离开,而具有中等离子势的元素则倾向于在固体沉淀物中保持不动(Pearce,2014)。

  • 机器学习是挖掘数据模式的有效方法。机器学习通常分为监督学习、无监督学习和半监督学习。监督学习需要人类根据研究的问题对部分数据进行标记,以帮助人工智能代理学习到有效的数据特征,从而实现对新的未知数据的预测而解决特定的问题。无监督学习则是通过无标签数据学习隐藏在数据中的模式。学习的数据有没有打标签是监督学习和无监督学习的区别。半监督学习则是介于监督学习和无监督学习之间的一类方法(Russell et al.,2010)。虽然无监督学习比监督学习困难,但更强大。在无监督学习中,没有标签可以利用,因此,该类人工智能的任务不会特别明确,其表现也没有明确的度量标准。通常,人们可以根据最终的结果和任务目标之间的完成情况进行判断。无监督学习最主要的方法是降维和聚类(Figueiredo and Jain,2002)。通过对降维和聚类的应用,可以实现异常检测和群组分割。降维可以有效地应对维数灾难,极大地缓解了人们认识数据在高维空间分布模式的困难。聚类是通过利用数据分布的底层结构和定义对具有相似特征的数据的分组规则进行分类(Jain et al.,1999)。聚类过程无需任何关于数据集的先验知识,仅根据定义的规则把高维空间Rn的数据样本按照相同的特征属性分离成合适的类群。理想的分类结果是每一类数据只包含相似的样本数据,并且与其他类中的样本数据有着明显的差异。这种差异的度量由数据的底层结构和算法的目标决定。根据聚类的模式,可以分为连通性聚类(比如分层聚类)、质心聚类(比如K-means)、分布聚类(比如高斯混合模型聚类)、密度聚类(比如DBSCAN)和网格聚类(比如STING)。聚类在地球化学异常识别中有着大量应用(Kirkwood et al.,2016)。其中,K-means是一种矢量量化广泛使用的无监督聚类方法,旨在将若干个观测样本划分为K个簇,其中每个样本属于簇质心与其距离最近的簇(Lloyd,1982)。这将把样本的数据空间分离到Voronoi单元,并通过最小化样本与簇质心的距离平方实现聚类。K-means方法度量的样本与簇质心的距离,而不是频率。进行K-means聚类时可以不用剔除所谓的“离群值”,K-means算法会自动按照距离将“离群值”归为一类。背景和异常在频率分布上具有相应的分布中心,因此,背景和异常的识别问题可以转换成样本与分布质心距离的问题,进而通过K-means算法实现。K-means在地球化学中的使用通常为综合异常的识别(Zhou Shuguang et al.,2018; Ghezelbash et al.,2020)。

  • 本文的研究目的是如何通过组分比值提取成矿过程的成分质量演化信息,利用对数比值转换方法优化浓度数据相对信息的结构表达,最后使用无监督学习K-means方法根据对数比值转换数据与分布空间质心的距离识别背景和异常信息,以阐明成分数据的信息由数据的内部结构承载。示范案例为安徽省兆吉口铅锌矿床土壤中Pb数据。文章首先介绍了成分数据理论对数比值、组分比值的地质意义和利用K-means原理识别背景和异常的原理,然后以兆吉口铅锌矿床的Pb元素土壤数据进行演示。

  • 1 理论与方法

  • 1.1 成分数据理论

  • 假设某地质样品有n种组分,其所有组分的浓度值应该分布在Sn=X=x1x2xn|xm> 0m=1,2n; m=1n xm=k,其中,k为常量,一般为1或100%,则 X为成分数据。由于常合约束效应(即组分加和恒为100%),成分数据分布在单纯形空间(simplex space),而不是整个欧式空间。常和约束只是信息的一种表达方式,承载了多个组分的相对于总体的信息。在原始信息不变的情况下,可以通过组分之间的比值表达具体的信息。比如Pb对样品总质量的质量贡献可以用Pb与非Pb物质之间的浓度比值表达。多数元素在地球中的分布近似服从对数正态分布(Ahrens,19531954a1954b),因此可以将组分比值进行对数运算来改善数据结构,以满足对成分数据的统计需求和提高信息的表达。这种方法称为对数比值(log-ratio)转换方法。目前主要有加性对数比值(additive log-ratio,alr)、中心对数比值(centred log-ratio,clr)、等距对数比值(isometric log-ratio,ilr; Aitchison,1986; Egozcue et al.,2003)。三种方法存在各自的优点和劣势,需要根据研究的问题和相应的知识来选择相应的转换方法,以使得进行对数比值转换后表达的相对信息保持不变(McKinley et al.,2016)。对成分数据进行统计处理之前,需要进行适当的转换处理以优化其分布结构,以便将数据从单纯形空间投射到欧式空间,减少数据之间的扭曲纠缠程度。alr、clr和ilr是目前的主流方法(Aitchison,1986; Egozcue et al.,2003)。三种转换方法公式如下:

  • alrxi=lnxixn(i=1,2,,n-1)
    (1)
  • clrxi=lnxig(X)(i=1,2,,n-1,n)
    (2)
  • ilr(X)=<X,e1>a,<X,e2>a,,<X,en-1>a
    (3)
  • ei=exp1i,,1i,-1j,,-1j (括号内有 i1i,j-1j)
    (4)
  • yi=iji+jlngx1,x2,,xigxi+1,,xi+j(i+j=n,i=1,2,,n-1)
    (5)
  • 其中,gX)为向量的几何平均值。从公式可以看出,alr转换表达的是数据内的任意n-1个组分相对于第n个组分的比值信息,转换后的数据是不等距的。n维成分数据经过alr转换后只能得到n-1维数据。clr转换表达的是数据内的所有组分相对于几何平均值的比值信息,转换后的数据是等形等距的。n维成分数据经过clr转换后能得到n维数据。但由于clr相对数据中心进行转换,其转换结果会产生一个奇异的协方差矩阵。alr和clr的变换结果没有与成分数据在单纯形空间的分布正交(Aitchison,1986)。ilr实际上是成分数据在正交坐标系的关联表达,其在SnRn-1空间是等距的,由此避免了alr和clr两种转换的缺点。n维成分数据经过ilr转换后能得到n-1维数据,但是,在同一个正交基转换中,只有一个ilr转换数据能够与对应的单元素浓度数据直接地关联起来,其他的数据很难让人理解(Egozcue et al.,2003)。

  • 1.2 组分比值的意义

  • 假设地质作用发生前的地质系统是均匀的,任意成分mi经过地质作用后的质量比值为:

  • MmAMiA=MmO+ΔMmMiO+ΔMi=wmO+ΔwmwiO+Δwi=wmAwiA
    (6)
  • 其中,M表示质量,下角标im表示组分,上角标O表示地质作用发生前的初始状态,A表示地质地质作用发生后的结果状态,w表示质量百分数。从公式(6)可以看出,经过地质作用后的组分比值由原岩的含量及其质量变化率两个因素决定。由于地质作用发生前的地质系统是均匀的,原岩含量可以视为常量,则地质作用发生后的组分比值仅由成分各自的质量变化率决定。

  • i为地质过程中的不活动组分(比如Zr、Hf、Ti),m为任意组分,则:

  • MmAMiA=MmO+ΔMmMiO=1MiOΔMm+MmOMiO=1wiOΔwm+wmOwiO=wmAwiA
    (7)
  • 公式(7)实际上是Gant方程(Grant,1986)的变形,其表明任意组分m与不活动组分i的含量比值wmAwiA是关于m质量变化率Δwm的线性函数,其斜率为不活动成分i的原岩含量的倒数1wiO,截距为初始状态时mi的质量比值wmOwiO。ΔwmwmAwiA之间的图形关系如图1a所示。

  • m质量不发生变化时,即Δwm →0时,

  • MmAMiA=wmAwiA=limΔwm0 1wiOΔwm+wmOwiO=wmOwiO
    (8)
  • 公式(8)表明,如果在地质过程中存在两种以上的组分不发生活动,则任意两种不活动组分的质量比值wmAwiA为常量,且等于原岩中的质量比值wmOwiO

  • 将公式(7)变形为:

  • wmA=Δwm+wmOwiOwiA
    (9)
  • 公式(9)表明经过地质作用后,任意组分m的含量是关于不活动组分i的含量的线性函数,其斜率为Δwm+wmOwiO,其图像为一条经过原点的直线。对wiAwmA进行投图,并连接该点和原点,其斜率差值Δwmwi0可以反映出地质过程不同阶段中m的质量变化率的演化过程。如果m带入富集,则Δwm >0,在wiA-wmA图上为一组经过原点,斜率从wm0wi0不断增加的直线簇。增长的斜率反映了在地质过程不同阶段中m的质量富集情况。如果m带出亏损,则Δwm <0,在wiA-wmA图上为一组经过原点,斜率从wmOwiO不断降低的直线簇。亏损的斜率反映了在地质过程不同阶段中m的质量亏损情况。如果m不活动,则Δwm =0,公式(9)变为:

  • wmA=wmOwiOwiA
    (10)
  • 公式(10)是公式(8)的变形,表明任意两种不活动组分在wiA-wmA图上的投点为一条经过原点的直线,斜率为原岩中mi的质量比值wmOwiO。在实际研究中,可以通过系统采样的方法,通过对不活动组分i和其他组分mwiA-wmA散点图(图1b)研究组分质量的演化关系。

  • 1.3 质量百分浓度、组分比值、对数浓度、对数组分比值的关系

  • 浓度数据的信息解译需要依据问题-知识驱动的模式进行。元素的质量百分浓度数据是样本中某种组分m的质量分数,是经过地质作用后该物质的质量MmA=MmO+ΔMm与样本总质量MA=MmO+ΔMm+Mm0+ΔMother 的比值wm。质量百分浓度无量纲,表达的是组分m相对总质量的百分比贡献,而不是以kg为单位的绝对质量变化。wm的信息由成对的共轭数组[wm w other]组成,一是m的初始质量及其演化信息,二是非m组分的初始质量及其演化信息。二者共同表达了地质作用后单位质量的样本中物质成分的质量百分比。wmw other呈负相关,即方向相反,分布形态关于点(0.5,0.5)对称。这种负相关,不是由m和非m的质量演变关系决定的,而是由于闭合作用导致的。为了去掉负相关性,可以将该信息转载到m的质量与非m组分的质量比值Mm/Mother =wm/wother =wm/1-wmwmwother wm/wother 实际表达的信息是一致的,都是关于样品中m的质量贡献及其演化信息。wmwother 是闭合的共轭数据,而wm/wother 则是开放的自由数据。由公式7可知wmA/wother A=wm0+Δwm/wother 0+Δwother ,如果非m组分为活动组分(Δw other≠0),则wm/wother 同时携带着物质m和非m物质的质量变化信息,而不仅仅是m的质量变化信息。因此,在多元成分数据中不是所有的组分比值都携带着与wm相同的信息。组分比值需要根据具体研究的问题和背景知识进行选择。

  • 与浓度wm信息等同的组分比值是wm/wother =wm/1-wm,其中,wm+wother =1。这是一个组分n =2的成分数据。此时,对应的对数浓度为ln(wm),将n =2带入公式(1)、(2)、(5)进行对数比值转换,得到alrwm=lnwmwother clrwm=lnwmwmwother =12lnwmwother ilrwi=12lnwmwother 。对数浓度可以看成lnwm1的形式,即物质m相对于整体样本的质量贡献的对数比值表达。alrwmclrwmilrwm都是关于lnwmwother 的不同系数的表达,其数据结构是一样的。三种对数比值转换数据与对数浓度转换数据携带的信息是一致的,都是关于样本总质量中物质m和非m物质的经过相应的质量演化后的相对质量贡献。与非m物质的浓度w other信息等同的比值是wother /wm,其对数比值为lnwother /wm=-lnwm/wother 。此时,物质m与非m物质之间的浓度关系清晰可见,即数据分布结构相同,方向相反。由此可见,对数比值转换数据的绝对值的数据结构表达了整个样品成分的质量演化关系,正负表示相对多寡。

  • 图1 组分比值关系图

  • Fig.1 Schematic of component ratios

  • (a)—Δwm-wmAwiA关系图;(b)—wiA-wmA关系图

  • (a) —Plot of Δwm-wmAwiA relationship; (b) —plot of wiA-wmA relationship

  • 1.4 K-means聚类与背景异常识别

  • 1.4.1 K-means聚类原理

  • K-means聚类方法可以将含有N个样本,每个样本有P个变量数据X划分为K类(C1C2,······,Ck),其中Ck表示簇Knk个样本的集合,K是给定的。令XN×P=xijN×PN ×P的数据矩阵,K-means 算法将对XN×P进行分类,以使得每类中行向量(样本)与各自类的质心向量之间距离的平方最少与到其他类的质心向量的距离一样小。簇Ck的质心是P维空间的一个点,通过对簇内样本上的P个变量的值进行平均而得到。簇Ck的第j个变量的质心值为:

  • x-j(k)=1nkiCk xij
    (11)
  • 完整的质心向量为:

  • X-k=x-1(k),x-2(k),,x-P(k)'
    (12)
  • 聚类是一个计算强度非常复杂的任务(Gentle,2002),典型的K-means算法主要包括以下步骤:

  • (1)初始值K由随机P维向量S=s1ks2kSPk决定,1≤kK。第i个样本和第k个中心的欧式距离平方为:

  • d2(i,k)=j=1P xij-sj(k)2
    (13)
  • 样本按d2ik值最小聚类。

  • (2)初始聚类后,由公式(12)计算簇质心,然后按(6)比较样本与每个簇质心的距离,并将样本归入距离最小的类。

  • (3)更新分类的成员,并重新计算簇质心(12)。

  • (4)重复步骤2和3,直至各分类间无样本可以移动。

  • 在聚类过程中,尽量使残差平方和最小,残差平方和为:

  • SSE=j=1P k=1K iCk xij-x-j(k)2
    (14)
  • K聚类初始化后,检查所有样本和质心的距离,如果簇Ck中的某个样本存在:

  • nknk-1d2(i,k)>nk*nk*-1d2i,k*
    (15)
  • 则将Ck中的第i个样本移动到Ck*中,以减少SSE值(Späth,1980)。SSE值在K-means中通常叫做惯性(inertia)。惯性可以用来评价不同簇之间的连贯性,进而用来寻找最优的聚类数。

  • K-means是一种稳健的聚类算法,其收敛结果会受到初始启动条件的影响。K-means的初始启动方法主要有随机法(RANDOM)、Forgy法、Macqueen法和Kaufman法(MacQueen,1967; Anderberg and MEX,1973; Steinley,2006; Kaufman and Rousseeuw,2009)。随机法和Kaufman法效果优于其他方法,但随机法较Kaufman法更常用些。

  • 肘方法(elbow method)是确定K-means聚类数目常用方法(Bholowalia and Kumar,2014)。肘方法是一种依据方差解释百分比确定聚类数量的方法。其算法的思想原则是“当选择的聚类数目模型再次增加一个聚类时,不会提供更好的数据解释”。该方法将簇解释的数据量相对于簇数量绘制成折线图。通常第一个簇会解释很多信息,随着簇数量的增加,在某些时候边际增益会急剧下降并在图中形成一个像手肘一样的拐角。正确的簇数量(K值)一般选择在该点,因此称为“肘部标准”(Marutho et al.,2018)。该方法从K =2开始测试,并在每一步中不断增加1,计算簇数和解释的数据量。在某个K值,新增加的数据解释量会急剧下降,然后当进一步增加K值时,数据解释量会达到一个平台期。该值则被认为是合理的K值。在此之后,尽管增加了簇的数量,但新增的簇非常接近现有的一些簇(Liu Fan and Deng Yong,2021)。肘方法的主要步骤为:① 初始化赋值:K =1; ② 启动; ③ 增加K值:K =K +1; ④ 衡量最优质量解决方案的数据解释量; ⑤ 如果在某个时候解决方案的数据解释增量大幅下降; ⑥ 这是真正的K值; ⑦ 结束。

  • K-means聚类的目标是使同一簇内的样本具有高相似性,不同簇间的样本具有低相似性。聚类表现优劣的评价方法主要有外部评估(external evaluation)、内部评估(internal evaluation)和聚类趋势(cluster tendency)。外部评估是指在真实标签已知的情况下对聚类结果的好坏进行评估,主要包括纯度(准确率)、精确率、召回率、兰德系数和F值等(Lever et al.,2016)。内部评估是指不需要借助于外部信息(比如真实标签),只依靠聚类结果和样本本身的属性来进行评估的方法。常见的内部评估方法有轮廓系数(Silhouette Coefficient)、Calinski-Harabasz Index和Davies-Bouldin系数(Strehl and Ghosh,2002)。聚类趋势是衡量待聚类数据中可能存在的聚类程度,通常在聚类操作之前用霍普金斯统计量(Hopkins Statistic)进行检验。外部评估需要知道真实标签,适用于监督学习。内部评估则适合无监督学习。轮廓是一种解释和验证数据集群内一致性的方法,该技术提供了一个简洁的图形表示每个对象的分类情况。轮廓系数将相同簇中元素的平均距离与其他簇中元素的平均距离进行对比,以衡量一个样本与其自己所属的簇(内聚)相比与其他簇(分离)的相似程度(Rousseeuw,1987)。轮廓系数描述的簇内外差异与K-means方法的基本原理一致,因此本文选则轮廓系数对K-means聚类结果进行评价。

  • 对任意样本iCK,定义ai=1CK-1jCKji dij为样本i到相同簇中其他样本的平均距离,以衡量把样本i分配到簇K的好坏。ai越小,表示分配的越好。其中,CK为簇K中的样本数量,dij为样本i到同一簇中样本j的距离。定义bi=minJK 1CJjCJ dij为样本i到其他不同簇中所有样本的最小平均距离,以衡量样本i与其他簇的相异性(Aranganayagi and Thangavel,2007)。据此,可以定义任意样本i的轮廓系数si为:

  • s(i)=b(i)-a(i)max{a(i),b(i)},CK>1
    (16)
  • si=0CK=1

  • si可以表示为:

  • s(i)=1-a(i)b(i),a(i)<b(i)0,a(i)=b(i)b(i)a(i)-1,a(i)>b(i)
    (17)
  • 由公式(17)可知,轮廓系数的值域为[-1,+1],轮廓系数越接近1,表示簇内样本之间紧凑,簇间距离大,聚类效果越好; 轮廓系数越接近-1,表示聚类效果越差。

  • 1.4.2 背景异常的分类问题

  • 背景和异常的识别问题本质上是分类问题。分类是将相关样本分组到不同类中,以对样本进行识别、区分和理解的过程。主要分为二分类、多分类和等级分类。分类是机器学习的基础任务,已经被广泛应用在新闻分类、图片分类、视频分类、广告过滤、内容审核、推荐系统等领域。机器学习分类通过训练学习,建立一个从输入空间 X 到输出空间Y(离散值)的映射(Goodman and Kruskal,1979)。元素含量具有明显不同的分布模式,如果具有双重分布模式,则可以归纳为二分类问题,比如背景异常问题; 如果具有多重分布模式,则可以归纳为多分类问题,比如岩石的地球化学分类、多重分形分布问题。机器学习分类的主要方法有贝叶斯网络、K-means、决策树、多层感知器、逻辑回归、随机森林、XGBoost、k-NN、Gradient Boost、SVM等。K-means方法能将样本分为KK≥2)个类别,既适合二分类,也适合多分类(Ahmed et al.,2020)。元素的含量分布如果服从简单的双重分布模式,则背景和异常识别问题可以看是二分类问题; 如果服从多重分布模式,则可以看作是多分类问题。当是二分类问题时,则是一维数据K-means聚类的二分类应用特例,即XN×1=xijN×1N为样本数量,P为元素数量(P =1),K =2。公式(11)为质心计算公式,第i个样本与质心的距离为d2ik=xij-sjk2

  • 2 研究案例

  • 本文以安徽省兆吉口铅锌矿床地表Pb元素数据为案例,首先以最简单的二元成分数据展示了Pb浓度和非Pb物质浓度之间的伪相关性及如何使用成分数据理论提高元素的频率分布和信息表达,通过不活动元素Zr与Pb的散点图阐明Pb的质量演化关系,然后利用K-means聚类方法对转换后的数据进行质心和距离的计算,识别元素的背景和异常识别。最后将K-means方法识别的背景和异常与迭代2倍标准差法和分形方法识别背景和异常的结果进行比较,以评价K-means方法的性能。

  • 2.1 地质概况

  • 实验矿床位于安徽省东至县西南方向,处在长江中下游成矿带与皖南多金属成矿带之间。矿区出露地层主要为中元古代蓟县系溪口岩群环沙组(Pt2h)、新元古代青白口系历口群葛公镇组(Qbg)、新生代第四系下蜀组(QP3x),是一套由浅海-滨海相碎屑岩通过区域变质作用发展过来的低绿片岩相浅变质岩。岩性主要为变粉砂岩和变细砂岩,存在少量变粉砂质泥岩。矿区内发育断裂和褶皱构造。断裂构造主要为东至断裂及其次级裂隙带,褶皱构造主要有兆吉口倒转背斜和官港倒转背斜(图2)。矿体主要以透镜体状赋存在东至断裂的次级裂隙中。破碎带内发育碎裂岩和构造角砾岩(乐成生等,2011)。矿体与上盘葛公镇组(Qbg)和下盘环沙组(Pt2h)的界线清晰,围岩蚀变不发育。矿石结构主要为半自形粒状结构和不等粒变晶镶嵌结构。矿石矿物主要为闪锌矿、方铅矿和黄铁矿,脉石矿物主要为石英和方解石(Liu Yanpeng et al.,20162019)。

  • 2.2 数据处理

  • 实验数据为兆吉口铅锌矿床的352个土壤样品的Pb数据(刘艳鹏,2017)。样品于2012年底在中国地质科学院地球物理地球化学勘查研究所中心实验室完成化学分析,Pb元素分析方法为X射线荧光光谱法,检出限为2 μg/g。样品采集和分析方法详见Liu Yanpeng et al.(2019)。由于Zr基本保存在锆石中,其化学性质稳定,不受风化作用影响,本文选择Zr作为不活动元素研究Pb的质量变化关系。

  • 首先根据Pb的浓度w Pb,计算出非Pb物质的浓度w other、Pb组分比值w Pb/w other、对数浓度ln(w Pb)、对数比值alr(w Pb)、clr(w Pb)和ilr(w Pb)等转换数据。然后对数据进行基本描述统计分析,以展示其基本的统计特征。统计的参量有平均值、标准差、中位数、截尾平均值、绝对中位差、最小值、最大值、极差、偏度、峰度和标准误差,并将相关统计结果以箱形图展示。为展示数据的频率分布特征,绘制了直方图和Q-Q图。绘制元素分布以展示Pb浓度w Pb,非Pb物质浓度w other、组分比值w Pb/w other、对数浓度ln(w Pb)、对数比值alr(w Pb)、clr(w Pb)和ilr(w Pb)的空间分布特征。对Zr与Pb绘制散点图研究Pb的质量演化关系,然后利用K-means聚类方法对对数浓度转换和对数比值转换结果进行聚类分析,迭代2倍标准差法和浓度-面积分形方法对提取背景和异常信息,绘制异常分布图展示将K-means提取的异常结果与迭代2倍标准差法和浓度-面积分形得到的异常信息进行对比,评价K-means识别背景和异常的效果。

  • 3 结果

  • 3.1 描述统计

  • Pb浓度w Pb、非Pb物质浓度w other、组分比值w Pb/w other、对数浓度ln(w Pb)和对数比值alr(w Pb)、clr(w Pb)和ilr(w Pb)转换数据的平均值、标准偏差、中位数、截尾均值、绝对中位差、最小值、最大值、偏度、峰度和标准误差列于表1中,并在箱形图(图3)中展示。从表1和图3可以看出,Pb的浓度 w Pb和非Pb物质浓度w other的标准偏差、绝对中位差、极差是一样的,只是集中分布的方向相反。组分比值w Pb/w otherw Pb基本相同。对数浓度和对数比值转换数据的离散程度远远小于浓度w Pb。其频率分布特征展示在直方图(图4)和Q-Q图(图5)上。由图4可以看出,浓度数据的频率分布过于分散,没有展示出较好的分布特征,而经过转换后的对数浓度ln(w Pb)和对数比值alr(w Pb)、clr(w Pb)和ilr(w Pb)数据的分布特征比较清楚,呈现出“单峰”和“右偏”的特征。表1结果表明,ln(w Pb)和alr(w Pb)、clr(w Pb)和ilr(w Pb)的峰度和偏度是一致。图4和图5清楚地显示w Pb、ln(w Pb)、alr(w Pb)、clr(w Pb)和ilr(w Pb)数据基本可以分为两种数据群落。

  • 图2 安徽省兆吉口铅锌矿床地质概况和采样位置图(据乐成生等,2011; Liu Yanpeng et al.,20162019修改)

  • Fig.2 Map of geologic schematic and sampling locations of the Zhaojikou Pb-Zn ore deposit, Anhui Province (modified after Le Chengsheng et al., 2011; Liu Yanpeng et al., 2016, 2019)

  • 表1 安徽省兆吉口铅锌矿床Pb浓度及其转换数据描述统计表

  • Table1 Descriptive statistics of Pb concentration and corresponding transformation data in the Zhaojikou Pb-Zn ore deposit, Anhui Province

  • 图3 安徽省兆吉口铅锌矿床Pb浓度和对应转换数据箱形图

  • Fig.3 Boxplots of Pb concentration and its corresponding transformation data in the Zhaojikou Pb-Zn ore deposit, Anhui Province

  • (a)—Pb浓度箱形图;(b)—非Pb物质浓度箱形图;(c)—Pb比值箱形图;(d)—对数Pb浓度箱形图;(e)—alr转换数据箱形图;(f)—clr转换数据箱形图;(g)—ilr转换数据箱形图

  • (a) —Boxplot of Pb concentration; (b) —boxplot of non Pb material concentration; (c) —boxplot of the ratio of Pb to other material; (d) —boxplot of logarithm of Pb concentration; (e) —boxplot of alr transformation data; (f) —boxplot of clr transformation data; (g) —boxplot of ilr transformation data

  • 图4 安徽省兆吉口铅锌矿床Pb浓度及对应转换数据直方图

  • Fig.4 Histograms of Pb concentration and corresponding transformation data of the Zhaojikou Pb-Zn ore deposit, Anhui Province

  • (a)—Pb浓度直方图;(b)—非Pb物质浓度直方图;(c)—Pb比值直方图;(d)—对数Pb浓度直方图;(e)—alr转换数据直方图;(f)—clr转换数据直方图;(g)—ilr转换数据直方图

  • (a) —Histogram of Pb concentration; (b) —histogram of non Pb material concentration; (c) —histogram of the ratio of Pb to other material; (d) —histogram of logarithm of Pb concentration; (e) —histogram of alr transformation data; (f) —histogram of clr transformation data; (g) —histogram of ilr transformation data

  • 图5 安徽省兆吉口铅锌矿床Pb浓度及对应转换数据Q-Q图

  • Fig.5 Quantile-quantile (Q-Q) plots of Pb concentration and corresponding transformation data of the Zhaojikou Pb-Zn ore deposit, Anhui Province

  • (a)—Pb浓度Q-Q图;(b)—非Pb物质浓度Q-Q图;(c)—Pb比值Q-Q图;(d)—对数Pb浓度Q-Q图;(e)—alr转换数据Q-Q图;(f)—clr转换数据Q-Q图;(g)—ilr转换数据Q-Q图

  • (a) —Q-Q plot of Pb concentration; (b) —Q-Q plot of non Pb material concentration; (c) —Q-Q plot of the ratio of Pb to other material; (d) —Q-Q plot of logarithm of Pb concentration; (e) —Q-Q plot of alr transformation data; (f) —Q-Q plot of clr transformation data; (g) —Q-Q plot of ilr transformation data

  • 3.2 w Pb/w Zr表达Pb的质量演化关系

  • Pb在成矿过程中的质量演化关系可以由w Pb/w Zr表达。W Pb/w Zr可由Zr-Pb的散点图表达(图5),公式(9)表明,在原岩含量 wPbOwZrO不变的情况下,各点与原点连线的斜率ΔwPb+wPbOwZrO反映了Δw Pb的相对变化。图6结果表明,Pb在成矿作用下大致可以分为两类,一类与原点连线的斜率小,近乎平行于x轴,表明其质量迁移率接近于0; 另一类与原点的联系斜率大,与x轴斜交,其质量迁移率明显大于0。两类样本之间的连续过渡。

  • 3.3 w Pbw otherw Pb/w other对数比值与对数浓度的信息

  • 为展示元素Pb的浓度w Pb、非Pb物质的浓度w other和浓度比值w Pb/w other的空间结构和信息,绘制了w Pbw otherw Pb/w other的空间分布图(图7a~c)。从图7a~c中可以看出,w Pbw Pb/w other数据所代表的空间分布信息相同,均表达了Pb在矿区位置含量相对较高,在周边相对较低的分布特点。w other所代表的空间分布信息的方向与w Pbw Pb/w other相反,即非Pb物质在矿区位置含量相对较低,在周围相对较高的特点。三种数据表达的信息是一致的。为展示对数比值与对数浓度之间的信息关系,绘制了对数浓度、对数比值转换数据的空间分布图(图7d~g)。由图7d~g可以看出,ln(w Pb)、alr(w Pb)、clr(w Pb)和ilr(w Pb)数据的空间结构信息相同,均表达了Pb在矿区中心的含量相对较高、周边含量相对较低的特点。对数数据(图7d~g)从矿区周边到矿区中心,Pb含量的分布变化是渐进的,反映了Pb的质量演化关系的连续性,与图6一致,而浓度数据w Pb的则是突变的(图7a)。

  • 3.4 背景与异常

  • 对转换化后的对数浓度ln(w Pb)、对数比值alr(w Pb)、clr(w Pb)和ilr(w Pb)进行K-means聚类识别背景和异常信息,结果如图8、图9和表2所示。从肘方法聚类数图(图8)和轮廓系数(表2)中可以看出,元素Pb的ln(w Pb)、alr(w Pb)、clr(w Pb)和ilr(w Pb)转换数据最优分类方案均是2类。对这四种转换数据进行聚类数为2的K-means聚类分析,将K-means分类的临界值作为异常下限,分类结果的空间位置关系见图9,聚类结果的质心统计在表3中。由图9可以看出,K-means聚类的样本位置与矿体就位空间具有高度耦合性。同时利用迭代2倍标准差法和浓度-面积分形方法对浓度数据w Pb提取异常,并将与K-means方法的结果进行对比。迭代2倍标准差法计算得到的异常下限值为38.59×10-6,浓度-面积分形方法得到的异常下限为120.66×10-6(图10)。K-means聚类、迭代2倍标准差法和浓度-面积分形分析方法得到的异常下限统计在表4中。从表4中可以看出,K-means聚类得到的异常下限对应的浓度数据和浓度-面积分形分析方法的结果相似,均在w Pb=120×10-6左右,而迭代2倍标准差法得到的异常下限值为38.59×10-6,明显偏低。K-means聚类与浓度-面积分形方法的共同点是对数据进行了对数处理,从而提取了“元素在空间上服从对数分布”的规律信息,而迭代2倍标准差法仅从频率角度分析,不能有效识别对数规律信息。根据表4绘制了Pb元素的异常图(图11)。其中,图11a~d为对数浓度ln(w Pb)、对数比值alr(w Pb)、clr(w Pb)、ilr(w Pb)等对数数据的异常图,图11e为浓度-面积分形方法w Pb=120×10-6时的异常图,图11f为迭代2倍标准差法w Pb=38×10-6时的异常图。从图11中可以看出,迭代2倍标准差法的异常面积分布最广,富含的噪音最多,而浓度-面积分形分析和K-means聚类方法识别的异常信号较少,基本都与矿体就位空间对应。对数浓度和对数比值数据的异常图比浓度数据的异常图噪音最少,对数转换数据的信噪比最高。

  • 图6 安徽省兆吉口铅锌矿床Zr-Pb的质量演化关系散点图

  • Fig.6 Scatter plot of Zr-Pb showing Pb's mass involution route in the Zhaojikou Pb-Zn ore deposit, Anhui Province

  • 图7 安徽省兆吉口铅锌矿床Pb浓度及对应转换数据空间分布图

  • Fig.7 Spatial distribution maps of Pb concentration and corresponding transformation data of the Zhaojikou Pb-Zn ore deposit, Anhui Province

  • (a)—Pb浓度分布图;(b)—非Pb物质浓度分布图;(c)—Pb比值分布图;(d)—对数Pb浓度分布图;(e)—alr转换数据分布图;(f)—clr转换数据分布图;(g)—ilr转换数据分布图

  • (a) —Distribution map of Pb concentration; (b) —distribution map of non Pb material concentration; (c) —distribution map of the ratio of Pb to other material; (d) —distribution map of logarithm of Pb concentration; (e) —distribution map of alr transformation data; (f) —distribution map of clr transformation data; (g) —distribution map of ilr transformation data

  • 图8 安徽省兆吉口铅锌矿床K-means聚类肘方法图

  • Fig.8 Elbow method plots of K-means clustering in the Zhaojikou Pb-Zn ore deposit, Anhui Province

  • (a)—对数Pb浓度肘方法图;(b)—alr转换数据肘方法图;(c)—clr转换数据肘方法图;(d)—ilr转换数据肘方法图

  • (a) —Elbow method plot of logarithm Pb concentration; (b) —elbow method plot of alr transformation data; (c) —elbow method plot of clr transformation data; (d) —elbow method plot of logarithm of ilr transformation data

  • 表2 安徽省兆吉口铅锌矿床Pb元素K-means分类轮廓系数表

  • Table2 Silhouette coefficients of logarithm Pb concentration and logarithm ratios in the Zhaojikou Pb-Zn ore deposit, Anhui Province

  • 表3 安徽省兆吉口铅锌矿床Pb元素K-means分类质心表(K =2)

  • Table3 Centroids of K-means classification (K =2) of Pb in the Zhaojikou Pb-Zn ore deposit, Anhui Province

  • 图9 安徽省兆吉口铅锌矿床Pb对数浓度(a)、alr数据(b)、clr数据(c)和ilr数据(d)K-means背景和异常分类与已知矿耦合图

  • Fig.9 Locations maps of K-means cluster samples on logarithmic Pb concentration (a) , alr data (b) , clr data (c) , and ilr data (d) in the Zhaojikou Pb-Zn ore deposit, Anhui Province

  • 表4 兆吉口地区K-means、迭代二倍标准差法、浓度-面积分形方法异常下限表

  • Table4 Thresholds of K-means, iterative 2δ method, and the concentration-area fractal analysis in the Zhaojikou Pb-Zn ore deposit, Anhui Province

  • 注:“-”表示无此项值。

  • 图10 安徽省兆吉口铅锌矿床Pb浓度数据面积-浓度分形图

  • Fig.10 Plot of area-concentration fractal analysis on Pb data in the Zhaojikou Pb-Zn ore deposit, Anhui Province

  • 4 讨论

  • 4.1 组分比值携带质量演化信息

  • 组分比值携带着组分的质量演化信息。公式(6)表明经过地质作用后的组分比值由原岩的组分含量及其质量变化率两个因素决定。单个元素的浓度数据是成分数据,携带元素与整体质量变化的相对变化信息,而不是绝对质量变化信息。公式(9)表明元素浓度携带的信息由单位质量的样本中元素的原岩浓度、元素质量变化率和总体质量变化率共同决定。比如Pb经过地质作用后的浓度数据反映的是元素Pb的原始质量、Pb在地质作用中的质量变化与系统总体质量及其变化的相对比值,而不是以kg为单位的绝对质量的多少。这种变量被约束在单纯形空间内分布。总体质量变化是所有组分共同活动的结果,闭合操作使得组分之间具有伪相关性。比如尽管没有任何理论表明在成矿作用中Pb质量的增加一定会伴随非Pb物质的质量亏损,但在图7中w Pbw other的空间浓度分布呈明显的“此高彼低”的负相关。公式(6)表明组分比值可以消除总体质量变化的约束,进而展示组分之间的相对质量变化率。如果构成组分比值分母的元素为不活动元素,则可反映分子组分的绝对质量变化率。公式(7)表达了任意组分m与不活动组分i的含量比值w/wi是关于m质量变化率Δwm的线性函数,其斜率为不活动成分i的原岩含量的倒数1wiO,截距为初始状态时mi的质量比值wmOwiO。在地质研究中,常常对不同样品的浓度数据进行对比,通过浓度的高低推断质量的多寡。这种分析推断隐含着一个被忽略的假设前提,即样品所代表地质系统的体积和质量在地质过程中保持不变。然而,大量的研究(Helgeson et al.,1970; Grant,1986; Bohrson and Spera,2001; Bjørlykke and Jahren,2012; 马生明和朱立新,2014; 马生明等,2016)表明地质系统是开放的,在地质过程中(比如岩浆分异、成矿作用、风化作用),系统质量和体积是变化的,而不是恒定不变的。因此,在系统质量不守恒的情况下,不同样品中元素的浓度变化不能代表质量的变化。在对浓度数据进行分析时,需要弄清楚其所代表的相对信息含义。

  • 4.2 对数组分比值可以优化浓度数据的信息表达

  • 元素分布服从对数正态分布,经过对数转换后的对数浓度ln(w Pb)、对数组分比值alr(w Pb)、clr(w Pb)、ilr(w Pb)数据则具有较清晰的结构,更能反映对数尺度的规律。从元素浓度分布图(图7)中可以看出,浓度数据w Pb反映的Pb分布规律和alr(w Pb)、clr(w Pb)、ilr(w Pb)大体相似,但存在一定程度的不同。它们都反映出Pb在矿体就位空间浓度相对升高的特点,不同之处在于浓度数据w Pb的空间分布从低浓度到高浓度是突变的,即仅在断裂带的含矿位置呈现出高值,而在两侧的青白口系和蓟县系突兀地降成低值,这种现象,隐含着成矿作用只在矿体就位空间对Pb的分布有影响,而对矿体外部的空间没有影响或影响极小的可能性。而alr(w Pb)、clr(w Pb)、ilr(w Pb)反映出Pb在整个研究区的分布具有渐变特征,隐含着成矿作用对整个矿区的Pb分布都有影响的可能性。这两种可能,后者更加符合经验认知。这种“突变分布”和“渐变分布”的区别表明对数组分比值转换数据要比浓度数据更能表达成矿作用对元素分布的影响。公式(1)、(2)、(5)表明,在二元成分数据(n =2)中,alr(w m)、clr(w m)、ilr(w m)三者是关于lnwm1-wm不同系数的表达,其数据结构是一致的。因此在单元素信息表达方面,alr(w m)、clr(w m)、ilr(w m)并无区别。表1中可以看出,尽管alr(w m)、clr(w m)、ilr(w m)三者的极差、平均值等有区别,但其峰度和偏度是一致的。图3~图5中也可以看到,尽管alr(w m)、clr(w m)、ilr(w m)的值不同,但其形状及携带的信息是一致的。对数组分比值数据携带的相对信息都是从浓度数据中继承过来的,反映了在成矿过程中Pb元素质量相对于其他非Pb物质的原始含量及浓度变化的信息。这种变化信息是尺度不变和子成分连续的(Aitchison,1986),表现在w Pbw Pb/w other,ln(w Pb)、alr(w m)、clr(w m)和ilr(w m)代表的信息是一致的。与原始浓度数据相比较,alr(w m)、clr(w m)、ilr(w m)数据去掉了负相关性,具有和对数浓度相同的数据结构,表达的信息更加符合对数尺度的规律。

  • 4.3 K-means聚类方法可以有效识别背景和异常

  • 地球化学背景是元素在地球分布的正常丰度,其地质意义是反映元素在成矿作用发生前的正常分布。异常是对正常的偏离,即在给定尺度的地球环境中元素相对正常分布模式的偏离,其地质意义是反映成矿作用发生后元素的分布(Hawkes and Webb,1963)。背景和异常与尺度有关,把地球化学背景的取值视为一个分布范围要比视为一个具体的值更加合理,所以背景通常会以“均值±n倍标准差”的形式表达(Matschullat et al.,2000; Reimann and Garrett,2005)。K-means方法将数据分配到不同的簇中,计算各个簇的“质心”及每个样本到质心的“距离”,按照距离的大小,将样本分配到最近的类中。通过循环以上步骤,直至找到分配到类别的数据点不会变化的理想质心。计算“质心”的过程可以理解为寻找元素在不同地质作用下的分布“中心”,“距离”则是衡量元素分布受作用的影响大小。图8和表2结果显示,Pb元素最佳的聚类数为2,表明Pb拥有2个分布“质心”,主要由两种地质作用控制。这两个“质心”,实际上代表着Pb的浓度数据可以分为“背景”和“异常”两个沃罗诺伊原胞。在每个原胞内部的数据到质心的距离是最近的,离对方的“质心”要比离内部“质心”的距离都要远。表4表明了K-means聚类识别的异常效果和浓度-面积分形分析方法一致。从图2、图9和图11可以看出,K-means识别出的“异常”样品与矿体就位空间吻合度高,且异常分布的噪音少,信噪比高。

  • 图11 安徽省兆吉口铅锌矿床Pb元素K-means、分形和迭代2倍标准差法异常图

  • Fig.11 Maps of anomaly distributions of Pb concentration based on K-means, fractal analysis, and iterative2δ method in the Zhaojikou Pb-Zn ore deposit, Anhui Province

  • (a)—对数Pb浓度K-means异常图;(b)—alr数据K-means异常图;(c)—clr数据异常图;(d)—ilr数据K-means异常图;(e)—Pb浓度面积-浓度分形异常图;(f)—Pb浓度迭代2倍标准差法异常图

  • (a) —K-means anomaly map of logarithmic Pb concentration; (b) —K-means anomaly map of alr data; (c) —K-means anomaly map of clr data; (d) —K-means anomaly map of ilr data; (e) —area-concentration anomaly map of Pb concentration; (f) —iterative2δ method anomaly map of Pb concentration

  • 5 结论

  • 本文通过成分数据理论对元素的质量百分浓度数据所携带的信息进行研究,并结合K-means聚类方法识别背景和异常,得到以下结论:

  • (1)组分比值携带着质量演化信息。经过地质作用后的组分比值由原岩的组分含量及其质量变化率两个因素决定。任意组分m与不活动组分i的含量比值wmAwiA是关于m质量变化率Δwm的线性函数,其斜率为不活动成分i的原岩含量的倒数1wiO,截距为初始状态时mi的质量比值wmOwiO

  • (2)任意成分m的含量是关于不活动成分i的含量投图并与原点连线,其斜率可以反映出地质过程不同阶段中m的质量变化率Δw m的相对情况。如果m带入富集,则Δw m>0,在wiA-wmA图上为一组经过原点,斜率从wmOwiO不断增加的直线簇。增长的斜率反映了在地质过程不同阶段中m的质量富集情况。如果m带出亏损,则Δw m<0,在wiA-wmA图上为一组经过原点,斜率从wmOwiO不断降低的直线簇。亏损的斜率反映了在地质过程不同阶段中 m的质量亏损情况。

  • (3)浓度数据表达的是组分和系统总质量的相对变化信息,而不是质量的绝对变化信息。浓度w m携带着物质m和非m物质的两种质量变化关系。在对元素浓度数据解译时需要了解清楚其携带的信息含义,结合研究问题和已有知识进行解读。使用对数浓度、对数组分比值方法转换后的数据要比浓度数据具有更加清楚的分布特征。对数浓度ln(w m)、对数组分比值alr(w m)、clr(w m)、ilr(w m)的频率分布和空间特征要比浓度数据w m的好。alr(w m)、clr(w m)和ilr(w m)三种转换方法的单元素信息表达效果是一样的。

  • (4)K-means方法可以有效提取对数浓度ln(w m)、对数比值alr(w m)、clr(w m)、ilr(w m)转换数据的背景和异常。其效果和分形方法一致,优于平均值法。对数数据的空间分布结构优于浓度数据,表达的信息更加清晰。

  • 参考文献

    • Ahmed M, Seraj R, Islam S M S. 2020. The K-means algorithm: a comprehensive survey and performance evaluation. Electronics, 9(8): 1295~1936.

    • Ahrens L H. 1953. A fundamental law of geochemistry. Nature, 172(4390): 1148.

    • Ahrens L H. 1954a. The lognormal distribution of the elements (2). Geochimica et Cosmochimica Acta, 6(2): 121~131.

    • Ahrens L H. 1954b. The lognormal distribution of the elements (a fundamental law of geochemistry and its subsidiary). Geochimica et Cosmochimica Acta, 5(2): 49~73.

    • Aitchison J. 1982. The statistical analysis of compositional data. Journal of the Royal Statistical Society: Series B (Methodological), 44: 139~160.

    • Aitchison J. 1986. The Statistical Analysis of Compositional Data. Dordrecht: Springer, 1~460.

    • Alle'gre C J, Lewin E. 1995. Scaling laws and geochemical distributions. Earth and Planetary Science Letters, 132(1): 1~13.

    • Anderberg M R. 1973. Cluster Analysis for Applications: Probability and Mathematical Statistics: a Series of Monographs and Textbooks. Cambridge: Academic Press.

    • Aranganayagi S, Thangavel K. 2007. Clustering categorical data using silhouette coefficient as a relocating measure. International Conference on Computational Intelligence and Multimedia Applications (ICCIMA 2007): 13~17.

    • Bholowalia P, Kumar A. 2014. EBK-means: a clustering technique based on elbow method and K-means in WSN. International Journal of Computer Applications, 105(9): 17~24.

    • Bjørlykke K, Jahren J. 2012. Open or closed geochemical systems during diagenesis in sedimentary basins: constraints on mass transfer during diagenesis and the prediction of porosity in sandstone and carbonate reservoirs. AAPG Bulletin, 96(12): 2193~2214.

    • Bohrson W A, SPERA F J. 2001. Energy-constrained open-system magmatic processes ii: application of energy-constrained assimilation-fractional crystallization (ec-afc) model to magmatic systems. Journal of Petrology, 42(5): 1019~1041.

    • Chayes F. 1960. On correlation between variables of constant sum. Journal of Geophysical Research, 65(12): 4185~4193.

    • Cheng Qiuming, Agterberg F P, Ballantyne S B. 1994. The separation of geochemical anomalies from background by fractal methods. Journal of Geochemical Exploration, 51(2): 109~130.

    • Darnley A, Bjorklund A, Bolviken B, Gustavsson N, Koval P, Plant J, Steenfelt A, Tauchid M, Xie Xuejin. 2005. A global geochemical database for environmental and resource management: recommendations for international geochemical mapping. Final Report of IGCP Project 259, Paris, France, UNESCO, 1~122.

    • de Caritat P, Cooper M, Lech M, McPherson A, Thun C. 2009. National geochemical survey of Australia: sample preparation manual. Canberra, Geoscience Australia Record, 1~28.

    • Egozcue J J, Pawlowsky-Glahn V, Mateu-Figueras G, Barceló-Vidal C. 2003. Isometric logratio transformations for compositional data analysis. Mathematical Geology, 35(3): 279~300.

    • Figueiredo M A T, Jain A K. 2002. Unsupervised learning of finite mixture models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(3): 381~396.

    • Gentle M. 2002. The CRM Project Management Handbook: Building Realistic Expectations and Managing Risk. London: Kogan Page Publishers, 1~227.

    • Ghezelbash R, Maghsoudi A, Carranza E J M. 2020. Optimization of geochemical anomaly detection using a novel genetic K-means clustering (gkmc) algorithm. Computers & Geosciences, 134: 104335.

    • Goodman L A, Kruskal W H. 1979. Measures of association for cross classifications. In: Measures of Association for Cross Classifications. New York: Springer New York, 2~34.

    • Grant J A. 1986. The isocon diagram; a simple solution to gresens' equation for metasomatic alteration. Economic Geology, 81(8): 1976~1982.

    • Hawkes H E, Webb S J. 1963. Geochemistry in mineral exploration. Soil Science, 95(4): 283.

    • Helgeson H C, Brown T H, Nigrini A, Jones T A. 1970. Calculation of mass transfer in geochemical processes involving aqueous solutions. Geochimica et Cosmochimica Acta, 34(5): 569~592.

    • Jain A K, Murty M N, Flynn P J. 1999. Data clustering: a review. ACM Computing Surveys (CSUR) 31(3): 264~323.

    • Johnson C C, Breward N, Ander E L, Ault L. 2005. G-BASE: baseline geochemical mapping of Great Britain and Northern Ireland. Geochemistry: Exploration, Environment, Analysis, 5(4): 347~357.

    • Kaufman L, Rousseeuw P J. 2009. Finding Groups in Data: an Introduction to Cluster Analysis. New York: John Wiley & Sons, 1~342.

    • Kirkwood C, Cave M, Beamish D, Grebby S, Ferreira A. 2016. A machine learning approach to geochemical mapping. Journal of Geochemical Exploration, 167: 49~61.

    • Le Chengsheng, Liu Huihua, Zhong Zhaohui, He Jinhua, Wang Yiwei, Shi Chunwang, Zhang Xianchao, Chen Jinglong, Quan Pinggui, Jiang Zhilin, Zhao Yongli, Hong Yuming. 2011. The reconnaissance survey report of the Zhaojikou Pb-Zn ore deposit in the Dongzhi County, Anhui Province. Anhui Provincial Institute of Nuclear Resource Exploration Technology, 125 (in Chinese).

    • Lepeltier C. 1969. A simplified statistical treatment of geochemical data by graphical representation. Economic Geology, 64(5): 538~550.

    • Lever J, Krzywinski M, Altman N. 2016. Classification evaluation. Nature Methods, 13(8): 603~604.

    • Levinson A A. 1974. Introduction to Exploration Geochemistry (2 Edition). Maywood: Applied Publishing, 1~924.

    • Li Min, Xi Xiaohuan, Xiao Guiyi, Cheng Hangxin, Yang Zhongfang, Zhou Guohua, Ye Jiayu, Li Zhonghui. 2014. National multi-purpose regional geochemical survey in China. Journal of Geochemical Exploration, 139: 21~30.

    • Liu Fan, Deng Yong. 2021. Determine the number of unknown targets in open world based on elbow method. IEEE Transactions on Fuzzy Systems, 29(5): 986~995.

    • Liu Yanpeng. 2017. Metallogenic geochemical mechanism of Zhaojikou epithermal Pb-Zn ore deposit in Anhui Province. Doctoral dissertation of Chinese Academy of Geological Sciences (in Chinese with English abstract).

    • Liu Yanpeng, Ma Shengming, Zhu Lixin, Sadeghi M, Doherty A L, Cao Dawang, Le Chengsheng. 2016. The multi-attribute anomaly structure model: an exploration tool for the Zhaojikou epithermal Pb-Zn deposit, China. Journal of Geochemical Exploration, 169: 50~59.

    • Liu Yanpeng, Zhu Lixin, Ma Shengming, Guo Fusheng, Gong Qiuli, Tang Shixin, Gopalakrishnan G, Zhou Yongzhang. 2019. Constraining the distribution of elements and their controlling factors in the Zhaojikou Pb-Zn ore deposit, SE China, via fractal and compositional data analysis. Applied Geochemistry, 108: 104379.

    • Lloyd S. 1982. Least squares quantization in PCM. IEEE Transactions on Information Theory, 28(2): 129~137.

    • Ma Shengming, Zhu Lixin. 2014. Multidimensional anomaly system for hydrothermal nonferrous metal deposits: taking the Matou porphyry molybdenum copper mine in Anhui Province as an example. Journal of Jilin University (Earth Science Edition), 44(1): 134~144 (in Chinese with English abstract).

    • Ma Shengming, Zhu Lixin, Su Lei, Tang Lilin, Liu Yanpeng. 2016. Mineralizing agent sulfur and metallogenic process. Acta Geologica Sinica, 90(9): 2427~2436 (in Chinese with English abstract).

    • MacQueen J. 1967. Some methods for classification and analysis of multivariate observations. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, 281~297.

    • Marutho D, Handaka S H, Wijaya E. 2018. The determination of cluster number at K-mean using elbow method and purity evaluation on headline news. 2018 International Seminar on Application for Technology of Information and Communication, 533~538.

    • Matschullat J, Ottenstein R, Reimann C. 2000. Geochemical background—can we calculate it? Environmental Geology, 39(9): 990~1000.

    • McKinley J M, Hron K, Grunsky E C, Reimann C, de Caritat P, Filzmoser P, van den Boogaart K G, Tolosana-Delgado R. 2016. The single component geochemical map: fact or fiction? Journal of Geochemical Exploration, 162: 16~28.

    • Morris P A, Pirajno F, Shevchenko S. 2003. Proterozoic mineralization identified by integrated regional regolith geochemistry, geophysics and bedrock mapping in western Australia. Geochemistry: Exploration, Environment, Analysis, 3(1): 13~28.

    • Pearce J A. 2014. Immobile element fingerprinting of ophiolites. Elements, 10(2): 101~108.

    • Reimann C, Garrett R G. 2005. Geochemical background—concept and reality. Science of the Total Environment, 350(1): 12~27.

    • Reimann C, Fabian K, Birke M, Filzmoser P, Demetriades A, Négrel P, Oorts K, Matschullat J, de Caritat P, Albanese S, Anderson M, Baritz R, Batista M J, Bel-Ian A, Cicchella D, De Vivo B, De Vos W, Dinelli E, Ďuriš M, Dusza-Dobek A, Eggen O A, Eklund M, Ernsten V, Flight D M A, Forrester S, Fügedi U, Gilucis A, Gosar M, Gregorauskiene V, De Groot W, Gulan A, Halamić J, Haslinger E, Hayoz P, Hoogewerff J, Hrvatovic H, Husnjak S, Jähne-Klingberg F, Janik L, Jordan G, Kaminari M, Kirby J, Klos V, Kweć ko P, Kuti L, Ladenberger A, Lima A, Locutura J, Lucivjansky P, Mann A, Mackovych D, McLaughlin M, Malyuk B I, Maquil R, Meuli R G, Mol G, O'Connor P, Ottesen R T, Pasnieczna A, Petersell V, Pfleiderer S, Poňavič M, Prazeres C, Radusinović S, Rauch U, Salpeteur I, Scanlon R, Schedl A, Scheib A, Schoeters I, Šefčik P, Sellersjö E, Slaninka I, Soriano-Disla J M, Šorša A, Svrkota R, Stafilov T, Tarvainen T, Tendavilov V, Valera P, Verougstraete V, Vidojević D, Zissimos A, Zomeni Z, Sadeghi M. 2018. GEMAS: establishing geochemical background and threshold for 53 chemical elements in European agricultural soil. Applied Geochemistry, 88: 302~318.

    • Rousseeuw P J. 1987. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20: 53~65.

    • Russell S, Russell S J, Norvig P, Davis E. 2010. Artificial intelligence: a modern approach. Prentice Hall, 90: 33~48.

    • Salminen R, Tarvainen T, Demetriades A, Duris M, Fordyce F, Gregorauskiene V, Kahelin H, Kivisilla J, Klaver G, Klein H. 1998. FOREGS geochemical mapping field manual. Espoo, Geological Survey of Finland, 1~38.

    • Smith D B, Woodruff L G, O'Leary R M, Cannon W F, Garrett R G, Kilburn J E, Goldhaber M B. 2009. Pilot studies for the North American soil geochemical landscapes project—site selection, sampling protocols, analytical methods, and quality control protocols. Applied Geochemistry, 24(8): 1357~1368.

    • Smith D B, Cannon W F, Woodruff L G. 2011. A national-scale geochemical and mineralogical survey of soils of the conterminous United States. Applied Geochemistry, 26: S250~S255.

    • Späth H. 1980. Cluster Analysis Algorithms for Data Reduction and Classification of Objects. Chichester: E. Horwood Halsted Press, 1~226.

    • Steinley D. 2006. K-means clustering: a half-century synthesis. British Journal of Mathematical and Statistical Psychology, 59(1): 1~34.

    • Strehl A, Ghosh J. 2002. Cluster ensembles—a knowledge reuse framework for combining multiple partitions. Journal of Machine Learning Research, 3: 583~617.

    • Xie Xuejing, Mu Xuzhan, Ren Tianxiang. 1997. Geochemical mapping in China. Journal of Geochemical Exploration, 60(1): 99~113.

    • Xie Xuejing, Wang Xueqiu, Zhang Qin, Zhou Guohua, Cheng Hangxin, Liu Dawen, Cheng Zhizhong, Xu Shanfa. 2008. Multi-scale geochemical mapping in China. Geochemistry: Exploration, Environment, Analysis, 8(3): 333~341.

    • Zhou Shuguang, Zhou Kefa, Wang Jinlin, Yang Genfang, Wang Shanshan. 2018. Application of cluster analysis to geochemical compositional data for identifying ore-related geochemical anomalies. Frontiers of Earth Science, 12(3): 491~505.

    • 乐成生, 刘惠华, 钟朝晖, 何金华, 王一伟, 史春旺, 张咸超, 陈经龙, 全平贵, 蒋智林, 赵永利, 洪玉明. 2011. 安徽省东至县兆吉口铅锌矿普查报告. 安徽省核工业勘查技术总院, 125.

    • 刘艳鹏. 2017. 安徽省兆吉口浅成低温热液型铅锌矿床成矿地球化学机制研究. 中国地质科学院博士学位论文.

    • 马生明, 朱立新. 2014. 热液成因有色金属矿多维异常体系——以马头斑岩型钼铜矿为例. 吉林大学学报(地球科学版), 44(1): 134~144.

    • 马生明, 朱立新, 苏磊, 汤丽玲, 刘艳鹏. 2016. 矿化剂元素硫(S)与成矿. 地质学报, 90(9): 2427~2436.

  • 参考文献

    • Ahmed M, Seraj R, Islam S M S. 2020. The K-means algorithm: a comprehensive survey and performance evaluation. Electronics, 9(8): 1295~1936.

    • Ahrens L H. 1953. A fundamental law of geochemistry. Nature, 172(4390): 1148.

    • Ahrens L H. 1954a. The lognormal distribution of the elements (2). Geochimica et Cosmochimica Acta, 6(2): 121~131.

    • Ahrens L H. 1954b. The lognormal distribution of the elements (a fundamental law of geochemistry and its subsidiary). Geochimica et Cosmochimica Acta, 5(2): 49~73.

    • Aitchison J. 1982. The statistical analysis of compositional data. Journal of the Royal Statistical Society: Series B (Methodological), 44: 139~160.

    • Aitchison J. 1986. The Statistical Analysis of Compositional Data. Dordrecht: Springer, 1~460.

    • Alle'gre C J, Lewin E. 1995. Scaling laws and geochemical distributions. Earth and Planetary Science Letters, 132(1): 1~13.

    • Anderberg M R. 1973. Cluster Analysis for Applications: Probability and Mathematical Statistics: a Series of Monographs and Textbooks. Cambridge: Academic Press.

    • Aranganayagi S, Thangavel K. 2007. Clustering categorical data using silhouette coefficient as a relocating measure. International Conference on Computational Intelligence and Multimedia Applications (ICCIMA 2007): 13~17.

    • Bholowalia P, Kumar A. 2014. EBK-means: a clustering technique based on elbow method and K-means in WSN. International Journal of Computer Applications, 105(9): 17~24.

    • Bjørlykke K, Jahren J. 2012. Open or closed geochemical systems during diagenesis in sedimentary basins: constraints on mass transfer during diagenesis and the prediction of porosity in sandstone and carbonate reservoirs. AAPG Bulletin, 96(12): 2193~2214.

    • Bohrson W A, SPERA F J. 2001. Energy-constrained open-system magmatic processes ii: application of energy-constrained assimilation-fractional crystallization (ec-afc) model to magmatic systems. Journal of Petrology, 42(5): 1019~1041.

    • Chayes F. 1960. On correlation between variables of constant sum. Journal of Geophysical Research, 65(12): 4185~4193.

    • Cheng Qiuming, Agterberg F P, Ballantyne S B. 1994. The separation of geochemical anomalies from background by fractal methods. Journal of Geochemical Exploration, 51(2): 109~130.

    • Darnley A, Bjorklund A, Bolviken B, Gustavsson N, Koval P, Plant J, Steenfelt A, Tauchid M, Xie Xuejin. 2005. A global geochemical database for environmental and resource management: recommendations for international geochemical mapping. Final Report of IGCP Project 259, Paris, France, UNESCO, 1~122.

    • de Caritat P, Cooper M, Lech M, McPherson A, Thun C. 2009. National geochemical survey of Australia: sample preparation manual. Canberra, Geoscience Australia Record, 1~28.

    • Egozcue J J, Pawlowsky-Glahn V, Mateu-Figueras G, Barceló-Vidal C. 2003. Isometric logratio transformations for compositional data analysis. Mathematical Geology, 35(3): 279~300.

    • Figueiredo M A T, Jain A K. 2002. Unsupervised learning of finite mixture models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(3): 381~396.

    • Gentle M. 2002. The CRM Project Management Handbook: Building Realistic Expectations and Managing Risk. London: Kogan Page Publishers, 1~227.

    • Ghezelbash R, Maghsoudi A, Carranza E J M. 2020. Optimization of geochemical anomaly detection using a novel genetic K-means clustering (gkmc) algorithm. Computers & Geosciences, 134: 104335.

    • Goodman L A, Kruskal W H. 1979. Measures of association for cross classifications. In: Measures of Association for Cross Classifications. New York: Springer New York, 2~34.

    • Grant J A. 1986. The isocon diagram; a simple solution to gresens' equation for metasomatic alteration. Economic Geology, 81(8): 1976~1982.

    • Hawkes H E, Webb S J. 1963. Geochemistry in mineral exploration. Soil Science, 95(4): 283.

    • Helgeson H C, Brown T H, Nigrini A, Jones T A. 1970. Calculation of mass transfer in geochemical processes involving aqueous solutions. Geochimica et Cosmochimica Acta, 34(5): 569~592.

    • Jain A K, Murty M N, Flynn P J. 1999. Data clustering: a review. ACM Computing Surveys (CSUR) 31(3): 264~323.

    • Johnson C C, Breward N, Ander E L, Ault L. 2005. G-BASE: baseline geochemical mapping of Great Britain and Northern Ireland. Geochemistry: Exploration, Environment, Analysis, 5(4): 347~357.

    • Kaufman L, Rousseeuw P J. 2009. Finding Groups in Data: an Introduction to Cluster Analysis. New York: John Wiley & Sons, 1~342.

    • Kirkwood C, Cave M, Beamish D, Grebby S, Ferreira A. 2016. A machine learning approach to geochemical mapping. Journal of Geochemical Exploration, 167: 49~61.

    • Le Chengsheng, Liu Huihua, Zhong Zhaohui, He Jinhua, Wang Yiwei, Shi Chunwang, Zhang Xianchao, Chen Jinglong, Quan Pinggui, Jiang Zhilin, Zhao Yongli, Hong Yuming. 2011. The reconnaissance survey report of the Zhaojikou Pb-Zn ore deposit in the Dongzhi County, Anhui Province. Anhui Provincial Institute of Nuclear Resource Exploration Technology, 125 (in Chinese).

    • Lepeltier C. 1969. A simplified statistical treatment of geochemical data by graphical representation. Economic Geology, 64(5): 538~550.

    • Lever J, Krzywinski M, Altman N. 2016. Classification evaluation. Nature Methods, 13(8): 603~604.

    • Levinson A A. 1974. Introduction to Exploration Geochemistry (2 Edition). Maywood: Applied Publishing, 1~924.

    • Li Min, Xi Xiaohuan, Xiao Guiyi, Cheng Hangxin, Yang Zhongfang, Zhou Guohua, Ye Jiayu, Li Zhonghui. 2014. National multi-purpose regional geochemical survey in China. Journal of Geochemical Exploration, 139: 21~30.

    • Liu Fan, Deng Yong. 2021. Determine the number of unknown targets in open world based on elbow method. IEEE Transactions on Fuzzy Systems, 29(5): 986~995.

    • Liu Yanpeng. 2017. Metallogenic geochemical mechanism of Zhaojikou epithermal Pb-Zn ore deposit in Anhui Province. Doctoral dissertation of Chinese Academy of Geological Sciences (in Chinese with English abstract).

    • Liu Yanpeng, Ma Shengming, Zhu Lixin, Sadeghi M, Doherty A L, Cao Dawang, Le Chengsheng. 2016. The multi-attribute anomaly structure model: an exploration tool for the Zhaojikou epithermal Pb-Zn deposit, China. Journal of Geochemical Exploration, 169: 50~59.

    • Liu Yanpeng, Zhu Lixin, Ma Shengming, Guo Fusheng, Gong Qiuli, Tang Shixin, Gopalakrishnan G, Zhou Yongzhang. 2019. Constraining the distribution of elements and their controlling factors in the Zhaojikou Pb-Zn ore deposit, SE China, via fractal and compositional data analysis. Applied Geochemistry, 108: 104379.

    • Lloyd S. 1982. Least squares quantization in PCM. IEEE Transactions on Information Theory, 28(2): 129~137.

    • Ma Shengming, Zhu Lixin. 2014. Multidimensional anomaly system for hydrothermal nonferrous metal deposits: taking the Matou porphyry molybdenum copper mine in Anhui Province as an example. Journal of Jilin University (Earth Science Edition), 44(1): 134~144 (in Chinese with English abstract).

    • Ma Shengming, Zhu Lixin, Su Lei, Tang Lilin, Liu Yanpeng. 2016. Mineralizing agent sulfur and metallogenic process. Acta Geologica Sinica, 90(9): 2427~2436 (in Chinese with English abstract).

    • MacQueen J. 1967. Some methods for classification and analysis of multivariate observations. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, 281~297.

    • Marutho D, Handaka S H, Wijaya E. 2018. The determination of cluster number at K-mean using elbow method and purity evaluation on headline news. 2018 International Seminar on Application for Technology of Information and Communication, 533~538.

    • Matschullat J, Ottenstein R, Reimann C. 2000. Geochemical background—can we calculate it? Environmental Geology, 39(9): 990~1000.

    • McKinley J M, Hron K, Grunsky E C, Reimann C, de Caritat P, Filzmoser P, van den Boogaart K G, Tolosana-Delgado R. 2016. The single component geochemical map: fact or fiction? Journal of Geochemical Exploration, 162: 16~28.

    • Morris P A, Pirajno F, Shevchenko S. 2003. Proterozoic mineralization identified by integrated regional regolith geochemistry, geophysics and bedrock mapping in western Australia. Geochemistry: Exploration, Environment, Analysis, 3(1): 13~28.

    • Pearce J A. 2014. Immobile element fingerprinting of ophiolites. Elements, 10(2): 101~108.

    • Reimann C, Garrett R G. 2005. Geochemical background—concept and reality. Science of the Total Environment, 350(1): 12~27.

    • Reimann C, Fabian K, Birke M, Filzmoser P, Demetriades A, Négrel P, Oorts K, Matschullat J, de Caritat P, Albanese S, Anderson M, Baritz R, Batista M J, Bel-Ian A, Cicchella D, De Vivo B, De Vos W, Dinelli E, Ďuriš M, Dusza-Dobek A, Eggen O A, Eklund M, Ernsten V, Flight D M A, Forrester S, Fügedi U, Gilucis A, Gosar M, Gregorauskiene V, De Groot W, Gulan A, Halamić J, Haslinger E, Hayoz P, Hoogewerff J, Hrvatovic H, Husnjak S, Jähne-Klingberg F, Janik L, Jordan G, Kaminari M, Kirby J, Klos V, Kweć ko P, Kuti L, Ladenberger A, Lima A, Locutura J, Lucivjansky P, Mann A, Mackovych D, McLaughlin M, Malyuk B I, Maquil R, Meuli R G, Mol G, O'Connor P, Ottesen R T, Pasnieczna A, Petersell V, Pfleiderer S, Poňavič M, Prazeres C, Radusinović S, Rauch U, Salpeteur I, Scanlon R, Schedl A, Scheib A, Schoeters I, Šefčik P, Sellersjö E, Slaninka I, Soriano-Disla J M, Šorša A, Svrkota R, Stafilov T, Tarvainen T, Tendavilov V, Valera P, Verougstraete V, Vidojević D, Zissimos A, Zomeni Z, Sadeghi M. 2018. GEMAS: establishing geochemical background and threshold for 53 chemical elements in European agricultural soil. Applied Geochemistry, 88: 302~318.

    • Rousseeuw P J. 1987. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20: 53~65.

    • Russell S, Russell S J, Norvig P, Davis E. 2010. Artificial intelligence: a modern approach. Prentice Hall, 90: 33~48.

    • Salminen R, Tarvainen T, Demetriades A, Duris M, Fordyce F, Gregorauskiene V, Kahelin H, Kivisilla J, Klaver G, Klein H. 1998. FOREGS geochemical mapping field manual. Espoo, Geological Survey of Finland, 1~38.

    • Smith D B, Woodruff L G, O'Leary R M, Cannon W F, Garrett R G, Kilburn J E, Goldhaber M B. 2009. Pilot studies for the North American soil geochemical landscapes project—site selection, sampling protocols, analytical methods, and quality control protocols. Applied Geochemistry, 24(8): 1357~1368.

    • Smith D B, Cannon W F, Woodruff L G. 2011. A national-scale geochemical and mineralogical survey of soils of the conterminous United States. Applied Geochemistry, 26: S250~S255.

    • Späth H. 1980. Cluster Analysis Algorithms for Data Reduction and Classification of Objects. Chichester: E. Horwood Halsted Press, 1~226.

    • Steinley D. 2006. K-means clustering: a half-century synthesis. British Journal of Mathematical and Statistical Psychology, 59(1): 1~34.

    • Strehl A, Ghosh J. 2002. Cluster ensembles—a knowledge reuse framework for combining multiple partitions. Journal of Machine Learning Research, 3: 583~617.

    • Xie Xuejing, Mu Xuzhan, Ren Tianxiang. 1997. Geochemical mapping in China. Journal of Geochemical Exploration, 60(1): 99~113.

    • Xie Xuejing, Wang Xueqiu, Zhang Qin, Zhou Guohua, Cheng Hangxin, Liu Dawen, Cheng Zhizhong, Xu Shanfa. 2008. Multi-scale geochemical mapping in China. Geochemistry: Exploration, Environment, Analysis, 8(3): 333~341.

    • Zhou Shuguang, Zhou Kefa, Wang Jinlin, Yang Genfang, Wang Shanshan. 2018. Application of cluster analysis to geochemical compositional data for identifying ore-related geochemical anomalies. Frontiers of Earth Science, 12(3): 491~505.

    • 乐成生, 刘惠华, 钟朝晖, 何金华, 王一伟, 史春旺, 张咸超, 陈经龙, 全平贵, 蒋智林, 赵永利, 洪玉明. 2011. 安徽省东至县兆吉口铅锌矿普查报告. 安徽省核工业勘查技术总院, 125.

    • 刘艳鹏. 2017. 安徽省兆吉口浅成低温热液型铅锌矿床成矿地球化学机制研究. 中国地质科学院博士学位论文.

    • 马生明, 朱立新. 2014. 热液成因有色金属矿多维异常体系——以马头斑岩型钼铜矿为例. 吉林大学学报(地球科学版), 44(1): 134~144.

    • 马生明, 朱立新, 苏磊, 汤丽玲, 刘艳鹏. 2016. 矿化剂元素硫(S)与成矿. 地质学报, 90(9): 2427~2436.