شماره ركورد :
1295937
عنوان مقاله :
ارائه روش تلفيقي كاهش نويز‌ داده كاوي براي تخمين ماده آلي خاك با طيف سنجي VNIR
عنوان به زبان ديگر :
Integrated noise reduction-data mining method for soil organic matter prediction by VNIR spectrometry
پديد آورندگان :
اكبري، الهه دانشگاه حكيم سبزواري - دانشكده جغرافيا و علوم محيطي - گروه سنجش‌از‌دور و GIS، سبزوار، ايران , ميرزايي، سهام دانشگاه تهران - دانشكده جغرافيا ، تهران، ايران , تومانيان، آرا دانشگاه تهران - دانشكده جغرافيا - گروه سنجش‌از‌دور و سيستم اطلاعات جغرافيايي، تهران، ايران , درويشي بلوراني، علي دانشگاه تهران - دانشكده جغرافيا - گروه سنجش‌از‌دور و سيستم اطلاعات جغرافيايي، تهران، ايران , بهرامي، حسينعلي دانشگاه تربيت مدرس - دانشكده كشاورزي - گروه خاكشناسي، تهران، ايران
تعداد صفحه :
5
از صفحه :
1
از صفحه (ادامه) :
0
تا صفحه :
5
تا صفحه(ادامه) :
0
كليدواژه :
ﻣﺎده آﻟﯽ ﺧﺎك , ﻃﯿﻒ ﺳﻨﺠﯽ , رﮔﺮﺳﯿﻮن ﮐﻤﺘﺮﯾﻦ ﻣﺮﺑﻌﺎت ﺟﺰﯾﯽ , درﺧﺖ رﮔﺮﺳﯿﻮن ارﺗﻘﺎ ﯾﺎﻓﺘﻪ , ﺟﻨﻮب ﻏﺮﺑﯽ ﺗﻬﺮان
چكيده فارسي :
خاك به عنوان منبع طبيعي ناهمگن و بزرگترين مخزن كربن آلي در اكوسيستم زميني، از فرآيندها و مكانيسم­ هاي پيچيده­اي تشكيل شده است. ضرورت برآورد اطلاعات دقيق خاك در مقياس ملي و منطقه ­اي به منظور بهبود مديريت خاك و درك خصوصيات خاك و چگونگي تاثيرگذاري آن در كشاورزي، منجر به علاقه­مند شدن محققين به اين حوزه شده است. محتواي (SOM) به عنوان شاخص كيفيت خاك در حاصلخيزي آن و توليد مواد غذايي تاثيرگذار است و نيز به عنوان يك متغير كليدي در مباحث محيطي و كشاورزي محسوب مي­شود. جمع­ آوري تعداد زيادي داده خاك دقيق با هدف مديريت منابع غذايي براي جمعيت آينده ضروري است. بنابراين استفاده از روش­ هاي تخمين سريع و ارزان و البته افزايش دقت برآورد محتواي SOM در ارزيابي و مديريت منابع خاك مي­ تواند كمك كننده باشد. در كشاورزي دقيق، مقياس اطلاعات خاك مورد نياز براي مديريت اراضي و محصول بسيار كوچكتر بوده و به طور معمول مقياس جمع ­آوري داده ­هاي ميداني جوابگوي اين نياز نمي­باشد. نمونه­ برداري و آناليز تعداد زياد نمونه خاك و تهيه نقشه توزيع SOM، براي مناطق وسيع و بزرگ، بسيار دشوار است. علاوه بر اين، روش­ هاي سنتي آزمايشگاهي تجزيه و تحليل خاك براي نمونه ­برداري زياد نياز به نيروي كار بيشتر بوده و علاوه براين زمان­بر و هزينه ­بر است و نياز به اپراتور آزمايشگاه متخصص دارد. هدف از تحقيق حاضر، مقايسه عملكرد دو روش PLSR و روش يادگيري ماشين درخت رگرسيون ارتقا يافته (BRT) براي پيش­ بيني مواد آلي خاك با استفاده از طيف­ VNIR، است. با استفاده از تركيب تبديل موجك و تشخيص باندهاي مستقل، نويزهاي موجود در داده ­هاي طيف­ سنجي خاك كاهش يافته است. علاوه بر اين، طيف­ ها يا باندهاي مستقل و موثر در طيف­سنجي مواد آلي خاك انتخاب گرديدند. براين اساس، در اين تحقيق، روش­ هاي Wavelet-PCA-PLSR و Wavelet-PCA- BRT توسعه داده شده است و كارايي هر يك از آن­ها ارزيابي مي­ گردد. مواد و روش­ ها 42 نمونه خاك از منطقه ناهمگن كشاورزي شهري در تهران در 30-0 سانتي ­متر خاك جمع­ آوري گرديد. ماده آلي خاك با استفاده از روش والكي بلك و بازتاب طيفي خاك با استفاده از طيف­سنج FieldSpec3 اندازه ­گيري شد. مشتق اول و دوم بازتاب، جذب طيفي و مشتق اول و دوم آن محاسبه گرديد. به منظور كاهش نويز و هموار­سازي طيف، از روش تبديل موجك تابع ماتريس Sym8 استفاده شده است. همچنين، تبديل موجك به منظور نشان دادن و بارزسازي ويژگي­ ها در طيف انجام مي­ شود. از تجزيه و تحليل مولفه­ هاي اصلي و آزمون هادلينگز با فاصله اطمينان 95% به منظور تشخيص داده­ هاي پرت استفاده شد. پس از حذف داده پرت از هر مجموعه، روش PLSR و درخت رگرسيون ارتقا يافته بر روي بازتاب، جذب و مشتق اول و دوم آن‌ها در 5 سطح از تبديل موجك اجرا شده است. سپس، با مقايسه نتايج، مدل مناسب از طريق اعتبارسنجي انتخاب شد. در هنگام استفاده از نمونه عددي، به جاي درخت تصميم­ گيري از درخت رگرسيون استفاده مي­شود، اما روند آن­ ها يكسان است. در درخت رگرسيون از جستجو حريصانه استفاده مي­ شود. بنابراين، با پاسخ دادن به سوال باينري كه حداكثر اطلاعات در مورد متغيير پاسخ از طريق كدام نود بدست مي ­آيد، گره ريشه و دو فرزند آن تعيين مي گردد. اين فرايند در هر گره فرزند تكرار مي­ شود. توليد ساختمان درخت به صورت بازگشتي تكرار شده است و يك معيار توقف معمولي در نظر گرفته مي­ شود. معيار توقف مي­ تواند نظير رسيدن به انشعابي كه قابل تقسيم نيست و اطلاعات كمتري مي ­دهد و يا زماني كه اطلاعات در گره حاوي كمتر از، پنج درصد از كل داده ­ها است، باشد. همچنين، سعي در به حداقل رساندن اندازه درخت است. براي تقسيم گره، عامل جيني، عامل آنتروپي و غيره به منظور به حداقل رساندن اين عوامل استفاده شده است. علاوه بر اين، در هر شاخه، مجموع مربع خطاها محاسبه شده و آن­ هايي كه مقادير حداقل دارند، انتخاب مي­شود. روش درخت رگرسيون ارتقا يافته، دو روش درخت رگرسيون و تكنيك ارتقا را به منظور بهبود توان پيش ­بيني هر كدام از آن­ ها تركيب مي­ كند. به منظور كاليبراسيون و اعتبارسنجي مدل، به طور تصادفي به ترتيب 30 و 12 نمونه خاك انتخاب و براي بيان صحت مدل ­ها از آماره ­هاي R2 و RMSE استفاده شده است. علاوه بر اين، براي انتخاب بهترين فاكتور توليد مدل PLSR براي هر طيف، واريانس و باقي مانده مقادير برآوردي و RMSE اعتبارسنجي استفاده شد. در نهايت، براي ايجاد سطح پيوسته و آگاهي از نحوه تغيير مواد آلي خاك در منطقه، نقشه مواد آلي خاك با استفاده از تصوير ماهواره­اي لندست OLI و روش با دقت بيشتر توليد شد. نتايج و بحث برآورد رضايت بخش ميزان SOM، ايجاد سطوح پيوسته با دقت بيشتر براساس كاهش نويز و حفظ داده ­هاي مفيد، همواره مورد توجه محققين بوده است. در اين تحقيق نيز با استفاده از داده­ هاي طيف­ سنجي خاك و اندازه­گيري آزمايشگاهي ميزان مواد آلي، سعي در برآورد چنين سطح پيوست ه­اي به منظور تخمين SOM بوده است. با استفاده از تبديل موجك و حذف داده­ هاي پرت براساس هادلينگز در روش PCA، داده­ هاي مفيد براي توليد سطح پيوسته استخراج شدند. در اين روش­، باندها يا طيف­ هاي مستقل و موثر در مدل باقي مي­مانند. در حالي ­كه، لين و همكاران به منظور انتخاب باندهاي مناسب در تخمين مواد آلي خاك از روش تبديل موجك و همبستگي استفاده نموده­ اند. با استفاده از روش همبستگي در مناطق ناهمگن همانند منطقه مورد مطالعه در اين تحقيق، نتايج رضايت بخشي بدست نمي ­آيد. روش PCA به طور غير نظارت شده، با در نظر گرفتن مقادير داده، اجزاي اصلي و مقادير و بردارهاي ويژه را محاسبه نموده و سعي در ماكزيمم نمودن ماتريس كوواريانس براساس تجزيه مقادير منفرد دارد. مدل­ هاي تخمين مواد آلي خاك به دو روش PLSR و BRT براي طيف بازتابي، جذبي و مشتق اول و دوم آن ها، اجرا شد. بررسي نتايج بدست آمده از توسعه اين دو مدل حاكي از اين است كه مدل BRT، با مقادير RMSE و R2، به ترتيب 0.58 و 0.94، در داده مشتق دوم طيف اصلي، نتايج بهتري را بدست آورده است. از طرفي، مقادير RMSE و R2 در مدل PLSR براي داده مشتق اول طيف اصلي، به ترتيب 1.20338 و 0.938 بدست آمده است. بطور كلي مقايسه RMSE مدل BRT و مدل PLSR، دلالت بر نتايج بهتر مدل BRT در اين منطقه دارد. نتيجه­ گيري نتايج اين تحقيق مويد اين مطلب است كه در مناطق ناهمگن كشاورزي - شهري، مي­ توان از پتانسيل مدل­ هاي توسعه داده شده Wavelet-PCA-PLSR و Wavelet-PCA-BRT براي تخمين مواد آلي خاك استفاده نمود. چرا كه اندازه­ گيري ميداني ويژگي­ هاي شيميايي خاك نظير مواد آلي بسيار زمان و هزينه ­بر است. علاوه بر اين، امكان اندازه­ گيري اين ويژگي ­ها در پوشش وسيع وجود ندارد. با استفاده از اين توابع پيوسته و تصوير ماهواره ­اي، مي­توان نقشه مقادير مواد آلي خاك را در پوشش وسيع توليد نمود تا از آن بتوان در مطالعاتي نظير پتانسيل كشت، حاصلخيزي خاك و توسعه پايدار آن بهره­ برداري نمود.
چكيده لاتين :
Soil as a heterogeneous natural resource and the largest organic carbon storage in terrestrial ecosystems is composed of complicated processes and mechanisms. The necessity of accurately estimating soil properties on the national and regional scales for improving soil management, and understanding their influence on agriculture have resulted in attracting researchers’ attentions to this field. Soil Organic Matter (SOM) is considered as an indicator of soil quality in fertility and food production. It is also considered as a key variable in environmental and agricultural issues. Thus, using rapid and cost effective and more accuracy estimation of the SOM content in soil resources assessment and management can be helpful. In precision agriculture, the scale of soil data required for management of lands and products is very large. The scale of collecting filed data usually cannot fulfil those needs. Sampling, preparing and analyzing the large number of soil samples as well as producing the distribution map for large areas are very difficult. In addition, traditional laboratory methods of soil analysis are boring, time-consuming, and costly. In fact, they need specialized laboratory operators. The aim of the present study is to compare the performance of the two Partial Least Squares Regression (PLSR) and Boosted Regression Tree (BRT) for predicting SOM using VNIR spectrometry data. With the use of combining Wavelet transform and diagnosis of independent bands, noises existing in soil spectroscopic data has reduced. In addition, independent and effective spectra and bands in spectroscopy of SOM were selected. Consequently, in the present research, Wavelet-PCA-PLSR and Wavelet-PCA- BRT models were developed and performance were assessed. Materials and Methods 42 surface (0-30cm) soil samples in the heterogeneous areas of urban-agricultural regions in Tehran province were collected. Soil Organic Carbon (OC) measured using Walki Black method and the samples’ spectrums were measured by ASD FieldSpec-3 spectrometer. First and second derivitation of spectral reflectance and absorbance were calculated. To reduce noises and smooth the spectrum, Sym8 matrix function of wavelet transform was used, wavelet transform is conducted to show and reconstruct characteristics in the spectrum. Principal component analysis and Hotelling's T2 test with 95% confidence level were used for outlier detection. PLSR and BRT was conducted onreflectance, absorbance and their first and second derivatives, at five levels of wavelet transform. Then, by comparing the results, the appropriate model was selected via validation. For doing the PLSR in nonlinear data, Kernel functions were used. When using numerical samples, regression trees are used instead of decision trees. But their processes are the same. In regression trees, the greedy algorithm was used. Therefore, by answering the binary question through which node the maximum data about respons variable is obtained, the root node and its two children are obtained. Producing the structure of trees is recursively repeated and a typical stopping criterion is considered. The stopping criterion can be as achievement to a split which cannot be divided and provides fewer data, or when data in the node contain 5% of the total data. Moreover, the tree size should be minimized. For splitting the node, the Ginny factor, entropy factor, etc. were used for minimizing those factors. In addition, the total square error is calculated in each branches and those with minimized values are selected. In addition, in the regression tree, the pruning process is employed for over-fitting. The BRT consists of the two regression tree and boosting techniques for improving the predictability of each of them. For calibration and validation of the model, 30 and 12 soil samples were randomly selected, respectively and R2 and RMSE were used for quantify the accuracy of models. Moreover, to select the best production factor of the PLSR mode, explained variance residual values and RMSE of validation were considered. Finally, soil organic matter map was produced using Landsat OLI satellite imagery and the proofed method for the study area. Results and Discussion The SOM value acceptably, the creation of continuous mappings with more accuracy based on noise reduction and retention of suitable data have always received researchers’ attentions. The present study tried to find the better method such a more accurate quantization of SOM using soil spectroscopic data. Using wavelet transform and outlier removal based on Hotelling's T2 via the PCA, the suitable data were extracted for producing the more accurate quantization. In this method, independent and effective bands or spectra remain in the model, while Lin et al. used wavelet transform and correlation techniques for selecting appropriate bands in estimating SOM. Since the soil reflectance is more complex and affected by several factors, using correlation method in these heterogeneous areas such as the area studied in the present study does not lead to acceptable results. Considering the data values, the unsupervised PCA method calculates principle components and eigenvalues and eigenvectors. It also tries to maximize the covariance matrix based on Singular Value Decomposition (SVD). SOM estimation models were developed using the PLSR and BRT for reflectance and absurbance spectra and their first and second derivation. Based on the results, the BRT method with RMSE and R2 values as 0.58 and 0.94, respectively leads in the better results for the data of the second derivation of reflectance. Moreover, values of RMSE and R2 in the PLSR were obtained as 1.0338 and 0.938, respectively for the data related to the second derivation of reflectance. However, comparing RMSE of the BRT and PLSR shows better results of the BRT model. Conclusion In that field measurements of chemical properties of soil such as organic matters are critically time-consuming and costly. Furthermore, measuring those properties is not possible in the large samples. So, the results of the present study indicate that in heterogeneous agricultural-urban areas, potential of the developed models such as wavelet-PCA-PLSR and wavelet-PCA-BRT can be used for estimating SOM. Meanwhile, these two algorithms do not make distributional assumptions and therefore, there are no strong assumptions about normality. Using continuous functions and satellite imagery, the map of the level of SOM in large scales can be prepared in order that it can be utilized in studies such as cultivation potential, soil fertility, and sustainable development of soil.
سال انتشار :
1401
عنوان نشريه :
سنجش از دور و سامانه اطلاعات جغرافيايي در منابع طبيعي
فايل PDF :
8710735
لينک به اين مدرک :
بازگشت