پديد آورندگان :
فرهادي، نيما دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي نقشه برداري , كياني، عباس دانشگاه صنعتي نوشيرواني بابل - دانشكده عمران , عبادي، حميد دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي نقشه برداري
كليدواژه :
يادگيري عميق , شبكه هاي كانولوشن , شناسايي اهداف سنجش از دوري , استخراج گر ويژگي
چكيده فارسي :
پيشرفت هاي صورت گرفته در فناوري تصويربرداري ماهواره اي امكان تهيه اطلاعات متنوع براي شناسايي اهداف را فراهم ميكند. چنين اطلاعاتي فرآيند تفسير تصاوير سنجش از دوري نوري را تسهيل مي بخشد. نوع خاصي از اين تفاسير به فعاليت هاي مربوط به شناسايي اهداف ختم ميشود كه امروزه اكثر تحقيقات انجام شده در اين حوزه با استفاده از شبكه هاي عصبي و تكنيك هاي يادگيري عميق صورت ميگيرد. نحوه طراحي شبكه عصبي كانولوشن مورد استفاده، در دقت شناسايي نقش بسزايي دارد. تحقيقات اخير در زمينه يادگيري عميق و شبكههاي كانولوشن نشان ميدهد كه عميقتر كردن اين شبكهها باعث افزايش دقت آنها ميشود؛ اما گاهي بيش از حد عميقتر شدن باعث به وجود آمدن مشكلاتي ازجمله بالا رفتن پارامترهاي آموزشي، محو شدن گراديان آموزشي، بلا استفاده ماندن بسياري از ويژگيهاي توليدشده و... ميشود كه در پي آن كاهش دقت در شناسايي اهداف موردنظر را خواهد داشت. به اين منظور در اين تحقيق روشي توسعه دادهشده است كه در آن سعي گرديد با حفظ ويژگي هاي توليدشده توسط لايه هاي كانولوشن و انتقال آنها به لايه هاي بعدي، بر اين مشكل غلبه گردد. اين نوع ارتباط بين لايهها، اجازه عميقتر كردن شبكههاي كانولوشني با افت گراديان كمتر را ميدهد. معماري ارائه شده علاوه بر كمرنگ كردن مشكل ناپديد شدن گراديان، باعث ميشود تعداد پارامترها و همچنين مدتزمان مورد نياز براي آموزش يك مدل يادگيري عميق كاهش يابد. بدين منظور در ابتدا با استفاده از تصاوير سنجشازدوري، مجموعهاي از دادههاي آموزشي آماده و پس از پردازشهاي اوليه، عوارض هدف برچسبگذاري شده است. سپس روش پيشنهادشده را بهعنوان استخراج گر ويژگي مدل Faster R-CNN تعريف كرده و بر روي داده هاي آموزشي، آموزش داده ميشود. جهت ارزيابي روش پيشنهادي نيز، بخشي از فرودگاه بينالمللي پكن چين بهعنوان مطالعه موردي اول و بخشي از فرودگاه بين المللي امام خميني (ره) به عنوان منطقه موردمطالعه دوم انتخابشده است و مقادير معيار F1-Measure براي هر دو منطقه به ترتيب برابر 97/9 و 93/7 مي باشد. درنهايت نتايج حاصله از اعمال مدل پيشنهادي، با مدلهاي مختلف شبكه مطرح موجود، مقايسه شده است. نتايج بهدستآمده، دلالت بر قابلاعتماد بودن و مؤثر بودن روش ارائه شده دارند.
چكيده لاتين :
Advances in Remote Sensing technologies provide various information regarding object detection problems. This information makes the interpretation of optical remote sensing images easier. Especial kinds of these interpretations relate to Object Detection approaches that most researches in this field are carried out using Neural Networks and Deep Learning techniques; Design of the network is an important process that affects detection accuracy. Recent researches in the deep learning field and convolutional neural networks show that deeper networks can achieve better accuracy. However, in previous researches, sometimes too deep networks are the reason for other problems such as increasing the number of trainable parameters, vanishing gradients, unused extracted features, etc. These problems decrease the accuracy of the network in recognition of objects. This issue has been mentioned in many types of researches in the field of convolutional networks, and they have tried to meet the challenge by examining different topologies or presenting new training methods. In this article, a model was developed and tried to keep extracted features and transfer them to the next layers. The proposed architecture is a combination of several blocks stacked in a row. The blocks receive their input from the previous block and perform the relevant calculations. Each block consists of several cells that have two layers of convolution. To efficiently use all the features of the training images, the filters used in the convolution layers have kernels with sizes of 1×1 and 3×3. The output of the 3×3 layer in the combining stage is integrated with the information of the previous layers. The architecture of each cell in the proposed network keeps all the extracted features from previous layers to be used in subsequent cells. With these connections between layers, the networks can be deeper with fewer effects of vanishing gradient. In addition to solving gradient problem, this architecture decreases the number of trainable parameters and duration of the training phase impressively. The result of this process is an increase in the ability of existing models to distinguish multi-class objectives.
For this purpose, first, a collection of 320 training images is proposed and preprocessed. The proposed method is defined as feature extractor of Faster R-CNN model, and it is trained on image collection. To evaluate the proposed method, a part of Beijing International Airport and a part of Imam Khomeini International Airport were selected as the first and second case study areas. The F1-Measure criterion values for both regions are 97.9 and 93.7, respectively. While, ResNet architecture with 101 layers of convolution and 14.4 million more trainable parameters than the proposed architecture has achieved values of 96.7 and 93% for the mentioned criterion. Finally, the results of applying the proposed model were compared with different famous models of the existing network. The experimental results indicated the reliability and efficiency of the proposed method.
To improve the proposed architecture in this paper, dilated convolution operators can be used to extract more prominent features. On the other hand, with the aim of development and generalization, the proposed method can be applied in two stages on high resolution remote sensing images; In the first step, the goal is to identify the location of the airport, and in the next step, the planes inside each airport will be identified by the proposed method.