Title of article :
پالايش هوشمند صفحات وب با استفاده از تركيب ويژگي هاي متني، ساختاري و تصويري
Author/Authors :
احمدي، علي نويسنده دانشگاه خواجه نصير طوسي دانشكده برق و كامپيوتر , , زمانيان، مهدي نويسنده دانشگاه خواجه نصير طوسي دانشكده برق و كامپيوتر , , محمدي تاكامي، محسن نويسنده ,
Issue Information :
فصلنامه با شماره پیاپی 4 سال 2009
Pages :
15
From page :
29
To page :
43
Abstract :
استفاده از روش هاي هوشمند براي تحليل صفحات وب اخيرا مورد توجه قرار گرفته است و يكي از كاربردهاي آن در پالايش صفحات غير اخلاقي است. روش هاي موجود بيشتر بر مبناي تحليل ويژگي هاي متني و در برخي موارد تصويري صفحه است اما هر يك مشكلاتي را دارند كه از آن جمله ميزان خطاي بالا در تشخيص صفحات سفيد (Over-blocking) است. در اين مقاله يك روش هوشمند جديد براي پالايش صفحات غيراخلاقي را پيشنهاد كرده ايم كه با استفاده از هر سه نوع ويژگي ساختاري، متني و تصويري و تركيب سلسله مراتبي آنها از طريق يك طبقه بندي كننده بيزي و نيز شبكه هاي عصبي، يك طبقه بندي هوشمند با دقت بالا را به دست مي دهد. در بخش ويژگي هاي متني و ساختاري، با استفاده از يك بانك كلمات مشخصه و آناليز همبستگي و تحليل آماري ويژگي هاي موجود، مجموعه اي كارامد از ويژگي ها انتخاب مي شوند. در مورد ويژگي هاي تصويري، علاوه بر كاربرد ويژگي رنگ پوست بصورت پيكسلي، از مجموعه اي ويژگي هاي مبتني بر اجزا تصوير نيز استفاده شده است. الگوريتم روي 1295 صفحه وب شامل 700 صفحه غيراخلاقي (داراي متن، تصوير، يا هر دو) انگليسي و فارسي و 595 صفحه مجاز شامل صفحات پزشكي، سلامت، ورزشي و غيره مورد آزمايش قرار گرفته و دقت طبقه بندي كلي حدود 90% را به همراه داشته است.
Journal title :
International Journal of Information and Communication Technology Research
Serial Year :
2009
Journal title :
International Journal of Information and Communication Technology Research
Record number :
689842
Link To Document :
بازگشت