• Title of article

    پالايش هوشمند صفحات وب با استفاده از تركيب ويژگي هاي متني، ساختاري و تصويري

  • Author/Authors

    احمدي، علي نويسنده دانشگاه خواجه نصير طوسي دانشكده برق و كامپيوتر , , زمانيان، مهدي نويسنده دانشگاه خواجه نصير طوسي دانشكده برق و كامپيوتر , , محمدي تاكامي، محسن نويسنده ,

  • Issue Information
    فصلنامه با شماره پیاپی 4 سال 2009
  • Pages
    15
  • From page
    29
  • To page
    43
  • Abstract
    استفاده از روش هاي هوشمند براي تحليل صفحات وب اخيرا مورد توجه قرار گرفته است و يكي از كاربردهاي آن در پالايش صفحات غير اخلاقي است. روش هاي موجود بيشتر بر مبناي تحليل ويژگي هاي متني و در برخي موارد تصويري صفحه است اما هر يك مشكلاتي را دارند كه از آن جمله ميزان خطاي بالا در تشخيص صفحات سفيد (Over-blocking) است. در اين مقاله يك روش هوشمند جديد براي پالايش صفحات غيراخلاقي را پيشنهاد كرده ايم كه با استفاده از هر سه نوع ويژگي ساختاري، متني و تصويري و تركيب سلسله مراتبي آنها از طريق يك طبقه بندي كننده بيزي و نيز شبكه هاي عصبي، يك طبقه بندي هوشمند با دقت بالا را به دست مي دهد. در بخش ويژگي هاي متني و ساختاري، با استفاده از يك بانك كلمات مشخصه و آناليز همبستگي و تحليل آماري ويژگي هاي موجود، مجموعه اي كارامد از ويژگي ها انتخاب مي شوند. در مورد ويژگي هاي تصويري، علاوه بر كاربرد ويژگي رنگ پوست بصورت پيكسلي، از مجموعه اي ويژگي هاي مبتني بر اجزا تصوير نيز استفاده شده است. الگوريتم روي 1295 صفحه وب شامل 700 صفحه غيراخلاقي (داراي متن، تصوير، يا هر دو) انگليسي و فارسي و 595 صفحه مجاز شامل صفحات پزشكي، سلامت، ورزشي و غيره مورد آزمايش قرار گرفته و دقت طبقه بندي كلي حدود 90% را به همراه داشته است.
  • Journal title
    International Journal of Information and Communication Technology Research
  • Serial Year
    2009
  • Journal title
    International Journal of Information and Communication Technology Research
  • Record number

    689842