شماره ركورد كنفرانس :
4155
عنوان مقاله :
كاربرد متنكاوي در تعيين قيمت خودروهاي كاركرده
پديدآورندگان :
ميركمالي سيدجمال Mirkamali.sj@gmail.com دانشگاه اراك
كليدواژه :
متنكاوي , قيمتگذاري , سايت باما , درخت رگرسيوني , وبكاوي , تحليل مولفههاي اصلي
عنوان كنفرانس :
اولين همايش ملي روشهاي مدرن در قيمت گذاري هاي بيمه اي و آمارهاي صنعتي
چكيده فارسي :
بيش از هفتاد سال از مقاله مشهور استيونز ميگذرد كه در آن انواع داده به چهار دسته اسمي، ترتيبي، فاصلهاي، و نسبتي تقسيمبندي شد. بر اساس اين دستهبندي و با توجه به جايگاه و تعداد متغيرهاي مورد بررسي انواعي از ابزارهاي تحليل آماري ارايه شد كه امكان استنباط از اين انواع داده را فراهم كردند. اگرچه اين دستهبندي هنوز هم پايه بسياري از تحليلهاي آماري است، معرفي دستههاي جديدي از داده و روشهاي تحليل آنها نيز ضروري به نظر ميرسد. دادههايي از نوع متن، تصوير، ويديو، صوت، ايموجي، و … از جمله انواع دادهاي هستند كه در سالهاي اخير به طور وسيع توسط كاربران اينترنت توليد و در مراكز داده ذخيره شدهاند.
در اين بين دادههاي متني به دليل اينكه در جامعه كاربران اينترنت و به طور خاص در شبكههاي اجتماعي فراگيرتر است از اهميت بسيار بالايي برخوردار است. به همين دليل توسعه ابزارهاي تحليل دادههاي متني ضروري به نظر ميرسد. تا كنون فعاليتهاي قابل توجهي در اين زمينه صورت گرفته است به طوري كه در حال حاضر متن كاوي به يك ميان رشته بين تخصصهاي آمار، زبان شناسي، و يادگيري ماشين تبديل شده است. عليرغم پيشرفتهايي كه در اين حوزه صورت گرفته است، ابزارهاي تحليل متون فارسي چندان توسعه نيافته است و نيازمند توجه بيش از پيش پژوهشگران به اين بخش است.
در سالهاي اخير سايتها و شبكههاي اجتماعي فارسي زبان در بخشهاي اقتصادي بخصوص بازار كالاهاي دست دوم فعاليت قابل توجهي داشتهاند. از جمله اين سايتها ميتوان به سايتهاي شيپور، ديوار، و باما اشاره كرد.
در اين مقاله، به عنوان يك مطالعه موردي، تجزيه و تحليل محتواهاي متني سايت باما را براي قيمتگذاري خودروهاي كار كرده در نظر گرفتهايم. براي اين منظور ابزارها و روشهاي استخراج دادههاي متني را توسعه داده و سپس با استفاده از مدل هاي آماري دادههاي استخراج شده را مورد تحليل و ارزيابي فرار دادهايم و نتايج حاصل از آن را ارايه كرده ايم.