|
|
پالایش هوشمند صفحات وب با استفاده از ترکیب ویژگی های متنی، ساختاری و تصویری
|
|
|
|
|
نویسنده
|
احمدی علی ,زمانیان مهدی ,محمدی تاکامی محسن
|
منبع
|
international journal of information and communication technology research - 2009 - دوره : 1 - شماره : 4 - صفحه:29 -43
|
چکیده
|
استفاده از روش های هوشمند برای تحلیل صفحات وب اخیرا مورد توجه قرار گرفته است و یکی از کاربردهای آن در پالایش صفحات غیر اخلاقی است. روش های موجود بیشتر بر مبنای تحلیل ویژگی های متنی و در برخی موارد تصویری صفحه است اما هر یک مشکلاتی را دارند که از آن جمله میزان خطای بالا در تشخیص صفحات سفید (over-blocking) است. در این مقاله یک روش هوشمند جدید برای پالایش صفحات غیراخلاقی را پیشنهاد کرده ایم که با استفاده از هر سه نوع ویژگی ساختاری، متنی و تصویری و ترکیب سلسله مراتبی آنها از طریق یک طبقه بندی کننده بیزی و نیز شبکه های عصبی، یک طبقه بندی هوشمند با دقت بالا را به دست می دهد. در بخش ویژگی های متنی و ساختاری، با استفاده از یک بانک کلمات مشخصه و آنالیز همبستگی و تحلیل آماری ویژگی های موجود، مجموعه ای کارامد از ویژگی ها انتخاب می شوند. در مورد ویژگی های تصویری، علاوه بر کاربرد ویژگی رنگ پوست بصورت پیکسلی، از مجموعه ای ویژگی های مبتنی بر اجزا تصویر نیز استفاده شده است. الگوریتم روی 1295 صفحه وب شامل 700 صفحه غیراخلاقی (دارای متن، تصویر، یا هر دو) انگلیسی و فارسی و 595 صفحه مجاز شامل صفحات پزشکی، سلامت، ورزشی و غیره مورد آزمایش قرار گرفته و دقت طبقه بندی کلی حدود 90% را به همراه داشته است.
|
کلیدواژه
|
طبقه بندی هوشمند ,پالایش صفحات غیر اخلاقی ,تشخیص رنگ پوست ,شناسایی صفحات وب ,ویژگی های متنی و تصویری
|
آدرس
|
دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشگاه خواجه نصیر طوسی دانشکده برق و کامپیوتر, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشگاه خواجه نصیر طوسی دانشکده برق و کامپیوتر, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشگاه خواجه نصیر طوسی دانشکده برق و کامپیوتر, ایران
|
پست الکترونیکی
|
m2takami@gmail.com
|
|
|
|
|
|
|
|
|
|
|
|
Authors
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|