|
|
ارائه روشی برای حل مشکل دادههای گم شده، پرت و نویزی بهمنظور بهبود عملکرد تعامل انسان و اطلاعات
|
|
|
|
|
نویسنده
|
مازوچی مجتبی ,ربیعی لیلا ,مرادی محمد
|
منبع
|
تعامل انسان و اطلاعات - 1401 - دوره : 9 - شماره : 4 - صفحه:13 -25
|
چکیده
|
زمینه و هدف: خطا در جمعآوری دادهها و عدم توجه به دادههایی که در پروسه جمعآوری به هر دلیل دچار نویز شدهاند باعث ایجاد اشکال در تحلیلهای مبتنی بر داده و بهتبع آن، تصمیمسازیهای اشتباه میگردد؛ لذا رفع مشکل دادههای گم شده و یا نویزی، قبل از انجام مراحل پردازش و تحلیل دارای اهمیت حیاتی در سامانههای تحلیلی است. هدف این مقاله، ارائه روشی بهمنظور شناسایی دادههای نویزی، پرت و دادههای گم شده و ارائه راهکاری مناسب برای هموارسازی این دادهها است. روش پژوهش: این پژوهش بر مبنای هدف، از نوع کاربردی است. بهمنظور تحلیل دادهها از تکنیکهای دادهکاوی شامل هموارسازی پیالهای و مدل رگرسیون بهمنظور شناسایی و جاگذاری دادههای پرت و نویزی استفاده شده است. نتایج: نتایج آزمایشهای انجام شده در محیط واقعی مربوط به دادههای شبکههای اجتماعی، نشاندهنده عملکرد مناسب روش پیشنهادی است. همچنین نشاندادهشده است که روش پیشنهادی دارای دقت بالاتری در مقایسه با روشهای هموارسازی پیالهای، میانگین و رگرسیون خطی است. بهطوریکه برای دادههای مربوط به بخش توئیت، میانگین مربعات خطای بهدستآمده برای روش پیشنهادی برابر 0٫04، روش هموارسازی پیالهای برابر 0٫38، روش رگرسیون خطی برابر 0٫05 و روش جایگزینی با میانگین برابر 0٫06 بوده است. نتیجهگیری: روش ارائه شده در این مقاله، میتواند در ابتدا از طریق یکسوم و دوسوم نرمال، دادههای پرت را شناسایی کند و سپس با مدل رگرسیون خطی به جایگزینی دادههای پرت بپردازد که در نتیجه سبب بهبود عملکرد استفاده و پردازش اطلاعات و بهبود تعامل انسان و اطلاعات خواهد شد.
|
کلیدواژه
|
دادههای نویزی، دادههای پرت، دادههای گم شده، هموارسازی، روش پیالهای، مدل رگرسیون
|
آدرس
|
پژوهشگاه ارتباطات و فناوری اطلاعات, ایران, پژوهشگاه ارتباطات و فناوری اطلاعات, ایران, پژوهشگاه ارتباطات و فناوری اطلاعات, ایران
|
پست الکترونیکی
|
mohammad.moradi@ut.ac.ir
|
|
|
|
|
|
|
|
|
a method to solve the problem of missing data, outlier data, and noisy data to improve the performance of human and information interaction
|
|
|
Authors
|
mazoochi mojtaba ,rabiei leila ,moradi mohammad
|
Abstract
|
introduction: errors in data collection and failure to pay attention to data that is noisy in the collection process for any reason cause problems in data-based analysis and, as a result, wrong decision-making. therefore, solving the problem of missing or noisy data before processing and analysis is of vital importance in analytical systems. the purpose of this paper is to provide a method to identify noisy data, outliers, and missing data and provide a suitable solution for these data.methods: this study is applied research. data mining techniques including binning smoothing and regression models have been used to identify and replace outlier and noisy data.results: the results of the tests performed in the real environment related to the data of social networks show the proper performance of the proposed method. it has also been shown that the proposed method has higher accuracy compared to the methods of binning smoothing, average and linear regression. so that for the data related to the tweet section, the mean squared error obtained for the proposed method was equal to 0.04, the binning smoothing method was equal to 0.38, the linear regression method was equal to 0.05 and the average method was equal to 0.06.conclusion: the method presented in this article can initially identify outlier data through one-third and two-thirds normal, and then replace the outlier data with a linear regression model, which results in improving the performance of using and processing information and improving human-information interaction
|
Keywords
|
noisy data ,outliers ,missing data ,smoothing ,binning method ,regression model
|
|
|
|
|
|
|
|
|
|
|