|
|
ارائه روشی جدید برای پاکسازی دادهها جهت بهبود کیفیت انبارداده
|
|
|
|
|
نویسنده
|
شهنواز علی ,افضلی مهدی ,رحیمزاده شیما
|
منبع
|
سامانه هاي پردازشي و ارتباطي چند رسانه اي هوشمند - 1399 - دوره : 1 - شماره : 2 - صفحه:33 -41
|
چکیده
|
مهمترین مسئله در مدیریت داده ها، موضوع کیفیت داده است. کیفیت داده میتواند پاکسازی دادهها را قبل از بارگذاری به انبار دادهها تضمین کند. پاکسازی داده فعالیتی است شامل فرآیند تشخیص و اصلاح اشتباهات و تناقضات در انبار داده ها. به دلیل وجود اطلاعات زیاد در بانک های اطلاعاتی مشکلات و تناقضات فراوانی درآن ها به وجود آمده است. هدف اصلی ما ارائه روشی برای رفع تناقضات موجود در بانکهای اطلاعاتی برای پاکسازی دادههای آلوده میباشد. با هدف بهبود کیفیت انبار داده برای تصمیمگیریهای صحیح، روش جدیدی ارائه شده است و برای آزمایش روش پیشنهادی، از بانک اطلاعاتی شناسنامه سلامت دانشجویان دانشگاه علوم پزشکی زنجان ورودی سال های 92 و 93، شامل 845 نفر که در حال حاضر همه آن ها فارغالتحصیل شدهاند به عنوان داده های مورد بررسی استفاده شده است. برنامه پیشنهادی با زبان برنامهنویسی سیشارپ پیادهسازی و اجرا شده است. برنامه یا اپلیکیشن ما در چهار لایه و بهصورت ویندوز اپلیکیشن نوشته شده است. از طریق اجرای روش پیشنهادی توانستیم با بررسی کدملی دانشجویان، دادههای آلوده در این مشخصه را تشخیص داده و سپس فرآیند اصلاح داده را روی آن ها اعمال نماییم. براساس نتایج به دست آمده، میزان داده آلوده در انبار داده تولید شده از 25.79 درصد به 4.97 درصد کاهش یافت.
|
کلیدواژه
|
ﻣﺪﯾﺮﯾﺖ داده، آﻣﺎدهﺳﺎزی، اﻧﺒﺎر داده، دادهﮐﺎوی، دادهﻫﺎی آﻟﻮده، ﭘﺎکﺳﺎزی.
|
آدرس
|
دانشگاه آزاد اسلامی واحد زنجان, گروه ریاضی و آمار, ایران, دانشگاه آزاد اسلامی واحد زنجان, گروه آموزشی مهندسی فن آوری اطلاعات, ایران, دانشگاه علوم پزشکی و خدمات درمانی و بهداشتی زنجان, ایران
|
|
|
|
|
|
|
|
|
|
|
A new approach for data cleaning to improve quality of data warehouse
|
|
|
Authors
|
Shahnavaz Ali ,Afzali Mehdi ,Rahimzadeh Shima
|
Abstract
|
Data management provides a tool that the information organization needs will be answered based on that properly. The most important issue in business intelligence is data quality. Data quality can guarantee data cleaning before uploading it to the data warehouse. Data cleaning is a procedure which includes the process of errors detection and correction and inconsistencies in the data warehouse. Because of the huge number of data in databases many problems and contradictions have been emerged. The main goal of this study is to remove inconsistencies in the databases in order to clean up the dirty data. A new approach with the purpose of improving the quality of data warehouse for correct decisions has been provided. For testing the proposed approach, data collection of student health certificate were used. Through the implementation of this approach we have been able to detect dirty data and then with using students’ national code, the correction process has been applied to them. Based on the achieved results, the amount of dirty data decreased from %25.79 to %4.97.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|