|
|
ارائه یک چارچوب مفهومی برای پیشپردازش و بهبود کیفیت نگارههای رویداد در فرایندکاوی
|
|
|
|
|
نویسنده
|
صالحی احمد ,اقدسی محمد ,خطیبی توکتم ,شیخ محمدی مجید
|
منبع
|
پژوهشنامه پردازش و مديريت اطلاعات - 1402 - دوره : 38 - شماره : 3 - صفحه:945 -979
|
چکیده
|
در دنیای پیچیده امروز حیات سازمانها و کسبوکارها بدون شناخت و استفاده کارآمد از دادهها امکانپذیر نخواهد بود. فرایندکاوی با ترکیب روشهای یادگیری ماشین و مفاهیم مدیریت فرایندهای کسبوکار تلاش دارد دانش نهان مربوط به چگونگی اجرای فرایندها را از دادههای ذخیرهشده در سامانههای اطلاعاتی استخراج نماید. اولین گام در فرایندکاوی، فعالیت کشف فرایند است که امکان مدلسازی فرایندها بر مبنای دادههای رویداد ورودی را فراهم میسازد. اما استفاده از این مزیت بدون وجود دادههای مناسب و باکیفیت فراهم نخواهد شد، زیرا هر گونه تحلیل بر پایه دادههای با کیفیت پایین منجر به ایجاد بینش و تصمیمات نامناسبی میشود که بر عملکرد سازمان یا کسبوکار تاثیر منفی خواهد گذاشت. هدف این پژوهش ارائه یک چارچوب مفهومی جدید برای پیشپردازش دادههای ورودی به روشهای کشف فرایند است تا کیفیت مدل فرایند نهایی بهبود یابد. چارچوب مفهومی پیشنهادی با استفاده از یک روش پژوهش کیفی بر اساس نظریه دادهبنیاد پدید آمده است. بدین منظور، 102 پژوهش مرتبط با حوزه کیفیت داده در فرایندکاوی مورد بررسی قرار گرفته و مهمترین چالشهای کیفیت داده در این زمینه پس از پالایش و یکپارچهسازی آنها از ادبیات شناسایی شدهاند که شامل: «رویدادهای آشفته/ کمتکرار»، «رویدادهای پرت»، «رویدادهای ناهنجار»، «مقادیر گمشده»، «قالب زمانی نادرست»، «برچسبهای زمانی مبهم»، «فعالیتهای مترادف» و «اندازه و پیچیدگی» است. در ادامه، گامهای اساسی برای پیشپردازش و پاکسازی مناسب دادهها تعیین شدهاند که دربرگیرنده فعالیتهای «ترمیم»، «کشف ناهنجاری»، «پالایش» و «کاهش ابعاد» میشوند. سپس، چارچوب مفهومی نهایی بر پایه مشکلات کیفیت داده و فعالیتهای پاکسازی شناساییشده ایجاد شده است. برای بررسی عملکرد چارچوب پیشنهادی از چهار مجموعه داده استاندارد برگرفته از فرایندهای واقعی استفاده شده است. این دادهها در مرحله اول بهصورت خام و در مرحله دوم پس از انجام پیشپردازش توسط چارچوب معرفیشده به چهار الگوریتم متداول کشف فرایند اعمال شدهاند. نتایج نشان داد که پیشپردازش دادههای ورودی منجر به بهبود معیارهای کیفیت مدل استخراجشده از الگوریتمهای کشف فرایند میشود. همچنین، برای سنجش اعتبار چارچوب پیشنهادی، عملکرد آن با سه روش پیشپردازش «نمونهبرداری»، «پیشپردازش آماری» و «انتخاب نمونه اولیه» مقایسه شده که برایندها بیانگر کارایی بهتر رویکرد پیشنهادی بوده است. نتایج پژوهش حاضر میتواند بهعنوان یک رهیافت کاربردی توسط متخصصان و تحلیلگران داده و کسبوکار در پروژههای فرایندکاوی مورد استفاده قرار گیرد.
|
کلیدواژه
|
سامانههای اطلاعاتی، مدیریت فرایندهای کسبوکار، فرایندکاوی، کیفیت داده، پیشپردازش نگاره رویداد
|
آدرس
|
دانشگاه تربیت مدرس, ایران, دانشگاه تربیت مدرس, ایران, دانشگاه تربیت مدرس, ایران, دانشگاه تربیت مدرس, ایران
|
پست الکترونیکی
|
msheikhm@modares.ac.ir
|
|
|
|
|
|
|
|
|
a conceptual framework for preprocessing and improving quality of event log in process mining
|
|
|
Authors
|
salehi ahmad ,aghdasi mohammad ,khatibi toktam ,sheikhmohammady majid
|
Abstract
|
in today’s challenging world, organizational growth is not possible without the efficient use of data. process mining uses machine learning methods and business process management concepts to extract hidden knowledge about business processes from data stored in information systems. process discovery is the first step in process mining. the main goal of process discovery is to transform the event log into a process model. however, using process discovery methods will not be possible without appropriate data because any analysis based on low-quality data will lead to poor insights and bad decisions that will negatively affect the performance of the organization or business. this paper aims to provide a new conceptual framework for preprocessing data input into process discovery methods to improve the quality of the extracted model. the proposed conceptual framework has been developed using a qualitative research process based on grounded theory. for this purpose, 102 articles related to the domain of data quality in process mining were reviewed, and the most critical challenges of data quality in this field have been identified after filtering and integrating them from the literature, including “noisy/infrequent events”, “outlier events”, “anomalous events”, “missing values”, “incorrect time format”, “ambiguous timestamps”, “synonymous activities”, and “size and complexity”. then, the basic steps for data preprocessing and cleaning tasks are defined, which include the activities of “repair”, “anomaly detection”, “filtering”, and “dimensional reduction. the final preprocessing framework then builds on data quality issues and identified activities. four standardized datasets derived from real-world processes were used to assess the proposed framework’s performance. firstly, these data are raw, and secondly, four standard process discovery algorithms are applied after preprocessing by the introduced framework. the results showed that the preprocessing of the input data leads to the improvement of the model quality criteria extracted from the process discovery algorithms. furthermore, to evaluate the validity of the proposed framework, its performance was compared with three preprocessing methods: “sampling”, “statistical preprocessing”, and “prototype selection”, which the results indicate better efficiency of the proposed approach. the results of this study can be used as guidelines by data and business analysts to identify and resolve data quality problems in process mining projects.
|
Keywords
|
information systems ,business process management ,process mining ,data quality ,event log reprocessing
|
|
|
|
|
|
|
|
|
|
|