اعتبارسنجی

تعریف اعتبارسنجی

همانگونه که داده‌های (Data) درست و با کیفیت در سیستمهای اطلاعاتی تاثیر مثبت و سازندهای دارند دادههای بیکیفیت و غلط به همان اندازه تاثیر منفی و تخریب کنندهای درتصمیمگیریهای سازمان به جای میگذارند، از همین رو می‌توان داده‌ها را مهمترین دارایی یک سازمان دانست. بنابراین یک سازمان باید به هر قیمتی که شده، داده‌های خود را معتبر و قابل استفاده در همه حالت نگهداری کند. طراحی چارچوبی برای محاسبه کیفیت دادهها این امکان را به دارندگان سیستمهای اطلاعاتی میدهد که بتوانند همیشه کیفیت داده‌های موجود در سیستم را اندازه‌گیری کنند و از به فساد کشیده شدن آنها مطلع گردند با توجه به لزوم استفاده از اطلاعات درست در سیستم‌های اطلاعاتی، اندازه‌گیری کیفیت اطلاعات اهمیت ویژه‌ای دارد. اعتبار سنجی داده (Data Validation) و تائید یا ممیزی داده (Data Verification) دو فرآیندی هستند که داده‌های یک سازمان را معتبر و مورد تائید نگه می‌دارند و این اطمینان را به استفاده‌کننده از داده می‌دهند که داده‌ها از کیفیت مطلوبی برخوردار هستند. فرآیند اعتبارسنجی اطمینان حاصل می‌کند که داده‌ها درست و با معنی هستند و تائید داده‌ها هم اطمینان حاصل می‌کند که داده‌ها و تمامی کپی‌هایی که از این داده‌ها گرفته می‌شود همگی به خوبی همان داده اصلی هستند که وجود داشته است و تغییری در آنها ایجاد نشده است. بنابراین هر دو فرآیندی برای اطمینان حاصل کردن از این هستند که داده‌های سازمانی به هیچ عنوان دچار خطا و خرابی نشوند و سالم باقی بمانند.

چرایی استفاده از اعتبارسنجی

فرآیند اعتبارسنجی داده به منظور بررسی عدم وجود تفاوت بین دادههای اصلی و دادههای کپی شده یک سازمان مورد استفاده قرار می‌گیرد همچنین به عنوان یک مکانیزم برای بررسی صحت و تمامیت داده‌ها به هنگام جابه‌جایی داده‌ها استفاده میشود. اطلاعات اولیه برای تصمیم‌گیری و سیاست‌گذاری‌ها بسیار لازم و ضروری است و سیاست‌گذاری صحیح همواره بر پایه اطلاعات صحیح صورت می‌گیرد. بی‌توجهی به این مهم می‌تواند منشاء مخاطراتی عمده در تصمیم‌گیری‌ها باشد. ضعف نظام اطلاعاتی در بیشتر موارد منجر به ضعف تصمیم‌گیری و در واقع ضعف در اداره امور شود. هدف از اعتبارسنجی داده‌ها، اطمینان از سطح مشخصی از کیفیت داده‌های نهایی است. با این وجود بررسی کیفیت در ابعاد مختلفی نیز وجود دارد که می‌توان به ارتباط، دقت، به موقع و دقیق بودن، دسترسی و وضوح، مقایسه و هماهنگی، تکمیل اشاره نمود. از این رو، تعیین ابعاد بررسی حائز اهمیت است. در ادامه هر یک از این ابعاد به طور خلاصه شرح داده می‌شوند.

دقت

دقت به طور کلی به اندازه‌گیری تفاوت بین پارامتر هدف و پارامتر برآورد اشاره دارد. این تفاوت به طور بالقوه ناشی از اجزای خطای بسیاری است که می تواند به دو بخش خطاهای نمونه‌گیری و خطاهای غیرنمونه‌گیری تقسیم شود.

خطاهای غیر‌نمونه‌گیری متشکل از اجزای مختلف هستند از جمله: خطاهای پوشش، خطاهای اندازه‌گیری، خطاهای پردازش، عدم پاسخ ، که به طور کلی در روش‌های اعتبارسنجی برای تائید حضور این خطاها از عنوان خطاهای اندازه‌گیری در آن داده‌ها استفاده می‌شود.

از آنجائیکه خطاهای نمونه‌گیری در اندازه‌گیری‌های مستقیم رخ می‌دهند، خطاهای هزینه‌بر و سخت تلقی می‌شوند. ارزیابی خطای غیر‌نمونه گیری اغلب بر اساس "تکرار اندازه‌گیری" بر روی نمونه یکسان انجام می‌شود.

انسجام و مقایسه

تعریف جامع هماهنگی و مقایسه پذیری ادعا می کند که آمارها باید در طول زمان، در بین مناطق و کشورها قابل مقایسه باشند.

واضح و قابل دسترسی

ابعاد کیفی در فرآیند اعتبارسنجی توسط بررسی قابلیت دسترسی و وضوح، بیان می‌شود.

به موقع بودن

در زمان طراحی یک روش اعتبار‌سنجی داده، به موقع بودن می‌تواند به عنوان یک محدودیت مشاهده شود.

نکته حائز اهمیت در مورد مفهوم اعتبار‌سنجی داده‌ها، تائید این مورد می‌باشد که آیا داده‌ها دارای سطح معینی از کیفیت هستند یا نه؟ اعتبار سنجی داده‌ها نمی‌تواند یک سطح از کیفیت را تضمین کند، اما حداقل یک سطح مشخصی از انطباق داده‌ها به عنوان حداقل مورد نیاز برای دریافت داده‌های قابل قبول در نظر گرفته می‌شود.

سطوح اعتبارسنجی و دستورالعمل‌های اعتبارسنجی

بسیاری از محققان نظام‌های اطلاعاتی، فرایند جمع‌آوری داده‌ها تا استخراج اطلاعات را به سه دسته (داده‌های خام، اطلاعات و دانش) تقسیم‌بندی می‌نمایند. عدم درستی و دقت در جمع‌‌آوری و ثبت داده‌ها نهایتا منجر به دانش نادرست و به تبع آن سیاست‌گذاری غلط خواهد شد. عدم بررسي صحت و سقم داده‌ها و همچنين دقت داده‌های ثبت شده از مشكلات و معضلات كشورهاي درحال توسعه و حتي پيشرفته مي‌باشد. اطمينان حاصل نكردن از درستي داده‌ها همواره برنامه ريزي‌هاي كلان منطقه‌اي را تحت شعاع قرار داده و منجر به نتايج جبران‌ناپذيري خواهد نمود .

از دیدگاه تجاری توجه به فعالیت‌های اعتبار‌سنجی حائز اهمیت است. مقدار اطلاعات مورد نیاز و مراحل فرآیند اعتبارسنجی برای تعیین سطوح اعتبار‌سنجی مهم هستند. این رویکرد به ویژه برای طبقه‌بندی و طراحی فعالیت‌های اعتبارسنجی در یک سازمان مفید است.

به طور کلی فرض می شود که دو سطح اعتبار عمومی وجود دارد:

  • بی‌عیب بودن داده‌ها، به معنی سازگاری با الزامات ساختاری،
  • منطقی بودن و ثبات آماری داده‌ها،

همچنین سطوح اعتبارسنجی را می‌توان به صورت زیر تقسیم‌بندی نمود:

  • سطح 0: سازگاری با الزامات ساختاری
  • سطح 1: سازگاری در مجموعه داده‌ها
  • سطح 2: سازگاری با مجموعه‌های داده‌های دیگر در همان حوزه و در همان منبع داده
  • سطح 3: انطباق در یک دامنه مشابه بین منابع داده‌های مختلف
  • سطح 4: سازگاری بین دامنه‌های جداگانه در یک ارائه دهنده داده‌های مشابه
  • سطح 5: سازگاری با داده‌های سایر ارائه‌دهندگان داده

که این تقسیم‌بندی سطوح را می‌توان در شکل زیر مشاهده نمود:



دستورالعمل‌هایی که برای فرآیند اعتبارسنجی دادهها مورد استفاده قرار می‌گیرند، توسط یک سری قوانین عمل می‌کنند که به آنها قوانین اعتبارسنجی داده (Data Validation Rules) گفته می‌شود و این قوانین باید از بدو شروع یک تجارت سازمان تهیه و تدوین شوند. داده‌هایی که با این قوانین مطابقت نداشته باشند بر عملکرد اجرای تجاری تاثیر منفی می‌گذارند. یکی دیگر از کارهایی که در فرآیند اعتبارسنجی دادهها انجام می‌شود اعتبارسنجی داده‌های ورودی (Input Validation) به سازمان است که یک مکانیزم امنیتی است، به عنوان مثال میتوان وبسایت یک سازمان را در نظر گرفت که برای فیلد‌های ورودی اطلاعات کاربران مکانیزم اعتبارسنجی دادههای ورودی را قرار می‌دهد تا از حملاتی که به این فیلدها با وارد کردن مقادیر نامعتبر انجام می شود جلوگیری کند.


اعتبارسنجی داده‌ها به عنوان یک فرآیند

اعتبار سنجی داده ها در فرآیند تولید آماری

فرآیندهای تجارتی برای تولید آمار رسمی در GSBPM شرح داده شده است. طرح بندی که در GSBPM به منظور اعتبارسنجی داده‌ها انجام می‌شود دارای فازهایی به صورت زیر می‌باشد:

فاز2.5:

فاز اول، مرحله طراحی است که دراین مرحله به طور خاص پردازش و تجزیه و تحلیل طراحی انجام می‌شود. توضیحاتی که در GSBPM بیان می‌شود به صورت زیر است:

"این زیر-فرآیند، روش پردازش آماری را که در طول مراحل" پردازش "و" تجزیه و تحلیل "مورد استفاده قرار می‌گیرد را، طراحی می کند، که می‌تواند شامل: مشخص کردن روال برای برنامه‌نویسی، ویرایش، اعمال، ارزیابی، ادغام، اعتبارسنجی و تکمیل مجموعه داده‌ها باشد."

فاز4.3:

زیر-فاز اول از GSBPM که در آن اعتبارسنجی تائید می‌شود، فاز 4.3 است. این تائیدیه مربوط به جنبه‌های قراردادی داده‌ها می‌باشد و ارتباطی با محتوا ندارد:

"برخی از اعتبارسنجی‌های اساسی و پایه‌ای از ساختار و یکپارچگی اطلاعات دریافت شده ممکن است در این زیر-فرایند رخ دهد، به عنوان مثال بررسی می‌شود که داده‌ها در فرمت مناسب بوده و حاوی فیلدهای مورد انتظار باشند. "

فاز5.3:

زیر-فاز 5.3 به طور خاص به اعتبار‌سنجی اشاره می‌کند و در واقع "بازبینی و اعتبار سنجی" نامیده می‌شود. توضیحی که در GSBPM برای این زیر-فاز بیان می‌شود عبارت است از:

"این زیر-فرآیند به منظور بررسی و شناسایی مشکلات بالقوه، خطاها و اختلافات مانند رد و بدل شدن، عدم پاسخ و غلط املایی داده‌ها می‌باشد. همچنین می‌تواند اعتبار داده‌های ورودی را بررسی نماید و این روند ممکن است تکرار شود، اعتبارسنجی داده‌ها برخلاف دستورالعمل ویرایش از پیش تعریف شده، معمولا در یک مجموعه منظم اجرا می‌شود. بررسی و تائید می‌تواند به داده‌های هر نوع منبعی قبل و بعد از یکپارچگی اعمال شود در حالی که اعتبار‌سنجی به عنوان بخشی از مرحله "فرآیند" محسوب می‌شود و در عمل برخی از عناصر اعتبار‌سنجی ممکن است در کنار فعالیت‌های مجموعه‌ای، به ویژه برای حالت‌هایی مانند جمع‌آوری وب، رخ دهد. در حالی که این فرآیند فرعی مربوط به شناسایی خطاهای واقعی یا بالقوه است، هر فعالیت اصلاحاتی که در واقع داده‌ها را تغییر می‌دهد در فرآیند فرعی 5.4 انجام می شود "

فاز6.2:

آخرین زیر-فاز، 6.2 است که مربوط به خروجی معتبر می‌باشد.

"این فرآیند فرعی مرحله‌ای است که آمارگیران کیفیت خروجی تولید شده را با یک چارچوب کیفیت کلی و انتظارات، ارزیابی می‌کنند. این فرآیند فرعی همچنین شامل فعالیت‌هایی است که با تأثیر تجمعی از ایجاد یک مجموعه دانش در مورد یک دامنه خاص آماری، درگیر گردآوری اطلاعات هستند. این دانش پس از آن در محیط فعلی اعمال می‌شود تا هرگونه اختلاف از انتظارات را شناسایی نموده و تجزیه و تحلیل آگاهانه را مجاز نماید. در ادامه نمودار جریان توصیف مراحل اعتبارسنجی مختلف در ارتباط با ویرایش اطلاعات آماری نشان داده می‌شود.

روند اعتبارسنجی داده‌ها

توصیف چرخه فرآیند اعتبارسنجی داده‌ها به منظور بهبود عملکرد فرآیند تولید آماری مفید است. در این راستا، اولا فرآیند باید به عنوان یک فرآیند پویا و پیچیده دیده شود. تطبیق دستورالعمل‌های اعتبارسنجی نه تنها در دامنه یک مجموعه داده یا یک دامنه آماری، بلکه در همه دامنه‌های آماری تاثیر‌گذار باشد. ثانیا، این فرآیند باید به عنوان بخشی جدایی‌ناپذیر از کل پروسه تولید اطلاعات آماری باشد.

چرخه اعتبار‌سنجی داده شامل فعالیت‌هایی است که مستقیما به هر دامنه آماری مرتبط با تعریف و اجرای اعتبار داده‌ها مرتبط است. در مرحله پیاده‌سازی، دستورالعمل‌های اعتبارسنجی مورد بحث و ارزیابی قرار می‌گیرد. در مرحله اجرا، داده‌ها بر اساس دستورالعمل‌ها بررسی می شوند و نتایج اعتبار‌سنجی، اندازه گیری و مورد سنجش قرار می‌گیرند. این خروجی‌ها به منظور بهبود لیست دستورالعمل‌های اعتبار‌سنجی مورد بررسی قرار خواهد گرفت و برای بهبود روش اعتبارسنجی داده‌ها به روش تکراری استفاده می‌شود. چرخه اعتبارسنجی داده‌ها را می‌توان در شکل زیر به طور خلاصه نمایش داد:



سنجه‌هایی برای اعتبارسنجی داده‌ها

هدف ازمعرفی مجموعه‌ای از دستورالعمل‌های معتبر برای اعتبارسنجی، دستیابی به سطحی از رضایت‌بخشی است که به متخصصین آمار اجازه می‌دهد که نتایجی که از فرآیند اعتبارسنجی به دست می‌آید، عاری از اشتباهات مهم و اساسی است و هزینه فرآیند اطمینان منطقی داشته باشند که نتیجه فرآیند اعتبارسنجی از اشتباهات مهم محسوب می شود. از آنجائیکه دستورالعمل‌های اعتبارسنجی بر اساس تجربیات به روزرسانی می‌شود، می‌توان به پویا بودن فرآیند اعتبارسنجی پی برد. اقدامات زیر در خصوص به روزرسانی دستورالعمل‌های اعتبارسنجی داده‌ها انجام می شود:

  • دستورالعمل‌هایی با تاثیر / کارآمدی کمتر جایگزین می‌شوند،
  • دستورالعمل‌های موثرتر / کارآمد برای شناسایی مشکلات سیستماتیک گنجانده شود،
  • دستورالعمل‌های جدیدتر برای تشخیص خطاهای ناشی از بررسی‌های قبلی اضافه شوند.

مهم است شاخص‌هایی که اطلاعات کمی را برای کمک به طراحی و نگهداری روش اعتبار‌سنجی داده‌ها و نظارت بر روش اعتبار‌سنجی داده‌ها را در اختیار می‌گذارند، وجود داشته باشند. چنین شاخص‌هایی را می‌توان در دسته‌بندی‌های زیر گنجاند:

  • شاخص‌هایی که فقط قوانین خاصی از اعتبارسنجی را در نظر می‌گیرند،
  • شاخص‌هایی که فقط داده ها را مشاهده می‌کنند،
  • شاخص‌هایی که هر دو داده را مشاهده نموده و مرجع را در نظر می‌گیرند.

ارزیابی قواعد اعتبار‌سنجی می‌تواند با بررسی اثر‌بخشی آن، یعنی ظرفیت رسیدن به هدف، انجام شود. با این حال، هنگام ارزیابی یک قاعده اعتبار‌سنجی، باید ظرفیت آن را برای یافتن خطاهای مهم نیز مورد توجه قرار داد. این دو جنبه، که با عنوان شدت تعریف می‌شود، باید در هنگام ارزیابی تاثیر یک قاعده اعتبار‌سنجی، به طور مشترک مورد توجه قرار گیرد.



ویژگی‌های دستورالعمل‌های اعتبارسنجی

تمامیت

منظور از ویژگی تمامیت، این است که تا چه حد دانش پیشین از مجموعه‌ای از داده‌ها، به صورت دستورالعمل‌های اعتبارسنجی بیان شده است. در این رابطه، دو مشکل مربوط به ویژگی تمامیت ممکن است رخ دهد. اولین مشکل عدم تمامیت می‌باشد به این معنی که محدودیت‌هایی وجود دارند که توسط فیزیک یا منطق بیان شده است و نمی‌توان به وضوح یا به طور ضمنی به صورت مجموعه‌ای از قوانین بیان نمود. دوم بیش از حد کامل بودن است، به این معنی که مجموعه دستورالعمل‌ها بیش از حد محدود هستند و این امر باعث حذف شدن ترکیب چند ارزش می‌شود که در حقیقت معتبر هستند.

فراوانی

مجموعه‌ای از دستورالعمل‌های اعتبارسنجی، فضای همه احتمالات را به یک منطقه معتبر یا قابل پذیرش و یک منطقه غیرقابل پذیرش تقسیم می‌کنند. دو دلیل برای حذف فراوانی از مجموعه‌ی دستورالعمل‌ها وجود دارد. اولین دلیل را می‌توان به حداقل رساندن برخی از محدودیت‌ها در دستورالعمل‌ها بیان نمود و دلیل دوم، کاهش زمان یا حافظه برای برخی از الگوریتم‌های ارائه شده در دستورالعمل‌ها می‌باشد، این الگوریتم‌ها به شدت به تعدادی از دستورالعمل‌های ارائه شده بستگی دارند. ناکامی در حذف فراوانی دستورالعمل‌ها باعث می‌شود تا برای کارشناسان این حوزه، دستورالعمل‌ها کمتر قابل درک باشند.

امکان‌پذیری

مجموعه‌ای از دستورالعمل‌ها، امکان‌پذیر یا سازگار نامیده می‌شوند، زمانی که ناحیه‌ی پذیرش تعریف شده توسط یک دستورالعمل، مجموعه‌ای ناتهی باشد. ناسازگاری یا غیرقابل دسترس بودن نیز زمانی رخ می‌دهد که، برای مثال مجموعه‌ای از دستورالعمل‌ها حاوی قواعدی باشند که با خود متضاد هستند، به عنوان مثال قاعده‌ی به طور واضح مغایر با قاعده‌ی است.

پیچیدگی

بر خلاف تمامیت، فراوانی و امکان‌پذیری، هیچ تعریفی از پیچیدگی مجموعه‌ای از قواعد اعتبار‌سنجی وجود ندارد، با این حال اکثر آمار‌گران یا تحلیل‌گران یک حس بصری در مورد پیچیدگی دارند. البته می‌توان در مورد پیچیدگی یک دستورالعمل توضیحاتی را بهصورت زیر بیان نمود:

اطلاعات مورد نیاز برای ارزیابی یک دستورالعمل

اولین مفهوم پیچیدگی مربوط به انواع اطلاعاتی است که برای ارزیابی یک دستورالعمل اعتبار‌سنجی ضروری است. در ساده‌ترین مورد، یک قاعده را می توان با مقایسه یک مقدار داده با یک محدوده‌ی ثابت از مقادیر ارزیابی کرد. در سطوح پیچیده‌تر، دستورالعمل‌هایی را می‌توان اجرا نمود که در آن مقادیر داده‌ها را با یک یا چند مقدار دیگر مقایسه می‌نمایند.

پیچیدگی محاسباتی

مفهوم دوم پیچیدگی مربوط به هزینه محاسباتی و یا میزان حافظه‌ای است که برای محاسبه یک دستورالعمل اعتبار‌سنجی لازم است.

همبستگی بین دستورالعمل‌ها

این مفهوم از پیچیدگی مربوط به مجموعه‌ای از دستورالعمل‌هایی می‌شود که متغیرهای مشترکی دارند. به عبارتی دیگر یک متغیر در یک دستورالعمل اعتبار‌سنجی زمانی معتبر می‌شود که با تغییر دستورالعمل نتیجه اعتبار نیز تغییر کند.