برنامه نویسی

داده کاوی چیست؟

داده کاوی(Data Mining) چیست؟

داده کاوی عبارت از فرآیندی است که از چشم اندازهای مختلف به تحلیل داده ها می پردازد و جمع بندی آنها را در قالب اطلاعات مفیدی ارائه می‌کند.

این اطلاعات را می‌توان برای افزایش در آمد، کاهش هزینه ها یا هردو بکار برد.

نرم افزار داده کاوی یکی از ابزارهای تحلیل اطلاعات است .این نرم افزار به کاربران امکان می دهد اطلاعات را از ابعاد و زوایای بسیار متفاوت تحلیل و طبقه بندی کنند. و روابطی را که در آن ها شناسائی نموده اند بیان نمایند.

‌فرایند داده ‌کاوی شامل سه مرحله می باشد :

۱- کاوش اولیه ۲- ساخت و احراز اعتبار مدل ۳- بهره برداری.

مرحله ۱ :کاوش

معمولا‌ این‌مرحله با آماده سازی داده ها صورت می گیرد. ممکن است شامل پاک سازی داده ها ،‌تبدیل داده ها‌ و‌ انتخاب زیر مجموعه‌هایی‌‌ از رکوردها‌ با‌ حجم‌ عظیمی‌ از‌ متغییرها باشد.

سپس با توجه‌به‌ ماهیت‌ مساله تحلیلی‌، این‌مرحله‌به‌ مدل‌های‌‌ ‌پیش بینی ساده یا مدل‌های‌آماری‌ و‌گرافیکی برای شناسایی متغیرهای موردنظر و تعیین پیچیدگی مدل‌ها برای استفاده از مرحله بعدی نیاز دارد .

مرحله ۲: ساخت و احرازاعتبار مدل

این‌ مرحله‌ به بررسی‌ مدل‌های مختلف و گزینش بهترین مدل با توجه به کارآیی پیش‌بینی آن می پردازد.

شاید این مرحله ساده به نظر برسد، اما اینطورنیست. تکنیک‌های‌متعددی‌برای‌رسیدن‌به‌این‌هدف توسعه یافتند.

بدین منظور مدل‌های مختلف برای مجموعه داده‌های یکسان‌‌به‌کار‌می‌روند‌تا‌کارآیی‌شان‌با‌هم مقایسه‌شود.

سپس مدلی که‌بهترین کارآیی راداشته باشد‌، انتخاب می‌شود.‌

این‌تکنیک‌ها عبارتند از : Bagging,Boosting ,Stacking  و Meta-learning.

مرحله ۳ : بهره برداری

 آخرین‌مرحله‌مدلی‌راکه‌درمرحله قبل‌انتخاب‌شده است، در داده‌های‌جدیدبه کار‌می‌گیردتا پیش‌بینی‌های‌خروجی‌های مورد انتظاررا تولید نماید.

داده کاوی‌به‌عنوان‌ابزار‌مدیریت‌اطلاعات‌برای‌تصمیم گیری‌،‌عمومیت‌یافته‌است. اخیرا‌،‌توسعه تکنیک های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده کاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.

 

داده کاوی به چه کار می آید؟

امروزه در درجه اول شرکتها ازداده کاوی استفاده می کنند.داده کاوی شرکتهارا قادر می سازد تا رابطه عوامل “درونی” (مانند قیمت ،‌یا مهارت های کارمندان) ، را با عوامل  “خارجی”  (مانند شاخص های اقتصادی ، رقابت وآمارگیری ) مشخص کنند.

داده کاوی شرکت ها را قادر می سازد اثر گذاری بر مشتری ، رضایت‌مندی مشتری و منافع شرکت را تعیین کنند.بالاخره، شرکتها را قادر می سازد که فشرده اطلاعات را برای دیدن داده های معاملاتی دقیق”حفاری” نمایند.

داده کاوی

حال سؤال اینجاست که با داده ­کاوی چه کارهایی می­توان انجام داد؟

داده ­کاوی با همه عظمت و بزرگی خود که امروزه در تمامی موضوعات جهان ورود پیدا کرده است شامل شش عمل و وظیفه مهم است.

که می­‌توان بسیاری از مسائل محیط اطراف خود را در قالب یکی از این شش عمل و وظیفه زیر گنجاند:

  • دسته ­بندی
  • تخمین
  • پیش ­بینی
  • گروه­ بندی شباهت
  • خوشه­ بندی
  • توصیف و نمایه­ سازی

سه مورد اول همگی داده ­کاوی هدایت شده هستند که هدف آنها یافتن ارزش یک متغیر هدف خاص است.

گروه ­بندی شباهت و خوشه­ بندی جزو داده ­کاوی غیر هدایت شده هستند. که در آن هدف، یافتن ساختار پنهان درون داده ­ها بدون توجه به یک متغیر هدف خاص است.

نمایه­ سازی عملی توصیفی است که می­تواند هم هدایت شده و هم غیر هدایت شده باشد.

در ادامه به هر کدام به صورت مختصر پرداخته می­شود. 

دسته­ بندی

به نظر می­رسد دسته­ بندی که یکی از معمول ­ترین کارکردهای داده­ کاوی است، یکی از واجبات بشر باشد.

تمامی خلقت خداوند بر پایه دسته ­بندی ایجاد گردیده است.

ما برای شناخت و برقراری رابطه درباره ی دنیا، بطور مداوم دسته ­بندی، طبقه ­بندی و درجه­ بندی می­‌کنیم.

این روش شامل بررسی ویژگی­‌های یک شی جدید و تخصیص آن به یکی از مجموعه­ های از قبل تعیین شده می­‌باشد.

عمل دسته­ بندی با تعریف درستی از دسته­ ها و مجموعه­ ها از ویژگی‌ها که حاوی موارد از پیش دسته­ بندی شده هستند مشخص می­گردد.

این عمل شامل ساختن مدلی است که بتوان از آن برای دسته‌­بندی کردن داده ­های دسته­ بندی نشده، استفاده نمود.

اشیایی که باید دسته­ بندی شوند، معمولاً به وسیلۀ اطلاعاتی در جدول پایگاه داده­ ها یا یک فایل ارائه می‌­شوند.

این عمل شامل افزودن ستون جدیدی با کد دسته­ بندی خاصی است.

تخمین

تخمین، با نتایج مجزایی که با ارقام پیوسته نشان داده شده ­اند، سروکار دارد.

در تخمین، داده­ های ورودی در قالب متغیرهای ورودی مختلف به سیستم داده می­شود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اعتباری می­‌باشد.

در عمل، تخمین اغلب برای انجام دسته ­بندی استفاده می‌­شود. یک شرکت کارت­های اعتباری که مایل است یک فضای تبلیغاتی را در پاکت­های صورت­حساب به یک تولید کننده ی پوتین اسکی بفروشد، باید مدل دسته ­بندی تهیه کند.

مدلی که همه ی دارندگان کارت­ها را در یکی از دو دسته ی اسکی‌­باز یا غیراسکی ­باز قرار دهد.

روش دیگر ایجاد مدل تخمین این است که به هر دارنده ی کارت، یک امتیاز تمایل به اسکی تخصیص می‌­دهد؛ این ارقام می­تواند صفر و یک باشد که نشانگر احتمال تخمین زده شده برای اسکی­ باز بودن یا نبودن دارنده‌ی کارت است.

عمل دسته­ بندی، اکنون به ایجاد امتیازی آستانه­‌ای منجر می­گردد. هر کسی که امتیازی بیشتر یا مساوی با امتیاز آستانه داشته باشد به عنوان اسکی­ باز قلمداد می­شود و هر کسی که امتیازی کمتر از امتیاز مورد نظر داشته باشد اسکی­ باز محسوب نمی­‌گردد.

این روش فواید زیادی دارد که مهم‌­ترین آن این است که در آن اطلاعات را می‌­توان مطابق تخمین به دست آمده مرتب نمود.

برخی از مثال­ های تخمین در زیر آمده است:

  • تخمین تعداد فرزندان در یک خانواده
  • تخمین درآمد کل یک خانواده
  • تخمین دوره عمر یک مشتری

مدل­های رگرسیون و شبکه­ های عصبی از جمله تکنیک­ های مناسب داده­ کاوی برای تخمین می­‌باشند.

پیش­ بینی

پیش­ بینی مانند دسته­ بندی یا تخمین است با این تفاوت که اطلاعات، مطابق برخی از رفتارهای پیش­ بینی شده ی آینده دسته­ بندی می‌­شوند.

در عمل پیش­ بینی، تنها روش برای بررسی صحت دسته­ بندی، انتظار دیدن آینده است.

هر یک از تکنیک‌­های استفاده شده در دسته­ بندی و تخمین را می­‌توان برای استفاده در پیش بینی تطبیق داد، جایی که متغیری که باید پیش­‌بینی شود از قبل معلوم است و داده­ های پیشین برای آن وجود دارد.

از داده ­های پیشین برای تهیه ی یک مدل که بیانگر رفتار مشاهده شده ی کنونی است استفاده می­شود. وقتی این مدل برای ورودی های کنونی به کار رفت؛ نتیجه ی کار، پیش ­بینی رفتار آینده خواهد بود.

مثالهایی از پیش ­بینی که از طریق تکنیک ­های داده ­کاوی بحث شده از این قرارند:

  • پیش­ بینی اینکه کدام مشتریان در طول ۶ ماه آینده، بازار محصول ما را ترک خواهند کرد.
  • پیش ­بینی اینکه کدام مشترکین تلفن، متقاضی خدمات ویژه مانند مکالمه ی سه جانبه یا پیغام­‌گیر خواهند شد.

بیشتر تکینک­‌های داده­ کاوی در صورت وجود داده­ های مناسب، برای استفاده در پیش­ بینی مناسب اند.

انتخاب تکنیک به ماهیت داده ­های ورودی و نوع متغیری که باید پیش­ بینی شود بستگی دارد.

گروه‌­بندی شباهت یا قوانین وابستگی

عمل گروه­‌بندی شباهت برای تعیین ویژگی­‌های همزمانی هستند که در وقوع یک پدیده رخ می­دهند.

به عبارت دیگراین عمل شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگی­ها را تعیین می­ نماید.

مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپر مارکت قرار می­گیرند، چیزی که آن را تحلیل سبد بازار می­‌نامیم.

فروشگاه­های زنجیره­ای خرده ­فروشی می­توانند از گروه­‌بندی شباهت برای تعیین چیدمان کالاها در قفسه ­های فروشگاه، در یک کاتالوگ استفاده کنند، تا اقلامی که اغلب با هم خریده می­شوند در کنار هم قرار گیرند.

از گروه­‌بندی شباهت می­توان برای تعیین شرایط فروش‌­های متقابل و همزمان و همچنین برای طراحی بسته­‌بندی­‌های جذاب و یا دسته‌­بندی محصولات و خدمات استفاده کرد.

این مدل یک روش ساده برای ایجاد قوانین از داده­ هاست. اگر دو قلم کالا مثلاً شیر خشک و پوشک نوزاد در یک قفسه و کنار هم چیده شوند، می­توان دو قانون وابستگی ایجاد کرد:

  • افرادی که شیر خشک نوزاد می­خرند همچنین با احتمال P1 پوشک نوزاد را هم می­خرند.
  • افرادی که پوشک نوزاد می­خرند همچنین با احتمال P2 شیر خشک نوزاد را هم می­خرند.

خوشه‌­بندی

خوشه‌­بندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیر مجموعه­ ها گفته می­شود.

وجه تمایز خوشه­‌بندی از دسته­‌بندی این است که خوشه‌­بندی به دسته‌­های از پیش تعیین شده تکیه ندارد.

در دسته­‌بندی بر اساس یک مدل هر کدام از داده‌­ها به دسته­ای از پیش تعیین شده اختصاص می­یابد.

این دسته ­ها یا از ابتدا در طبیعت وجود داشته ­اند(مثل جنسیت، رنگ پوست ) یا از طریق یافته ­های پژوهش­‌های پیشین تعیین گردیده‌­اند.

در این مدل هیچ دسته ی از پیش تعیین شده‌­ای وجود ندارد و داده‌­ها صرفاً براساس تشابه گروه­‌بندی می­شوند و عناوین هر گروه نیز توسط کاربر تعیین می­گردد.

نمایه­ سازی

گاهی اوقات هدف داده­‌کاوی، تنها توصیف آن چیزی است که در یک پایگاه داده‌­ای پیچیده درجریان است.

نتایج نمایه­‌سازی درک ما را از مردم،محصولات یا فرآیندهایی که داده‌­ها را در مرحله ی اول تولید کرده­‌اند افزایش می­دهد.

توصیف خوب رفتار، اغلب توضیح خوبی هم به همراه دارد.

درخت­های تصمیم ابزار مفیدی برای نمایه­‌سازی می­باشد. قوانین وابستگی و خوشه­‌بندی را نیز می­توان برای نمایه­‌سازی­ ها استفاده نمود.

 

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا