داده کاوی چیست؟

داده کاوی

0 98

داده کاوی(Data Mining) چیست؟

داده كاوي عبارت از فرآيندي است كه از چشم اندازهاي مختلف به تحليل داده ها مي پردازد و جمع بندي آنها را در قالب اطلاعات مفيدي ارائه مي‌كند.

اين اطلاعات را مي‌توان براي افزايش در آمد، كاهش هزينه ها يا هردو بكار برد.

نرم افزار داده كاوي يكي از ابزارهاي تحليل اطلاعات است .اين نرم افزار به كاربران امكان مي دهد اطلاعات را از ابعاد و زواياي بسيار متفاوت تحليل و طبقه بندي كنند. و روابطي را كه در آن ها شناسائي نموده اند بيان نمايند.

‌فرایند داده ‌كاوی شامل سه مرحله می باشد :

۱- كاوش اولیه ۲- ساخت و احراز اعتبار مدل ۳- بهره برداری.

مرحله ۱ :کاوش

معمولا‌ این‌مرحله با آماده سازی داده ها صورت می گیرد. ممكن است شامل پاك سازی داده ها ،‌تبدیل داده ها‌ و‌ انتخاب زیر مجموعه‌هايي‌‌ از ركوردها‌ با‌ حجم‌ عظیمی‌ از‌ متغييرها باشد.

سپس با توجه‌به‌ ماهیت‌ مساله تحلیلی‌، این‌مرحله‌به‌ مدل‌هاي‌‌ ‌پیش بیني ساده یا مدل‌های‌آماری‌ و‌گرافیكی برای شناسایی متغیرهاي موردنظر و تعیین پیچیدگی مدل‌ها برای استفاده از مرحله بعدی نیاز دارد .

مرحله ۲: ساخت و احرازاعتبار مدل

این‌ مرحله‌ به بررسی‌ مدل‌هاي مختلف و گزینش بهترین مدل با توجه به كارآیی پيش‌بيني آن می پردازد.

شاید این مرحله ساده به نظر برسد، اما اينطورنیست. تكنیك‌های‌متعددی‌برای‌رسیدن‌به‌این‌هدف توسعه یافتند.

بدین منظور مدل‌های مختلف برای مجموعه داده‌های یكسان‌‌به‌كار‌می‌روند‌تا‌كارآیی‌شان‌با‌هم مقایسه‌شود.

سپس مدلی كه‌بهترین كارآیی راداشته باشد‌، انتخاب می‌شود.‌

این‌تكنیك‌ها عبارتند از : Bagging,Boosting ,Stacking  و Meta-learning.

مرحله ۳ : بهره برداری

 آخرین‌مرحله‌مدلی‌راكه‌درمرحله قبل‌انتخاب‌شده است، در داده‌های‌جدیدبه كار‌می‌گیردتا پیش‌بینی‌هاي‌خروجی‌های مورد انتظاررا تولید نماید.

داده كاوی‌به‌عنوان‌ابزار‌مدیریت‌اطلاعات‌برای‌تصمیم گیری‌،‌عمومیت‌یافته‌است. اخیرا‌،‌توسعه تكنیك های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده كاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.

 

داده كاوي به چه كار مي آيد؟

امروزه در درجه اول شركتها ازداده كاوي استفاده مي كنند.داده کاوی شركتهارا قادر مي سازد تا رابطه عوامل “دروني” (مانند قيمت ،‌يا مهارت هاي كارمندان) ، را با عوامل  “خارجي”  (مانند شاخص هاي اقتصادي ، رقابت وآمارگيري ) مشخص كنند.

داده كاوي شركت ها را قادر مي سازد اثر گذاري بر مشتري ، رضايت‌مندي مشتري و منافع شركت را تعيين كنند.بالاخره، شركتها را قادر مي سازد كه فشرده اطلاعات را براي ديدن داده هاي معاملاتي دقيق”حفاري” نمايند.

داده کاوی

حال سؤال اینجاست که با داده ­کاوی چه کارهایی می­توان انجام داد؟

داده ­کاوی با همه عظمت و بزرگی خود که امروزه در تمامی موضوعات جهان ورود پیدا کرده است شامل شش عمل و وظیفه مهم است.

که می­‌توان بسیاری از مسائل محیط اطراف خود را در قالب یکی از این شش عمل و وظیفه زیر گنجاند:

  • دسته ­بندی
  • تخمین
  • پیش ­بینی
  • گروه­ بندی شباهت
  • خوشه­ بندی
  • توصیف و نمایه­ سازی

سه مورد اول همگی داده ­کاوی هدایت شده هستند که هدف آنها یافتن ارزش یک متغیر هدف خاص است.

گروه ­بندی شباهت و خوشه­ بندی جزو داده ­کاوی غیر هدایت شده هستند. که در آن هدف، یافتن ساختار پنهان درون داده ­ها بدون توجه به یک متغیر هدف خاص است.

نمایه­ سازی عملی توصیفی است که می­تواند هم هدایت شده و هم غیر هدایت شده باشد.

در ادامه به هر کدام به صورت مختصر پرداخته می­شود. 

دسته­ بندی

به نظر می­رسد دسته­ بندی که یکی از معمول ­ترین کارکردهای داده­ کاوی است، یکی از واجبات بشر باشد.

تمامی خلقت خداوند بر پایه دسته ­بندی ایجاد گردیده است.

ما برای شناخت و برقراری رابطه درباره ی دنیا، بطور مداوم دسته ­بندی، طبقه ­بندی و درجه­ بندی می­‌کنیم.

این روش شامل بررسی ویژگی­‌های یک شی جدید و تخصیص آن به یکی از مجموعه­ های از قبل تعیین شده می­‌باشد.

عمل دسته­ بندی با تعریف درستی از دسته­ ها و مجموعه­ ها از ویژگی‌ها که حاوی موارد از پیش دسته­ بندی شده هستند مشخص می­گردد.

این عمل شامل ساختن مدلی است که بتوان از آن برای دسته‌­بندی کردن داده ­های دسته­ بندی نشده، استفاده نمود.

اشیایی که باید دسته­ بندی شوند، معمولاً به وسیلۀ اطلاعاتی در جدول پایگاه داده­ ها یا یک فایل ارائه می‌­شوند.

این عمل شامل افزودن ستون جدیدی با کد دسته­ بندی خاصی است.

تخمین

تخمین، با نتایج مجزایی که با ارقام پیوسته نشان داده شده ­اند، سروکار دارد.

در تخمین، داده­ های ورودی در قالب متغیرهای ورودی مختلف به سیستم داده می­شود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اعتباری می­‌باشد.

در عمل، تخمین اغلب برای انجام دسته ­بندی استفاده می‌­شود. یک شرکت کارت­های اعتباری که مایل است یک فضای تبلیغاتی را در پاکت­های صورت­حساب به یک تولید کننده ی پوتین اسکی بفروشد، باید مدل دسته ­بندی تهیه کند.

مدلی که همه ی دارندگان کارت­ها را در یکی از دو دسته ی اسکی‌­باز یا غیراسکی ­باز قرار دهد.

روش دیگر ایجاد مدل تخمین این است که به هر دارنده ی کارت، یک امتیاز تمایل به اسکی تخصیص می‌­دهد؛ این ارقام می­تواند صفر و یک باشد که نشانگر احتمال تخمین زده شده برای اسکی­ باز بودن یا نبودن دارنده‌ی کارت است.

عمل دسته­ بندی، اکنون به ایجاد امتیازی آستانه­‌ای منجر می­گردد. هر کسی که امتیازی بیشتر یا مساوی با امتیاز آستانه داشته باشد به عنوان اسکی­ باز قلمداد می­شود و هر کسی که امتیازی کمتر از امتیاز مورد نظر داشته باشد اسکی­ باز محسوب نمی­‌گردد.

این روش فواید زیادی دارد که مهم‌­ترین آن این است که در آن اطلاعات را می‌­توان مطابق تخمین به دست آمده مرتب نمود.

برخی از مثال­ های تخمین در زیر آمده است:

  • تخمین تعداد فرزندان در یک خانواده
  • تخمین درآمد کل یک خانواده
  • تخمین دوره عمر یک مشتری

مدل­های رگرسیون و شبکه­ های عصبی از جمله تکنیک­ های مناسب داده­ کاوی برای تخمین می­‌باشند.

پیش­ بینی

پیش­ بینی مانند دسته­ بندی یا تخمین است با این تفاوت که اطلاعات، مطابق برخی از رفتارهای پیش­ بینی شده ی آینده دسته­ بندی می‌­شوند.

در عمل پیش­ بینی، تنها روش برای بررسی صحت دسته­ بندی، انتظار دیدن آینده است.

هر یک از تکنیک‌­های استفاده شده در دسته­ بندی و تخمین را می­‌توان برای استفاده در پیش بینی تطبیق داد، جایی که متغیری که باید پیش­‌بینی شود از قبل معلوم است و داده­ های پیشین برای آن وجود دارد.

از داده ­های پیشین برای تهیه ی یک مدل که بیانگر رفتار مشاهده شده ی کنونی است استفاده می­شود. وقتی این مدل برای ورودی های کنونی به کار رفت؛ نتیجه ی کار، پیش ­بینی رفتار آینده خواهد بود.

مثالهایی از پیش ­بینی که از طریق تکنیک ­های داده ­کاوی بحث شده از این قرارند:

  • پیش­ بینی اینکه کدام مشتریان در طول ۶ ماه آینده، بازار محصول ما را ترک خواهند کرد.
  • پیش ­بینی اینکه کدام مشترکین تلفن، متقاضی خدمات ویژه مانند مکالمه ی سه جانبه یا پیغام­‌گیر خواهند شد.

بیشتر تکینک­‌های داده­ کاوی در صورت وجود داده­ های مناسب، برای استفاده در پیش­ بینی مناسب اند.

انتخاب تکنیک به ماهیت داده ­های ورودی و نوع متغیری که باید پیش­ بینی شود بستگی دارد.

گروه‌­بندی شباهت یا قوانین وابستگی

عمل گروه­‌بندی شباهت برای تعیین ویژگی­‌های همزمانی هستند که در وقوع یک پدیده رخ می­دهند.

به عبارت دیگراین عمل شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگی­ها را تعیین می­ نماید.

مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپر مارکت قرار می­گیرند، چیزی که آن را تحلیل سبد بازار می­‌نامیم.

فروشگاه­های زنجیره­ای خرده ­فروشی می­توانند از گروه­‌بندی شباهت برای تعیین چیدمان کالاها در قفسه ­های فروشگاه، در یک کاتالوگ استفاده کنند، تا اقلامی که اغلب با هم خریده می­شوند در کنار هم قرار گیرند.

از گروه­‌بندی شباهت می­توان برای تعیین شرایط فروش‌­های متقابل و همزمان و همچنین برای طراحی بسته­‌بندی­‌های جذاب و یا دسته‌­بندی محصولات و خدمات استفاده کرد.

این مدل یک روش ساده برای ایجاد قوانین از داده­ هاست. اگر دو قلم کالا مثلاً شیر خشک و پوشک نوزاد در یک قفسه و کنار هم چیده شوند، می­توان دو قانون وابستگی ایجاد کرد:

  • افرادی که شیر خشک نوزاد می­خرند همچنین با احتمال P1 پوشک نوزاد را هم می­خرند.
  • افرادی که پوشک نوزاد می­خرند همچنین با احتمال P2 شیر خشک نوزاد را هم می­خرند.

خوشه‌­بندی

خوشه‌­بندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیر مجموعه­ ها گفته می­شود.

وجه تمایز خوشه­‌بندی از دسته­‌بندی این است که خوشه‌­بندی به دسته‌­های از پیش تعیین شده تکیه ندارد.

در دسته­‌بندی بر اساس یک مدل هر کدام از داده‌­ها به دسته­ای از پیش تعیین شده اختصاص می­یابد.

این دسته ­ها یا از ابتدا در طبیعت وجود داشته ­اند(مثل جنسیت، رنگ پوست ) یا از طریق یافته ­های پژوهش­‌های پیشین تعیین گردیده‌­اند.

در این مدل هیچ دسته ی از پیش تعیین شده‌­ای وجود ندارد و داده‌­ها صرفاً براساس تشابه گروه­‌بندی می­شوند و عناوین هر گروه نیز توسط کاربر تعیین می­گردد.

نمایه­ سازی

گاهی اوقات هدف داده­‌کاوی، تنها توصیف آن چیزی است که در یک پایگاه داده‌­ای پیچیده درجریان است.

نتایج نمایه­‌سازی درک ما را از مردم،محصولات یا فرآیندهایی که داده‌­ها را در مرحله ی اول تولید کرده­‌اند افزایش می­دهد.

توصیف خوب رفتار، اغلب توضیح خوبی هم به همراه دارد.

درخت­های تصمیم ابزار مفیدی برای نمایه­‌سازی می­باشد. قوانین وابستگی و خوشه­‌بندی را نیز می­توان برای نمایه­‌سازی­ ها استفاده نمود.

 

شما همچنین ممکن است مانند بیشتر از نویسنده

ترک یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.