داده کاوی چیست؟
داده کاوی(Data Mining) چیست؟
داده کاوی عبارت از فرآیندی است که از چشم اندازهای مختلف به تحلیل داده ها می پردازد و جمع بندی آنها را در قالب اطلاعات مفیدی ارائه میکند.
این اطلاعات را میتوان برای افزایش در آمد، کاهش هزینه ها یا هردو بکار برد.
نرم افزار داده کاوی یکی از ابزارهای تحلیل اطلاعات است .این نرم افزار به کاربران امکان می دهد اطلاعات را از ابعاد و زوایای بسیار متفاوت تحلیل و طبقه بندی کنند. و روابطی را که در آن ها شناسائی نموده اند بیان نمایند.
فرایند داده کاوی شامل سه مرحله می باشد :
۱- کاوش اولیه ۲- ساخت و احراز اعتبار مدل ۳- بهره برداری.
مرحله ۱ :کاوش
معمولا اینمرحله با آماده سازی داده ها صورت می گیرد. ممکن است شامل پاک سازی داده ها ،تبدیل داده ها و انتخاب زیر مجموعههایی از رکوردها با حجم عظیمی از متغییرها باشد.
سپس با توجهبه ماهیت مساله تحلیلی، اینمرحلهبه مدلهای پیش بینی ساده یا مدلهایآماری وگرافیکی برای شناسایی متغیرهای موردنظر و تعیین پیچیدگی مدلها برای استفاده از مرحله بعدی نیاز دارد .
مرحله ۲: ساخت و احرازاعتبار مدل
این مرحله به بررسی مدلهای مختلف و گزینش بهترین مدل با توجه به کارآیی پیشبینی آن می پردازد.
شاید این مرحله ساده به نظر برسد، اما اینطورنیست. تکنیکهایمتعددیبرایرسیدنبهاینهدف توسعه یافتند.
بدین منظور مدلهای مختلف برای مجموعه دادههای یکسانبهکارمیروندتاکارآییشانباهم مقایسهشود.
سپس مدلی کهبهترین کارآیی راداشته باشد، انتخاب میشود.
اینتکنیکها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning.
مرحله ۳ : بهره برداری
آخرینمرحلهمدلیراکهدرمرحله قبلانتخابشده است، در دادههایجدیدبه کارمیگیردتا پیشبینیهایخروجیهای مورد انتظاررا تولید نماید.
داده کاویبهعنوانابزارمدیریتاطلاعاتبرایتصمیم گیری،عمومیتیافتهاست. اخیرا،توسعه تکنیک های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده کاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.
داده کاوی به چه کار می آید؟
امروزه در درجه اول شرکتها ازداده کاوی استفاده می کنند.داده کاوی شرکتهارا قادر می سازد تا رابطه عوامل “درونی” (مانند قیمت ،یا مهارت های کارمندان) ، را با عوامل “خارجی” (مانند شاخص های اقتصادی ، رقابت وآمارگیری ) مشخص کنند.
داده کاوی شرکت ها را قادر می سازد اثر گذاری بر مشتری ، رضایتمندی مشتری و منافع شرکت را تعیین کنند.بالاخره، شرکتها را قادر می سازد که فشرده اطلاعات را برای دیدن داده های معاملاتی دقیق”حفاری” نمایند.
حال سؤال اینجاست که با داده کاوی چه کارهایی میتوان انجام داد؟
داده کاوی با همه عظمت و بزرگی خود که امروزه در تمامی موضوعات جهان ورود پیدا کرده است شامل شش عمل و وظیفه مهم است.
که میتوان بسیاری از مسائل محیط اطراف خود را در قالب یکی از این شش عمل و وظیفه زیر گنجاند:
- دسته بندی
- تخمین
- پیش بینی
- گروه بندی شباهت
- خوشه بندی
- توصیف و نمایه سازی
سه مورد اول همگی داده کاوی هدایت شده هستند که هدف آنها یافتن ارزش یک متغیر هدف خاص است.
گروه بندی شباهت و خوشه بندی جزو داده کاوی غیر هدایت شده هستند. که در آن هدف، یافتن ساختار پنهان درون داده ها بدون توجه به یک متغیر هدف خاص است.
نمایه سازی عملی توصیفی است که میتواند هم هدایت شده و هم غیر هدایت شده باشد.
در ادامه به هر کدام به صورت مختصر پرداخته میشود.
دسته بندی
به نظر میرسد دسته بندی که یکی از معمول ترین کارکردهای داده کاوی است، یکی از واجبات بشر باشد.
تمامی خلقت خداوند بر پایه دسته بندی ایجاد گردیده است.
ما برای شناخت و برقراری رابطه درباره ی دنیا، بطور مداوم دسته بندی، طبقه بندی و درجه بندی میکنیم.
این روش شامل بررسی ویژگیهای یک شی جدید و تخصیص آن به یکی از مجموعه های از قبل تعیین شده میباشد.
عمل دسته بندی با تعریف درستی از دسته ها و مجموعه ها از ویژگیها که حاوی موارد از پیش دسته بندی شده هستند مشخص میگردد.
این عمل شامل ساختن مدلی است که بتوان از آن برای دستهبندی کردن داده های دسته بندی نشده، استفاده نمود.
اشیایی که باید دسته بندی شوند، معمولاً به وسیلۀ اطلاعاتی در جدول پایگاه داده ها یا یک فایل ارائه میشوند.
این عمل شامل افزودن ستون جدیدی با کد دسته بندی خاصی است.
تخمین
تخمین، با نتایج مجزایی که با ارقام پیوسته نشان داده شده اند، سروکار دارد.
در تخمین، داده های ورودی در قالب متغیرهای ورودی مختلف به سیستم داده میشود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اعتباری میباشد.
در عمل، تخمین اغلب برای انجام دسته بندی استفاده میشود. یک شرکت کارتهای اعتباری که مایل است یک فضای تبلیغاتی را در پاکتهای صورتحساب به یک تولید کننده ی پوتین اسکی بفروشد، باید مدل دسته بندی تهیه کند.
مدلی که همه ی دارندگان کارتها را در یکی از دو دسته ی اسکیباز یا غیراسکی باز قرار دهد.
روش دیگر ایجاد مدل تخمین این است که به هر دارنده ی کارت، یک امتیاز تمایل به اسکی تخصیص میدهد؛ این ارقام میتواند صفر و یک باشد که نشانگر احتمال تخمین زده شده برای اسکی باز بودن یا نبودن دارندهی کارت است.
عمل دسته بندی، اکنون به ایجاد امتیازی آستانهای منجر میگردد. هر کسی که امتیازی بیشتر یا مساوی با امتیاز آستانه داشته باشد به عنوان اسکی باز قلمداد میشود و هر کسی که امتیازی کمتر از امتیاز مورد نظر داشته باشد اسکی باز محسوب نمیگردد.
این روش فواید زیادی دارد که مهمترین آن این است که در آن اطلاعات را میتوان مطابق تخمین به دست آمده مرتب نمود.
برخی از مثال های تخمین در زیر آمده است:
- تخمین تعداد فرزندان در یک خانواده
- تخمین درآمد کل یک خانواده
- تخمین دوره عمر یک مشتری
مدلهای رگرسیون و شبکه های عصبی از جمله تکنیک های مناسب داده کاوی برای تخمین میباشند.
پیش بینی
پیش بینی مانند دسته بندی یا تخمین است با این تفاوت که اطلاعات، مطابق برخی از رفتارهای پیش بینی شده ی آینده دسته بندی میشوند.
در عمل پیش بینی، تنها روش برای بررسی صحت دسته بندی، انتظار دیدن آینده است.
هر یک از تکنیکهای استفاده شده در دسته بندی و تخمین را میتوان برای استفاده در پیش بینی تطبیق داد، جایی که متغیری که باید پیشبینی شود از قبل معلوم است و داده های پیشین برای آن وجود دارد.
از داده های پیشین برای تهیه ی یک مدل که بیانگر رفتار مشاهده شده ی کنونی است استفاده میشود. وقتی این مدل برای ورودی های کنونی به کار رفت؛ نتیجه ی کار، پیش بینی رفتار آینده خواهد بود.
مثالهایی از پیش بینی که از طریق تکنیک های داده کاوی بحث شده از این قرارند:
- پیش بینی اینکه کدام مشتریان در طول ۶ ماه آینده، بازار محصول ما را ترک خواهند کرد.
- پیش بینی اینکه کدام مشترکین تلفن، متقاضی خدمات ویژه مانند مکالمه ی سه جانبه یا پیغامگیر خواهند شد.
بیشتر تکینکهای داده کاوی در صورت وجود داده های مناسب، برای استفاده در پیش بینی مناسب اند.
انتخاب تکنیک به ماهیت داده های ورودی و نوع متغیری که باید پیش بینی شود بستگی دارد.
گروهبندی شباهت یا قوانین وابستگی
عمل گروهبندی شباهت برای تعیین ویژگیهای همزمانی هستند که در وقوع یک پدیده رخ میدهند.
به عبارت دیگراین عمل شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگیها را تعیین می نماید.
مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپر مارکت قرار میگیرند، چیزی که آن را تحلیل سبد بازار مینامیم.
فروشگاههای زنجیرهای خرده فروشی میتوانند از گروهبندی شباهت برای تعیین چیدمان کالاها در قفسه های فروشگاه، در یک کاتالوگ استفاده کنند، تا اقلامی که اغلب با هم خریده میشوند در کنار هم قرار گیرند.
از گروهبندی شباهت میتوان برای تعیین شرایط فروشهای متقابل و همزمان و همچنین برای طراحی بستهبندیهای جذاب و یا دستهبندی محصولات و خدمات استفاده کرد.
این مدل یک روش ساده برای ایجاد قوانین از داده هاست. اگر دو قلم کالا مثلاً شیر خشک و پوشک نوزاد در یک قفسه و کنار هم چیده شوند، میتوان دو قانون وابستگی ایجاد کرد:
- افرادی که شیر خشک نوزاد میخرند همچنین با احتمال P1 پوشک نوزاد را هم میخرند.
- افرادی که پوشک نوزاد میخرند همچنین با احتمال P2 شیر خشک نوزاد را هم میخرند.
خوشهبندی
خوشهبندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیر مجموعه ها گفته میشود.
وجه تمایز خوشهبندی از دستهبندی این است که خوشهبندی به دستههای از پیش تعیین شده تکیه ندارد.
در دستهبندی بر اساس یک مدل هر کدام از دادهها به دستهای از پیش تعیین شده اختصاص مییابد.
این دسته ها یا از ابتدا در طبیعت وجود داشته اند(مثل جنسیت، رنگ پوست ) یا از طریق یافته های پژوهشهای پیشین تعیین گردیدهاند.
در این مدل هیچ دسته ی از پیش تعیین شدهای وجود ندارد و دادهها صرفاً براساس تشابه گروهبندی میشوند و عناوین هر گروه نیز توسط کاربر تعیین میگردد.
نمایه سازی
گاهی اوقات هدف دادهکاوی، تنها توصیف آن چیزی است که در یک پایگاه دادهای پیچیده درجریان است.
نتایج نمایهسازی درک ما را از مردم،محصولات یا فرآیندهایی که دادهها را در مرحله ی اول تولید کردهاند افزایش میدهد.
توصیف خوب رفتار، اغلب توضیح خوبی هم به همراه دارد.
درختهای تصمیم ابزار مفیدی برای نمایهسازی میباشد. قوانین وابستگی و خوشهبندی را نیز میتوان برای نمایهسازی ها استفاده نمود.