داده کاوی و نکته هایی که نمی دانیم
داده کاوی (data mining) که به آن کشفداده در پایگاه هایداده نیز می گوییم ، ابزاری جهت کشف الگو ها و رفتار های جالب و مفید در علوم کامپیوتر می باشد. data mining ابزارهای هوش مصنوعی و آمار را با مدیریت پایگاهداده ترکیب میکند تا بتواند مجموعه های دیجیتال بزرگ را تجزیه و تحلیل کند.
داده کاوی در چه زمینه هایی کاربرد دارد؟
- بانک ها
- خرده فروشی
- پزشکی
- نجوم
- امنیت دولتی
هدف اصلی از دادهکاوی کسب اطلاعات از یک گروه است نه یک فرد خاص. اما در مواردی مانند تشخیص رفتارهای فردی مانند کلاهبرداری و فعالیت های مجرمانه نیز استفاده می شود.
کاربردهای اولیه
در طول دهه 80 میلادی با افزایش فضای ذخیره سازی کامپیوترها ، شرکت ها شروع به ذخیره ی اطلاعات بیشتری کردند. انبارهای دادهکه مجموعه ای از اطلاعات قدیمیبودند آن قدر بزرگبودند که نمیشد آن ها را با روش های سنتی تجزیه و تحلیل کرد.
جلسات و کنفرانس های زیادی برگزارشد تا بررسیکنند که چگونه می توان پیشرفت های هوش مصنوعی را برای دادهکاوی منطبق کرد. اولین کنفرانس در سال 1995 در مونترال برگزار و در سال 1997 مجله دادهکاوی و کشف دانش راه اندازی شد. همان زمانبود که اولین شرکت های داده کاوی تاسیسشدند و فعالیت خود را آغاز کردند.
اولین کاربرد موفقیت آمیز دادهکاوی ، شناسایی تقلب در کارت های اعتباری بود.کارشناسان با مطالعه بر روی رفتار مصرف کننده در هنگام خرید ، الگوی رفتاری آن ها را تشخیص دادند. بنابراین هرگونه رفتار خارج از الگویی تشخیص داده می شد.
اما نکته ای وجود داشت باعث بروز خطا می شد. به طور مثال همیشه رفتارهای معمولی و متقلبانه قابل تشخیص نیستند. برای بهبود قابلیت اطمینان ، مدل ها گروه بندی شدند. به این صورت الگوهای رفتاری در هر گروه مشخص و درصد خطا کمتر شد.
مدلسازی و داده کاوی
داده کاوی شامل چندین مرحله می شود. از درک اهداف و تشخیص دادههای موجود تا ایجاد تغییرات بر اساس تحلیل نهایی.
سه مرحله ی محاسباتی داریم که شامل :
- فرآیند یادگیری مدل
- ارزیابی مدل
- استفاده از مدل
می شود.
یادگیری مدل زمانی اتفاق می افتد که الگوریتمی بر الگوی رفتاری یک گروه یا کلاس اعمال شود و طبقه بندی ایجاد شود. سپس طبقه بندی کننده با داده های جدید اما با ویژگی های شناخته شده مورد آزمایش قرار می گیرند.
سپس با توجه به میزان انطباق نتیجه آزمایش با رفتار اولیه میزان دقت و خطا مشخص می شود. اگر مدل به اندازه کافی دقیقباشد، می توان از آن برای طبقه بندی دادههایی استفادهکرد که ویژگی هدف برای آن ها ناشناختهاست.
تکنیک های دادهکاوی
روش های مختلفی برای داده کاوی وجوددارد که بر اساس نوع دادهها از روش های مختلف آن استفاده می کنیم.
-
مدل سازی پیش بینی کننده:
از این روش زمانی استفاده می کنیم که هدف تخمین مقدار یک ویژگی باشد. یک مثال طبقه بندی است که مجموعه ای از دادهها را که قبلاً به گروههای از پیش تعریفشده تقسیم شدهاند، میگیرد و الگوهایی را در دادهها جستجو میکند که آن گروهها را متمایز میکند.
این الگوهای کشفشدهمیتوانند برای طبقه بندی دادههای دیگر استفادهشوند که در آن تعیین گروه مناسب برای ویژگی هدف ناشناخته است. (اگرچه سایر ویژگی ها ممکن است شناخته شده باشند).
برای مثال، یک تولیدکننده میتواند یک مدل پیش بینی ایجاد کند که قطعاتی را که در گرمای شدید، سرمای شدید یا سایر شرایط خراب میشوند، بر اساس محیط تولیدشان متمایز میکند. و این مدل ممکن است برای تعیین کاربردهای مناسب برای هر قطعه مورد استفاده قرار گیرد. یکی دیگر از تکنیکهای مورد استفاده در مدلسازی پیشبینی، تحلیل رگرسیون است که میتواند زمانی استفاده شود که ویژگی هدف یک مقدار عددی باشد و هدف پیشبینی آن مقدار برای دادههای جدید باشد.
-
مدل سازی توصیفی
این نوع مدل سازی که به آن خوشه بندی هم گفته می شود ، مانند مدل سازی قبل ، دادهها را تقسیم بندی می کند. اما با خوشه بندی، گروهها از قبل مشخص نیستند. الگوهای کشفشده با تجزیه و تحلیل دادهها برای تعیین گروه ها استفاده می شود.
برای مثال، یک تبلیغکننده میتواند یک جمعیت عمومی را تجزیه و تحلیل کند تا مشتریان بالقوه را در خوشههای مختلف طبقهبندی کند. و سپس کمپینهای تبلیغاتی جداگانه ای را برای هر گروه ایجاد کند. همچنین از خوشه بندی برای شناسایی گروههایی از افراد با الگوهای خرید مشابه استفاده میکند که منجر به کشف تقلب می شود.
استخراج الگو
یافتنالگو بر شناسایی قوانینی متمرکز است که الگوهای خاصی را در دادهها توصیف می کنند.
یکی از اولین کاربردهای دادهکاوی ، تجزیه و تحلیل سبد بازار بود که مواردی را که معمولا با هم معامله میشدند را شناسایی می کرد. برای مثال، سوپرمارکتها از تجزیه و تحلیل سبد بازار برای شناسایی اقلامی استفادهکردند که اغلب با هم خریداری میشدند. مثلا فروشگاهی که ماهی می فروشد سس تارتار را نیز در کنار آن برای فروش قرار می داد.
دادهکاوی کشف ارتباط هایی را که کمتر به آن توجهمیشد را هم امکان پذیر کردهاست. بنابراین از کاربردهای دادهکاوی میتوانیم به یافتن ارتباطات غیر منتظره اشاره کنیم. کاربرد مهم دیگر کشف الگوهای متوالی است. به عنوان مثال، توالی خطاها یا هشدارهایی که قبل از خرابی تجهیزات ایجاد میشوند، ممکن است برای برنامه ریزی تعمیرات پیشگیرانه استفاده شوند.
تشخیص ناهنجاری
نقطه ی مقابل خوشه بندی ، تخیص ناهنجاریست. یعنی پیداکردن دادههایی که رفتاری غیرعادی دارند و با هیچ الگوی ثابتی مطابقت پیدا نمی کنند. کشف تقلب نمونه ای از تشخیص ناهنجاری است. اگرچه کشف تقلب ممکن است به عنوان یک مشکل برای مدل سازی پیش بینی تلقی شود، اما نادر بودن نسبی تراکنش های متقلبانه و سرعتی که مجرمان با آن انواع جدیدی از کلاهبرداری را توسعه می دهند به این معنی است که هر مدل پیش بینی کننده احتمالاً دقت پایینی دارد و به سرعت قدیمی می شود.
نگرانی های حفظ حریم خصوصی
پتانسیل تجاوز به حریم خصوصی با استفاده از دادهکاوی برای بسیاری از مردم نگران کننده بوده است. پایگاههای اطلاعاتی تجاری ممکن است حاوی سوابق دقیقی از تاریخچه پزشکی، تراکنشهای خرید و استفاده از تلفن و سایر جنبههای زندگی آن ها باشد. آزادیخواهان مدنی برخی از پایگاههای اطلاعاتی که توسط کسب وکارها و دولتها نگهداری میشوند را یک نفوذ غیرقانونی و دعوت به سوء استفاده میدانند. به عنوان مثال، اتحادیه آزادی های مدنی آمریکا از آژانس امنیت ملی ایالات متحده (NSA) به اتهام جاسوسی بدون مجوز از شهروندان آمریکایی از طریق به دستآوردن سوابق تماس از برخی شرکت های مخابراتی آمریکایی شکایت کرد. این برنامه که در سال 2001 آغاز شد، تا سال 2006 توسط مردم کشف نشد.
اغلب خطر ناشی از خود دادهکاوی نیست. (که معمولاً به دنبال تولید دانش عمومی به جای یادگیری اطلاعات در مورد مسائل خاص است). بلکه از سوء استفاده یا افشای نامناسب اطلاعات در این پایگاه هایداده است.
سخن پایانی
در این مقاله سعی کردیم تا دادهکاوی را به زبانی ساده بیان کنیم. اما گاهی ممکناست که دادهکاوی را با ماشین لرنینگ یکی بدانیم. در صورتی که این دو تفاوت هایی دارند. برایخواندن مقاله ی ماشین لرنینگ به بخش مقالات سایت وب یار مراجعه نمایید.
تیم وب یار در راستای کمک به پیشرفت شما عزیزان آموزشهای کاربردی فراوانی در زمینهی طراحی سایت و سئو سایت در اینستاگرام خود قرار داده است.