داده کاوی چیست؟ مبانی و تکنیک های آن

پایه و اساس انقلاب صنعتی چهارم تا حد زیادی به داده(Data) و اتصال(Connectivity) بستگی دارد . سرویس های تحلیلی(Analysis Services) که قادر به توسعه یا ایجاد راه حل های داده کاوی هستند، نقش کلیدی در این زمینه ایفا خواهند کرد. می تواند به تحلیل و پیش بینی نتایج رفتار خرید مشتری(customer purchasing behavior) برای هدف قرار دادن خریداران بالقوه کمک کند. داده(Data) ها به یک منبع طبیعی جدید تبدیل خواهند شد و فرآیند استخراج اطلاعات مرتبط از این داده های مرتب نشده اهمیت بسیار زیادی خواهد داشت. به این ترتیب، درک صحیح اصطلاح (term –) داده کاوی(Data Mining) ، فرآیندها و کاربرد آن می‌تواند به ما در ایجاد رویکردی جامع برای این واژه مهم کمک کند.

مبانی داده کاوی(Data Mining Basics) و تکنیک های آن

داده کاوی

داده کاوی، همچنین به عنوان کشف دانش در داده ها(Knowledge Discovery in Data) ( KDD ) شناخته می شود، در مورد جستجوی ذخیره های بزرگ داده برای کشف الگوها و روندهایی است که فراتر از تجزیه و تحلیل ساده هستند. اما این یک راه حل تک مرحله ای نیست بلکه یک فرآیند چند مرحله ای است و در مراحل مختلفی تکمیل می شود. این شامل:

1] گردآوری و آماده سازی داده ها

با جمع آوری داده ها و سازماندهی مناسب آن شروع می شود. این به بهبود چشمگیر شانس یافتن اطلاعاتی که از طریق داده کاوی قابل کشف است کمک می کند

2] ساخت و ارزیابی مدل

مرحله دوم در فرآیند داده کاوی(mining process) ، استفاده از تکنیک های مختلف مدل سازی است. اینها برای کالیبره کردن پارامترها به مقادیر بهینه استفاده می شوند. تکنیک های به کار گرفته شده تا حد زیادی به قابلیت های تحلیلی مورد نیاز برای رسیدگی به طیف وسیعی از نیازهای سازمانی و رسیدن به یک تصمیم بستگی دارد.

اجازه دهید برخی از تکنیک های داده کاوی را به طور خلاصه بررسی کنیم. مشخص شده است که بیشتر سازمان ها دو یا چند تکنیک داده کاوی را با هم ترکیب می کنند تا فرآیند مناسبی را تشکیل دهند که نیازهای تجاری آنها را برآورده کند.

بخوانید(Read) : کلان داده چیست؟

تکنیک های داده کاوی

  1. انجمن -  (Association – )انجمن(Association) یکی از تکنیک های داده کاوی شناخته شده است. تحت این، یک الگو بر اساس رابطه بین اقلام در همان معامله رمزگشایی می شود. از این رو(Hence) ، آن را به عنوان تکنیک رابطه(relation technique) نیز می شناسند . خرده فروشان برندهای بزرگ برای تحقیق در مورد عادات و ترجیحات خرید مشتری به این تکنیک تکیه می کنند. به عنوان مثال، خرده فروشان هنگام ردیابی عادات خرید مردم، ممکن است تشخیص دهند که مشتری هنگام خرید شکلات همیشه خامه می‌خرد و بنابراین پیشنهاد می‌کند دفعه بعد که شکلات می‌خرد، ممکن است بخواهد خامه بخرد.
  2. طبقه بندی(Classification) - این تکنیک داده کاوی(data mining technique) از این جهت که مبتنی بر یادگیری ماشین است(machine learning) و از تکنیک های ریاضی مانند برنامه نویسی خطی(Linear programming) ، درخت تصمیم ، (Decision)شبکه عصبی استفاده می(Neural network) کند، با روش های فوق متفاوت است . در طبقه‌بندی، شرکت‌ها سعی می‌کنند نرم‌افزاری بسازند که بتواند نحوه طبقه‌بندی اقلام داده را در گروه‌ها بیاموزد. به عنوان مثال، یک شرکت می‌تواند طبقه‌بندی را در برنامه تعریف کند که «با توجه به تمام سوابق کارمندانی که پیشنهاد کناره‌گیری از شرکت را داده‌اند، تعداد افرادی را که احتمالاً در آینده از شرکت کناره‌گیری می‌کنند، پیش‌بینی می‌کند». در چنین سناریویی، شرکت می تواند سوابق کارمندان را به دو گروه "ترک" و "ماندن" طبقه بندی کند. سپس می تواند از داده های خود استفاده کندنرم‌افزار(mining software) ماینینگ برای طبقه‌بندی کارکنان به گروه‌های جداگانه که قبلاً ایجاد شده بود.
  3. خوشه بندی(Clustering) - اشیاء مختلف(Different) که ویژگی های مشابهی را نشان می دهند از طریق اتوماسیون در یک خوشه با هم گروه بندی می شوند. بسیاری از این خوشه ها به عنوان کلاس ها ایجاد می شوند و اشیا (با ویژگی های مشابه) در آن قرار می گیرند. برای درک بهتر این موضوع، اجازه دهید نمونه ای از مدیریت کتاب(book management) در کتابخانه را در نظر بگیریم. در یک کتابخانه، مجموعه وسیعی از کتاب ها به طور کامل فهرست بندی شده است. اقلام از یک نوع با هم فهرست شده اند. این کار پیدا کردن کتاب مورد علاقه‌مان را برای ما آسان‌تر می‌کند. به همین ترتیب، با استفاده از تکنیک خوشه‌بندی(clustering technique) ، می‌توان کتاب‌هایی را که شباهت‌هایی دارند در یک خوشه نگه داشت و نام مناسبی برای آن قائل شد. بنابراین، اگر یک خواننده به دنبال گرفتن یک کتاب مرتبط است(book relevant)برای علاقه او، او فقط باید به جای جستجوی کل کتابخانه به آن قفسه برود. بنابراین، تکنیک خوشه بندی(clustering technique) کلاس ها را تعریف می کند و اشیاء را در هر کلاس قرار می دهد، در حالی که در تکنیک های طبقه بندی، اشیاء به کلاس های از پیش تعریف شده اختصاص داده می شوند.
  4. پیش بینی(Prediction) - پیش بینی یک تکنیک داده کاوی است(data mining technique) که اغلب در ترکیب با سایر تکنیک های داده کاوی استفاده(data mining technique) می شود. این شامل تجزیه و تحلیل روندها، طبقه بندی، تطبیق الگو(pattern matching) ، و رابطه است. با تجزیه و تحلیل رویدادها یا نمونه های گذشته در یک توالی(sequence one) مناسب می توان با خیال راحت یک رویداد آینده را پیش بینی کرد. به عنوان مثال، اگر فروش به عنوان متغیر مستقل و سود(variable and profit) به عنوان متغیر وابسته به فروش انتخاب شود، می توان از تکنیک تحلیل پیش بینی در فروش برای پیش بینی سود آتی استفاده کرد. (prediction analysis technique)سپس، بر اساس داده های تاریخی فروش و سود ، می توان (sale and profit data)منحنی رگرسیون(regression curve) برازش را ترسیم کرد که برایپیش بینی سود(profit prediction) .
  5. درختان تصمیم(Decision trees) - در درخت تصمیم(decision tree) ، با یک سوال ساده شروع می کنیم که چندین پاسخ دارد. هر پاسخ به سؤال دیگری منجر می‌شود تا به طبقه‌بندی یا شناسایی داده‌ها کمک کند تا بتوان آن‌ها را دسته‌بندی کرد، یا اینکه بتوان بر اساس هر پاسخ پیش‌بینی کرد. به عنوان مثال، ما از درخت تصمیم(decision tree) زیر برای تعیین اینکه آیا کریکت ODI بازی کنیم یا نه استفاده می کنیم : درخت تصمیم گیری داده کاوی(Data Mining Decision Tree) : با شروع از گره ریشه(root node) ، اگر پیش بینی آب و هوا(weather forecast) باران را پیش بینی می کند، باید از مسابقه برای روز اجتناب کنیم. در غیر این صورت، اگر پیش بینی آب و هوا(weather forecast) روشن است، باید مسابقه را انجام دهیم.

داده کاوی(Data Mining) در قلب تلاش های تحلیلی در صنایع و رشته های مختلف مانند ارتباطات، بیمه(Insurance) ، آموزش(Education) ، تولید(Manufacturing) ، بانکداری و خرده فروشی(Banking and Retail) و غیره است. بنابراین داشتن اطلاعات صحیح در مورد آن قبل از اعمال تکنیک های مختلف ضروری است.



About the author

من یک مهندس نرم افزار و متخصص ویندوز 10 هستم. من بیش از دو سال تجربه کار با گوشی های هوشمند، ویندوز 10 و مایکروسافت اج را دارم. تمرکز اصلی من این است که دستگاه‌های شما بهتر و سریع‌تر کار کنند. من روی پروژه های مختلفی برای شرکت هایی مانند Verizon، IMac، HP، Comcast و بسیاری دیگر کار کرده ام. من همچنین یک مدرس معتبر در آموزش ابری Microsoft Azure هستم.



Related posts