کلیات تحقیق
فصل اول: کلیات تحقیق
۱-۱ مقدمه
در فصل اول این پژوهش، به ارائه کلیات تحقیق، بیان مسئله و ضرورت انجام آن و سوالات تحقیق پرداخته خواهد شد. متدولوژی و مدل‌های پیشنهادی نیز در غالب نمودار ارائه گردیده است.
۱-۲ ضرورت انجام تحقیق
شرکت‌ها در هر کسب و کاری، با گروه‌های مختلفی از مشتریان در ارتباط هستند. از این رو با توجه به منابع محدود، آنها باید مشتریان را بر اساس ارزششان رتبه‌بندی کنند تا بخش مناسبی از منابع بازاریابی را به مشتریان با ارزش­­تر اختصاص دهند و سود بیشتری کسب نمایند.
با وجود این رقابت بالا، شرکت‌ها باید سعی در جذب مشتریان جدید و حفظ مشتریان با ارزش‌تر، با فعالیت‌های ارزش افزوده باشند. مدیریت ارتباط با مشتری، ارتباط شرکت با مشتری را برای رسیدن به سود بیشتر بهبود می‌بخشد (طبائی و فتحیان[۱۰]، ۲۰۱۱). شرکت‌ها بسیاری از اطلاعات ارزشمند در مورد مشتریان و تجارب خرید گذشته­شان را دارند. استفاده از این اطلاعات به آنها کمک می­ کند تا به بررسی منافع ، رضایت و وفاداری مشتری بپردازند. از این رو با بهره گرفتن از تکنیک داده‌کاوی و بخش­بندی مشتریان به گروه‌های مختلف، شرکت‌ها می‌توانند استراتژی‌های بازاریابی سودآوری داشته باشند.
مقاله - پروژه
۱-۳ بیان مسئله
موضوع ارزش مشتری یک مسئله مهم در مدیریت ارتباط با مشتری است و روش­های متعددی برای پیدا کردن آن وجود دارد. در این تحقیق به ارائه یک متدولوژی جامع شامل سه مدل دو مرحله‌ای برای بخش‌بندی مشتریان بر اساس ارزش آنها می‌پردازیم. در این متدولوژی از دو پایگاه داده، شامل پروفایل شخصی مشتریان[۱۱] و داده‌های معاملاتی[۱۲] و استفاده می‌نماییم که در شکل ۱-۱ نشان داده شده است.
تعاملات مشتریان
پروفایل مشتریان
WRFM
داده‌های جمعیت‌شناختی
مدل ۱
مدل ۲
مدل ۳
رتبه‌بندی بخش‌ها
ارزیابی و مقایسه مدل‌ها
شکل ۱-۱ متدولوژی تحقیق
در مدل اول از این متدولوژی، ابتدا بخش‌بندی را بر اساس داده‌های جمعیت‌شناختی[۱۳] از پروفایل مشتریان با بهره گرفتن از شبکه عصبی خود سازمانده[۱۴] انجام می‌دهیم، سپس به بخش‌بندی دوباره هر کدام از بخش‌های نتیجه گرفته شده از مرحله اول بر اساس داده‌های معاملاتی (RFM وزن‌دار شده) بنا بر الگوریتم K میانگین می‌پردازیم در این روش K بهینه را در هر خوشه با روش دیویس بولدین به دست می‌آوریم و در نهایت بخش‌های بدست آمده را بر اساس ارزششان رتبه‌بندی می‌کنیم. که در شکل ۱-۲ نشان داده شده است.
تعاملات مشتریان
پروفایل مشتریان
تعیین وزن نسبی RFM بنا به الگوریتم AHP
بخش‌بندی با الگوریتم SOM
بخش‌بندی هر خوشه با الگوریتم K میانگین
تعیین مقدار بهینه K برای هر خوشه بنا بر شاخص Davies Bouldin
شکل ۱-۲ اولین مدل توسعه داده شده جهت بخش بندی مشتریان بر اساس ارزش آنها
در مدل دوم از این متدولوژی، ابتدا مشتریان را بر اساس داده‌های معاملاتی (RFM وزن‌دار) با بهره گرفتن از الگوریتم K میانگین بخش‌بندی می‌نماییم، در این روش مقدار K بهینه از قبل توسط شاخص دیویس بولدین تعیین می‌شود. سپس هر بخش به دست آمده از مرحله اول را بر اساس داده‌های جمعیت‌شناختی با بهره گرفتن از شبکه عصبی خود سازمانده دوباره بخش‌بندی می‌نماییم و در نهایت بخش‌های بدست آمده را بر اساس ارزششان رتبه‌بندی می‌کنیم. که در شکل ۱-۳ نشان داده شده است.
تعاملات مشتریان
پروفایل مشتریان
تعیین وزن نسبی RFM بنا به الگوریتم AHP
تعیین مقدار بهینه K بنا بر شاخص Davies Bouldin
بخش‌بندی با الگوریتم K میانگین
بخش‌بندی هر خوشه با الگوریتم SOM
شکل ۱‑۳ دومین مدل توسعه داده شده جهت بخش بندی مشتریان بر اساس ارزش آنها
در مدل سوم از این متدولوژی، ابتدا مشتریان را با بهره گرفتن از شبکه عصبی خود سازمانده، بر اساس متغیرهای جمعیت‌شناختی و متغیرهای تراکنشی (RFM وزن‌دار) بخش‌بندی نموده سپس از تعداد خوشه‌ی بدست آمده (k) و مراکز خوشه‌ها به عنوان ورودی روش K میانگین برای بخش‌بندی دوباره مشتریان بر اساس متغیرهای جمعیت‌شناختی و تراکنشی استفاده می‌نماییم و در نهایت بخش‌های بدست آمده را بر اساس ارزششان رتبه‌بندی می‌کنیم. که در شکل ۱-۴ نشان داده شده است.
پروفایل مشتریان
تعاملات مشتریان
تعیین وزن نسبی RFM بنا به الگوریتم AHP
بخش‌بندی با الگوریتم SOM
K خوشه و  ها مراکز خوشه‌ها
بخش‌بندی با الگوریتم K میانگین
شکل ۱-۴ سومین مدل توسعه داده شده جهت بخش بندی مشتریان بر اساس ارزش آنها
۱-۴ سوالات تحقیق
در این تحقیق علاوه بر طراحی مدل به سوالات زیر پاسخ داده می‌شود:
- ارزش مشتریان بر اساس این مدل‌ها به چند بخش تقسیم­ می‌شود؟
- هر بخش از مشتریان دارای چه ویژگی‌هایی هستند؟
- کدام یک از مدل‌ها در مرکز اپل ایران کارایی بهتری را از خود نشان می‌دهد؟
۱-۵ روش و ابزار انجام تحقیق
متغیرهای ورودی مورد استفاده در بخش­بندی، مرحله­ ای از فرایند مدیریت ارتباط با مشتری[۱۵] که بر آن تاکید می‌شود را نشان می‌دهد. متغیرهای جمعیت­شناسی و متغیرهای تراکنشی (RFM) شایع­ترین متغیرهای ورودی مورد استفاده در ادبیات برای خوشه‌بندی مشتریان است. متغیرهای جمعیت­شناسی که با تمام مراحل مدیریت ارتباط با مشتری در ارتباط­ هستند، نقش­شان در جذب مشتری اهمیت بیشتری دارد. از سوی دیگر، RFM اغلب در حفظ مشتری و توسعه آنها استفاده می‌شود. در این مطالعه هدفمان استفاده ترکیبی از این دو متغیر ورودی و تغییر ترتیب ورودشان برای بخش‌بندی مشتریان با بهره گرفتن از تکنیک­های داده‌کاوی شناخته شده K میانگین و شبکه عصبی نگاشت خود سازمانده است.
فصل دوم:
مبانی نظری
فصل دوم: مبانی نظری
۲-۱ مقدمه
در این فصل سوابق پژوهشی و ادبیات نظری تحقیق مطرح شده است. مقالات منتشر شده در زمینه بخش‌بندی و ادبیات آن مورد بررسی قرار گرفته و الگوریتم های موجود جهت بخش‌بندی مشتریان و کاربرد آن در صنایع مختلف بیان شده است.
یکی از روش‌های مورد استفاده برای درک مشتریان و شناسایی گروه‌های همگن، بخش‌بندی مشتریان می‌باشد. در عمل، بسیاری از خرده‌فروشان، روش بخش‌بندی را برای بهبود کارایی بازاریابی و خدمات به مشتریان خود اتخاذ کرده‌اند (پراسد[۱۶] و همکاران، ۲۰۱۱). ارتباط بسیار روشنی بین رضایت، وفاداری و ارزش مشتری وجود دارد. این رابطه باعث عملکرد شرکت می‌شود. شکل ۲-۱ این رابطه را نشان می‌دهد. مشتریان راضی خرید بیشتری را در طول عمر خود انجام می­ دهند و پس از مدت کوتاهی آنها تبدیل به مشتریان وفادار می‌شوند. مشتریان وفادار نیز برای شرکت و بهبود عملکرد شرکت ایجاد ارزش می­ کنند (مالتوس و مولهرن[۱۷]، ۲۰۰۸).
وفاداری مشتری
ارزش مشتری
عملکرد شرکت
رضایت مشتری
شکل ۲-۱ رابطه بین رضایت وفاداری و ارزش مشتری (مالتوس و همکاران،۲۰۰۸).
۲-۲ مدیریت ارتباط با مشتری
از اوایل دهه ۱۹۸۰، مفهوم مدیریت ارتباط با مشتری در بازاریابی که شامل چهار بعد: شناسایی، جذب، نگهداری و توسعه مشتری است، اهمیتش را نشان داد. درک یک تعریف اثبات شده از مدیریت ارتباط با مشتری مشکل است، ما می‌توانیم آن را به عنوان یک استراتژی جامع و فرایند بدست آوردن، نگهداری و شراکت با مشتریان انتخابی برای ساختن یک ارزش خاص برای شرکت و مشتریان تشریح کنیم (سید حسینی، ۲۰۱۰). آنتون و هوئک[۱۸] نیز آن را به صورت یک تجارت جامع و استراتژی بازاریابی که تکنولوژی، فرایند و همه فعالیتهای تجاری در حوزه مشتری را کامل می­ کند، بیان می‌دارند. برون[۱۹]، مدیریت ارتباط با مشتری را به عنوان استراتژی کلیدی جامعی برای متمرکز ماندن بر نیازهای مشتری و یکپارچه‌کردن روش‌های برخورد با مشتری در سازمان تشریح می­ کند. همچنین چاترجی[۲۰] آن را به عنوان نظامی برای هدایت و بهبود فرایندهای تجارت که در مکانهای فروش، مدیریت، خدمات و پشتیبانی از مشتریان استفاده شده است، تعریف می­ کند. بنا به نظر فینبرگ و کادام[۲۱]، وقتی که نرخ نگهداری از مشتری ۵ درصد زیاد شود، سود به میزان ۲۵ تا ۸۰ درصد زیاد می­ شود (سید حسینی، ۲۰۱۰).
۲-۲-۱ مزایای استفاده از مدیریت ارتباط با مشتری
در دهه گذشته، مدیریت ارتباط با مشتری توسط بسیاری از نویسندگان مورد توجه قرار گرفته است، و نقش حیاتی­ در اقتصاد و کسب و کار جدید ایفا کرده است. برخی از مزایای بالقوه آن به شرح زیر است: (۱) افزایش حفظ و وفاداری مشتری، (۲) سودآوری بالاتر مشتری، (۳) ایجاد ارزش برای مشتری، (۴) سفارشی کردن محصولات و خدمات، (۵) کاهش فرایند، ارائه محصولات و خدمات با کیفیت بالاتر (استون[۲۲] و همکاران ۲۰۰۶).
الهی و حیدری مزایای استفاده از مدیریت ارتباط با مشتری را به سه بخش کلی تقسیم کردند که عبارتند از: (۱) افزایش سوددهی و منابع، (۲) صرفه­جویی و کاهش هزینه، (۳) تاثیرات سازمانی.
افزایش سوددهی و منابع:

  • بهبود قابلیت جذب و نگهداری مشتریان
  • ایجاد وفاداری و افزایش سود
  • ارتقاء ارزش مشتری
  • افزایش سوددهی مشتریان
  • افزایش مدت زمان نگهداری و وفاداری مشتریان

صرفه­جویی و کاهش هزینه:

  • ارتقاء سرویس­دهی بدون افزایش هزینه آن
  • کاهش هزینه­ های فروش
  • جذب مشتریان جدید با هزینه پایین­تر
  • کاهش هزینه­ های مربوط به سرویس­دهی مشتریان

تاثیرات سازمانی:

  • مدیریت کارا و موثر ارتباطات مشتری توسط سازمان­ها
  • ایجاد مزیت رقابتی
  • تاثیرات مثبت در کارائی سازمان
  • وفاداری به نام تجاری[۲۳] (۱۳۸۴).

۲-۲-۲ انواع فناوری­های مدیریت ارتباط با مشتری
انواع فناوری­های مدیریت ارتباط با مشتری به شرح زیر می­باشد:
۲-۲-۲-۱ مدیریت ارتباط با مشتری عملیاتی
توسط مدیریت ارتباط با مشتری عملیاتی[۲۴] (OCRM) تمام داده ­های مشتریان از طریق نقاط تماس با آنها مانند مرکز تماس، سیستم­های مدیریت تماس، پست، فکس، نیروهای فروش و وب جمع‌ آوری می­ شود. این بانک اطلاعاتی برای تمام کارمندان و کاربران مرتبط با مشتری قابل دسترس می­باشد.
یک نوع از مدیریت ارتباط با مشتری عملیاتی همان مرکز تماس و مدیریت تماس با مشتریان است. این سیستم می‌تواند یک بررسی کامل و جامع از اطلاعات مرتبط با مشتریان ارائه دهد. این مرکز ۱۰۰% متمرکز بر مشتری است. مزیت این نوع از CRM، خصوصی‌سازی ارتباط با مشتری و وسعت دادن پاسخ­های سازمانی مورد نیاز مشتریان است.
۲-۲-۲-۲ مدیریت ارتباط با مشتری تحلیلی
داده ­های ذخیره شده در بانک اطلاعاتی میانی توسط مدیریت ارتباط با مشتری تحلیلی[۲۵] (ACRM)، به وسیله ابزارهای آنالیز، مورد تجزیه و تحلیل قرار گرفته و در نتیجه پروفایل­ مشتریان تولید می‌شود. الگوهای رفتاری شناسایی شده، سطوح رضایتمندی تعریف می­ شود و همچنین از دسته­بندی مشتریان پشتیبانی می­گردد. این اطلاعات و دانش جمع‌ آوری شده از ACRM، در بازاریابی و ارتقاء استراتژی­ها تاثیر زیادی دارد (الهی و حیدری، ۱۳۸۴).
تکنولوژیکی­های پشتیبانی از ACRM شامل درگاه[۲۶]، انبار داده، موتورهای آنالیز و پیش ­بینی، قوانین انجمنی کشف الگو[۲۷]، الگوهای زنجیره­ای[۲۸]، خوشه­بندی[۲۹]، دسته­بندی و ارزیابی ارزش مشتری[۳۰]، می­باشد. این موارد حاصل دسته‌بندی موثر مشتریان و پیشنهاد محصولات و سرویس‌های بهتر می­باشد.
۲-۲-۲-۳ مدیریت ارتباط با مشتری الکترونیکی
مدیریت ارتباط با مشتری الکترونیکی (ECRM) باعث ایجاد قابلیتی می­ شود که اطلاعات مشتریان در تمام نقاط تماس در داخل شرکت و نیز بین شرکای خارجی شرکت در اینترنت و اینترانت قابل دسترسی باشد. این نوع از سیستم ها اجازه می‌دهند که کاربران داخلی و خارجی از طریق اینترنت و اینترانت به اطلاعات مرتبط با مشتریان دسترسی داشته باشند.
ECRM امکان سفارش آنلاین[۳۱]، پست الکترونیکی، دانش موردنیاز در تولید پروفایل مشتریان، شخصی‌سازی سرویس‌ها، تولید پاسخ­های خودکار به نامه الکترونیکی و راهنمای خودکار افراد را دارا می­باشد. یک مرکز ارتباط الکترونیکی از کانال­های چند رسانه­ای شامل مرکز ارتباط تلفنی با مشتری، وب سایت، اتاق­های صحبت آنلاین[۳۲] و سرویس­های پست الکترونیکی تشکیل می­گردد. به طور کلی ECRM باعث بالا رفتن کیفیت بازاریابی می­گردد.
۲-۲-۲-۴ مدیریت ارتباط با مشتری مشارکتی
مدیریت ارتباط با مشتری مشارکتی[۳۳] همان سیستم­های مدیریت ارتباط با مشتری هستند که با سیستم­های بزرگ سازمانی یکپارچه شده ­اند تا امکان پاسخ­دهی بالاتری را به مشتری در طول زنجیره تامین فراهم نمایند. یک سیستم CCRM می ­تواند زمینه فروش دانش و ابزارها را به هر کسی در سازمان پیشنهاد کند و به گردش فروش در طول کانال­های مرکز ارتباط تلفنی با مشتری[۳۴] کمک کند. یک CCRM می ­تواند به کارمندان سازمان، تهیه‌کنندگان و حتی شرکاء نیز توسعه یابد.
۲-۳ داده ­کاوی
داده ­کاوی به معنای کشف الگوهای مفید از داده ­ها می­باشد. تکنیک‌های داده‌کاوی قادر به استخراج مشخصه‌ ها و نیازهای مخفی مشتریان از پایگاه داده‌های بزرگ هستند. کاربردهای داده‌کاوی در مدیریت ارتباط با مشتری توجه دانشگاهیان را به خود جلب کرده است و نرخ تحقیقات مرتبط همچنان رو به افزایش است. همه مدل‌های داده‌کاوی مانند طبقه‌بندی و خوشه‌بندی می‌توانند عناصر مدیریت ارتباط با مشتری را که شامل شناسایی، جذب، حفظ و توسعه مشتری است، پشتیبانی کند (آخوندزاده نوقابی و همکاران، ۲۰۱۳).
تعاریف مختلفی از داده ­کاوی وجود دارد که بعضی از آنها عبارتند از:
داده‌کاوی فرایند اکتشاف و تحلیل حجم زیادی از داده­ به وسیله ابزارهای خودکار و نیمه خودکار به منظور کشف قواعد و الگوهای معنی‌دار می‌باشد (رایجی­السکی[۳۵] و همکاران، ۲۰۰۲).
داده‌کاوی یک فرایند شناخت الگوهای معتبر، جدید، مفید و قابل فهم از داده ­ها می­باشد (فایاد[۳۶] و همکاران، ۱۹۹۶). اما تعریفی که اکثر مراجع به اشتراک آن را ذکر می­ کنند عبارت است از “استخراج اطلاعات و دانش و کشف الگوهای پنهان از یک پایگاه داده بسیار بزرگ و پیحیده” (رضایی‌نیا، ۱۳۸۸).
امروزه ابزارهای داده ­کاوی داده ­ها را آنالیز کرده و الگوهای داده­ای را کشف می­ کند. شکاف موجود بین داده و اطلاعات سبب ایجاد نیاز برای ابزارهای داده ­کاوی شده است تا داده ­های بی­ارزش را به دانشی ارزشمند تبدیل کند. اکنون داده‌کاوی به صورت وسیعی توسط شرکت­ها، با تمرکز بر روی مشتریان خود، مسائل مادی، ارتباطات و تشکیلات بازار استفاده می­ شود.
داده ­کاوی این شرکت­ها را قادر می­سازد که ارتباط عوامل درونی (مانند قیمت، وضعیت تولید یا مهارت کارمندان) با عوامل بیرونی (مانند شاخص­ های اقتصادی، رقابت و جمعیت مشتریان) را تعیین و تاثیرات فروش، رضایت مشتریان و منابع مشترک را مشخص کند. در نهایت شرکت‌ها می‌توانند در بین خلاصه اطلاعات برای مشاهده جزئیات تراکنش داده ­ها به جستجوی سریع بپردازند.
۲-۳-۱ فرایند­های داده ­کاوی
برخی مولفین داده ­کاوی را مترادف عبارت اکتشاف دانش از پایگاه­های داده می­دانند و بقیه به داده ­کاوی به عنوان یک مرحله ضروری از فرایند بزرگتر یعنی اکتشاف دانش در پایگاه داده­ می­نگرند که به اختصار به آن KDD [۳۷] می­گویند که شامل مراحل زیر می­باشند.
۱- پاکسازی داده­[۳۸]: حذف داده ­های مزاحم و ناایستا.
۲- یکپارچه­سازی داده ­ها[۳۹]: ترکیب منابع داده متعدد و پراکنده و احیانا ناهمگن.
۳- انتخاب داده ­ها[۴۰]: بازیابی داده ­های مربوط به عمل کاوش از پایگاه داده ­ها.
۴- تبدیل داده ­ها[۴۱]: تبدیل یا تلفیق داده ­ها به اشکالی مناسب برای بکار بردن روش­های مختلف آماری.
۵- داده ­کاوی[۴۲]: مرحله­ ای ضروری از فرایند KDD است که در آن از روش­های مختلف آماری برای استخراج الگوها استفاده می­ شود.
۶- ارزیابی الگوها[۴۳]: شناسایی الگوهای جذاب ارائه دانش.
۷- ارائه دانش[۴۴]: ارائه دانش استخراج شده با بهره گرفتن از تکنیک­های نمایش اطلاعات.
در شکل ۲-۲ مراحل کشف دانش نشان داده شده است.
شکل ۲-۲ فرایند کشف دانش، (نیاگا و هاردینگ[۴۵]، ۲۰۰۶)
۲-۳-۲ فعالیت­ها و کاربردهای داده ­کاوی
در عمل دو هدف اصلی داده ­کاوی شامل پیشگویی و توصیف می­باشد. پیش­گویی شامل بکارگیری بعضی متغیرها یا فیلدها در مجموعه داده ­ها برای پیشگویی مقادیر ناشناخته یا آتی دیگر متغیرها می­باشد. از سوی دیگر توصیف، بر روی یافتن الگوهای توصیف داده ­ها که توسط انسان­ها قابل تفسیر هستند، تاکید دارد. بنابراین می­توان فعالیت­های داده ­کاوی را در دو گروه زیر طبقه‌بندی کرد (رضایی‌نیا، ۱۳۸۸):

  • داده ­کاوی پیش ­بینی­کننده[۴۶] که مدلی از سیستم را ارائه می­دهد، توسط مجموعه داده ­های مشخصی توصیف می‌شود.
  • داده ­کاوی توصیفی[۴۷] که اطلاعات جدید و غیر بدیعی را بر اساس مجموعه داده ­های موجود ارائه می­دهد.

در طیف پیش ­بینی، هدف کلی داده ­کاوی ایجاد مدلی است که به عنوان یک برنامه و کد اجرایی بتوان از آن برای طبقه‌بندی، پیش ­بینی، برآورد و دیگر اعمال مشابه استفاده نمود. از طرف دیگر در طیف توصیفی، هدف کلی بدست آوردن یک شناخت از سیستم­های تجزیه و تحلیل شده توسط الگوها و روابط آشکار در مجموعه داده‌های بزرگ می‌باشد. اهداف پیش ­بینی و توصیفی با بهره گرفتن از روش­ها و تکنیک­های داده ­کاوی محقق می­گردد. در شکل ۲-۳ انواع فعالیت­های داده ­کاوی مشخص می­ شود.
شکل ۲-۳ انواع فعالیت­ها و کاربردهای داده ­کاوی (مرادی، ۱۳۹۰)
۲-۳-۲-۱ روش­های داده ­کاوی پیش ­بینی­کننده
هدف از انجام پیش ­بینی تعیین ترکیب خروجی با بهره گرفتن از رفتار موجود می­باشد. در واقع رسیدن به یک نتیجه به وسیله اطلاعات موجود از داده ­ها می­باشد. مشخصه­های خروجی در این روش می­توانند عددی و قیاسی باشند. این استراتژی در بین استراتژی­ های داده ­کاوی از اهمیت خاصی برخوردار است و مفهوم کلی­تری را نسبت به موارد دیگر دارد. همانطور که در شکل قبل نشان داده شد روش­های پیش ­بینی­کننده به شرح ذیل می­باشد:
۲-۳-۲-۱-۱ طبقه ­بندی
طبقه ­بندی[۴۸] در واقع ارزشیابی ویژگی­های داده ­ها و سپس اختصاص دادن آنها به مجموعه ­ای از داده ­های از پیش تعیین شده است. این متداول­ترین قابلیت داده ­کاوی می­باشد. داده ­کاوی را می­توان با بهره گرفتن از داده ­های تاریخی برای تولید یک مدل یا نمایی از یک گروه بر اساس ویژگی­ داده ­ها به کار برد. سپس می­توان از این مدل تعریف شده برای طبقه‌بندی مجموعه داده ­های جدید استفاده کرد. همچنین می­توان با تعیین نمایی که با آن سازگار است برای پیش‌بینی­های آتی از آن بهره گرفت.
برای مثال برای طبقه ­بندی تخلفات و کلاهبرداری­ها در صنعت و اعتبارات بانکی، با بهره گرفتن از قابلیت طبقه ­بندی داده‌کاوی، سیستم با بهره گرفتن از مجموعه ­ای از پیش تعریف شده از داده ­ها، آموزش می­بیند. مجموعه داده ­های مورد استفاده در این نمونه باید هم شامل مجموعه‌هایی از داده ­های معتبر باشند و هم شامل مجموعه­هایی از داده ­های جعلی، از آنجا که این داده ­ها از پیش تعیین شده هستند، سیستم پارامترهایی را می­یابد که می­توان از آنها برای تشخیص طبقه ­بندی متمایز استفاده کرد. بعد از تعیین پارامترها سیستم از آنها برای طبقه ­بندی­های بعدی بهره خواهد گرفت. در واقع سیستم­هایی که بر اساس طبقه ­بندی داده ­کاوی می­ کنند، دو مجموعه ورودی دارند:
یک مجموعه آموزشی که در آن داده­هایی که به طور پیش فرض در دسته­های مختلف قرار دارند، همراه با ساختار دسته­بندی خود وارد سیستم می­شوند و سیستم بر اساس آنها به خود آموزش می­دهد یا به عبارتی پارامترهای دسته‌بندی را برای خود مهیا می­ کند. دسته دیگر از ورودی­هایی هستند که پس از مرحله آموزش و برای تعیین دسته وارد سیستم می­شوند. تکنیک­های داده ­کاوی که برای دسته­بندی بکار می­آیند عموما شامل تکنیک­های شبکه عصبی[۴۹] و درخت تصمیم ­گیری[۵۰] هستند.
۲-۳-۲-۱-۲ رگرسیون
رگرسیون از مقادیر موجود برای پیش ­بینی مقادیر دیگر استفاده می­ کند. در ساده­ترین فرم رگرسیون، از تکنیک­های آماری استاندارد مانند رگرسیون خطی[۵۱] استفاده می­ کنند. متاسفانه بسیاری مسائل دنیای واقعی تصویر خطی ساده­ای از مقادیر قبلی نیستند. بنابراین تکنیک­های پیچیده­تری مانند رگرسیون لجستیک[۵۲]، درخت­های تصمیم و یا شبکه ­های عصبی ممکن است برای پیش ­بینی مورد نیاز باشند.
مدل­های یکسانی را می­توان هم برای رگرسیون و هم برای طبقه ­بندی استفاده کرد. برای مثال الگوریتم درخت تصمیم CART را می­توان برای ساخت درخت­های طبقه ­بندی و هم درخت­های رگرسیون استفاده کرد. شبکه ­های عصبی را نیز می­توان برای هر دو مورد استفاده کرد.
۲-۳-۲-۱-۳ سری­های زمانی
پیش ­بینی از طریق سری‌های زمانی[۵۳] برای مقادیر ناشناخته آینده، بر اساس یک سری از پیش­گویی‌های متغیر با زمان صورت می­گیرد. این روش از نتایج معلوم قبلی برای اعمال پیش­گویی­های بعدی­اش بهره می­برد. مدل­ها باید دارای ویژگی­های مشخص زمانی مخصوصا به صورت سلسه مراتب دوره­ های زمانی (پنج یا هفت روز هفته، سیزدهم ماه از سال…)، فصلی، داده ­های تاریخی و توجه خاص به گذشته داشته باشند.
۲-۳-۲-۲ روش­های توصیفی داده ­کاوی[۵۴]
همانطور که گفته شد در طیف توصیفی، نهایت کار و هدف کلی بدست آوردن یک شناخت از سیستم­های تجزیه و تحلیل شده توسط الگوها و روابط آشکار در مجموعه داده ­های بزرگ می­باشد. روش­های توصیفی به شرح زیر می­باشد.
۲-۳-۲-۲-۱ خلاصه سازی[۵۵]
قبل از اینکه بتوان روی مجموعه ­ای از داده ­ها داده ­کاوی انجام داد تا یک مدل پیش ­بینی مناسب ایجاد شود، باید بتوان داده ­ها را به خوبی شناخت که برای شروع این کار می­توان از پارارمترهایی مثل میانگین، انحراف معیار و… استفاده کرد. ابزارهای تصویرسازی داده ­ها و گراف­سازی برای شناخت داده ­ها و نقش آنها در آماده‌سازی بسیار مفید و غیرقابل انکار می­باشد. مثلا با بهره گرفتن از این ابزارها می­توان توزیع مقادیر مختلف داده ­ها را در یک نمودار مشاهده کرد و میزان داده‌های دارای خطا را بطور تقریبی حدس زد.
مهم­ترین مشکل این ابزار این است که معمولا تحلیل­ها دارای تعداد زیادی پارامتر می‌باشند که به هم مربوط هستند و باید رابطه این پارامترها را که چند بعدی می­باشد در دو بعد نمایش دهند، که این کار اگر هم عملی باشد برای استفاده از آنها نیاز به افراد خبره می­باشد.
۲-۳-۲-۲-۲ قوانین انجمنی[۵۶]
اساسا ارتباط میان مجموعه‌ی اشیاء (چیزها) وابستگی­های جالب توجهی هستند که منجر به امکان آشکارسازی الگوهای مفید و قوانین وابستگی برای پشتیبانی تصمیم، پیش ­بینی­های مالی، سیاست­های بازاریابی، وقایع پزشکی و… می­ شود که توجه زیادی را در تحقیقات اخیر به خود جلب کرده است.
در این تکنیک رابطه وابستگی بین متغیرهای مختلف در پایگاه داده ­ها شناسایی می­ شود این روش بین مدیران بازاریابی و عمده­فروشان به نام سبد بازار معروف است. این روش یک حالت غیر نظارتی[۵۷] داده می­باشد که به جستجو برای یافتن ارتباط در مجموعه داده ­ها می ­پردازد. یکی از کاربردی­ترین حالات تحلیل وابستگی­ها، تجزیه و تحلیل سبد بازار می­باشد که در آن هدف یافتن کالاهایی است که معمولا به طور همزمان خریداری می­شوند. این کار کمک می­ کند که خرده‌فروشان بهتر بتوانند کالای خود را سازماندهی کرده و چیدمان بهتری از محصولات خود داشته باشند (مرادی، ۱۳۹۰).
۲-۵ خوشه­بندی
فرایند گروه‌بندی مجموعه‌ای از اشیاء را در رده اشیاء مشابه، خوشه‌بندی[۵۸] می‌نامیم.
در داده‌کاوی، روش‌های خوشه‌بندی، کل مجموعه داده‌ها را به گروه یا خوشه‌های نسبتا همگنی تقسیم می‌کند. داده‌ها بر اساس اصل به حداکثر رساندن تشابه در داخل خوشه و به حداقل رساندن شباهت خوشه‌ها، گروه‌بندی می‌شوند، یعنی خوشه‌ها به طوری که اشیاء درون یک خوشه با توجه به یکدیگر تشابه بالایی دارند، اما بسیار بی‌شباهت به اشیاء در خوشه­های دیگر می‌باشند شکل می‌گیرند. تکنیک‌های خوشه­بندی، تجزیه و تحلیل داده را بدون استفاده از یک برچسب کلاس شناخته شده انجام می‌دهد. برخلاف تکنیک­های طبقه ­بندی، که به تجزیه و تحلیل داده‌های نشان‌دار با کلاس اشیاء می‌پردازد، برچسب­های کلاس در داده‌های آموزشی وجود ندارد، تنها به این دلیل که آنها در ابتدا شناخته شده نیستند. خوشه‌بندی برای تولید چنین برچسب‌های کلاسی استفاده می­ شود. هر خوشه­ای که تشکیل شده است می‌تواند به عنوان یک کلاس از اشیاء مشاهده شود، که قوانینی از آن مشتق می‌شود.
در خوشه­بندی ابتدا مجموعه‌ای از داده‌ها را به گروه‌هایی بر اساس تشابه تقسیم می‌کنیم و پس از آن برچسب‌هایی را به تعداد نسبتا کمی از گروه‌ها، اختصاص می‌دهیم. مزیت مهم یک فرایند مبتنی بر خوشه‌بندی این است که به تغییرات سازگار است و به بدست آوردن ویژگی‌های مفیدی که گروه ­های مختلف را از هم متمایز می‌کند کمک می‌کند (پراسد[۵۹] و همکاران، ۲۰۱۱).
۲-۵-۱ مزایای روش خوشه­بندی
مزایای روش خوشه­بندی عبارتند از:

  • این روش را می­توان برای داده ­های گوناگون استفاده نمود.

با انتخاب درست اندازه فاصله­های گوناگون خوشه­بندی را می­توان برای بیشتر داده ­ها استفاده کرد.

  • خوشه­بندی یک روش غیر مستقیم است.

قدرت روش خوشه­بندی به غیر مستقیم بودن آن است بدین معنی که این روش را می­توان حتی هنگامی که هیچ نوع اطلاعات قبلی از ساختار داخلی پایگاه داده­ نداریم استفاده کنیم. از این روش می­توان برای کشف الگوهای پنهان و بهبود عملکرد روش­های مستقیم نیز استفاده نماییم.

  • استفاده از این روش آسان است و نتایج آن برای مدیران قابل فهم است.

در این روش لازم نیست که بعضی فیلدها را به عنوان ورودی و بعضی دیگر را به عنوان خروجی در نظر بگیریم و در بیشتر روش­های خوشه­بندی کمتر به وزن­دهی داده ­ها نیاز است.

  • با این کار مروری سریع بر داده ­ها انجام می­ شود.
  • در حالتی که گروه ­های زیادی در داده ­ها وجود دارد، مفید می­باشد.
  • در حالتی که اندازه ­گیری مشابهت­های غیر معمولی نیاز است، مناسب می­باشد.
  • این روش را می­توان برای داده ­های گوناگون به کار برد.
  • نتایج خوشه­بندی قابل تفسیر و استفاده است (البته یک ایراد خوشه­بندی این است که نتایج آن را می­توان به صورت­های متفاوت تفسیر کرد).

۲-۵-۲ الگوریتم K میانگین
از طریق خوشه‌بندی می‌توان مناطق متراکم و پراکنده از فضای جسم، که منجر به کشف الگوهای توزیع کلی و ارتباط جالب میان ویژگی­ داده ­ها می‌شود را شناسایی کرد. یک کاربرد تجاری مهم خوشه‌بندی این است که به سازمان­هایی که نیاز به گروه‌های مشخص در پایگاه‌های مشتری دارند، کمک می‌کند و گروه‌های مشتریان را بر اساس الگوهای خریدشان مشخص می‌کند. تکنیک‌های تجزیه و تحلیل خوشه‌بندی عمدتا بر روش‌های مبتنی بر فاصله متمرکز هستند، روش رایج آن خوشه‌بندی K میانگین است. یک پایگاه داده از n شی تشکیل شده است، این روش K جزء از داده‌ها را می‌سازد، که در آن هر یک از اجزاء متعلق به یک خوشه است همچنینK ≤ n می‌باشد. این گروه‌ها با هم به طور کلی شرایط زیر را برآورده می‌سازند: ۱) هر گروه باید حداقل شامل یک شی باشد، ۲) هر شی باید دقیقا به یک گروه تعلق داشته باشد. هر خوشه مقدار میانگین ​​از اشیائی که در آن موجود است را نشان می‌دهد. اگر چه این روش برای مدت طولانی ‌ایست که استفاده می‌شود، اما برای اولین بار توسط استوارت لوید[۶۰] در سال ۱۹۸۲ منتشر شد (پراسد، ۲۰۱۱).
این الگوریتم به طور رایج استفاده می‌شود و هدفش بهینه سازی یک تابع هدف است که این گونه توصیف می‌شود:

(۲-۱)  

در معادله بالا، مرکز خوشه است که فاصله اقلیدسی بین نقطه x و است. بنابراین، تابع معیار E، فاصله هر نقطه از مرکز خوشه‌ای که به آن متعلق دارد را حداقل می کند (شکل ۲-۴). در واقع، الگوریتم به وسیله‌ی مقداردهی اولیه برای یک مجموعه از k مرکز خوشه آغاز می‌شود. سپس هر شی از مجموعه داده را به خوشه‌ای نسبت می دهد که مرکز آن از همه‌ی خوشه‌ها نزدیک‌تر است و دوباره مراکز را محاسبه می‌کند. فرایند ادامه پیدا می‌کند تا مراکز خوشه‌ها تغییر نکند (کوکابن کبس[۶۱]،۲۰۰۷).
انتخاب تعداد خوشه‌ها (K)
انتخاب مرکز خوشه‌ی اولیه
محاسبه‌ی فاصله‌ی بین مراکز خوشه‌ها و (N-K) نقطه‌ی باقی مانده
بله
آیا مرکز خوشه تغییر پیدا کرده است
خوشه‌بندی بر اساس کمترین فاصله
خیر
محاسبه‌ی دوباره مراکز خوشه‌ها
شکل ۲-۴ الگوریتم خوشه‌بندی K میانگین (کارگری و سپهری، ۲۰۱۲)
۲-۴ بخش­بندی
بخش­بندی مشتریان، به عنوان مرحله اولیه از فرایند مدیریت ارتباط با مشتری، مسئله قابل توجهی در وضعیت تجاری رقابتی امروز است. مطالعات زیادی در زمینه‌ی کاربرد تکنولوژی داده‌کاوی در بخش­بندی مشتریان و تاثیراتش موجود می‌باشد (استون، ۲۰۰۶)، اما بسیاری از آنها مشتری را تنها از یک نقطه نظر، به جای استفاده از یک متدولوژی سیستماتیک بخش­بندی کرده‌اند.
چای و چان[۶۲] روش‌های موجود بخش­بندی مشتری را به روش­های متدگرا و کاربردگرا طبقه‌بندی کردند (۲۰۰۸). اکثر نویسندگان تغییر بعضی از تکنیک­های خوشه‌بندی داده مانند نگاشت خود سازمانده و یا استفاده از ترکیبی از دو یا چند تکنیک داده‌کاوی برای رسیدن به خوشه‌ها یا بخش­های دقیق‌تر را ارائه داده­اند (جانکر[۶۳] و همکاران، ۲۰۰۴، لی[۶۴] و همکاران، ۲۰۰۴، هوانگ[۶۵] و همکاران، ۲۰۰۷، کیم[۶۶] و همکاران ۲۰۰۸). آنها معمولا متغیری جدید برای فرایند خوشه‌بندی تعریف و ایجاد می­ کنند و یا از متغیرهای مختلف در مراحل خوشه­بندی ترتیبی استفاده می­ کنند (کیم و همکارانش، ۲۰۰۶، هوانگ وهمکارانش، ۲۰۰۴، چای و چان[۶۷]، ۲۰۰۸، استون[۶۸] و همکارانش، ۲۰۰۶، سیه[۶۹]، ۲۰۰۴، چانگ[۷۰] و همکارانش، ۲۰۰۷، شی­یو[۷۱] و همکارانش، ۲۰۰۹، مک­کارتی[۷۲] و همکارانش، ۲۰۰۷، لی و همکارانش، ۲۰۰۵، چنگ[۷۳] و همکارانش، ۲۰۰۹).
۲-۴-۱ اهداف بخش­بندی
اگرچه بخش­بندی مشتری و بخش­بندی بازار به صورت مشابه در ادبیات در نظر گرفته شده است، اما تفاوت‌های مهم در مورد در دسترس بودن داده‌ها برای مکانیسم خوشه­بندی­ آنها وجود دارد.
هدف از بخش­بندی بازار معمولا به دست آوردن مشتریان جدید (مرحله اول فرایند مدیریت ارتباط با مشتری) با بهره گرفتن از داده‌های اجتماعی-جمعیتی است. در حالی که بخش­بندی مشتری در تمام مراحل مدیریت ارتباط با مشتری، با بهره گرفتن از داده‌های اجتماعی-جمعیتی و داده ­های معاملاتی کاربرد دارد. “ما می‌توانیم تصور کنیم که حفظ مشتری مهم‌تر از کسب مشتری است، به دلیل عدم اطلاعات از مشتریان جدید انتخاب مشتریان هدف دچار مشکل شده و این باعث تلاش­ های بازاریابی ناکارآمد می‌شود” (هوانگ[۷۴] و همکاران، ۲۰۰۴).
هدف از بخش­بندی شناسایی نیازهای مشتریان و تعیین دقیق­تر خصوصیات هر کدام از بخش­ها می­باشد. بعد از بخش‌بندی، سازمان می ­تواند یک یا چند بخش را با توجه به معیارهای مورد نظر خود به عنوان مشتریان هدف انتخاب نماید و در جهت مدیریت بهتر ارتباط با آنها و خدمت­دهی مناسب­تر، استراتژی­هایی را تدوین نماید. همچنین شناسایی مشتریان با ارزش و وفادار می ­تواند برای سازمان فرصت­های سودآوری را در پی داشته باشد و بقای آن را در عرصه رقابت حفظ نماید.
دستورالعمل بخش­بندی بدین صورت است که ابتدا باید مشخص شود که به چه داده­هایی نیازمندیم و چگونه باید آنها را جمع­آوری نماییم. گردآوری داده ­ها و یکپارچه کردن آنها از منابع مختلف مرحله بعد خواهد بود. همچنین روش­های تحلیل داده برای بخش­بندی نیز باید تعیین گردد. پس از آنالیز داده ­ها و بخش­بندی، این اطلاعات باید در دسترس بخش­های مختلف قرار گرفته و راهکارهایی برای پاسخ­دهی و استفاده بهتر پیاده­سازی گردد که البته باید متناسب با استراتژی­ های مطلوب سازمان برای هر بخش با توجه به توانایی­ها، امکانات و جایگاه سازمان و نیز تحلیل و شناخت ویژگی­های آن ­باشد.
۲-۴-۲ مزایای بخش­بندی مشتریان
گاهی در سازمان­ها به منافع استراتژیک بخش­بندی توجه کافی نمی­ شود. بخش­بندی مشتریان با ایجاد چارچوبی به سازمان کمک می­ کند که گروه هدف خود را بهتر انتخاب نموده و منابع محدود خود را به طور بهینه و موثری برای تامین رضایت آنها و در نتیجه سودآوری بیشتر به کار برد. بیشتر استراتژی­ های تجاری موفق بر مبنای بخش­بندی مشتری و تمرکز منابع در بخش­های با ارزش‌تر استوار هستند و در نتیجه از موثرترین مزیت­های بخش­بندی افزایش مطلوبیت استفاده از منابع سازمان می­باشد.
موارد زیر مهم­ترین مزایای بخش­بندی می­باشد:

  • خدمت­رسانی بهتر با توجه به نیازها و خواسته­ های مشتری و ایجاد ارتباط خاص با هر گروه
  • سودآوری بالاتر
  • فرصت برای رشد
  • روابط پایدار با مشتری در کلیه فازهای طول عمر مشتری
  • افزایش امکان نوآوری
  • افزایش سهم بازار
  • مدیریت ارتباط با مشتری بهتر
  • تعیین مشتریانی که پتانسیل سرمایه ­گذاری را دارند
  • نشان دادن زمینه ­های تحقیق و توسعه خدمات جدید
  • جهت­دهی سازمان

۲-۴-۳ معیار­های کلی بخش­بندی
شاخص­ های کلی جهت بخش­بندی را می­توان به شاخص­ های جمعیت­شناسی، جغرافیایی، رفتارشناسی و روان­شناسی تقسیم بندی کرد.
شاخص­ های جمعیت­شناختی[۷۵] شامل جنسیت، تحصیلات، تأهل، درآمد، شغل و محل زندگی و غیره می­باشد. شاخص‌های جغرافیایی که البته می­توان آن را زیر مجموعه شاخص­ های جمعیت‌شناختی نیز در نظر گرفت، می ­تواند تراکم جمعیت، نرخ­های رشد و غیره باشد. شاخص­ های رفتارشناختی می ­تواند شامل انگیزه، ارزش­ها، اولویت­ها، نگرش‌ها، حجم و ارزش خرید، دوره عمر، هدف خرید و استفاده از کالا خدمت یا منافع و انتظارات مشتری باشد. شاخص­ های روانشناسی می ­تواند سبک زندگی و شخصیت مشتریان باشد.
معمولا شاخص­ های جمعیت­شناسی بهترین راه بخش­بندی بازار نیستند. معمولا ترکیبی از شاخص­ های ذکر شده برای بخش­بندی مورد استفاده قرار می­گیرد. از طرف دیگر معیارهای بخش‌بندی می ­تواند کاملا مرتبط با خدمت یا محصولی که ارائه می­دهیم تعریف شوند.
همچنین از دیگر روش­های بخش­بندی، بخش­بندی بر اساس ارزش می­باشد یعنی توجه به مشتریان بر اساس درآمدی که برای سازمان ایجاد می­ کنند و هزینه­ای که سازمان باید برای ایجاد و حفظ ارتباط با آنها بپردازد. تجربه نشان می‌دهد اگر تمرکز بخش­بندی بر نیازهای مشتری باشد معمولا موثرتر است نسبت به زمانی که صرفا به سودآوری مشتری توجه شود. یکی دیگر از روش‌های بخش­بندی که در مقالات علمی زیاد معرفی گردیده است به کار‌گیری مفهوم ارزش دوره عمر مشتری (LTV)[76] است (برل و همکاران، ۲۰۰۸).
۲-۶ الگوریتم RFM
تجزیه و تحلیلRFM [۷۷] برای چند دهه در بازاریابی مستقیم استفاده شده است (سید حسینی،۲۰۱۰). این روش رفتار مشتری را شناسایی می‌کند و ویژگی های رفتار مشتری را با سه متغیر به شرح زیر بیان می‌کند:
(۱) تازگی آخرین خرید[۷۸] که به فاصله زمانی که آخرین خرید مصرف ­کننده تا الان اشاره دارد.
(۲) فرکانس خرید[۷۹] که به تعداد معاملات در یک دوره خاص اشاره دارد.
(۳) ارزش پولی خرید[۸۰] که به میزان مصرف پول در یک دوره خاص اشاره دارد.
تجزیه و تحلیل RFM در بسیاری از روش­ها مورد استفاده قرار گرفته است. RFM کلاسیک، هر یک از مشتریان را با پارامترهای ارزشش در برابر بقیه مشتریان رتبه ­بندی می­ کند و یک نمره RFM برای هر مشتری ایجاد می­ شود.
قدم اول این است که فایل مشتری را با توجه به اینکه چقدر اخیرا مشتری از این شرکت خریداری کرده­ است مرتب می‌کند. سپس پایگاه داده به پنج قسمت مساوی تقسیم می­ شود و به این پنج قسمت اعداد ۱ تا ۵ اختصاص داده می‌شود. بنابراین، به ۲۰ درصد از مشتریان که به تازگی از این شرکت خریداری کرده ­اند شماره ۵ را اختصاص می­دهیم، به ۲۰ درصد بعدی شماره ۴ را اختصاص داده و الی آخر. مرحله بعدی شامل مرتب سازی بر اساس فرکانس و پول است. در نهایت، پایگاه داده به ۱۲۵ گروه تقریبا مساوی (سلول) با توجه به مقدار تازگی، فراوانی، و ارزش پولی تقسیم شده است. مشتریان با نمرات بالا معمولا با ارزش­ترین و سودآورترین هستند (استون، ۱۹۹۴).
۲-۶-۱ مزایای الگوریتم RFM
مزایای استفاده از این روش شامل: سادگی روش، در دسترس بودن اطلاعات برای محاسبه RFM، انعطاف­پذیری خوب و انطباق با هر یک از وضعیت­های کسب و کار است.
۲-۷ نگاشت‌های خود سازمانده
شبکه‌های عصبی خود سازمانده از جمله مهمترین و قدرتمند‌ترین شبکه‌های موجود جهت داده‌کاوی و تحلیل فضا‌های پیچیده می‌باشند (کوهونن[۸۱]، ۲۰۰۱). این گونه از شبکه‌ها برای اولین بار در سال ۱۹۸۱ توسط کوهونن و با الگوبرداری از عصب شبکیه چشم معرفی گردید و برای نخستین بار در سال ۱۹۸۴ برای تشخیص صدا و تبدیل آن به متن، به طور عملی مورد استفاده قرار گرفت. اساس فلسفه شبکه‌های خود سازمانده، نگاشت فضاهای با تعداد ابعاد بالا به فضایی دو یا سه بعدی است، بگونه‌ای که حداقل اطلاعات از بین رفته و اطلاعات نهفته در ارتباط با میان داده‌ها نیز قابل کشف و نمایش باشند. این روش توانایی نمایش همبستگی بین داده‌ها و اطلاعات و اثرات متقابل و همزمان آنها بر یکدیگر را دارد. این توانایی‌ها با نگاشت ارتباطات غیر خطی میان اطلاعات با بهره گرفتن از یک واسط هندسی بر روی یک شبکه دو یا سه بعدی از نرون‌ها حاصل می‌گردد. یک شبکه دو بعدی از نرون‌ها اصطلاحاً یک نقشه از نرون‌ها نامیده می‌شوند. هر نقشه متشکل از مجموعه‌ای از نرون‌ها می‌باشد که بطور قاعده‌مندی کنار هم چیده شده و ساختار شبکه را به گونه‌ای که نرون‌های شبیه‌تر کنار یکدیگر قرار گیرند، شکل داده‌اند. کوهونن مقالات و کتاب‌های بسیاری در مورد سیستم‌های خود سازمانده به رشته تحریر درآورده است که نگاشت‌های خود سازمانده تنها گوشه‌ای از مطالعات وسیع وی می‌باشند (۲۰۰۱). این الگوریتم غالباً به منظور تحلیل فضا‌های پیچیده داده‌ها مورد استفاده قرار می‌گیرد (بریان[۸۲]، ۲۰۰۵). چون اساس عملکرد این‌ گونه از شبکه‌ها تبدیل یک فضای ورودی با بعد دلخواه به یک فضا با بعد کمتر و غالباً یک نگاشت دوبعدی گسسته می‌باشد، به همین دلیل این‌گونه از شبکه‌ها را یک ابزار کاهش‌دهنده بعد معرفی می‌نمایند. هدف نهایی از استفاده از نگاشت‌های خود سازمانده نیز حصول همین مدل ساده از داده‌های اولیه به منظور کاهش محاسبات و پیچیدگی‌های موجود در زمینه تجزیه و تحلیل داده‌ها می‌باشد.
۲-۷-۱ کاربرد نگاشت­های خود سازمانده
نگاشت‌های خود سازمانده کاربرد‌های فراوانی در زمینه‌های مختلف علوم داشته که مهم­ترین آنها استخراج داده‌ها و تحلیل فضا‌های پیچیده می‌باشد (سئو[۸۳] و همکاران، ۲۰۰۴). از سایر کاربرد‌های این‌گونه از شبکه‌ها می‌توان به خوشه‌بندی (جین[۸۴] و همکاران، ۲۰۰۴)، تشخیص الگو (فونسکا[۸۵]، ۲۰۰۶)، آنالیز تصاویر و اصوات (زامپیقی[۸۶] و همکاران، ۲۰۰۵) و تشخیص خطا (محمد خالد[۸۷]، ۲۰۰۵) اشاره نمود. همچنین کاربرد‌های فراوانی در زمینه‌های مختلف علوم همچون مهندسی (جونلا[۸۸] و همکاران، ۲۰۰۳)، پزشکی (مشو و همکاران، ۲۰۰۵) داشته است. یامادا[۸۹] با بهره گرفتن از شبکه‌های خود سازمانده محیط‌های مختلف را بر اساس ترتیب کارها تشخیص و تقسیم‌بندی نموده است (۲۰۰۴). آبونی[۹۰] با تجزیه و تحلیل فرایندها، کیفیت تولیدات را با بهره گرفتن از شبکه‌های خود سازمانده برآورد کرده است (۲۰۰۳). کیت[۹۱] نیز با بکارگیری نگاشت‌های خود سازمانده صفحات وب را طبقه‌بندی نموده است (۲۰۰۳). از سایر اقدامات از این دست می‌توان به مقاله یوو[۹۲] در مورد تقسیم‌بندی تصاویر رنگی (۲۰۰۵)، مقاله بونی‌فیکا[۹۳] در مورد انتخاب پروسسورها (۲۰۰۵) و مقاله بونادیو[۹۴] در مورد مقیاس‌گذاری گراف‌های چندبعدی (۲۰۰۲) و غیره اشاره نمود (چنا[۹۵] و همکاران، ۲۰۰۶؛ ازکوئل[۹۶] و همکاران، ۲۰۰۵).
در بازارها و محیط‌های مالی نیز اقدامات فراوانی در این زمینه انجام شده است. شان‌میوگاناتان[۹۷] محیط‌ها و سیستمهای اقتصادی را با بهره گرفتن از نگاشت‌های خود سازمانده مدل‌سازی نموده است (۲۰۰۵). ملودی[۹۸] مسئله تشخیص و تقسیم‌بندی بازارهای مالی را با بهره گرفتن از نگاشت‌های خود سازمانده مورد بررسی قرار داده است (۲۰۰۶). لن‌داس[۹۹] نیز میزان الکتریسته مصرفی را با بهره گرفتن از نگاشت‌های خود سازمانده پیش‌بینی نموده است (۲۰۰۲). از سایر اقدامات انجام شده در این زمینه و بخصوص در زمینه پیش‌بینی می‌توان به مقاله موشیو[۱۰۰] در مورد پیش‌بینی فرایندها و پروسه‌ها (۲۰۰۴) و مقاله هان[۱۰۱] در مورد پیش‌بینی با بهره گرفتن از منحنی‌های اصلی و نگاشت‌های خود سازمانده اشاره نمود (۲۰۰۴).
۲-۷-۲ توپولوژی نگاشت‌های خود سازمانده
نگاشت‌های خود سازمانده در حالت کلی یک ساختار دو لایه با یک لایه ورودی و یک لایه خروجی دارند. نرونهای لایه ورودی وظیفه انتقال داده‌ها به شبکه را برعهده داشته و در حالت کلی تعداد آنها با بعد بردار‌ها در فضای ورودی برابر است. لایه خروجی نیز شامل مجموعه‌ای از نرون‌ها است که معمولاً در یک صفحه مسطح کنار یکدیگر چیده شده‌اند. این نرون‌های لایه خروجی با توجه به روابط همسایگی مشخصی که در بین آنها تعریف شده و رفتار متقابل روی همدیگر، خروجی شبکه را ایجاد می‌نمایند (چانگ[۱۰۲] و همکاران، ۲۰۰۵). تعداد نرون‌های موجود در لایه خروجی به مسئله مورد مطالعه وابسته بوده و توسط کاربر مشخص می‌گردد. ساختار یک نگاشت‌ خود سازمانده (۵×۴) در شکل۲-۵ نمایش داده شده است.

شکل۲-۵ ساختار یک نگاشت‌ خود سازمانده (۵×۴)
نرون‌های ورودی به وسیله وزن‌های اتصالی به تمامی نرون‌های لایه خروجی متصل می‌باشند. هر یک از واحد‌های خروجی که بردار‌های مرجع نیز نامیده می‌شوند، توسط مختصات آنها در صفحه خروجی وزن‌دهی می‌گردند. سپس با ارائه الگو‌های آموزشی به شبکه، وزن‌ نرون‌ها که مبین مختصات آنها در صفحه خروجی می‌باشند، طبق الگوریتم آموزشی تغییر خواهند کرد. اساس تغییر در اوزان جستجوی نرونی با بیشترین شباهت به الگوی ورودی (نرون برنده) و حرکت نرون مذکور و جمعی از همسایگانش به سوی الگوی ورودی می‌باشد. نتیجه نهایی، تغییر اوزان فشرده‌سازی اطلاعات و تعیین فضای مورد نظر می‌باشد.
تفاوت اساسی بین دو الگوریتم نقشه خود سازمانده و K میانگین این است که نقشه خود سازمانده یک وابستگی توپولوژیکی بین خوشه‌ها تعریف می‌کند و حفظ نظم توپولوژیکی بین بردارهای ورودی و خوشه‌ها بسیار مهم است. تکنیک‌های خوشه‌بندی از جمله K میانگین بیش از حد متمرکز می‌شوند به این معنی که یک گروه بزرگ و بزرگ‌تر می‌شود در حالی که گروه‌های دیگر خالی می‌مانند. همچنین برای تحلیل خوشه‌ای نیازمند تعیین تعداد خوشه‌ها هستیم، در حالی که شبکه‌های عصبی نقشه خود سازمانده، داده‌ها را به صورت طبیعی خوشه‌بندی می‌کنند (اولسون[۱۰۳]، ۲۰۰۸). الگوریتم آموزش نقشه خود سازمانده به این صورت است:
فرض می‌کنیم که ورودی جدید  به نرون‌ها تغذیه شده است و بردار وزنی نرون iام معادل  باشد. نرونی که بردار وزنی‌اش کوتاه‌ترین فاصله را با بردار ورودی داشته باشد، نرون برنده است و از رابطه ۲-۲ محاسبه می‌شود.

(۲-۲)  

نرون برنده نسبت به سایر نرون‌ها با بردار ورودی X بیشتر مطابقت می‌کند این نرون به عنوان برنده رقابت، می‌تواند وزنش را اصلاح کند و بنابراین در موقعیتی نزدیک‌تر به بردار ورودی قرار گیرد. قاعده یادگیری[۱۰۴] از رابطه ۲-۳ به دست می‌آید.

(۲-۳)  

به طوری که t اندیس تکرار و  نرخ یادگیرنده است  (سیوس[۱۰۵] و همکاران، ۲۰۰۷).
به طور کلی نقشه‌های خود سازمانده، سه فرایند مشخصه را نمایش می‌دهند:

  • رقابت[۱۰۶]: نرون‌های خروجی با هم رقابت می‌کنند تا بهترین مقدار را برای تابع فاصله تولید کنند.
  • همکاری[۱۰۷]: نرون برنده در مرکز یک همسایگی از نرون‌های اطرافش قرار دارد و همه نرون‌ها در همسایگی نرون برنده، در پاداش او شریک می‌شوند.
  • سازگاری[۱۰۸]: نرون‌ها در همسایگی نرون برنده در تطابق و سازگاری مشارکت می‌کنند که همان یادگیری است. وزن‌های این نرون‌ها به گونه‌‌ای تنطیم می‌شوند که تابع فاصله را بهبود بخشند، به عبارت دیگر این نرون‌ها شانس زیادی برای دوباره برنده شدن دارند، هنگامی که بردارهای ورودی مشابهی موجود باشند (لاروس[۱۰۹]، ۲۰۰۵).

۲-۸ کاربرد بخش­بندی در صنایع مختلف
بخش­بندی مشتریان با بهره گرفتن از تکنیک­های خوشه­بندی منحصر به یک صنعت خاص نمی‌باشد. به طوری که در صنایع تولیدی و خدماتی در جهان، از بخش­بندی مشتریان برای پشتیبانی تصمیم و تعیین استراتژی‌های مدیریت ارتباط با مشتری استفاده می­ شود.
به عنوان مثال در شرکت ارتباط سیار کره­جنوبی، کیم[۱۱۰] و همکارانش چارچوبی را برای تجزیه و تحلیل ارزش مشتری و بخش­بندی مشتریان بر اساس ارزش آنها پیشنهاد داده­اند و استراتژی­ های مدیریت ارتباط با مشتری را بر اساس ارزش دوره عمر مشتری تعیین نموده‌اند. در این مطالعه موردی که در کره­جنوبی صورت گرفته است، مهم­ترین معیار برای بخش­بندی مشترکان و وفاداری آنها این است که مشترک حق عضویتش را پرداخته است (۲۰۰۶).
بخش­بندی مشتریان در صنعت خرده­فروشی کالا نیز با بهره گرفتن از الگوریتم­های مختلفی مانند RFM صورت پذیرفته است. شاخص­ هایی که برای بخش‌بندی در این حوزه مدنظر قرار گرفته عبارتند از:
الف: تعداد مشتری
ب: تعداد مبادلات هر مشتری
ج: میانگین اقلام خریداری شده برای هر مشتری
د: میانگین فاصله زمانی خریدها
ح: میانگین قیمت اقلام با قیمت بالا
و: میانگین قیمت اقلام با قیمت متوسط
ز: میانگین قیمت اقلام با قیمت ارزان
با داده ­های فوق به بررسی الگوهای خرید زنجیری در بخش خرده­فروشی کالا پرداخته شده است (چن[۱۱۱] و همکاران، ۲۰۰۹).
مک‌کارتی[۱۱۲] و هستک[۱۱۳]، در یک شرکت بازاریابی چند بخشی نیز، روش­های RFM، CHAID و رگرسیون لجستیک را به عنوان روش‌های تحلیلی برای بخش‌بندی مستقیم بازاریابی، با بهره گرفتن از دو مجموعه داده­ی مختلف بررسی کردند. پایگاه داده ­های مشتریان این شرکت شامل ۹۶۵۵۱ عضو می­ شود، که شرکت اقدام به ارسال پست الکترونیکی[۱۱۴] برای تمامی مشتریان می­ کند (۲۰۰۷).
همچنین در شرکت پخش ماهواره­ای دجیتریک[۱۱۵] که در سال ۱۹۹۹ در ترکیه تاسیس شده است، بخش­بندی مشتریان صورت پذیرفته است. این شرکت حدود هشتصد هزار نفر مشترک دارد (ساگلام[۱۱۶] و همکاران، ۲۰۰۶).
۲-۹ پیشینه تحقیق
به طور کلی مدل­های مختلفی به وسیله محققان در حوزه بخش­بندی مشتریان ارائه شده است، در اکثر این مطالعات مدل­ها از لحاط متغیرهای ورودی متفاوت هستند.
از ورودی‌های اصلی برای بخش­بندی مشتریان RFM است. سیه[۱۱۷] از یک شبکه عصبی SOM برای شناسایی گروه ­های مشتریان بر اساس رفتار بازپرداخت، تاخر، فرکانس و پیش‌بینی‌های رفتار پولی استفاده کرد. او همچنین مشتریان بانک را به سه گروه عمده از گروه ­های مشتریان سودآور طبقه بندی کرد، شکل۲-۶ مدل ارائه شده در این مطالعه را نشان می­دهد (۲۰۰۴).
پردازش داده
کاربر متغیر
متغیر‌های نمره‌دهی رفتاری
مجموعه داده‌های متمایل به رفتار فردی
متغیر‌های نمره‌دهی RFM
داده ­های معاملاتی مشتری
داده ­های حساب مشتری
ساختارمدل نمره‌دهی رفتاری
کاربرآسوده
کاربر معامله‌گر
استقرائی
پروفایل مشتری
استراتژی‌های بازاریابی
شکل ۲-۶ مدل ارائه شده توسط سیه (۲۰۰۴)
چنگ و چن[۱۱۸] نیز یک روش جدید پیوستن به مقدار ویژگی‌های کمی RFM و الگوریتم K میانگین در تئوری مجموعه ناهموار[۱۱۹] برای استخراج قواعد معنا پیشنهاد دادند. داده ­های این مطالعه موردی که از صنعت الکترونیک در شرکت چانگ هوآ[۱۲۰] می‌باشد، شامل ۴۰۱ رکورد از مبادلات شرکت است که در سال ۲۰۰۶ انجام شده است. شاخص­ هایی که در بخش­بندی مشتریان مورد نظر بوده به قرار زیر است: الف: منطقه ب: کشور ج: مقدار اعتبار
این مدل در شکل۲-۷ ارائه شده است (۲۰۰۹).
شکل۲-۷ مدل ارائه شده توسط چنگ و چن (۲۰۰۹)
علاوه بر این، یک ترکیبی از متغیرهای ورودی­ که در بالا ذکر شده، نیز توسط محققان مورد استفاده قرار گرفته است. برای مثال، چان[۱۲۱] و همکارانش، یک رویکرد جدید که ترکیبی از هدف قرار دادن مشتری و بخش­بندی مشتری برای استراتژی‌های کمپین می­باشد را ارائه داده­اند. در این تحقیق رفتار مشتری با بهره گرفتن از یک مدل RFM شناسایی شده، سپس از یک مدل LTV برای ارزیابی مشتریان بخش­های پیشنهادی استفاده می­ شود که در شکل۲-۸ ارائه شده است (۲۰۰۸).
شکل۲-۸ مدل ارائه شده توسط چای و چان برای چارچوب بخش­بندی مشتریان (۲۰۰۸)
برخی از نویسندگان ترکیبی از متغیرها و معیارهای مختلف دیگری را برای خوشه­بندی مشتریان استفاده کرده ­اند. به عنوان مثال، لی و پارک[۱۲۲]، به ارائه روش جایگزینِ عملی­تر، آسان­تر و کارآمد­تر بر اساس بررسی رضایت مشتری برای بخش­بندی سودآور آنها پرداختند (۲۰۰۵). چانگ[۱۲۳] و همکارانش، یک مدل پیش بینی­ برای مشتریان بالقوه با رفتار خریدشان پیشنهاد داده‌اند. مدل آنها از رفتار خرید گذشته مشتریان وفادار و سرویس دهنده‌ی وب فایل‌های ورود به مشتریان وفادار و بالقوه با بهره گرفتن از تجزیه و تحلیل خوشه­بندی و تجزیه و تحلیل قواعد ارتباط، استنباط شده است (۲۰۰۷). استون[۱۲۴] و همکارانش، به پیشنهاد یک چارچوب بخش­بندی مشتری بر اساس داده کاوی و ساختن یک روش جدید بخش­بندی مشتری بر اساس بقای شخصیت متمرکز شده‌اند. روش جدید بخش­بندی آنها از دو مرحله تشکیل شده است. در مرحله اول، با خوشه‌بندی محاسباتی K میانگین، مشتریان به بخش‌های مختلف با شخصیت‌های بقای مشابه (یعنی روند فعالیت فکری مشابه) تقسیم می­شوند. در مرحله بعد، تابع بقای هر خوشه به وسیله تجزیه و تحلیل پیش‌بینی شده است، پس از آن، اعتبار خوشه­بندی تست شده و روند فکری مشتری شناسایی شده است (۲۰۰۶).
شی­یو[۱۲۵] و همکارانش، یکپارچه‌سازی داده‌کاوی و بازاریابی تجربی را در بخش مشتریان بازی‌های آنلاین بررسی کردند که در شکل۲-۹ نشان داده شده است. نتایجش می‌تواند به شرکت‌ کمک ­کند تا به پیش‌بینی و درک رفتار خرید مصرف‌کننده جدید بپردازند (۲۰۰۹).
شکل۲-۹ مفهوم مدل ارائه شده توسط شی­یو و همکارانش (۲۰۰۹)
علاوه بر این، همانطور که قبلا اشاره شد، برخی از نویسندگان در فرایند بخش­بندی از نقطه­نظر فنی متمرکز شدند. برای مثال، لی[۱۲۶] و همکارانش، روش جدیدی را برای بخش­بندی متقاطع بازار توسعه دادند. این نویسندگان یک رویکرد دو مرحله‌ای[۱۲۷] یکپارچه‌سازی روش‌های آماری و داده‌کاوی پیشنهاد کردند. برای آزمایش تفاوت بین عوامل خوشه‌بندی در مرحله اول با بهره گرفتن از روش‌های آماری (چند گروه تجزیه و تحلیل عاملی تأییدی[۱۲۸]) انجام شده است و در مرحله دوم توسط یک روش داده‌کاوی (دو سطحی SOM) به توسعه خوشه‌های واقعی در درون هر قسمت پرداخته است (۲۰۰۴). هوانگ[۱۲۹] و همکارانش، از بردار پشتیبانی خوشه‌بندی[۱۳۰] برای بخش­بندی بازاریابی استفاده کرده‌اند (۲۰۰۷). کیم و آهن[۱۳۱] هم، یک الگوریتم خوشه‌بندی جدید بر اساس الگوریتم‌های ژنتیک[۱۳۲] برای بخش‌بندی موثر بازار خرید آنلاین پیشنهاد دادند (۲۰۰۸). به طور همزمان، هانگ و تی‌ساعی[۱۳۳] نیز یک رویکرد جدید تقسیم‌بندی بازار، به نام مدل بخش­بندی نگاشت خود سازمانده­ی سلسله مراتبی[۱۳۴]، برای تقسیم بندی بازار چند رسانه‌ای دنیای واقعی بر روی تقاضا در تایوان، ارائه دادند. مرتضی نامور و همکاران نیز تحقیقی جهت بخش‌بندی مشتریان بر اساس مدل دو مرحله‌ای خوشه‌بندی انجام داده‌اند. این مقاله با بهره گرفتن از ابزارهای داده‌کاوی یک روش جدید برای خوشه‌بندی مشتریان با بهره گرفتن از RFM و داده‌های جمعیت‌شناختی و داده‌های ارزش طول عمر مشتری[۱۳۵] ارائه کرد. این روش جدید خوشه‌بندی از دو مرحله تشکیل شده است. ابتدا با الگوریتم k میانگین مشتریان بر اساس شاخص RFM به خوشه‌های مختلف تقسیم می‌شوند. سپس با بهره گرفتن از داده‌های جمعیت‌شناختی، هر خوشه مجددا به خوشه‌های جدید تقسیم‌بندی می‌شود. این متد بر روی یک بانک ایرانی پیاده سازی و به کار گرفته شد که نتایج حاصل از پیاده‌سازی این مدل مشتریان را به نه گروه بر اساس داده‌های مربوط به تراکنش‌ها و داده‌های مربوط به ویژگی‌های و مشخصات جمعیت‌شناختی تقسیم کرد. پروفایل مشتریان مربوط به هر گروه می‌تواند نقطه‌ی آغازی برای مدیران جهت تعیین استراتژی های بازاریابی برای بانک جهت ارائه سرویس و خدمات باشد. این مدل در شکل۲-۱۰ بیان شده است (۲۰۱۰).
مدل پیش ­بینی LTV
پروفایل مشتری
تعاملات مشتری
خوشه‌بندی K میانگین
خوشه‌بندی K میانگین
طبقه‌بندی شبکه عصبی
انتخاب متغیرها با بهره گرفتن از SOM
تخمینLTV
خوشه‌بندی دو مرحله‌ای
پروفایل خوشه‌ها
استراتژی‌های بازاریابی
شکل۲-۱۰ مدل ارائه شده توسط مرتضی نامور و همکاران (۲۰۱۰)
در همین سال سید حسینی و همکارانش تحقیق دیگری را منتشر کرده‌اند. هدف اصلی این مقاله تشخیص درجه وفاداری مشتری برای رسیدن به بهترین مدیریت ارتباط با مشتری می‌باشد تا بتوانند سود را بر اساس استراتژی برد-برد ماکزیمم کنند. مطالعه موردی این مقاله در شرکت ساپکو انجام شد. آنها در مطالعات خود از شاخص های RFM برای محاسبه‌ی وفاداری استفاده نمودند. شاخص چهارمی با عنوان طول مدت فعال بودن نیز مطرح کرده‌اند. در این تحقیق بعد از آماده سازی داده‌ها و شناسایی پارامترهای اختصاصی تعیین وفاداری مشتری بر اساس مدل RFM در مورد مطالعاتی شرکت ساپکو، به تعیین اوزان پارامترهای انتخابی با نظرسنجی از تصمیم گیرندگان اصلی سازمان طبق مقایسات زوجی و محاسبه اوزان با بهره گرفتن از نرم افزار متلب و سپس به خوشه بندی قطعات با الگوریتم k میانگین پرداخته شده است. در تعیین تعداد بهینه خوشه‌ها نیز از شاخص دیویس- بولدین استفاده نموده‌اند. جهت تعیین کیفیت خوشه‌ها در هر دو روش از معیار سنجش کیفیت خوشه‌ها که توسط میچاد در سال ۱۹۹۷ ارائه گردیده، استفاده شده است. پس از تعیین ارزش عددی هر خوشه و همچنین محاسبه‌ی فاصله‌ی مراکز خوشه‌ها از مبدا مختصات درجه‌ی اولویت خوشه‌ها در هر دو روش جداگانه تعیین شده است. جهت تعیین درجه‌ی اولویت نهایی خوشه‌ها نیز از جمع عددی ارزش هر خوشه و فاصله‌ی مرکز آن تا مبدا مختصات استفاده شده است به طوری که با مرتب کردن نزولی این داده‌ها و اختصاص دادن عدد از ۱ تا ۳۴ آنها را اولویت‌بندی نموده‌اند. در پایان نیز برای تعیین تابع وفاداری و بهبود عملکرد آن نموداری از درجه‌ی اولویت تعیین شده و ارزش هر خوشه برازش داده شده است. جهت اعتبارسنجی مدل، نتایج روش پیشنهادی را با نتایج مدلی که وزن مولفه‌های آن یکسان است مقایسه و نتایج نشان می‌دهد که متدولوژی پیشنهادی دارای عملکرد بهتری است. ارزیابی اولیه به کمک تست (برازش رگرسیون) انجام می شود. به این صورت که مقدار را برای تابع F ، تابع D و تابع F+D بدست آورده است. نتایج نشان می‌دهد که تابع F+D مقدار برازش بیشتری دارد. بنابراین تابع مناسب تری برای نشان دادن درجه وفاداری است (۲۰۱۰).
پراسد نیز با بهره گرفتن از روش خوشه‌بندی به تولید پروفایل مشتریان برای فروشگاه­های خرده‌فروشی پرداخت، که به شناسایی رفتارها و الگوهای خرید مشتری، بهبود خدمات برای مشتریان برای رضایت بیشترشان و در نتیجه حفظ آنان کمک می­ کند (پراسد و همکاران، ۲۰۱۱). چن و همکاران نیز بر اساس پرداخت گذشته‌ی مشتری با بهره گرفتن از درخت تصمیم‌گیری به بخش‌بندی مشتریان پرداختند (۲۰۱۳). جدول ۲-۱ مدل­های تقسیم‌بندی که توسط نویسندگان مختلف پیشنهاد شده است را با توجه به متغیرهای ورودی­شان طبقه‌بندی می­ کند.
جدول ۲-۱ خلاصه­سازی متغیرهای ورودی استفاده شده در مدل­های بخش­بندی (مرتضی نامور، ۲۰۱۰)

متغیرهای ورودی مورد استفاده منابع
جمعیت­شناختی (جوتلا و همکاران، ۲۰۰۱) (لی و همکاران، ۲۰۰۵) (هانگ و همکاران، ۲۰۰۸)
RFM (چنگ و همکاران، ۲۰۰۹)
LTV (کیم و همکاران، ۲۰۰۶)
جمعیت­شناختی+ RFM (سیه، ۲۰۰۴) (مک­کارتی و همکاران، ۲۰۰۷)
جمعیت­شناختی+ LTV (هوانگ وهمکاران، ۲۰۰۴)
LTV+RFM (چای و همکاران، ۲۰۰۸)
جمعیت­شناختی+RFM+ LTV (مرتضی نامور و همکاران، ۲۰۱۰)
متغیرهای دیگر (استون و همکاران، ۲۰۰۶) (لی و همکاران، ۲۰۰۶) (هوانگ و همکاران، ۲۰۰۷) (کیم و همکاران، ۲۰۰۸) (چانگ و همکاران، ۲۰۰۷) (شی­یو و همکاران، ۲۰۰۹) (جیل-سائورا و همکاران، ۲۰۰۹)

موضوع ارزش مشتری یک مسئله مهم در مدیریت ارتباط با مشتری است. روش­های متعددی برای پیدا کردن ارزش مشتری وجود دارد. این روش­ها به معیارهای عمومی و معیارهای استراتژیک تقسیم شده‌اند. برخی از معیارهای عمومی مبتنی بر ارزش مشتری شامل اندازه کیف پول[۱۳۶](SOW) و به اشتراک گذاشتن کیف پول[۱۳۷](SW) می­باشد. SOW به حجم کل هزینه‌های مشتری در یک دوره اشاره دارد، SW نیز به نسبت حجم خرید مشتری از یک نام تجاری خاص به کل خرید مشتری در یک دوره اشاره دارد (جانسون[۱۳۸] و همکارانش، ۲۰۰۱).
دیو و کاماکورا[۱۳۹] با ترکیب روش­های SOW و SW مشتریان را برای توسعه استراتژی‌های موثر، بخش­بندی کردند و مشتریان با ارزش را شناسایی کردند. معیارهای استراتژیک ارزش مشتری نیز شامل RFM[140]، ارزش گذشته­­ی مشتری (PCV )[141] و ارزش دوره عمر[۱۴۲] (LTV) می­باشد. استون[۱۴۳] در سال ۱۹۹۵ در تحلیل کلاسیکRFM ، ابتدا مشتریان را با توجه به مقدار R صعودی مرتب کرده و به ۵ گروه تقسیم نمود. به همه گروه‌ها شماره‌ی رتبه‌ای از ۵ تا ۱ اختصاص داده ‌شد. پس از آن مشتریان در هر گروه با توجه به مقدار F و سپس M به صورت نزولی مرتب شده و دوباره اعداد (۵ تا ۱) به هر گروه تعلق گرفت. بنابراین (  ) گروه با توجه به مقدار تاخر، فرکانس و پول تعریف شد. کومار و رینارتز[۱۴۴] نیز در سال ۲۰۰۶ از RFM وزن­دار استفاده کرده‌اند، که در آن هر متغیر با توجه به نظر متخصص با تجزیه و تحلیل AHP وزن‌دار می شود. بنابراین ​​ میانگین وزنی، رتبه RFM را می­سازد.
با توجه به مطالعات آن دو، ارزش گذشته مشتری (PCV) مدلی است که نتایج حاصل از معامله گذشته به آینده را برون‌یابی می‌کند. PCV بر خرید پولی گذشته مشتری که می‌تواند رفتار آینده­اش را نشان دهد تاکید دارد، همچنین ارزش پولی گذشته مشتری را به زمان حال بازگشت می­دهد (طبائی و فتحیان،۲۰۱۱).
مدل‌های LTV نیز، چشم انداز ارزش پولی آینده مشتری و مدت زمانی که مشتریان فعال خواهند بود را نشان می­دهد. این مدل­ها دستیابی به سود خالص آینده مشتریان را به حال تبدیل می­ کنند. مدل های مختلف برای محاسبه LTV وجود دارد. برخی از مدل های مالی LTV، هزینه های مستقیم و هزینه های بازاریابی را اعمال کرده است. برخی نرخ حفظ مشتری را در طول عمر مشتری در نظر گرفته است (مالتوس و مولهرن، ۲۰۰۸؛ هیدالگو[۱۴۵] و همکاران، ۲۰۰۸).
در مطالعات خواجوند[۱۴۶] و همکاران، همچنین خواجوند و تارخ[۱۴۷] در سال ۲۰۱۱ از RFM کلاسیک برای تعریف ارزش مشتری استفاده کرده‌اند.
در برخی از مطالعات نیز از RFM وزن­دار برای ارزش مشتری استفاده کرده‌اند (لیو و شیه[۱۴۸]، ۲۰۰۵؛ چنگ و چن[۱۴۹]، ۲۰۰۹؛ چنگ و تی‌ساعی[۱۵۰]، ۲۰۱۱؛ سیدحسینی و همکاران، ۲۰۱۰).
زهرا طبائی روش‌های مختلف استفاده شده برای ارزش مشتری با توجه به مطالعات قبلی را بنا بر جدول ۲-۲ بیان می کند:
جدول ۲-۲ مدل‌های ارزش مشتری (زهرا طبائی، ۲۰۱۱)

مدل منابع
SOW و SW (کومار و رینارتز، ۲۰۰۶) (دیو و کاماکورا، ۲۰۰۷)
RFM (خواجوند و همکاران، ۲۰۱۱) (خواجوند و تارخ، ۲۰۱۱) (لیو و شیه، ۲۰۰۵) (چنگ و چن، ۲۰۰۹) (چنگ و تی‌ساعی، ۲۰۱۱) (سیدحسینی و همکاران، ۲۰۱۰) (مک‌کارتی و هاستاک، ۲۰۰۷) (لی و همکاران، ۲۰۱۱)
LTV (مالتوس و مولهرن، ۲۰۰۸) (هیدالگو و همکاران، ۲۰۰۸) (سانت آنا و ریبیرو، ۲۰۰۹) (گلیدی و همکاران، ۲۰۰۹) (فراچر و سیگو، ۲۰۰۹) (هوانگ و همکاران، ۲۰۰۴) (سوبلابان و آرانها، ۲۰۰۹) (بنویت و همکاران، ۲۰۰۹) (ما و همکاران، ۲۰۰۸)

همانطور که از پیشینه‌ تحقیق ملاحظه می‌کنید هر کدام از مطالعات انجام شده از یک جنبه‌ی خاص بخش‌بندی مشتریان را مورد بررسی قرار داده‌اند در حالی نگاه جامعی به این موضوع وجود ندارد، در فصول آینده به ارائه و بررسی یک متدولوژی جامع می‌پردازیم.
.
فصل سوم:
روش تحقیق
فصل سوم: روش تحقیق
۳-۱ مقدمه
هدف اصلی این فصل این است که با تشریح مسئله مورد بررسی، موضوع را برای خواننده واضح‌تر سازد و با ارائه مدل‌های مورد نیاز و توضیحات تکمیلی ذهن مخاطب را برای درک بهتر مدل‌های جدید ارائه شده در پایان نامه حاضر، آماده نماید. برای این منظور متدولوژی تحقیق شامل روش تحقیق، قلمرو زمانی و مکانی تحقیق، جامعه آماری، نمونه آماری و نیز روش های جمع آوری اطلاعات مورد بررسی قرار گرفته است.
۳-۲ روش تحقیق
در این قسمت به معرفی نوع روش تحقیق بر اساس نوع هدف و روش گردآوری اطلاعات و محیط پژوهش و افق زمانی تحقیق خواهیم پرداخت.
پژوهش حاصل بر اساس نوع هدف یا هدف پژوهش جزء پژوهش‌های توصیفی- اکتشافی و نیز کاربردی به شمار می‌رود. قلمرو مکانی پژوهش فروشگاه‌های زنجیره‌ای مرکز اپل ایران می‌باشد. برای ارائه مدل‌های بیان شده در این پژوهش مطالعه کتاب‌خوانی و مطالعه میدانی انجام شده است. گردآوری داده‌های معاملاتی، با بهره گرفتن از سوابق تراکنش‌های مشتریان ثبت شده در بانک اطلاعاتی و شبکه‌های کامپیوتری مرکز اپل ایران صورت گرفته است و داده‌های جمعیت‌شناختی نیز بنا بر تماس تلفنی با مشتریان به دست آمده است. برای اندازه‌گیری وزن متغیرهای RFM از روش AHP [۱۵۱] بر اساس نظر خبرگان استفاده شده است.
به لحاظ زمانی پژوهش حاضر از نوع «مطالعه مقطعی» می‌باشد چرا که مشتریان را در یک مقطع زمانی ۱۲ ماهه‌ در سال ۲۰۱۲ مورد مطالعه قرار می‌دهیم.
نرم افزارهای مورد استفاده در این تحقیق، نرم‌افزار مطلب و کلمنتاین ۱۲[۱۵۲] می‌باشد. تفاوت بین کلمنتاین و نرم‌افزارهای دیگر در این است که پردازش داده‌های خود را با بهره گرفتن از گره‌هایی که به یکدیگر متصل شده‌اند و قالب یک جریان را بوجود می‌آورند، انجام می‌دهد. علاوه بر این، پس از اتمام فرایند داده‌کاوی، داده‌های مصور شده را به کاربران ارائه می‌دهد. رابط تصویری نرم‌افزار کلمنتاین، کاربر را به اعمال مهارت‌های خاص کسب و کار خود دعوت می کند که منجر به مدل‌های پیش‌بینی قوی‌تر و راه‌ حلی با زمان کوتاه‌تر می‌شود (ونا[۱۵۳] و همکاران، ۲۰۱۲).
۳-۳ جامعه آماری و روش نمونه‌گیری
جامعه آماری تحقیق شامل مشتریان مرکز اپل ایران می‌باشند، که در یک بازه و دوره زمانی یک ساله در سال ۲۰۱۲ مورد بررسی قرار گرفتند. داده‌های این تحقیق شامل ۴۷۶۳ رکورد مربوط به تراکنش مشتریان می‌باشد پس از حذف داده‌های ناقص و گمشده[۱۵۴] این تعداد به ۳۵۶۴ رکورد رسیده است. برای نمونه‌گیری از روش نمونه‌گیری تصادفی ساده استفاده شده است و برای تعیین حجم نمونه از فرمول کوکران (۳-۱) استفاده شده است. حجم نمونه بدست آمده با این فرمول ۳۴۷ مشتری می‌باشد.

(۳-۱)  

N = حجم جامعه
n = حجم نمونه
Z = مقدار متغیر نرمال واحد استاندارد، که در سطح اطمینان ۹۵ درصد برابر ۱٫۹۶ می باشد
P = مقدار نسبت صفت موجود در جامعه است اگر در اختیار نباشد می توان آن را ۵/۰ درنظر گرفت. در این حالت مقدار واریانس به حداکثر مقدار خود می رسد.
d = مقدار اشتباه مجاز
۳-۴ شرح مدل
طبق بررسی ادبیات موضوع، از شاخص های مدل RFM یعنی تاخر[۱۵۵]، تناوب[۱۵۶]، ارزش پولی[۱۵۷] برای بررسی رفتار مشتری استفاده می‌شود. در این پژوهش نیز برای سنجش ارزش رفتاری مشتریان از سه شاخص مذکور و همچنین از شبکه خود سازمانده برای بخش‌بندی در سه مدل طراحی شده استفاده می‌شود. به دلیل استفاده از شبکه خود سازمانده همه متغیرهای اسمی و عددی به بازه صفر و یک منتقل می‌شوند. برای تبدیل متغیرهای اسمی به متغیرهای عددی از کدگذاری ۱ از ۱-N استفاده می‌کنیم که این کار باعث انتقال این متغیرها به بازه صفر و یک می‌شود. برای انتقال متغیرهای عددی به بازه صفر و یک از فرمول ۳-۲ استفاده می‌کنیم.

(۳-۲)  

در این تحقیق به ارائه یک متدولوژی جامع شامل سه مدل دو مرحله‌ای برای بخش‌بندی مشتریان بر اساس ارزش آنها می‌پردازیم. در این متدولوژی از دو پایگاه داده، شامل پروفایل شخصی مشتریان[۱۵۸] و داده‌های معاملاتی[۱۵۹] و استفاده می‌نماییم که در شکل ۳-۱ نشان داده شده است.
تعاملات مشتریان
پروفایل مشتریان
WRFM
داده‌های جمعیت‌شناختی
مدل ۱
مدل ۲
مدل ۳
رتبه‌بندی بخش‌ها
ارزیابی و مقایسه مدل‌ها
شکل۳-۱ متدولوژی تحقیق
شکل‌های ۳-۲، ۳-۳ و ۳-۴ مدل‌های توسعه داده شده را در این متدولوژی بیان می‌کند.
در مدل اول از این متدولوژی، ابتدا بخش‌بندی را بر اساس داده‌های جمعیت‌شناختی[۱۶۰] از پروفایل مشتریان با بهره گرفتن از شبکه عصبی خود سازمانده[۱۶۱] انجام می‌دهیم، سپس به بخش‌بندی دوباره هر کدام از بخش‌های نتیجه گرفته شده از مرحله اول بر اساس داده‌های معاملاتی با بهره گرفتن از ابزارهای داده‌کاوی RFM و K میانگین می‌پردازیم در این مرحله K بهینه را از شاخص دیویس بولدین به دست می‌آوریم. در نهایت بخش‌های بدست آمده را بر اساس ارزششان رتبه‌بندی می‌کنیم.
پروفایل مشتریان
تعاملات مشتریان
تعیین وزن نسبی RFM بنا به الگوریتم AHP
بخش‌بندی با الگوریتم SOM
بخش‌بندی هر خوشه با الگوریتم K میانگین
تعیین مقدار بهینه K برای هر خوشه بنا بر شاخص Davies Bouldin
شکل ۳‑۲ اولین مدل توسعه داده شده جهت بخش بندی مشتریان بر اساس ارزش آنها
در مدل دوم از این متدولوژی، ابتدا مشتریان را بر اساس داده‌های معاملاتی (RFM وزن‌دار) با بهره گرفتن از الگوریتم K میانگین بخش‌بندی می‌نماییم، در این روش مقدار K بهینه از قبل توسط شاخص دیویس بولدین تعیین می‌شود. سپس هر بخش به دست آمده از مرحله اول را بر اساس داده‌های جمعیت‌شناختی با بهره گرفتن از شبکه عصبی خود سازمانده دوباره بخش‌بندی می‌نماییم و در نهایت بخش‌های بدست آمده را بر اساس ارزششان رتبه‌بندی می‌کنیم.
تعاملات مشتریان
پروفایل مشتریان
تعیین وزن نسبی RFM بنا به الگوریتم AHP
تعیین مقدار بهینه K بنا بر شاخص Davies Bouldin
بخش‌بندی با الگوریتم K میانگین
بخش‌بندی هر خوشه با الگوریتم SOM
شکل ۳‑۳ دومین مدل توسعه داده شده جهت بخش بندی مشتریان بر اساس ارزش آنها
در مدل سوم از این متدولوژی، ابتدا مشتریان را با بهره گرفتن از شبکه عصبی خود سازمانده، بر اساس متغیرهای جمعیت‌شناختی و متغیرهای تراکنشی (RFM وزن‌دار) بخش‌بندی نموده سپس از تعداد خوشه‌ی بدست آمده (k) و مراکز خوشه‌ها به عنوان ورودی روش K میانگین برای بخش‌بندی دوباره مشتریان بر اساس متغیرهای جمعیت‌شناختی و تراکنشی استفاده می‌نماییم و در نهایت بخش‌های بدست آمده را بر اساس ارزششان رتبه‌بندی می‌کنیم.
تعاملات مشتریان
پروفایل مشتریان
تعیین وزن نسبی RFM بنا به الگوریتم AHP
بخش‌بندی با الگوریتم SOM
K خوشه و  ها مراکز خوشه‌ها
بخش‌بندی با الگوریتم K میانگین
شکل ۳-۴ سومین مدل توسعه داده شده جهت بخش بندی مشتریان بر اساس ارزش آنها
۳-۵ ارزیابی اعتبار مدل
برای ارزیابی اعتبار مدل از شاخص دیویس بولدین و مجموع مربعات خطا[۱۶۲] استفاده شده است.
شاخص دیویس بولدین معیاری برای سنجش کیفیت الگوریتم های خوشه‌بندی است که اولین بار توسط دیویس و بولدین در سال ۱۹۷۹ ارائه شد (سید حسینی و همکاران، ۲۰۱۰). این معیار از شباهت بین دو خوشه  استفاده می‌کند که بر اساس  پراکندگی  یک خوشه (  ) و عدم شباهت بین دو خوشه (  ) تعریف می‌شود. شباهت بین دو خوشه را می‌توان به صورتهای مختلفی تعریف کرد ولی بایستی شرایط زیر را دارا باشد.

  •  
  •  
  • اگر  و  هر دو برابر صفر باشند آنگاه  نیز برابر صفر باشد.
  • اگر   و   آنگاه
  • اگر   و   آنگاه

معمولا شباهت بین دو خوشه به صورت زیر تعریف می‌شود:

(۳-۲)  

که در آن  و  با روابط زیر محاسبه می‌شوند.

(۳-۳)  

 

(۳-۴)  

با توجه به مطالب بیان شده و تعریف شباهت بین دو خوشه شاخص دیویس بولدین به صورت زیر تعریف می‌شود.

(۳-۵)  

که  در آن به صورت زیر محاسبه می‌شود.

(۳-۶)  

این شاخص در واقع میانگین شباهت بین هر خوشه با شبیه‌ترین خوشه به آن را محاسبه می‌کند. می‌توان دریافت که هرچه مقدار این شاخص کمتر باشد، خوشه‌های بهتری تولید شده است (میرزاییان، ۱۳۹۱).
شاخص مجموع مربعات خطا را نیز برای ارزیابی و مقایسه کیفیت سه مدل بخش‌بندی استفاده شده است. این شاخص به صودت زیر محاسبه می‌شود (هوانگ و کچادی، ۲۰۱۳):

(۳-۷)  

داریم:
: تعداد داده‌ها در خوشه‌ی
oij: jامین داده از خوشه‌ی
همانطور که ملاحظه می‌شود این معیار تنها شباهت درون خوشه‌ای را در نظر می‌گیرد و هرچه این مقدار کمتر باشد کیفیت خوشه‌بندی بهتر است.
در نهایت جامع‌ترین مدل را با الگوریتم معروف K میانگین بنا بر دو معیار بیان شده مقایسه می‌نماییم.
فصل ۴:
تجزیه و تحلیل داده‌ها
(پیاده‌سازی مدل در مرکز اپل ایران)
فصل ۴: تجزیه و تحلیل داده‌ها (پیاده‌سازی مدل در مرکز اپل ایران)
۴-۱ مقدمه
در این فصل ابتدا به معرفی داده‌های مورد استفاده در مدل‌ها می‌پردازیم. سپس روش‌های ابتکاری، تجزیه و تحلیل داده‌‌ها و بخش‌بندی مشتریان بر اساس ارزش آنها در مدل‌ها بررسی می‌گردد، همچنین مراحل و نتایج عددی حاصل از پیاده‌سازی مدل در مرکز اپل ایران تشرح می‌گردد.
۴-۲ درک و شناخت داده‌ها
داده‌های مورد استفاده در این تحقیق مربوط به فروشگاه‌های زنجیره‌ای مرکز اپل ایران است که دارای شعب متعدد می‌باشد. داده‌ها توصیف‌کننده‌ی تراکنش‌های انجام شده توسط مشتریان این فروشگاه زنجیره‌ای از ماه ژانویه‌ تا دسامبر سال ۲۰۱۲ یعنی ۱۲ ماه می‌باشند. به دلیل محدودیت در پرسیدن داده‌های جمعیت‌شناختی مشتریان، در نهایت سه مشخصه از آنها مورد بررسی قرار گرفت. مشخصه‌ های اسمی شامل جنسیت و تحصیلات، و مشخصه‌ی عددی شامل سن می‌باشد. طیف سنی ۳۴۷ مشتری نمونه‌گیری شده، از ۱۱ سال تا ۷۰ سال می‌باشد، که با فرمول ۴-۱ به بازه صفر و یک منتقل شده‌اند.

(۴-۱)  

نتایج جدول و شکل ۴-۱ نشان می‌دهدکه از ۳۴۷ نفر گروه نمونه، ۸۹ نفر (۲۶ درصد) دارای تحصیلات دیپلم و زیر دیپلم، ۱۸۰ نفر (۵۲ درصد) دارای تحصیلات لیسانس و فوق دیپلم، ۶۱ نفر (۱۷ درصد) دارای تحصیلات فوق لیسانس و ۱۷ نفر (۵ درصد) دارای تحصیلات دکتری هستند.
جدول ۴-۱ فراوانی و درصد فراوانی گروه نمونه بر حسب سطح تحصیلات

سطح تحصیلات فراوانی درصد فراوانی
دیپلم و زیر دیپلم ۸۹ ۲۶
لیسانس و فوق دیپلم ۱۸۰ ۵۲
فوق لیسانس ۶۱ ۱۷
دکترا ۱۷ ۵
جمع کل ۳۴۷ ۱۰۰

شکل ۴-۱ نمودار فراوانی گروه نمونه بر حسب سطح تحصیلات
نتایج جدول و شکل ۴-۲ نشان می‌دهد که از حجم ۳۴۷ نفر گروه نمونه، ۲۶۶ نفر (۷۷ درصد) مرد و ۸۱ نفر (۲۳ درصد) زن هستند.
جدول ۴-۲ فراوانی و درصد فراوانی گروه نمونه بر حسب جنسیت

جنسیت فراوانی درصد فراوانی
مرد ۲۶۶ ۷۷
زن ۸۱ ۲۳
جمع کل ۳۴۷ ۱۰۰

شکل ۴-۲ نمودار فراوانی گروه نمونه بر حسب جنسیت
داده‌های تراکنشی مشتریان نیز شامل مشخصه‌ های عددی تأخر، تناوب و ارزش پولی هر مشتری می‌باشد. که البته چون این پارامترها در مکان‌های تجاری مختلف وزن متفاوتی دارند به روش AHP و با نظر خبرگان مرکز اپل ایران، آنها را وزن‌دار کرده‌ایم.
۴-۳ آماده‌سازی داده‌ها
همانطور که در فصل قبل بیان شد، رکوردهایی که داده‌های غایب داشتند برای پاک‌سازی داده‌ها حذف شدند. داده‌های این تحقیق شامل دو دسته داده‌های تراکنشی و داده‌های شخصی است. این داده‌ها را نرمالیزه (استاندارد) می‌نماییم تا در یک طیف مشابه قرار گیرند.
برای نرمالیزه کردن متغیرهای F و M از فرمول ۴-۲ استفاده می‌گردد:

(۴-۲)  

برای متغیر R از فرمول‌ ۴-۳ برای نرمالیزه کردن استفاده می‌گردد:

(۴-۳)  

که در فرمول‌های ذکر شده داریم:
: بزرگترین مقدار
: کوچک‌ترین مقدار
با بهره گرفتن از فرمول‌های بالا نرم مقادیر متغیرهای R و Fو M محاسبه می‌شوند. پس از نرمالایز کردن تناوب، تاخر و ارزش پولی مشتریان این مقادیر دربازه صفر تا یک قرار می‌گیرند.
در مورد داده‌های شخصی نیز چون اعداد ورودی به شبکه‌های عصبی باید کوچک باشند، داده‌ها را به بازه صفر و یک انتقال می‌دهیم. پس قبل از آموزش شبکه خود سازمانده، کلیه متغیرها اعم از عددی و اسمی به این بازه نگاشته شده‌اند. در این تحقیق برای تبدیل متغیرهای اسمی به متغیرهای عددی، از رویکرد کدگذاری ۱ از ۱-N استفاده شده است. این عمل باعث افزایش تعداد متغیرها می‌شود زیرا به تعداد مقادیر هر متغیر اسمی منهای یک، متغیر تولید می‌شود. به این ترتیب متغیرهای جمعیت‌شناختی مورد بررسی ما از ۳ به ۵ افزایش می‌یابد (جدول۴-۴). به عنوان مثال برای تبدیل متغیر اسمی به متغیر عددی، به این ترتیب عمل نمودیم که متغیر تحصیلات را با سه متغیر دیپلم و زیر دیپلم، لیسانس و فوق دیپلم، فوق لیسانس جایگزین نمودیم اگر مشتری تحصیلاتش دیپلم و زیر دیپلم باشد، مقدار متغیر دیپلم و زیر دیپلم معادل ۱، لیسانس و فوق دیپلم معادل صفر و فوق لیسانس نیز معادل صفر خواهد شد. همچنین اگر مشتری تحصیلاتش دکتری باشد هر سه متغیر معادل صفر می‌شوند. به این ترتیب همه متغیرهای اسمی به عددی تبدیل شدند. چگونگی این تبدیل‌ها در جدول ۴-۳ آمده است.
جدول ۴-۳ تبدیل متغیر اسمی تحصیلات به متغیر عددی با بهره گرفتن از کدگذاری ۱ از ۱-N

کدگذاری ۱ از ۱-N
تحصیلات دیپلم و زیر دیپلم لیسانس و فوق دیپلم فوق لیسانس
دیپلم و زیر دیپلم ۱ ۰ ۰
لیسانس و فوق دیپلم ۰ ۱ ۰
فوق لیسانس ۰ ۰ ۱
دکتری ۰ ۰ ۰

جدول۴-۴ متغیرها بعد از کدگذاری ۱ از ۱-N

شماره متغیر نام متغیر
۱ جنسیت-مرد
۲ سن
۳ دیپلم و زیر دیپلم
۴ لیسانس و فوق دیپلم
۵ فوق لیسانس

۴-۴ تعیین وزن پارامترهای تراکنشی (RFM) با بهره گرفتن از فرایند تحلیل سلسله مراتبی
ضریب اهمیت (وزن) شاخص‌ها در مکان‌های تجاری مختلف یکسان نیستند. بعضی شاخص‌ها بر شاخص‌های دیگر ارجعیت بیشتر یا کمتری دارند. روش‌های مختلفی مانند روش آنتروپی، بردار ویژه، روش اسمارت، روش تحلیل سلسله مراتبی[۱۶۳] برای تعیین وزن شاخص‌ها وجود دارد. متداول‌ترین روش برای محاسبه‌ی وزن متغیرهای مدل RFM طبق ادبیات، تکنیک تحلیل سلسله مراتبی می‌باشد. روش AHP یک تکنیک قوی و یک ابزار انعطاف‌پذیر و چند معیاره به منظور تصمیم‌گیری در مسائل پیچیده است که دو مفهوم کیفی و کمی را مدنظر قرار می‌دهد (برتولینی[۱۶۴] و همکاران، ۲۰۰۶).
این تکنیک با انجام مقایسات دو به دو بین عناصر تصمیم و از طریق تخصیص امتیاز عددی که نشان دهنده ارجحیت یا اهمیت بین دو عنصر تصمیم می‌باشد، صورت می‌گیرد. در جدول ۴-۵ نحوه‌ی ارزش‌گذاری شاخص‌ها نسبت به هم نشان داده شده است.
جدول ۴‑۵ جدول امتیازدهی به شاخص های i وj نسبت به یکدیگر در تکنیک AHP

ارزش ترجیحی وضعیت مقایسه i نسبت به j توضیحات
۱ اهمیت برابر گزینه یا شاخص i نسبت به j اهمیت برابر دارند و یا ارجحیتی نسبت به هم ندارند.
۳ نسبتا مهم تر گزینه یا شاخص iنسبت به j کمی مهم تر است.
۵ مهم تر تجربیات و یا قضاوت ها نشان می دهد که i نسبت به j مهم تر است.
۷ خیلی مهم تر گزینه یا شاخص i دارای ارجحیت زیاد و خیلی مهم تر از j است.
۹ بی نهایت مهم تر گزینه ویا شاخص i مطلقا از j بی نهایت مهم تر است.
۲و۴و۶و۸ ارزش های میانی ارزش های میانی بین ارزش های ترجیحی را نشان می دهد مثلا ۸ بیانگر اهمیتی زیادتر از ۷ و پایین تر از ۹ برای i است.

در فرایند تحلیل سلسله مراتبی تقریبا تمامی محاسبات مربوطه بر اساس قضاوت اولیه تصمیم گیرنده صورت می‌پذیرد که در قالب ماتریس زوجی ظاهر می‌شود و هرگونه خطا و ناسازگاری در مقایسه و تعیین اهمیت بین گزینه‌ها و شاخص‌ها، نتیجه‌ی نهایی به دست آمده از محاسبات را مخدوش می‌سازد. به همین دلیل لازم است برای اطمینان از صحت مقایسات انجام شده، از آزمون نرخ سازگاری[۱۶۵] استفاده شود. اگر نرخ سازگاری کمتر از ۱۰% باشد، سازگاری مقایسات قابل قبول بوده و وزن‌های بدست آمده از روش تحلیل سلسله مراتبی از اعتبار مناسبی برخوردارند، در غیر این صورت مقایسه‌ها باید تجدیدنظر شوند.
حال برای تعیین وزن شاخص‌ها از نظرات ۷ کارشناس و ۳ مدیر مرکز اپل ایران استفاده کردیم، تا پس از توضیح و تبیین اهداف پژوهش برای آنان، نظرات خود را نسبت به ارزش متغیرهای تراکنشی R، F و M ابراز دارند. برای بدست آوردن ماتریس مقایسات زوجی اولیه‌ی مربوط به این شاخص‌ها از میانگین حسابی نظرات این ۱۰ خبره استفاده شده است که به شرح جدول ۴-۶ می‌باشد:
جدول ۴-۶ ماتریس اولیه مقایسات زوجی شاخص های تراکنشی

M F R  
۲۰۴/۰ ۲۹۴/۰ ۱ R
۶۲۵/۰ ۱ ۴/۳ F
۱ ۶/۱ ۹/۴ M
۸۲۹/۱ ۸۹۴/۲ ۳/۹ مجموع

اکنون هر عنصر ستون را بر مجموع اعداد ستون مربوطه تقسیم می‌کنیم. ماتریس حاصل را ماتریس مقایسات نرمال[۱۶۶] می‌گویند. همچنین میانگین اعداد هر سطر از ماتریس مقایسات نرمال شده را محاسبه می‌کنیم. این میانگین وزن نسبی عناصر تصمیم با سطرهای ماتریس را ارائه می‌دهد. در جدول ۴-۷ ماتریس مقایسات نرمال و وزن عناصر نشان داده شده است.
جدول ۴-۷ ماتریس مقایسات نرمال و وزن شاخص های تراکنشی محاسبه شده با روش تحلیل سلسله مراتبی

وزن مجموع M F R  
۱۰۹/۰ ۳۲۸/۰ ۱۱۸/۰ ۱۰۲/۰ ۱۰۸/۰ R
۳۵۱/۰ ۰۵۴/۱ ۳۴۲/۰ ۳۴۶/۰ ۳۶۶/۰ F
۵۲۴/۰ ۵۷۲/۱ ۵۴۷/۰ ۵۷۳/۰ ۴۵۲/۰ M

به این ترتیب وزن متغیرهای سه‌گانه مدل RFM به صورت زیر محاسبه شدند.

علاوه براین رابطه‌ی ۴-۴ نیز برقرار است:

(۴-۴)  

مجموع وزن‌های متغیرهای R و F و M را برای مکان مورد نظر محاسبه می‌کنیم، که با تقریب به عدد یک می‌رسیم.

۴-۵ اطمینان از صحت و درستی وزنهای محاسبه شده در تکنیک AHP با بهره گرفتن از آزمون نرخ سازگاری
نرخ سازگاری[۱۶۷]، وسیله‌ای است که سازگاری را مشخص ساخته و نشان می‌دهد که تا چه حد می‌توان به اولویت‌های حاصل از مقایسات اعتماد کرد. شاید مقایسه دو گزینه امری ساده باشد، اما وقتی که تعداد مقایسات افزایش یابد اطمینان از سازگاری مقایسات به راحتی میسر نبوده و باید با به کارگیری نرخ سازگاری به این اعتماد دست یافت.
تجربه نشان داده است که اگر نرخ سازگاری کمتر از ۱۰% باشد، سازگاری مقایسات قابل قبول بوده و در غیر این صورت مقایسه‌ها باید تجدیدنظر شوند و از ابتدا مراحل انجام شود. برای محاسبه نرخ سازگاری پنج گام باید برداریم. گام نخست محاسبه بردار مجموع وزنی[۱۶۸] می‌باشد. ماتریس مقایسات زوجی را در بردار ستونی وزن‌های نسبی ضرب می‌کنیم و بردار مجموع وزنی را به دست می‎آوریم:

گام دوم محاسبه بردار سازگاری[۱۶۹] است که از تقسیم بردار مجموع وزنی بر وزن نسبی به دست می‌آید.

گام سوم محاسبه  یا میانگین عناصر بردار سازگاری می‌باشد:

در گام چهارم شاخص سازگاری[۱۷۰] به این صورت محاسبه می‌شود:

در این فرمول n عبارت است از تعداد گزینه‌های موجود در مسئله که در این پژوهش چون سه متغیر R و F و M داریم بنابراین  می‌باشد.
گام پنجم (گام نهایی)، محاسبه نرخ سازگاری[۱۷۱] است که از تقسیم شاخص سازگاری بر شاخص تصادفی[۱۷۲] به دست می‌آید. مقدار شاخص تصادفی در محاسبه‌ی نرخ سازگاری از جدول ۴-۸ بدست می‌آید:
جدول ۴‑۸ مقدار شاخص تصادفی جهت محاسبه نرخ سازگاری

۴ ۳ ۲ ۱ N
۹/۰ ۵۸/۰ ۰ ۰ RI

با توجه به اینکه نرخ سازگاری کمتر از ۱۰% است بنابراین می‌توان گفت که وزن‌های بدست آمده از اعتبار لازم برخوردارند.
۴-۶ پیاده‌سازی مدل‌ها در مرکز اپل ایران
۴-۶-۱ بخش‌بندی دو مرحله‌ای مشتریان با بهره گرفتن از مدل اول
در نخستین مرحله از این مدل، داده‌ها را به روش SOM بنا بر مشخصه‌ های جمعیت‌شناختی مشتریان بخش‌بندی می‌کنیم. این مشخصه‌ ها شامل: ۱) جنیست-مرد، ۲) سن، ۳) دیپلم و زیر دیپلم، ۴) لیسانس فوق دیپلم، ۵) فوق لیسانس می‌باشند. بعد از اجرای آن در نرم‌افزار کلمنتاین به ۹ بخش شامل جدول ۴-۹ می‌رسیم.
جدول ۴-۹ بخش‌بندی ۳۴۷ مشتری بر اساس متغیرهای جمعیت‌شناختی به روش SOM

بخش‌ها مشخصات جمعیت‌شناختی
X y تعداد جنسیت-مرد طیف سنی تحصیلات
۰ ۰ ۷۳ ۷۳ [۷۰-۱۳] دیپلم و زیر دیپلم
۰ ۲ ۶۰ ۴۶ [۵۴-۲۲] فوق لیسانس
۱ ۰ ۱۶ ۰ [۴۱-۱۱] دیچلم و زیر دیپلم
۱ ۱ ۱۰ ۱۰ [۵۳-۲۶] دکتری
۱ ۲ ۱ ۱ ۶۹ فوق لیسانس
۲ ۰ ۷ ۰ [۴۹-۳۶] دکتری
۲ ۲ ۲۲ ۲۲ [۶۸-۴۶] لیسانس و فوق دیپلم
۳ ۰ ۴۴ ۰ [۵۰-۱۸] لیسانس و فوق دیپلم
۳ ۲ ۱۱۴ ۱۱۴ [۴۵-۱۹] لیسانس و فوق دیپلم

چون در بخش پنجم (x=1, y=2) فقط یک نفر می‌باشد، این رکورد را حذف کرده و بخش‌بندی ۳۴۶ داده دیگر را با روش SOM انجام می‌دهیم، که به ۹ بخش با مشخصات جدول ۴-۱۰ می‌رسیم:
جدول ۴-۱۰ بخش‌بندی ۳۴۶ مشتری بر اساس متغیرهای جمعیت‌شناختی به روش SOM

بخش‌ها مشخصات جمعیت‌شناختی
X y تعداد جنسیت-مرد طیف سنی تحصیلات
۰ ۰ ۱۳۲ ۱۳۲ [۵۵-۱۹] لیسانس و فوق دیپلم
۰ ۲ ۴۴ ۰ [۵۰-۱۸] لیسانس و فوق دیپلم
۱ ۰ ۴ ۴ [۶۸-۵۸] لیسانس و فوق دیپلم
۱ ۲ ۷ ۰ [۴۹-۳۶] دکتری
۲ ۰ ۲ ۲ [۷۰-۵۵] دیپلم و زیر دیپلم
۲ ۱ ۱۰ ۱۰ [۵۳-۲۶] دکتری
۲ ۲ ۱۴ ۰ [۴۰-۲۲] فوق لیسانس
۳ ۰ ۸۷ ۷۱ [۵۰-۱۱] دیپلم و زیر دیپلم
۳ ۲ ۴۶ ۴۶ [۵۴-۲۴] فوق لیسانس

در جدول ۴-۱۰ بخش سوم (x=1, y=0) و بخش پنجم (x=2, y=0) شامل ۴ و ۲ رکورد می‌باشد، با حذف این داده‌ها دوباره ۳۴۰ داده‌ی دیگر را به روش SOM بخش‌بندی می‌کنیم، که در جدول ۴-۱۱ بیان شده است.
جدول ۴-۱۱ بخش‌بندی ۳۶۰ مشتری بر اساس متغیرهای جمعیت‌شناختی به روش SOM

بخش‌ها مشخصات جمعیت‌شناختی
X Y تعداد جنسیت-مرد طیف سنی تحصیلات
۰ ۰ ۴۴ ۰ [۵۰-۱۸] لیسانس و فوق دیپلم
۰ ۲ ۱۳۲ ۱۳۲ [۵۵-۱۹] لیسانس و فوق دیپلم
۱ ۰ ۷ ۰ [۴۹-۳۶] دکتری
۲ ۰ ۱۴ ۰ [۴۰-۲۲] فوق لیسانس
۲ ۱ ۱۰ ۱۰ [۵۳-۲۶] دکتری
۲ ۲ ۸ ۸ [۵۰-۴۵] دیپلم و زیر دیپلم
۳ ۰ ۴۶ ۴۶ [۵۴-۲۴] فوق لیسانس
۳ ۲ ۷۹ ۶۳ [۴۴-۱۱] دیپلم و زیر دیپلم

حال برای اینکه بتوانیم هر کدام از ۸ بخش از مرحله‌ی قبل را به روش K میانگین بنا بر متغیرهای وزن‌دار تراکنشی در نرم‌افزار کلمنتاین بخش‌بندی می‌کنیم (جدول ۴-۱۳) ابتدا باید مقدار بهینه‌ی k را در هر خوشه به روش دیویس بولدین در نرم‌افزار مطلب به دست می‌آوریم که در جدول ۴- ۱۲ نشان داده شده است.
جدول ۴-۱۲ تعداد بهینه‌ی k در ۸ بخش به دست آمده از مرحله‌ی اول

بخش‌ها k بهینه در هر بخش
X Y  
۰ ۰ ۶
۰ ۲ ۴
۱ ۰ ۳
۲ ۰ ۴
۲ ۱ ۵
۲ ۲ ۳
۳ ۰ ۵
۳ ۲ ۴

برای رتبه‌بندی خوشه‌های مشتریان بر اساس ارزش رفتاری آنها از فرمول ۴-۵ استفاده شده است.

(۴-۵)  

پارامترهای به کار رفته در فرمول های فوق به شرح زیر می باشند:
: وزن شاخص Recency
: وزن شاخص Frequency
: وزن شاخص Monetory
: متوسط مقدار شاخص Recency برای خوشه i
: متوسط مقدار شاخص Frequency برای خوشه i
: متوسط مقدار شاخصMonetory برای خوشه i
: ارزش رفتاری برای خوشه i
: تعداد مشتریانی که در خوشه i قرار گرفتند.
همچنین برای مقایسه خوشه‌ها از لحاظ متغیرهای تراکنشی با میانگین کل هر متغیر از فلش‌ استفاده شده است. به طور مثال اگر متغیر WR در خوشه‌ای مقدارش از میانگین کل WRها بیشتر باشد آن را با فلش رو به بالا (  ) نمایش می‌دهیم و چون سه پارامتر تراکنشی داریم و هر کدام دو حالت خواهند داشت در نتیجه ۸ نوع الگو به وجود می‌آید که در جدول ۴-۱۲ نشان داده شده است.
جدول ۴-۱۳ رتبه‌بندی خوشه‌ها بر اساس مجموع متغیرهای استاندارد شده R و F و M وزن‌دار در مدل اول

شماره بخش SOM بخش SOM شماره خوشه‌ی K میانگین تعداد WR WF WM WRFM رتبه‌بندی بر اساس ارزش نوع الگو
۱ X=0
Y=0
۱ ۱۱ ۰۱۹/۰ ۰۰۰/۰ ۰۵۷/۰ ۰۷۶/۰ ۲۷  
۲ ۶ ۰۹۴/۰ ۰۰۵/۰ ۱۱۲/۰ ۲۱۱/۰ ۱۱  
۳ ۱۹ ۰۶۹/۰ ۰۰۵/۰ ۰۱۳/۰ ۰۸۷/۰ ۲۵  
۴ ۳ ۰۷۱/۰ ۰۱۵/۰ ۱۸۱/۰ ۲۶۷/۰ ۹  
۵ ۱۱ ۰۴۳/۰ ۰۰۲/۰ ۰۵۵/۰ ۱/۰ ۲۲  
۶ ۳ ۰۹۵/۰ ۰۰۰/۰ ۰۰۳/۰ ۰۹۸/۰ ۲۳  
۲ X=0 Y=2 ۱ ۵۷ ۰۸۹/۰ ۰۰۶/۰ ۰۴۳/۰ ۱۳۸/۰ ۱۵  
۲ ۱ ۰۵۳/۰ ۰۳۷/۰ ۴۷/۰ ۵۶/۰ ۳  
۳ ۲۳ ۰۱۹/۰ ۰۰۲/۰ ۰۵۱/۰ ۰۷۲/۰ ۲۸  
۴ ۵۱ ۰۵۳/۰ ۰۰۳/۰ ۰۵۱/۰ ۱۰۷/۰ ۲۱  
۳ X=1 Y=0 ۱ ۳ ۰۶۶/۰ ۰۰۲/۰ ۱۲/۰ ۱۸۸/۰ ۱۲  
۲ ۳ ۰۲۳/۰ ۰۰۲/۰ ۰۳۶/۰ ۰۶۱/۰ ۳۱  
۳ ۱ ۰۹۹/۰ ۰۰۰/۰ ۱۸۹/۰ ۲۸۸/۰ ۷  
۴ X=2 Y=0 ۱ ۴ ۰۵/۰ ۰۰۷/۰ ۰۶۲/۰ ۱۱۹/۰ ۱۸  
۲ ۲ ۰۹۷/۰ ۰۰۴/۰ ۱۲۹/۰ ۲۳/۰ ۱۰  
۳ ۵ ۰۱۳/۰ ۰۰۳/۰ ۰۵۳/۰ ۰۶۹/۰ ۲۹  
۴ ۳ ۰۷۷/۰ ۰۰۲/۰ ۰۶۱/۰ ۱۴/۰ ۱۴  
۵ X=2 Y=1 ۱ ۲ ۱۰۸/۰ ۰۰۴/۰ ۰۰۴/۰ ۱۱۶/۰ ۱۹  
۲ ۱ ۰۹۳/۰ ۳۵۱/۰ ۱۳۶/۰ ۵۸/۰ ۲  
۳ ۲ ۰۱۲/۰ ۰۰۴/۰ ۰۵۳/۰ ۰۶۹/۰ ۲۹  
۴ ۲ ۰۹۵/۰ ۰۲۶/۰ ۲۶۲/۰ ۳۸۳/۰ ۵  
۵ ۳ ۰۷۶/۰ ۰۰۰/۰ ۰۰۳/۰ ۰۷۹/۰ ۲۶  
۶ X=2, Y=2 ۱ ۲ ۰۸۷/۰ ۰۱۱/۰ ۰۷۸/۰ ۱۷۶/۰ ۱۳  
۲ ۵ ۰۳۵/۰ ۰۰۱/۰ ۰۵۶/۰ ۰۹۲/۰ ۲۴  
۳ ۱ ۰۵۷/۰ ۰۲۲/۰ ۱۹۳/۰ ۲۷۲/۰ ۸  
۷ X=3, Y=0 ۱ ۱۱ ۰۹۶/۰ ۰۰۳/۰ ۰۳۵/۰ ۱۳۴/۰ ۱۶  
۲ ۱ ۰۹۱/۰ ۰۵۱/۰ ۵۲۴/۰ ۶۶۶/۰ ۱  
۳ ۱۶ ۰۲۸/۰ ۰۰۳/۰ ۰۳/۰ ۰۶۱/۰ ۳۱  
۴ ۳ ۱۰۲/۰ ۰۰۷/۰ ۲/۰ ۳۰۹/۰ ۶  
۵ ۱۵ ۰۵۷/۰ ۰۰۱/۰ ۰۶۲/۰ ۱۲/۰ ۱۷  
۸ X=3, Y=2 ۱ ۲۱ ۰۹/۰ ۰۰۷/۰ ۰۱۵/۰ ۱۱۲/۰ ۲۰  
۲ ۲۰ ۰۲۲/۰ ۰۰۲/۰ ۰۳۸/۰ ۰۶۲/۰ ۳۰  
۳ ۳ ۰۹۵/۰ ۰۰۵/۰ ۲۹۴/۰ ۳۹۴/۰ ۴  
۴ ۳۵ ۰۵۵/۰ ۰۰۴/۰ ۰۴۱/۰ ۱/۰ ۲۲  
میانگین کل متغیرهای تراکنشی ۰۶/۰ ۰۰۵/۰ ۰۶/۰ ۱۲/۰    

۴-۶-۱-۱ تحلیل خوشه‌ها (بخش‌ها) در مدل اول
بخش اول
شامل ۴۴ مشتری خانم در طیف سنی ۱۸ تا ۵۰ سال با تحصیلات لیسانس و فوق دیپلم می‌باشد که دارای شش خوشه با رتبه‌های ۲۷، ۱۱، ۲۵، ۹ و ۲۲ با چهار الگوی مختلف است، چون خوشه‌های ۲ و ۴ وخوشه‌های ۱ و ۵ الگوی یکسانی دارند می‌توان آنها را یک خوشه نیز در نظر گرفت.
بخش دوم
شامل ۱۳۲ مشتری مرد در طیف سنی ۱۹ تا ۵۵ سال با تحصیلات لیسانس و فوق دیپلم می‌باشد و دارای چهار خوشه با رتبه‌های ۱۵، ۳، ۲۸ و ۲۱ با سه الگوی متفاوت است، چون خوشه ۳ و ۴ الگوی یکسانی دارند می‌توان آنها را یک خوشه نیز در نظر گرفت. تعداد مشتریان این بخش بیشتر از بقیه می‌باشد.
بخش سوم
شامل ۷ مشتری خانم، در طیف سنی ۳۶ تا ۴۹ سال با تحصیلات دکتری می‌باشند و دارای سه خوشه با رتبه‌های ۱۲، ۳۱ و ۷ با دو الگوی متفاوت است. چون خوشه ۱ و ۳ الگوی یکسانی دارند می‌توان آنها را یک خوشه نیز در نظر گرفت. تعداد مشتری در این بخش کمتر از بقیه می‌باشد و پایین‌ترین رتبه مشتریان از لحاظ ارزش به خوشه دوم از این بخش تعلق دارد.
بخش چهارم
شامل ۱۴ مشتری خانم، در طیف سنی ۲۲ تا ۴۰ سال با تحصیلات فوق لیسانس می‌باشد و دارای چهار خوشه با رتبه‌های ۱۸، ۱۰، ۲۹ و ۱۴ با سه الگوی مختلف است، چون خوشه ۲ و ۴ الگوی یکسانی دارند می‌توان آنها را یک خوشه نیز در نظر گرفت.
بخش پنجم
شامل ۱۰ مشتری مرد در طیف سنی ۲۶ تا ۵۳ سال با تحصیلات دکتری می‌باشد و دارای پنج خوشه با رتبه‌های ۱۹، ۲، ۲۹، ۵ با سه الگوی متفاوت است. چون خوشه‌های ۱ و ۳ و خوشه‌های ۲ و ۵ الگوی یکسانی دارند می‌توان آنها را یک خوشه نیز در نظر گرفت.
بخش ششم
شامل ۸ مشتری مرد در طیف سنی ۴۵ تا ۵۰ سال با تحصیلات دیپلم و زیر دیپلم می‌باشد و دارای سه خوشه با رتبه‌های ۱۳، ۲۴ و ۸ با سه الگوی مختلف در این بخش است.
بخش هفتم
شامل ۴۶ مشتری مرد در طیف سنی ۲۴ تا ۵۴ سال با تحصیلات فوق لیسانس است و دارای پنج خوشه با رتبه‌های ۱۶، ۱، ۳۱، ۶ و۱۷ با چهار الگوی مختلف در این بخش می‌باشد، چون خوشه ۲ و ۴ الگوی یکسانی دارند می‌توان آنها را یک خوشه نیز در نظر گرفت. هم چنین بالاترین رتبه مشتریان از لحاظ ارزش به خوشه دوم از این بخش تعلق دارد و پایین‌ترین رتبه‌ی مشتریان متعلق به خوشه‌ی سوم این بخش می‌باشد.
بخش هشتم
شامل ۱۶ مشتری خانم و ۶۳ تا مشتری مرد در طیف سنی ۱۱ تا ۴۴ سال با تحصیلات دیپلم و زیر دیپلم می‌باشد و دارای چهار خوشه با رتبه‌های۲۰، ۳۰، ۴ و ۲۲ با سه الگوی مختلف در این بخش است، چون خوشه ۲ و ۴ الگوی یکسانی دارند می‌توان آنها را یک خوشه نیز در نظر گرفت. ۴-۶-۲ بخش‌بندی دو مرحله‌ای مشتریان با بهره گرفتن از مدل دوم
در این مدل ابتدا با بهره گرفتن از روش دیویس بولدین تعداد بهینه خوشه را برای ۳۴۷ مشتری در بازه‌ی صفر تا ۲۵ تعیین می‌کنیم، این مرحله با نرم افزار متلب انجام می‌شود. در شکل ۴-۳ نمودار شاخص دیویس بولدین نسبت به تعداد خوشه‌ها نشان داده شده است، همانطور که ملاحظه می‌شود K بهینه برابر با ۶ می‌باشد.
شکل ۴-۳ نمودار شاخص دیویس بولدین نسبت به تعداد خوشه‌ها برای ۳۴۷ مشتری
حال داده‌ها را به روش K میانگین بر اساس داده‌های تراکنشی WRFM به ۶ خوشه در نرم‌افزار کلمنتاین بخش‌بندی می‌کنیم. مشخصات خوشه‌ها در جدول ۴ -۱۳ نشان داده شده است:
جدول ۴ -۱۴ رتبه‌بندی خوشه‌ها‌ی ۳۴۷ مشتری بر اساس مجموع متغیرهای استاندارد شده R و F و M وزن‌دار

شماره خوشه تعداد WR WF WM WRFM رتبه‌بندی بر اساس ارزش نوع الگو
۱ ۱۰۰ ۰۹۳/۰ ۰۰۵/۰ ۰۵۲/۰ ۰۱۵/۰ ۶  
۲ ۱ ۰۹۳/۰ ۳۵۱/۰ ۱۳۶/۰ ۵۸/۰ ۱  
۳ ۸۵ ۰۲۱/۰ ۰۰۲/۰ ۰۴۳/۰ ۰۶۶/۰ ۵  
۴ ۹ ۰۸۷/۰ ۰۲۶/۰ ۳۴۹/۰ ۴۶۲/۰ ۲  
۵ ۵۷ ۰۵۲/۰ ۰۰۴/۰ ۱۰۲/۰ ۱۵۸/۰ ۳  
۶ ۹۵ ۰۶/۰ ۰۰۲/۰ ۰۱۷/۰ ۰۷۹/۰ ۴  
میانگین کل ۰۵۹۴۱۴/۰ ۰۰۵۱۲/۰ ۰۶/۰ ۱۲۵/۰    

چون در خوشه‌ی دوم فقط یک نفر می‌باشد، این رکورد را حذف کرده و بخش‌بندی ۳۴۶ مشتری دیگر را انجام می‌دهیم، دوباره شاخص دیویس بولدین را برای این ۳۴۶ مشتری در نرم‌افزار متلب محاسبه می‌کنیم، همانطور که در شکل ۴-۴ ملاحظه می‌شود K بهینه برابر با ۵ می‌باشد.
شکل ۴-۴ نمودار شاخص دیویس بولدین نسبت به تعداد خوشه‌ها برای ۳۴۶ مشتری
در نتیجه ۳۴۶ داده‌ را به روش K میانگین بر اساس داده‌های تراکنشی WRFM به ۵ خوشه بخش‌بندی می‌کنیم. مشخصات خوشه‌ها در جدول ۴-۱۴ نشان داده شده است:
جدول ۴-۱۵ رتبه‌بندی خوشه‌ها‌ی ۳۴۶ مشتری بر اساس مجموع متغیرهای استاندارد شده R و F و M وزن‌دار

شماره خوشه تعداد WR WF WM WRFM رتبه‌بندی بر اساس ارزش نوع الگو
۱ ۱۰۰ ۰۹۳/۰ ۰۰۵/۰ ۰۵۲/۰ ۱۵/۰ ۳  
۲ ۸۵ ۰۲۱/۰ ۰۰۲/۰ ۰۴۳/۰ ۰۶۶/۰ ۵  
۳ ۹ ۰۸۷/۰ ۰۲۶/۰ ۳۴۹/۰ ۴۶۲/۰ ۱  
۴ ۵۷ ۰۵۲/۰ ۰۰۴/۰ ۱۰۲/۰ ۱۵۸/۰ ۲  
۵ ۹۵ ۰۶/۰ ۰۰۲/۰ ۰۱۷/۰ ۰۷۹/۰ ۴  
میانگین کل ۰۶۲۶/۰ ۰۰۷۸/۰ ۱۱۲۶/۰ ۱۸۳/۰    

اکنون هر یک از خوشه‌ها را بنا بر متغیرهای شخصی‌شان به روش SOM در نرم‌افزار کلمنتاین بخش‌بندی می‌کنیم، نتایج در جدول ۴-۱۵ نشان داده شده است:
جدول ۴-۱۶ توزیع ۳۴۶ مشتری در خوشه‌ها و مشخصه‌ های جمعیت‌شناختی در مدل دوم

شماره خوشه در K میانگین شماره خوشه در SOM متغیرهای جمیت شناختی
X Y تعداد جنسیت-مرد طیف سنی تحصیلات
۱ ۰ ۰ ۴۶ ۴۶ [۶۰-۱۹] لیسانس و فوق‌دیپلم
۰ ۲ ۱۲ ۰ [۵۰-۲۱] لیسانس و فوق‌دیپلم
۱ ۲ ۱ ۰ ۳۶ دکتری
۲ ۱ ۳ ۳ [۵۲-۲۶] دکتری
۲ ۲ ۳ ۰ [۳۲-۳۰] فوق لیسانس
۳ ۰ ۲۲ ۱۷ [۴۹-۱۱] دیپلم و زیردیپلم
۳ ۲ ۱۳ ۱۳ [۵۲-۲۴] فوق لیسانس
۲ ۰ ۰ ۱۹ ۱۳ [۴۱-۱۱] دیپلم و زیردیپلم
۰ ۲ ۱۳ ۱۳ [۵۰-۲۶] فوق لیسانس
۱ ۰ ۶ ۶ [۷۰-۴۰] دیپلم و زیر دیپلم
۱ ۱ ۱ ۱ ۲۸ دکتری
۱ ۲ ۵ ۰ [۳۴-۲۲] فوق لیسانس
۲ ۰ ۱ ۱ ۴۸ دکتری
۲ ۲ ۳ ۰ [۴۹-۳۷] دکتری
۳ ۰ ۲۳ ۲۳ [۵۲-۲۲] لیسانس و فوق دیپلم
۳ ۲ ۱۴ ۰ [۴۱-۱۸] لیسانس و فوق دیپلم
۳ ۰ ۰ ۲ ۲ [۶۰-۲۴] لیسانس و فوق دیپلم
۰ ۲ ۱ ۰ ۳۱ لیسانس و فوق دیپلم
۲ ۱ ۲ ۲ [۴۲-۳۰] دکتری
۳ ۰ ۲ ۲ [۴۰-۳۴] دیپلم و زیردیپلم
۳ ۲ ۲ ۲ [۲۸-۲۴] فوق لیسانس
۴ ۰ ۰ ۲۱ ۲۱ [۵۵-۱۹] لیسانس و فوق دیپلم
۰ ۲ ۷ ۰ [۳۷-۲۰] لیسانس و فوق دیپلم
۱ ۲ ۱ ۰ ۴۶ دکتری
۲ ۰ ۱۳ ۱۰ [۵۴-۲۴] فوق لیسانس
۲ ۲ ۲ ۰ [۳۷-۱۶] دیپلم و زیر دیپلم
۳ ۲ ۱۳ ۱۳ [۵۰-۱۴] دیپلم و زیر دیپلم
۵ ۰ ۰ ۱۰ ۰ [۴۶-۲۳] لیسانس و فوق دیپلم
۰ ۲ ۳۷ ۳۷ [۴۵-۲۲] لیسانس و فوق دیپلم
۱ ۰ ۲ ۰ ۴۵ دکتری
۱ ۲ ۷ ۷ [۶۸-۴۷] لیسانس و فوق دیپلم
۲ ۰ ۳ ۰ [۴۱-۲۲] دیپلم و زیر دیپلم
۲ ۱ ۲ ۲ [۵۰-۴۳] دکتری
۳ ۰ ۲۲ ۲۲ [۴۸-۱۳] دیپلم و زیر دیپلم
۳ ۲ ۱۲ ۹ [۶۹-۲۵] فوق لیسانس

۴-۶-۲-۱ تحلیل خوشه‌ها (بخش‌ها) در مدل دوم
خوشه‌ی اول
این خوشه از لحاظ ارزش مشتری، در رتبه‌ی سوم قرار دارد و شامل بیشترین تعداد مشتریان است. از لحاظ داده‌های شخصی به ۷ بخش تقسیم می‌شود. بخش اول شامل ۴۶ مشتری مرد در طیف سنی ۱۹ تا ۶۰ سال با تحصیلات لیسانس و فوق دیپلم است. بخش دوم شامل ۱۲ مشتری خانم در طیف سنی ۲۱ تا ۵۰ سال با تحصیلات لیسانس و فوق دیپلم می‌باشد. بخش سوم شامل ۱ مشتری خانم، ۳۶ ساله با تحصیلات دکتری است. بخش چهارم شامل ۳ مشتری مرد در طیف سنی ۲۶ تا ۵۲ سال با تحصیلات دکتری می‌باشد. بخش پنجم شامل ۳ مشتری خانم در طیف سنی ۳۰ تا ۳۲ سال با تحصیلات فوق لیسانس است. بخش ششم شامل ۱۷ مشتری آقا و ۵ مشتری خانم در طیف سنی ۱۱ تا ۴۹ سال با تحصیلات دیپلم و زیر دیپلم می‌باشد و بخش آخر شامل ۱۳ مشتری مرد در طیف سنی ۲۴ تا ۵۲ سال با تحصیلات فوق لیسانس است.
خوشه‌ی دوم
این خوشه از لحاظ ارزش مشتری در رتبه‌ی پنجم قرار دارد و الگویش مشابه خوشه‌ی چهارم و خوشه‌ی پنجم است. از لحاظ داده‌های شخصی به ۹ بخش تقسیم می‌شود. بخش اول شامل ۱۳ مشتری مرد و ۶ مشتری خانم در طیف سنی ۱۱ تا ۴۱ سال و تحصیلات دیپلم و زیر دیپلم است. بخش دوم شامل ۱۳ مشتری مرد در طیف سنی ۲۶ تا ۵۰ سال با تحصیلات فوق لیسانس می‌باشد. بخش سوم شامل ۶ مشتری مرد در طیف سنی ۴۰ تا ۷۰ سال با تحصیلات دیپلم و زیر دیپلم است. بخش چهارم شامل ۱ مشتری مرد با سن ۲۸ سال و تحصیلات دکتری می‌باشد. . بخش پنجم شامل ۵ مشتری خانم در طیف سنی ۲۲ تا ۳۴ سال با تحصیلات فوق لیسانس است. بخش ششم شامل ۱ مشتری مرد ۴۸ ساله با تحصیلات دکتری می‌باشد. بخش هفتم شامل ۳ مشتری خانم در طیف سنی ۳۷ تا ۴۹ سال با تحصیلات دکتری است. بخش هشتم شامل ۲۳ مشتری مرد در طیف سنی ۲۲ تا ۵۲ سال با تحصیلات لیسانس و فوق دیپلم می‌باشد. بخش نهم شامل ۱۴ مشتری خانم در طیف سنی ۱۸ تا ۴۱ سال با تحصیلات لیسانس و فوق دیپلم است.
خوشه‌ی سوم
این خوشه از لحاظ ارزش مشتری در رتبه‌ی اول قرار دارد یعنی شامل با ارزش‌ترین مشتریان می‎باشد و شامل کمترین تعداد نیز می‌باشد. از لحاظ متغیرهای شخصی به ۵ بخش تقسیم می‌شود. بخش اول شامل ۲ مشتری مرد ۲۴ ساله و ۶۰ ساله با تحصیلات لیسانس و فوق دیپلم است. بخش دوم شامل یک مشتری خانم ۳۱ ساله با تحصیلات لیسانس می‌باشد. بخش سوم شامل ۲ مشتری مرد ۳۰ ساله و ۴۲ ساله با تحصیلات دکتری است. بخش چهارم شامل ۲ مشتری مرد ۳۴ ساله و ۴۰ ساله با تحصیلات دیپلم و زیر دیپلم می‌باشد. بخش پنجم شامل ۲ مشتری مرد ۲۴ ساله و ۲۸ ساله با تحصیلات فوق لیسانس است.
خوشه‌ی چهارم
این خوشه از لحاظ ارزش مشتری در رتبه‌ی دوم قرار دارد و الگویش مشابه خوشه دوم و خوشه‌ی پنجم است. از لحاظ داده‌های گرافیکی به ۶ بخش تقسیم می‌شود. بخش اول شامل ۲۱ مشتری مرد با طیف سنی ۱۹ تا ۵۵ سال با تحصیلات لیسانس و فوق دیپلم است. بخش دوم شامل ۷ مشتری خانم با طیف سنی ۲۰ تا ۳۷ سال با تحصیلات لیسانس و فوق دیپلم می‌باشد. بخش سوم شامل ۱ مشتری خانم ۴۶ ساله با تحصیلات دکتری است. بخش چهارم شامل ۱۰ مشتری مرد و ۳ مشتری خانم با طیف سنی ۲۴ تا ۵۴ سال با تحصیلات فوق لیسانس می‌باشد. بخش پنجم شامل ۲ مشتری خانم با طیف سنی ۱۶ تا ۳۷ سال با تحصیلات دیپلم و زیر دیپلم است. بخش ششم شامل ۱۳ مشتری مرد با طیف سنی ۱۴ تا ۵۰ سال با تحصیلات دیپلم و زیر دیپلم می‌باشد.
خوشه‌ی پنجم
این خوشه از لحاظ ارزش مشتری در رتبه‌ی چهارم قرار دارد و الگویش مشابه خوشه دوم و خوشه‌ی چهارم است. از لحاظ متغیرهای شخصی به ۸ بخش تقسیم می‌شود. بخش اول شامل ۱۰ مشتری خانم با طیف سنی ۲۳ تا ۴۶ سال با تحصیلات لیسانس و فوق دیپلم است. بخش دوم شامل ۳۷ مشتری مرد با طیف سنی ۲۲ تا ۴۵ سال با تحصیلات لیسانس و فوق دیپلم می‌باشد. بخش سوم شامل ۲ مشتری خانم ۴۵ ساله با تحصیلات دکتری است. بخش چهارم شامل ۷ مشتری مرد با طیف سنی ۴۷ تا ۶۸ سال با تحصیلات لیسانس و فوق دیپلم می‌باشد. بخش پنجم شامل ۳ مشتری خانم با طیف سنی ۲۲ تا ۴۱ سال با تحصیلات دیپلم و زیر دیپلم است. بخش ششم شامل ۲ مشتری مرد با طیف سنی ۴۳ تا ۵۰ سال با تحصیلات دکتری می‌باشد. بخش هفتم شامل ۲۲ مشتری مرد با طیف سنی ۱۳ تا ۴۸ سال با تحصیلات دیپلم و زیر دیپلم است. بخش هشتم شامل ۹ مشتری مرد و ۳ مشتری خانم با طیف سنی ۲۵ تا ۶۹ سال با تحصیلات فوق لیسانس می‌باشد.
۴-۶-۳ بخش‌بندی دو مرحله‌ای مشتریان با بهره گرفتن از مدل سوم
همان طور که پانچی و استوارت [۱۷۳] پیشنهاد کرده‌اند، ترکیب یک روش سلسله مراتبی و غیرسلسله مراتبی خوشه‌بندی مانند الگوریتم K میانگین، راه حل بهتری را ارائه می‌دهد (۲۰۰۹). زیرا روش‌های سلسله مراتبی نقاط ابتدایی و تعداد خوشه‌ها را که روش‌های غیرسلسله مراتبی نیاز دارند، تعیین می‌کنند، هم چنین روش‌های غیر سلسله مراتبی مانند K میانگین عملکرد بهتری را با بهره گرفتن از اطلاعات به دست آمده فراهم می‌کنند. روش‌های خوشه‌بندی تفکیکی به روش‌های خوشه‌بندی سلسله مراتبی ترجیح دارند و این زمانی درست است که نقاط شروع به صورت غیرتصادفی تعیین شوند (کیو[۱۷۴] و همکارانش، ۲۰۰۲).
کیو و همکارانش در سال ۲۰۰۲ پیشنهاد کردند که روش‌های سلسله مراتبی می‌توانند با تکنیک‌های هوشمندی چون نقشه خود سازمانده جایگزین شوند. دلیل استفاده از نقشه خود سازمانده در مرحله‌ی اول این است که روش‌های سلسله مراتبی یک محدودیت دارند و آن این است که وقتی یک مشاهده به یک خوشه تعلق گرفت هرگز نباید به خوشه‌های دیگر جابجا شود، اما نقشه‌های خود سازمانده نوعی الگوریتم یادگیرنده هستند که می‌توانند به صورت مداوم یک مشاهده را به نزدیک‌ترین خوشه اختصاص دهند. از بردار خروجی نهایی می‌توان تعداد خوشه‌ها و نقاط ابتدایی را تعیین کرد. از طرف دیگر نقشه‌های خود سازمانده می‌توانند خیلی سریع همگرا شوند.
هر کدام از روش‌های شبکه خود سازمانده و K میانگین مزایا و محدودیت‌هایی دارند. یکی از مزایای شبکه خود سازمانده این است که شروع طبیعی دارد. همچنین یکی از محدودیت‌های روش K میانگین این است که قادر به تعیین تعداد خوشه‌ها نیست و نقاط ابتدایی را به صورت تصادفی انتخاب می‌کند (کیو و همکارانش، ۲۰۰۲).
بنابراین در این مدل ابتدا مشتریان را بر اساس داده‌های جمعیت‌شناختی و داده‌های تراکنشی‌شان بنا به روش SOM در نرم‌افزار کلمنتاین بخش‌بندی می‌کنیم، که به ۸ خوشه با مرکز خوشه‌هایی که در جدول ۴-۱۶ بیان شده است می‌رسیم.
جدول ۴-۱۷ مرکز خوشه‌های به دست آمده به روش SOM

جنسیت سن دیپلم و زیر دیپلم لیسانس و فوق دیپلم فوق لیسانس WR WF WM
۱ ۳۳۹/۰ ۰ ۱ ۰ ۰۶۸/۰ ۰ ۰۱۰/۰
۰ ۲۸۸/۰ ۰ ۱ ۰ ۰۵۸/۰ ۰ ۰۷۳/۰
۱ ۵۷۶/۰ ۰ ۱ ۰ ۰۲۳/۰ ۰ ۰۰۶/۰
۰ ۵۷۶/۰ ۰ ۰ ۰ ۰۶۵/۰ ۰ ۰۷۴/۰
۱ ۵۳۴/۰ ۰ ۰ ۰ ۰۸۳/۰ ۰۰۴/۰ ۰۰۴/۰
۰ ۲۲۹/۰ ۱ ۰ ۰ ۰۶۰/۰ ۰ ۰۲۱/۰
۱ ۳۵۶/۰ ۰ ۰ ۱ ۰۵۵/۰ ۰ ۰۷۱/۰
۱ ۳۵۶/۰ ۱ ۰ ۰ ۰۵۵/۰ ۰ ۰۰۹/۰

حال از مراکز و تعداد این خوشه‌ها استفاده کرده و به روش K میانگین دوباره مشتریان را بنا به متغیرهای جمعیت‌شناختی و متغیرهای تراکنشی‌شان بخش‌بندی می‌کنیم، نتایج این خوشه‌ها در جدول ۴-۱۷ بیان شده است.
جدول ۴-۱۸ رتبه‌بندی خوشه‌ها‌ی ۳۴۷ مشتری بر اساس مجموع متغیرهای استاندارد شده R و F و M وزن‌دار در مدل سوم

شماره خوشه تعداد جنسیت-مرد تحصیلات طیف سنی WR WF WM WRFM رتبه بر اساس ارزش نوع الگو
۱ ۹۲ ۹۲ لیسانس و فوق دیپلم [۳۷-۱۹] ۰۶۳/۰ ۰۰۵/۰ ۰۵۱/۰ ۱۱۸/۰ ۶  
۲ ۴۴ ۰ لیسانس و فوق دیپلم [۵۰-۱۸] ۰۵۶/۰ ۰۰۳/۰ ۰۶۳/۰ ۱۲۳/۰ ۵  
۳ ۴۴ ۴۴ لیسانس و فوق دیپلم [۶۸-۳۸] ۰۶۲/۰ ۰۰۴/۰ ۰۵۸/۰ ۱۲۴/۰ ۴  
۴ ۷ ۰ دکتری [۴۹-۳۶] ۰۵۳/۰ ۰۰۲/۰ ۰۹۴/۰ ۱۴۹/۰ ۲  
۵ ۱۰ ۱۰ دکتری [۵۳-۲۶] ۰۷۵/۰ ۰۴۲/۰ ۰۷۸/۰ ۱۹۵/۰ ۱  
۶ ۱۶ ۰ دیپلم و زیر دیپلم [۴۱-۱۱] ۰۵۶/۰ ۰۰۴/۰ ۰۳۳/۰ ۰۹۳/۰ ۸  
۷ ۶۱ ۴۷ فوق لیسانس [۶۹-۲۲] ۰۵۸/۰ ۰۰۴/۰ ۰۶۴/۰ ۱۲۵/۰ ۳  
۸ ۷۳ ۷۳ دیپلم و زیر دیپلم [۷۰-۱۳] ۰۵۶/۰ ۰۰۴/۰ ۰۴۹/۰ ۱۰۹/۰ ۷  
میانگین کل ۰۶۰/۰ ۰۰۸/۰ ۰۶۱/۰ ۱۲۹/۰    

۴-۶-۳-۱ تحلیل خوشه‌ها (بخش‌ها) در مدل سوم
خوشه‌ی اول
این خوشه از لحاظ ارزش مشتری، در رتبه‌ی ششم قرار دارد و از لحاظ نوع الگو مشابه خوشه سوم است. شامل ۹۲ مشتری مرد در طیف سنی ۱۹ تا ۳۷ سال با تحصیلات لیسانس و فوق دیپلم است، این خوشه بیشترین تعداد مشتری را دارد.
خوشه‌ی دوم

موضوعات: بدون موضوع
[پنجشنبه 1400-07-29] [ 12:48:00 ب.ظ ]