روش تجزیه و تحلیل داده ها

پردازش داده ها در تحقیق حاضر در سه سطح ۱) تحلیلهای تک متغیره؛ ۲) تحلیلهای دو متغیره؛ و ۳) تحلیلهای چند متغیره انجام میشود. در قسمت اول متغیرها به صورت منفرد مورد بررسی قرار میگیرند و روابط بین آنها مد نظر نیست. در این بخش شاخصهای مرکزی و پراکندگی محاسبه میشود تا تصویری کلی از جامعه مورد بررسی به دست آید. سپس برای تحلیلهای دو متغیره با توجه به نوع متغیرها و همچنین ارتباط آنها از نظر استقلال و عدم استقلال آزمونهای پارامتریک و ناپارامتریک مناسب انتخاب میشود. در این بخش چون تمامی متغیرهای تحقیق دارای مقیاس رتبهای از نوع چند ارزشی میباشد، لذا آزمون مناسب برای تعیین استقلال و عدم استقلال متغیرها آزمون همبستگی پیرسون میباشد. درنهایت نیز برای بخش سوم و تحلیلهای چند متغیره پنل دیتا ( برازش مدل ) انجام خواهد شد.
به عبارت دیگر تجزیه و تحلیل اطلاعات آماری در این تحقیق با بهره گرفتن از نرمافزار EVIOWS و SPSS انجام گرفتهاست. آزمونهای آماری مورد استفاده در این تحقیق به شرح زیر است:

 

برای دانلود متن کامل پایان نامه به سایت fotka.ir مراجعه نمایید.

 

آزمون کولموگروف اسمیرنوف یا جاک برا با بهره گرفتن از نرمافزار SPSS

برای اینکه بدانیم توزیع کدامیک از متغیرهای تحقیق نرمال است از آزمون کولموگروف اسمیرنوف استفاده کردهایم. آزمون کولموگروف اسمیرنوف روش ناپارامتری سادهای برای تعیین همگونی اطلاعاتی تجربی باتوزیعهای آماری منتخب است، آزمون کولموگروف اسمیرنوف روشی برای تشخیص نرمال بودن توزیع فراوانی مشاهدات جمع آوری شده است.
این آزمون برای گرفتن مجوز لازم جهت استفاده از رگرسیون و ضریب همبستگی پیرسون برمتغیرهای تحقیق اعمال میگردد تا نرمال بودن اطلاعات اثبات گردد.

 

آزمون ضریب همبستگی با بهره گرفتن از نرمافزار EVIOWS

برای تعیین میزان ارتباط دو متغیر موردبررسی تحقیق از معیار همبستگی استفاده شده است. تحلیل همبستگی ابزار آماری است که به وسیله آن میتوان درجه ارتباط خطی دو متغیر را اندازه گیری نمود. همبستگی را به طور معمول با تحلیل رگرسیون به کار میبرند.
همبستگی معیاری است که برای تعیین میزان ارتباط دو متغیر استفاده میشود. معیار همبستگی شامل دو شاخص ضریب تعیین و ضریب همبستگی است.
در صورتیکه یک نمونه تصادف n تایی از متغیرهای (x,y) داشته باشیم در این صورت برآورد ضریب همبستگی در جامعه به صورت زیر خواهد بود.

که مقدار آن همواره بین ۱-و ۱ می باشد.
بر حسب مقادیری که r می گیرد سه حالت ممکن است رخ دهد.

 

 

اگر باشد آنگاه رابطه خطی بین y,x مستقیم است.

اگر باشد آنگاه رابطه خطی بین y,x معکوس است.
اگر باشد آنگاه بین y,x رابطه خطی وجود ندارد.

 

بررسی ضریب همبستگی بین متغیرهای مستقل و متغیرهای وابسته و مطالعه معنی دار ضرایب

در این مرحله ضریب همبستگی پیرسون بین متغیر وابسته و متغیر مستقل محاسبه شده که بوسیله علامت ضریب همبستگی نوع ارتباط (مستقیم یا معکوس) مشخص می شود همچنین معنی داری آن بوسیله مقدار احتمال مورد بررسی قرار می گیرد که مقادیر احتمال کوچکتر از (۰۵/۰) بیانگر وجود ارتباط معنی دار می باشند.

 

ضریب تعیین

ضریب تعیین مهمترین معیاری است که با آن می توان رابطه بین دو متغیر y,x را توضیح داد. ضریب تعیین توانائی وقابلیت معادله (مدل) رگرسیون در پیش بینی تغییرات متغیر وابسته بر اساس متغیر مستقل را نشان می دهد و مقدار آن بین صفر و یک می باشد.

 

رگرسیون چندگانه

تحلیل‌های رگرسیون به مطالعۀ وابستگی یک متغیر (متغیر وابسته) به یک یا چند متغیر دیگر (متغیر توضیحی) می‌پردازد که با تخمین یا پیش‌بینی مقدار متوسط یا میانگین مقادیر متغیر نوع اول در حالتی که مقادیر متغیر نوع دوم معلوم یا معین شده باشند (درنمونه‌گیری تکراری) صورت می‌پذیرد.
اگر وابستگی متغیری تنها بر روی یک متغیر توضیحی بررسی شود، چنین بررسی‌ به عنوان تحلیل رگرسیون ساده یا دو متغیره معروف است. اما اگر وابستگی یک متغیر بر روی بیش از یک متغیر توضیحی بررسی گردد، تحت عنوان رگرسیون مرکب معرفی می‌گردد.
یک مدل رگرسیونی خطی ساده را میتوان به شکل زیر بیان نمود:
۱)
که در آن نشان دهنده متغیر توضیحی، نشان دهنده متغیر وابسته و نمایانگر جزء اخلال مربوط به جامعه میباشد. در واقع جزء تصادفی جامعه ( ) نماینده یا جانشینی است برای تمامی متغیرهای حذف شده یا فراموش‌شده که بر متغیر وابسته اثر می‌گذارند ولی در مدل رگرسیون وجود ندارند (یا به دلایل گوناگون نمی‌توانند در مدل گنجانده شوند).
همانطور که گفته شد جزء استوکاستیک[۱۱۳](جزء اخلال) نماینده‌ای برای تمامی متغیرهائی است که از مدل حذف شده اما مجموعاً بر y اثر می‌گذارد حال سؤال این است که چرا این متغیرها صریحاً در مدل معرفی نمی‌شوند؟ به بیان دیگر به دلایل زیر یک مدل رگرسیونی مرکب با تمام متغیرهای ممکن بسط داده نمی‌شوند.
۱ـ ممکن است تئوری ناقص باشد یعنی از تأثیرگذاری بعضی از متغیرها بر متغیر وابسته بی‌اطلاع باشیم.
۲ـ ممکن است راجع به بعضی از متغیرها داده‌های اندکی داشته باشیم.
۳ـ جمع‌ آوری داده در مورد بعضی از متغیرها به نسبت تأثیر آنها در مدل ممکن است بسیار زیاد باشد.
۴ـ به دلیل ماهیت تصادفی بودن متغیر وابسته، توضیح کامل آن ممکن نیست و جزء اخلال می‌تواند آنرا منعکس کند.
۵ـ ممکن است در اندازه‌گیری خطا صورت گرفته باشد.
۶ـ با تأسی به قاعدۀ اُکام[۱۱۴](توصیف راجع به پدیده‌ها حتی الامکان ساده در نظر گرفته شود، و اینکه خلاف آن ثابت نشده است) مطلوب است مدل رگرسیون را تا حد ممکن ساده‌تر بگیریم

 

عدم وجود خودهمبستگی بین خطاهای مدل

عدم وجود خودهمبستگی بین جملات خطا یکی از فروض اساسی برای روش ols می باشد. همبستگی خطاها را با یکدیگر را اصطلاحاً خود همبستگی یا همبستگی سریالی می گویند.
قدم اول در شناسایی خودهمبستگی این است که نمودار خطاها ترسیم شود ولی این روش نموداری مشکل است و لذا برخی روش های آماری جهن آزمون خود همبستگی ارائه شده اند. یکی از آزمون های متداول، آزمون دوربین واتسون می باشد که بصورت زیر برای تشخیص خود همبستگی به کار می رود. ( سوری علی،۱۳۹۱ )

 

آزمون دوربین واتسون

آزمون دوربین واتسون ( durbin-watson) یکی از مشهورترین ازمون ها برای تشخیص خود همبستگی است. البته برای به کار بردن این آزمون نیاز به برقراری شرایطی است که در زیر به آنها اشاره می کنیم.

 

محدودیت های آزمون دوربین واتسون:

 

 

این آزمون تنها خود همبستگی از درجه اول را نشان می دهد.

برای به کار بردن این آزمون هیچ مشاهده ی گم شده ای نباید وجود داشته باشد.

متغیر با وقفه از نوع وابسته نباید در سمت راست مدل وجود داشته باشد.

مدل رگرسیونی باید عرض از مبدا داشته باشد.

نحوه داوری
هرگاه مقدار آماره دوربین واتسون بین ۵/۱ تا ۵/۲ باشد در این صورت بین اجزای خطای مدل رگرسیون همبستگی وجود ندارد در غیر این صورت بین اجزای خطای مدل همبستگی وجود دارد.

 

پانل دیتا

درداده های پانل دیتا در ابتدا باید روش تخمین مشخص باشد. روش تخمین مشتمل بر دو روش می باشد:
۱ـ استفاده از روش تلفیقی: در این روش مقاطع همگن فرض می شود.
۲- استفاده از روش پانل: در این روش مقاطع غیر همگن فرض میشود. این روش خود شامل دو نوع تخمین می باشد:

 

 

روش اثرات ثابت: در این روش تفاوت مقاطع صرفا در ضرایب لحاظ می شود.

روش اثرات تصادفی: در این روش تفاوت در مقاطع علاوه بر اینکه در ضرایب لحاظ می شود، سایر ویژگی های مقاطع نیز در ضرایب لحاظ می گردد.

با توجه به آنچه گفته شد، در ابتدا لازم است روش برآورد مشخص شود برای اینکار از آزمونF استفاده می شود که فرض صفر آن مبتنی بر همگن بودن مقاطع است و فرض مقابل آن مبنی بر غیر همگن بودن مقاطع میباشد. حال اگر فرض صفر در این آزمون پذیرفته شود از روش تلفیقی برای برآورد مدل استفاده خواهد شد و در غیر این صورت از روش پانل دیتا استفاده میشود. البته برای مشخص شدن نوع روش برآورد در پانل نیز از آزمون هاسمن استفده میگردد، در این آزمون فرض صفر مبنی بر استفاده از روش اثرات تصادفی برای برآورد میباشد و فرض مقابل آن فرض استفاده از روش اثرات ثابت میباشد.
برای آشنایی با مبانی نظری این آزمونها در این بخش به نحوه ی تحلیل در داده های پانل پرداخته میشود.

 

داده های تابلویی و مزایای استفاده از آنها

انواع داده هایی که عموماً برای تحلیلهای تجربی به کار برده میشوند، در سه گروه مورد بحث و بررسی قرار میگیرند:

 

 

داده های سری زمانی[۱۱۵]

داده های مقطعی[۱۱۶]

داده های تلفیقی سری زمانی و مقطعی[۱۱۷]

در داده های سری زمانی مقادیر یک یا چند متغیر را طی یک دوره زمانی مشاهده میکنیم (برای مثال GDP طی چند فصل یا چند سال). در داده های مقطعی، مقادیر یک یا چند متغیر برای چند واحد یا مورد نمونهای در یک زمان یکسان جمعآوری میشود (برای مثال نرخهای جرم و جنایت برای سی استان ایران در در یک سال معین).
داده های تابلویی ترکیبی از داده های مقطعی و سری زمانی میباشد، یعنی اطلاعات مربوط به داده های مقطعی در طول زمان مشاهده میشود. بدینصورت که چنین داده هایی دارای دو بعد می باشند که یک بعد آن مربوط به واحدهای مختلف در هر مقطع زمانی خاص است و بعد دیگر آن مربوط به زمان میباشد. در این تحقیق روشداده های تابلویی به عنوان روش تخمین مدل، انتخاب میشود. در مجموع، داده های پانلی دارای مزایای فراوانی نسبت به داده های مقطعی یا سری زمانی هستند که برخی از مهمترین آنها عبارتند از:

 

 

داده های مقطعی و سری زمانی صرف، ناهمسانیهای فردی را لحاظ نمیکنند، لذا ممکن است که تخمین تورشداری به دست دهند، در حالی که در روش پانل میتوان با لحاظ کردن متغیرهای مخصوص انفرادی[۱۱۸] این ناهمسانیها را لحاظ کرد.

داده های تابلویی دارای اطلاعات بیشتر، تغییرپذیری بیشتر، همخطی کمتر، درجه آزادی بالاتر و کارایی بالاتر نسبت به سری زمانی و داده های مقطعی میباشند. به خصوص اینکه یکی از روش های کاهش همخطی، ترکیب داده های مقطعی و زمانی به صورت داده های تابلویی میباشد.

با مجموعه داده های تابلویی، میتوان اثراتی را شناسائی و اندازه گیری کرد که در داده های مقطعی محض یا سری زمانی خالص قابل شناسائی نیست. گاهی استدلال میشود داده های مقطعی، رفتارهای بلندمدت را نشانمیدهند، در حالی که در داده های سری زمانی براثرات کوتاهمدت تأکید میشود. با ترکیب این دو خصوصیت در داده های تابلویی، که خصوصیت متمایز پانل دیتاست، ساختار عمومیتر و پویاتری را میتوان تصریح و برآورد کرد(اشرفزاده و مهرگان، ۱۳۸۷، ص ۴۱(.

داده های تابلویی که بر حسب بنگاه ها، خانوارها و افراد جمع آوری میشوند، ممکن است دقیقتر از داده های مشابه اندازه گیری شده در سطح کلان باشند. بنابراین، تورشی که ممکن است در داده های کلان حاصل شود، در داده های تابلویی حداقل میگردد.

موضوعات: بدون موضوع
[چهارشنبه 1400-01-25] [ 02:25:00 ب.ظ ]