11.07.2015 Views

معالجة البيانات غير التامة وتقديرها بطريقة انحدار المركبات الرئيسية

معالجة البيانات غير التامة وتقديرها بطريقة انحدار المركبات الرئيسية

معالجة البيانات غير التامة وتقديرها بطريقة انحدار المركبات الرئيسية

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

المؤتمر العلمي الثاني للرياضيات-الإحصاء والمعلوماتية 2009/Dec./7-6جامعة الموصل – كلية علوم الحاسبات والرياضياتيوجد العديد من الطرائق في إيجاد البيانات غير التامة التي فقدت تماما ً بشكل عشوائي(MCAR) او التي فقدت بشكل عشوائي (MAR) او بشكل غير عشوائي، (not MAR)لكن منها ما تبتعد عن استخدام المتغيرات التي تتضمن قيما ً مفقودة ومنها ما تستخدم البياناتالمتاحة وفي بعض التطبيقات تتخلى عن جزءا ً منها كما في حساب التباينات المشتركةومعامل الارتباط.اما طريقة المربعات الصغرى بالتعويض عن البيانات غير التامة باسلوبيهاالأول التعويض بالمتوسط الشرطي Conditional mean Imputation والاخر اسلوبالتعويض بالمتوسط غير الشرطيUnconditional mean Imputation اذ تعتبر هذهالطريقة بأسلوبيها بانها عامة ومرنة في معالجة مشكلة البيانات غير التامة حيث تعتمد هذهالطريقة على اشغال مواقع القيم المفقودة بقيم تقديرية تختلف بأسلوب تقديرها ولكن الهدف هوإكمال العينة واستخدامها في التحليل النهائي ، اذ تعتبر هذه الطريقة ايجابية من جهة لانهاتوفر بيانات بديلة عن البيانات المفقودة بشكل حسابي ولكنها تعتبر سلبية لانها تستخدمالطرائق التقليدية في تحليل بيانات العينة المكملة التي تضم بيانات حقيقية ‏(مشاهدة)‏ وبياناتتقديرية ‏(محسوبة)‏،والأخيرة قد تكون عرضة للتحيز عند تقديرها وهذا يرجع الى الأسلوبالمعتمد في التقدير ومدى امكانية الحصول على تقديرات كفوءة للبيانات المفقودة وسوفنستخدم أسلوب التعويض غير الشرطي للبيانات الغير التامة التي فقدت تماما ً بشكل عشوائيفي هذا البحث.‏التعويض بالمتوسط غير الشرطي Unconditional mean ImputationX ~jيتم التعويض عن القيم المفقودة لاي متغير تحت الدراسة بمتوسط قيم المشاهدة له= ∑n jXobs/ nj…………..(1)X jيمثل: n j عدد القيم المشاهدة فعلا ً للمتغيرX ~ j محل القيم المفقودة X mis لوفي حالةإحلالX j فان المتوسط العام للمتغيرX ~ j وتباينX j يكون مساويا ً لX j للعينة المكملة هو حيث( n j − 1)S jj/(n −1)………….(2): S jj يمثل التباين المقدر من القيم المتاحة حسب الصيغة~S2jjn= j∑i = 1(Xij− X ~j)2/ nj…….(3){ 315 }


المؤتمر العلمي الثاني للرياضيات-الإحصاء والمعلوماتية 2009/Dec./7-6جامعة الموصل – كلية علوم الحاسبات والرياضيات~S2kkn= k∑i=1(Xik− X ~k)2/ nk…..(4)وتحت فرض ان البيانات غير التامة بشكل عشوائي تماما ًX ~ j = ∑ Xij/ n j …………. (5)X ~kn j= ∑n kXikS jj هو تقدير/ nk…………..(6)(MCAR) فانللتباين الحقيقي كذلك فان تباين العينة متحيز بالمعامل (1-n)(1- n) j لان التعويض عن القيمالمفقودة تم باستخدام مركز التوزيع المتمثل بالوسط الحسابي وهذا ينسحب على التباينالمشترك للمتغيرينفيكونحيثX j, k X اللذان يتضمنان بيانات حقيقية مشاهدة وبيانات تقديرية محسوبة[( n jk1) /(n −1)] S ~jk− ……….. (7)~S jkمحسوبة وفق الصيغة~Sn= ∑jkjk(Xij−j)(Xik−k) /(njk− 1)i=1X ~X ~…… (8)وهو تقدير متسق للتباين المشترك المحسوب على وفق هذه الطريقة ومتحيزا ً بالمعامل( n jk − 1) /(n −1)……. (9)وه ذا بالإض افة ع ن إمكاني ة ان تك ون م صفوفة التب اين والتب اين الم شترك. (Positive semi definite)انحدار المركبات الرئيسةارتباطات(2005 ، ‏(المشهداني ، (1994Principal Component Regression‏(الشكرجي ،في حالة مصادفة معادلة الانحدار الخطي المتعدد مشكلة تعدد العلاقة الخطية لوجودبين المتغيرات التنبؤيةالمتغيرات وليس نتيجة العلاقة بينخرق احد فروض التحليل التي تنص علىان تكون مستقلة خطيا ً مع بعضها البعضمشكلة تعدد العلاقة الخطية بعد الكشفالمعاملاتالتحليل(VIF) التي ستذكر لاحقا ًإذ أن التقديرات التي تنتج لدينا تكون متأثرة بالعلاقات بينالمتغير المستجيب والمتغيرات التوضيحية ، وذلك يعنيعنهاأن أعمدة وصفوف المتغيرات التوضيحيةX يجب..إذ توجد العديد من الطرائق المتحيزة للتخلص منبإحدى طرق الكشف كمقياس تضخم تبايناتومن ثم استخدام طريقة المركبات الرئيسة المتحيزة في{ 316 }


المؤتمر العلمي الثاني للرياضيات-الإحصاء والمعلوماتية 2009/Dec./7-6جامعة الموصل – كلية علوم الحاسبات والرياضياتطريقة انحدار المركبات الرئيسةتعتمد طريقة تحليل المركبات الرئيسة على اسلوب تحويل المتغيرات التوضيحيةالأصلية الى متغيرات جديدة غير مرتبطة.هذه المتغيرات الجديدة تسمى بالمركبات الرئيسة،‏حيث ان كل مكون رئيسي هو عبارة عن تركيبة خطية في المتغيرات المستقلةويتم تحويل المتغيرات المستقلة الى المكونات الرئيسة بالشكل*Y0الأصلية .الآتي := β I + XVV′β + U ………. (10)حيث V عبارة عن مصفوفة المتجهات المميزة لمصفوفة الارتباط بين المتغيرات التوضيحيةفاذا عوضنا عن XV بكمية ثابتة PC مصفوفة ذات بعدانحدار النموذج المحور الذي يأخذ الشكل*(n * p)الآتي :أعمدتها عبارة عن معاملات*Y = β I + PCα + U ……… (11)0∧كالآتي :ob(βPC)E( βPC) − β = VV′β……. (12)كما ويعرف مقدار التحيزللمكونات الرئيسةمقياس تضخم تباينات المعاملاتيعد هذا المقياس سببا ً كافيا ًكبديل عن المربعات الصغرى في التقدير(1996‏(سعيد ،Variance Inflation Factors (VIF)لإهمال المتغير.وقد اكد بعض الباحثين ان مقدار المقياسX j من التحليل او استخدام طريقة اخرى[ = VIF ≥ 10]a JJفانه دليل على خرقفروض التحليل لوجود علاقة بين المتغيرات التوضيحية،‏ ويعتمد هذا المقياس على فحصعناصر القطر الرئيسي للمصفوفةوانالمعادلة(X′X)−12R j عبارة عن معامل التحديد لانحدارحيث انaJJ2= (1 − R ) ……… (13)jX j عن بقية(13) بانه لوجود تداخل خطي بين المتغيرات التوضيحية فانمساوية للواحد وبذلك تكونالتوضيحية الأخرىالمتغيرات التوضيحية ، توضح2R j ستكون قريبة اوa JJ كبيرة الحجم ..a وبذلك تكون R 2 JJ =1j= 0اما اذا كانتX j مستقلة عن بقية المتغيرات{ 317 }


المؤتمر العلمي الثاني للرياضيات-الإحصاء والمعلوماتية 2009/Dec./7-6جامعة الموصل – كلية علوم الحاسبات والرياضياتالاستنتاجاتيمكن توضيح أهم الاستنتاجات بما يلي:-1-2-3-4ان حل مشكلة البيانات المفقودة تغني عن البحث وبذل المزيد من الوقت والجهدوالتكلفة في إيجاد طرق او بيانات أخرى لحل مشكلة الفقدان في البيانات قيد الدراسة. او البحثان التعرف على آلية الفقدان للبيانات يعتبر المفتاح لتشخيص أسلوب التحليل المعتمد. للظاهرةكما وان الاستلال حول البيانات غير التامة قد يكون توزيعا ً مجهولا ً اوتوزيعا ً طبيعيا ً للمتعدد المتغيرات خاصة اذا كان حجم العينة كبيرا ً.كما وان البيانات الغير تامة بعد معالجتها بالأسلوب المناسب لنوع الفقدان يمكن انتظهر مشكلة التعدد الخطي لخرق إحدى فروض التحليل كما ويمكن الكشف عنهاومعالجتها بإحدى طرق التقدير المتحيزة كما ورد في بحثنا وتقديرها بطريقة انحدارالمركبات الرئيسة.‏يمكن تقدير مقدار التحيز للبيانات غير التامة بعد معالجتها مهما كانت آلية الفقدانواعتمادها كبيانات تامة في كافة التطبيقات الإحصائية.‏المصادرأ-‏ المصادر العربية" ، دار- البلداوي ، عبد الحميد عبد المجيدالشرق الأوسط ، التوزيع الأردن" الأساليب الإحصائية التطبيقية: (2004).- الشكرجي ، ذنون يونس ذنون(2005) : ‏"استخدام مصفوفتي Q-Mode – R-Mode فيالتحليل العاملي"‏ ، رسالة ماجستير ، كلية الادارة والاقتصاد ، جامعة الموصل.- الطائي ، خالد ضاري عباس (1998) : ‏"التحليل الإحصائي للبيانات غير التامة في نماذجالانحدار المتعدد"‏ ، أطروحة دكتوراه ، كلية الإدارة والاقتصاد ، جامعة الموصل.- المشهداني ، ايمان محمد عبد االله (1994) : ‏"استخدام المركبات الرئيسة في تشخيصومعالجة مشكلة التعدد الخطي مع تطبيق عملي لبعض الظواهر الاقتصادية"‏ ، رسالةماجستير ، كلية الإدارة والاقتصاد ، جامعة بغداد.{ 321 }


المؤتمر العلمي الثاني للرياضيات-الإحصاء والمعلوماتية 2009/Dec./7-6جامعة الموصل – كلية علوم الحاسبات والرياضيات- سعيد ، هيفاء عبد الجواد (1996) : ‏"طرق التعرف على تعدد العلاقة الخطية وكيفيةمعالجتها بطرائق التقدير المتحيزة " ‏،رسالة ماجستير ، كلية الإدارة والاقتصاد ، جامعةالموصل.‏- سلو ، عمار محمد (2006) : ‏"السياسة الإنتاجية والسعرية للملكة العربية السعودية فيمجال النفط الخام"‏ ، رسالة دكتوراه ، كلية الإدارة والاقتصاد ، جامعة الموصل .أموري هادي (1998) : ‏"طرق القياس الاقتصادي"‏ ، جامعة بغداد ، مطبعة التعليمالعالي ، الطبعة الأولى.‏إسماعيل (1990) : ‏"دراسة تقويمية لطرق التقديرات المتحيزة لمعامل- كاظم ،- كمال ، غفرانالانحدار المتعدد عند مخالفة بعض الفرضيات باستخدام أسلوب المحاكاة"‏ ، رسالةماجستير في الإحصاء ، كلية الإدارة والاقتصاد ، جامعة بغداد.-‏ب-‏ المصادر الأجنبية- Gourieroux, G. and Mont Fort (1981) “ on the problem of Missing Dataan Linear Models” Review of Economic Studies, XL VIII, P: 579-586.- Little, and Rubin, (1987) “Statistical Analysis with Missing Data”, NewYork: John-Wiley, P: 88,125-134.- Little R.J.A. (1988) “Robust Estimation of the Mean Covariance Matrixfrom Data with Missing Values” Applied Statistics, P: 37,33-29.- Theil, H. (1971) “Principal of Econometrics” John Wiley & Sons. Inc.P: 90-94{ 322 }

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!