المقدمة:
يُعدّ الارتباط والانحدار من أهم الأدوات الإحصائية في تحليل العلاقات بين المتغيرات. بينما يُركّز الارتباط على قياس قوة واتجاه العلاقة الخطية بين متغيرين، يتناول الانحدار النمذجة الرياضية للعلاقة والتنبؤ بالقيم المستقبلية. يُستخدم هذان المقياسان في مجالات متعددة: الاقتصاد، الطب، العلوم الاجتماعية، الهندسة، والأعمال.
الجزء الأول: مقاييس الارتباط (Correlation Measures)
1.1 مفهوم الارتباط الإحصائي
الارتباط هو قياس درجة الارتباط الخطي بين متغيرين كميين. يُشير إلى مدى تغيّر متغير واحد بالتزامن مع تغيّر المتغير الآخر، دون الإشارة إلى السببية.
خصائص مقاييس الارتباط:
| الخاصية | الشرح |
|---|---|
| الاتجاه | إيجابي (تزامن) أو سلبي (تضاد) |
| القوة | ضعيف (0-0.3)، متوسط (0.3-0.7)، قوي (0.7-1) |
| المدى | يتراوح بين -1 و +1 |
| التماثل | r(x,y) = r(y,x) |
1.2 معامل ارتباط بيرسون (Pearson Correlation Coefficient)
التعريف: أشهر مقاييس الارتباط الخطي، يُطوّر بواسطة كارل بيرسون عام 1896. يُقيس الارتباط الخطي بين متغيرين متواصلين.
المعادلة:
أو بالصيغة المبسطة:
درجات تفسير معامل بيرسون:
| القيمة | تفسير القوة | تفسير الاتجاه |
|---|---|---|
| +1.00 | مثالي | ارتباط إيجابي كامل |
| +0.90 إلى +0.99 | قوي جداً | إيجابي |
| +0.70 إلى +0.89 | قوي | إيجابي |
| +0.40 إلى +0.69 | متوسط | إيجابي |
| +0.10 إلى +0.39 | ضعيف | إيجابي |
| 0.00 إلى ±0.09 | ضعيف جداً/معدوم | لا ارتباط |
| -0.10 إلى -0.39 | ضعيف | سلبي |
| -0.40 إلى -0.69 | متوسط | سلبي |
| -0.70 إلى -0.89 | قوي | سلبي |
| -0.90 إلى -0.99 | قوي جداً | سلبي |
| -1.00 | مثالي | ارتباط سلبي كامل |
- العلاقة خطية (يمكن التحقق بالمخطط المبعثر)
- التوزيع الطبيعي للمتغيرين
- عدم وجود قيم شاذة مؤثرة
- المستوى الفاصل أو النسبي للمتغيرات
1.3 معامل ارتباط سبيرمان (Spearman's Rank Correlation)
التعريف: مقياس ارتباط غير معاملي (Non-parametric) يُستخدم عندما لا تتوفر افتراضات بيرسون، أو عندما تكون البيانات ترتيبية.
المعادلة:
حيث dᵢ هو الفرق في الرتب بين المتغيرين.
الاستخدامات:
- البيانات الترتيبية (الدرجات، الترتيب)
- عند وجود قيم شاذة
- العلاقات غير الخطية الأحادية (Monotonic)
1.4 معامل ارتباط كيندال (Kendall's Tau)
التعريف: بديل آخر غير معاملي، يُحسب بناءً على عدد الأزواج المتفقة (Concordant) والمتعارضة (Discordant).
المميزات:
- أفضل للعينات الصغيرة
- أكثر مقاومة للقيم الشاذة
- يُستخدم في تحليل الشبكات الاجتماعية
1.5 مقارنة بين مقاييس الارتباط
| المعيار | بيرسون | سبيرمان | كيندال |
|---|---|---|---|
| نوع البيانات | كمي مستمر | ترتيبي أو كمي | ترتيبي أو كمي |
| العلاقة | خطية فقط | أحادية (Monotonic) | أحادية |
| الحساسية للشواذ | حساس | مقاوم | مقاوم جداً |
| القوة التمييزية | عالية | متوسطة | متوسطة |
| الحساب | أسهل | متوسط | أصعب |
الجزء الثاني: الانحدار الخطي البسيط (Simple Linear Regression)
2.1 مفهوم الانحدار الخطي
الانحدار الخطي هو نموذج إحصائي يُستخدم للتنبؤ بقيمة متغير تابع (Y) بناءً على متغير مستقل (X) من خلال علاقة خطية.
النموذج الرياضي:
حيث:
- Y = المتغير التابع (الاستجابة)
- X = المتغير المستقل (المتنبئ)
- β₀ = الثابت (نقطة تقاطع المحور الرأسي)
- β₁ = معامل الانحدار (ميل الخط)
- ε = خطأ عشوائي (الجزء غير المفسر)
2.2 تقدير معاملات الانحدار
طريقة المربعات الصغرى (Ordinary Least Squares - OLS):
تُقدّر المعاملات بتقليل مجموع مربعات الانحرافات بين القيم الملاحظة والقيم المتوقعة:
صيغ المعاملات المقدرة:
2.3 تفسير المعاملات
| المعامل | التفسير | مثال |
|---|---|---|
| β̂₀ (الثابت) | قيمة Y عندما X=0 | الراتب الأساسي بدون مبيعات |
| β̂₁ (الميل) | التغير في Y لكل وحدة تغير في X | زيادة الراتب لكل 1000 ريال مبيعات |
2.4 معادلة خط الانحدار المقدرة
مثال تطبيقي:
إذا كان: β̂₀ = 3000 ريال، β̂₁ = 0.05
فإن: Ŷ = 3000 + 0.05X
التفسير: كل زيادة 1000 ريال في المبيعات ترتبط بزيادة 50 ريال في الراتب.
الجزء الثالث: تقييم نموذج الانحدار
3.1 معامل التحديد (Coefficient of Determination - R²)
التعريف: نسبة التباين في Y المفسر بالعلاقة مع X.
حيث:
- SST (Total Sum of Squares): Σ(yᵢ - ȳ)² = التباين الكلي
- SSR (Regression SS): Σ(ŷᵢ - ȳ)² = التباين المفسر
- SSE (Error SS): Σ(yᵢ - ŷᵢ)² = التباين غير المفسر
تفسير R²:
| قيمة R² | التفسير |
|---|---|
| 0.90 - 1.00 | نموذج ممتاز (90%+ من التباين مفسر) |
| 0.70 - 0.89 | نموذج جيد جداً |
| 0.50 - 0.69 | نموذج مقبول |
| 0.30 - 0.49 | نموذج ضعيف |
| 0.00 - 0.29 | نموذج غير مفيد |
(في الانحدار الخطي البسيط فقط)
3.2 الخطأ المعياري للتقدير (Standard Error of Estimate)
التفسير: متوسط انحراف القيم الملاحظة عن خط الانحدار.
3.3 تحليل التباين (ANOVA Table)
| مصدر التباين | درجات الحرية | مجموع المربعات | متوسط المربعات | F |
|---|---|---|---|---|
| الانحدار | 1 | SSR | MSR = SSR/1 | MSR/MSE |
| الخطأ | n-2 | SSE | MSE = SSE/(n-2) | |
| الكلي | n-1 | SST |
3.4 اختبار معنوية المعاملات
اختبار t للميل:
حيث:
فرضيات الاختبار:
- H₀: β₁ = 0 (لا علاقة خطية)
- H₁: β₁ ≠ 0 (يوجد علاقة خطية)
قرار: إذا |t| > t_(α/2, n-2) أو p-value < α، نرفض H₀
الجزء الرابع: الافتراضات والتشخيص
4.1 افتراضات الانحدار الخطي
| الافتراض | الوصف | طريقة الفحص |
|---|---|---|
| الخطية | العلاقة خطية | المخطط المبعثر (X vs Y) |
| الاستقلال | المشاهدات مستقلة | ترتيب البيانات (X vs الوقت) |
| التجانس | تباين ثابت للأخطاء | المخطط المبعثر (المتوقع vs البقايا) |
| التوزيع الطبيعي | الأخطاء ~ N(0, σ²) | Q-Q plot، اختبار Shapiro-Wilk |
| عدم وجود متعددية خطية | X واحد فقط (في البسيط) | - |
4.2 تحليل البقايا (Residual Analysis)
البقايا: eᵢ = yᵢ - ŷᵢ
المخططات التشخيصية:
- البقايا vs القيم المتوقعة: يجب أن يكون عشوائياً حول الصفر
- Q-Q plot للبقايا: للتحقق من التوزيع الطبيعي
- البقايا vs X: للتحقق من التجانس
- البقايا vs الترتيب: للتحقق من الاستقلال
4.3 المشاكل الشائعة والحلول
| المشكلة | الأعراض | الحل |
|---|---|---|
| القيم الشاذة | بقايا كبيرة | تحديد ومعالجة أو إزالة |
| التأثيرات المؤثرة | نقاط ذات قدرة تغيير عالية | حساب Cook's distance |
| عدم التجانس | شكل مخروطي في البقايا | تحويل المتغيرات |
| الارتباط الذاتي | نمط في البقايا عبر الزمن | نماذج السلاسل الزمنية |
| الغياب الخطي | نمط منحني | تحويلات أو انحدار متعدد الحدود |
الجزء الخامس: التطبيقات العملية والدراسات الحالة
دراسة حالة 1: التنبؤ بالمبيعات
البيانات: ميزانية الإعلانات (X) والمبيعات (Y) لـ 10 فروع:
| الفرع | X (آلاف ريال) | Y (آلاف ريال) |
|---|---|---|
| 1 | 10 | 120 |
| 2 | 15 | 150 |
| 3 | 12 | 130 |
| 4 | 18 | 180 |
| 5 | 20 | 200 |
| 6 | 14 | 140 |
| 7 | 16 | 160 |
| 8 | 22 | 210 |
| 9 | 11 | 125 |
| 10 | 19 | 190 |
النتائج:
- x̄ = 15.7, ȳ = 160.5
- β̂₁ = 8.2, β̂₀ = 31.8
- معادلة الانحدار: Ŷ = 31.8 + 8.2X
- r = 0.98, R² = 0.96
التفسير: 96% من تباين المبيعات يُفسر بالإعلانات. كل 1000 ريال إضافية في الإعلانات تزيد المبيعات بـ 8200 ريال.
دراسة حالة 2: العلاقة بين العمر وضغط الدم
البيانات: عمر وضغط الدم الانقباضي لـ 50 مريضاً.
النتائج:
- r = 0.65 (ارتباط متوسط إيجابي)
- Ŷ = 95 + 0.8X
التفسير: مع تقدم كل سنة في العمر، يزيد ضغط الدم بمعدل 0.8 mmHg.
دراسة حالة 3: تحليل المخاطر المالية
البيانات: عائد السهم (Y) وعائد السوق (X) لـ 36 شهراً.
النتائج:
- Beta (β̂₁) = 1.2
- R² = 0.72
التفسير: السهم أكثر تقلباً من السوق (Beta > 1). 72% من تباين العائد يُفسر بحركات السوق.
الجزء السادس: التحذيرات والاعتبارات المهمة
6.1 "الارتباط لا يعني السببية"
أمثلة على الارتباطات الزائفة:
- ارتباط عدد البطاطس المستهلكة ووفيات القلب (السبب: العوامل الاقتصادية)
- ارتباط عدد الحرائق وعدد رجال الإطفاء (السبب: حجم الحريق)
الشروط المطلوبة للاستدلال السببي:
- العلاقة إحصائياً معنوية
- الترتيب الزمني (السبب يسبق النتيجة)
- إقصاء المتغيرات الوسيطة والمشوشة
- وجود نظرية أو آلية مفهومة
6.2 مشكلة الانحدار الظاهري (Spurious Regression)
يحدث عندما يكون كلا المتغيرين يتجهان معاً بسبب عامل ثالث أو الصدفة، مما يُنتج ارتباطاً إحصائياً معنوياً لكن غير حقيقي.
6.3 التنبؤ خارج نطاق البيانات (Extrapolation)
الخاتمة
يُشكّل الارتباط والانحدار الخطي البسيط أساساً متيناً للتحليل الإحصائي العلائقي. يُتيح معامل الارتباط فهم قوة واتجاه العلاقة، بينما يُمكّن الانحدار الخطي من النمذجة والتنبؤ. إن إتقان هذه الأدوات يتطلب:
- فهم الافتراضات والقيود
- التحقق من صحة النموذج
- الحذر في الاستدلال السببي
- التواصل الواضح للنتائج
المراجع
- "Introduction to Linear Regression Analysis" - Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining
- "Applied Linear Statistical Models" - Michael H. Kutner, Christopher J. Nachtsheim, John Neter
- "Correlation and Causation" - David A. Kenny
- "The Elements of Statistical Learning" - Trevor Hastie, Robert Tibshirani, Jerome Friedman
- المعهد الأمريكي للإحصاء (ASA) - معايير الإبلاغ عن الانحدار
