اختبار T في برمجة R: عينة واحدة واختبار T مقترن [مثال]
ما هو الاستدلال الإحصائي؟
الاستدلال الإحصائي هو فن توليد استنتاجات حول توزيع البيانات. غالبًا ما يتعرض عالم البيانات لسؤال لا يمكن الإجابة عليه إلا بشكل علمي. ولذلك، فإن الاستدلال الإحصائي هو استراتيجية لاختبار ما إذا كانت الفرضية صحيحة، أي التحقق من صحة البيانات.
تتمثل الإستراتيجية الشائعة لتقييم الفرضية في إجراء اختبار t. يمكن لاختبار t معرفة ما إذا كانت مجموعتان لهما نفس المتوسط. يُطلق على اختبار t أيضًا اسم a اختبار الطالب. يمكن تقدير اختبار t من أجل:
- ناقل واحد (أي اختبار t لعينة واحدة)
- متجهان من نفس مجموعة العينة (أي اختبار t مقترن).
أنت تفترض أن كلا المتجهين تم أخذ عينات منهما بشكل عشوائي، وأنهما مستقلان ويأتيان من مجموعة سكانية موزعة بشكل طبيعي مع تباينات غير معروفة ولكنها متساوية.
ما هو اختبار T في برمجة R؟
الفكرة الأساسية وراء اختبار T هي استخدام الإحصائيات لتقييم فرضيتين متعارضتين:
- H0: فرضية NULL: المتوسط هو نفس العينة المستخدمة
- H3: الفرضية الصحيحة: أن المتوسط يختلف عن العينة المستخدمة
يُستخدم اختبار T بشكل شائع مع عينات صغيرة الحجم. لإجراء اختبار t، عليك أن تفترض أن البيانات طبيعية.
بناء جملة اختبار T في R
بناء الجملة الأساسي لـ t.test() في R هو:
t.test(x, y = NULL, mu = 0, var.equal = FALSE) arguments: - x : A vector to compute the one-sample t-test - y: A second vector to compute the two sample t-test - mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`
عينة واحدة من اختبار T في R
اختبار t للعينة الواحدة، أو اختبار الطالب، يقارن متوسط المتجه بالمتوسط النظري، . الصيغة المستخدمة لحساب اختبار t هي:
هنا،
- يشير إلى المتوسط
- إلى الوسط النظري
- s هو الانحراف المعياري
- ن عدد الملاحظات.
لتقييم الأهمية الإحصائية لاختبار t، تحتاج إلى حساب ف قيمة. ف قيمة تتراوح من 0 إلى 1، ويتم تفسيرها على النحو التالي:
- قيمة p أقل من 0.05 تعني أنك واثق تمامًا من رفض الفرضية الصفرية، وبالتالي يتم قبول H3.
- تشير القيمة p الأعلى من 0.05 إلى أنه ليس لديك ما يكفي من الأدلة لرفض فرضية العدم.
يمكنك إنشاء القيمة p من خلال النظر إلى القيمة المطلقة المقابلة لاختبار t في توزيع الطالب بدرجات حرية تساوي
على سبيل المثال، إذا كان لديك 5 ملاحظات، فأنت بحاجة إلى مقارنة قيمة t الخاصة بنا مع قيمة t في توزيع الطالب مع 4 درجات حرية وبفاصل ثقة 95 بالمائة. لرفض فرضية العدم، يجب أن تكون قيمة t أعلى من 2.77.
جدول CF أدناه:
مثال واحد لاختبار T في R
لنفترض أنك شركة تنتج ملفات تعريف الارتباط. من المفترض أن تحتوي كل قطعة كوكيز على 10 جرام من السكر. يتم إنتاج ملفات تعريف الارتباط بواسطة آلة تضيف السكر في وعاء قبل خلط كل شيء. أنت تعتقد أن الآلة لا تضيف 10 جرامات من السكر لكل ملف تعريف ارتباط. إذا كان افتراضك صحيحًا، فيجب إصلاح الجهاز. لقد قمت بتخزين مستوى السكر في ثلاثين قطعة من البسكويت.
ملاحظات: يمكنك إنشاء متجه عشوائي باستخدام الدالة rnorm(). تولد هذه الدالة قيمًا موزعة بشكل طبيعي. بناء الجملة الأساسي هو:
rnorm(n, mean, sd) arguments - n: Number of observations to generate - mean: The mean of the distribution. Optional - sd: The standard deviation of the distribution. Optional
يمكنك إنشاء توزيع يحتوي على 30 ملاحظة بمتوسط 9.99 وانحراف معياري قدره 0.04.
set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04) head(sugar_cookie)
الإخراج:
## [1] 9.967581 9.980793 10.052348 9.992820 9.995172 10.058603
يمكنك استخدام اختبار t لعينة واحدة للتحقق مما إذا كان مستوى السكر مختلفًا عن الوصفة. يمكنك رسم اختبار الفرضيات:
- H0: متوسط مستوى السكر يساوي 10
- H3: متوسط مستوى السكر يختلف عن 10
يمكنك استخدام مستوى أهمية 0.05.
# H0 : mu = 10 t.test(sugar_cookie, mu = 10)
هنا هو الإخراج:
القيمة p لاختبار t للعينة الواحدة هي 0.1079 وما فوق 0.05. يمكنك أن تكون واثقًا بنسبة 95% أن كمية السكر المضافة بواسطة الآلة تتراوح بين 9.973 و10.002 جرام. لا يمكنك رفض فرضية العدم (H0). لا توجد أدلة كافية على أن كمية السكر التي تضيفها الآلة لا تتبع الوصفة.
اختبار T المقترن في R
يتم استخدام اختبار T المقترن، أو اختبار t للعينة التابعة، عندما يتم حساب متوسط المجموعة المعالجة مرتين. التطبيق الأساسي لاختبار t المقترن هو:
- A اختبار / B: قارن بين متغيرين
- دراسات مراقبة الحالة: قبل / بعد العلاج
مثال اختبار T المقترن في R
ترغب إحدى شركات المشروبات في معرفة أداء برنامج الخصم على المبيعات. قررت الشركة متابعة المبيعات اليومية لأحد متاجرها التي يتم الترويج فيها للبرنامج. في نهاية البرنامج، تريد الشركة معرفة ما إذا كان هناك فرق إحصائي بين متوسط مبيعات المتجر قبل البرنامج وبعده.
- قامت الشركة بتتبع المبيعات كل يوم قبل بدء البرنامج. هذا هو المتجه الأول لدينا.
- يتم الترويج للبرنامج لمدة أسبوع ويتم تسجيل المبيعات يوميًا. هذا هو ناقلنا الثاني.
- سوف تقوم بإجراء اختبار t للحكم على فعالية البرنامج. وهذا ما يسمى باختبار t المقترن لأن قيم كلا المتجهين تأتي من نفس التوزيع (أي نفس المتجر).
اختبار الفرضيات هو:
- H0: لا فرق في المتوسط
- H3: والوسيلتان مختلفتان
تذكر أن أحد الافتراضات في اختبار t هو تباين غير معروف ولكنه متساوٍ. في الواقع، البيانات بالكاد لها متوسط متساوٍ، ويؤدي ذلك إلى نتائج غير صحيحة لاختبار t.
أحد الحلول لتخفيف افتراض التباين المتساوي هو استخدام اختبار ويلش. يفترض R أن التباينين غير متساويين افتراضيًا. في مجموعة البيانات الخاصة بك، كلا المتجهين لهما نفس التباين، يمكنك تعيين var.equal= TRUE.
يمكنك إنشاء متجهين عشوائيين من توزيع غاوسي بمتوسط أعلى للمبيعات بعد البرنامج.
set.seed(123) # sales before the program sales_before <- rnorm(7, mean = 50000, sd = 50) # sales after the program.This has higher mean sales_after <- rnorm(7, mean = 50075, sd = 50) # draw the distribution t.test(sales_before, sales_after,var.equal = TRUE)
لقد حصلت على قيمة p تبلغ 0.04606، أي أقل من عتبة 0.05. تستنتج أن متوسطات المجموعتين تختلف بشكل كبير. يعمل البرنامج على تحسين مبيعات المحلات التجارية.
الملخص
- الاستدلال الإحصائي هو فن توليد استنتاجات حول توزيع البيانات.
- ينتمي اختبار T إلى عائلة الإحصاءات الاستدلالية. ويُستخدم عادةً لمعرفة ما إذا كان هناك فرق إحصائي بين متوسطات مجموعتين.
- اختبار t للعينة الواحدة، أو اختبار الطالب، يقارن متوسط المتجه بالمتوسط النظري.
- يتم استخدام اختبار T المقترن، أو اختبار t للعينة التابعة، عندما يتم حساب متوسط المجموعة المعالجة مرتين.
يمكننا تلخيص اختبار t في الجدول أدناه:
اختبار | فرضية للاختبار | ف قيمة | رمز | حجة اختيارية |
---|---|---|---|---|
اختبار t لعينة واحدة | متوسط المتجه يختلف عن المتوسط النظري | 0.05 |
t.test(x, mu = mean) |
|
اختبار t للعينات المقترنة | يختلف المتوسط A عن المتوسط B لنفس المجموعة | 0.06 |
t.test(A,B, mu = mean) |
var.equal= TRUE |
إذا افترضنا أن التباينات متساوية، فنحن بحاجة إلى تغيير المعلمة var.equal= TRUE.