أثر إضافة بديل "لا أعرف" في أسئلة الاختيار من متعدد على تقدير قدرة الفرد وخفض بارامترات التخمين وتحسين کفاءة الاختبار في ضوء نظرية الاستجابة للمفردة

نوع المستند : المقالة الأصلية

المؤلف

الأستاذ المساعد بقسم علم النفس التربوي - کلية التربية جامعة عين شمس

المستخلص

يعتبر سلوک التخمين من الموضوعات المهمة في اختبارات الاختيار من متعدد، نظرا لاحتمال زيادة الخطأ المنتظم أو الخطأ العشوائي الذي يؤدي إلى تضخم درجات الطلاب. وتهدف الدراسة الحالية إلى التعرف على أثر إضافة بديل"لا أعرف" في أسئلة الاختيار من متعدد على خفض مؤشرات التخمين، وعلى تحسين بارامترات المفردات، وکفاءة الاختبار، وعلى تقدير القدرة، وذلک في ضوء نظرية الاستجابة للمفردة. تألفت عينة الدراسة من (97) طالبا من الذکور، تراوحت أعمارهم (من 21 إلى 22 سنة) بمتوسط عمري مقداره (21.26)، وانحراف معياري (0.44)، تم تقسيمهم إلى مجموعتين أحدهما مجموعة ضابطة (38 طالبا)، والأخرى تجريبية (59 طالبا)، وتم التحقق من تکافؤ المجموعتين في القدرة التحصيلية، وطبق على کل منهم اختبار تحصيلي يتألف من (20) سؤالا من نمط الاختيار من متعدد، ذي أربعة بدائل، وقد تمت إضافة بديل خامس، وهو بديل "لا أعرف" لأفراد المجموعة التجريبية يمنح لمن يختاره ( ) درجة، تضاف إلى إجاباته الصحيحة للتحقق من خفض أثر التخمين. أظهرت النتائج أنه لا توجد فروق دالة بين متوسطي المجموعتين الضابطة والتجريبية في درجاتهم على الاختبار التحصيلي، إذ کانت قيمة "ت" (95)= 0.44 ومستوى دلالة (0.66)، بالرغم أن المجموعة الضابطة (م=12.58، ع=3.69) کانت أعلى من المجموعة التجريبية (م=12.22، ع=4.09). کما بينت النتائج أيضا أن إضافة بديل لا "اعرف" قد خفّض من بارامترات التخمين لمفردات الاختبار، فالمجموعة التجريبية (م=0.19، ع=0.03) کانت أعلى بصورة دالة من المجموعة الضابطة (م=0.21، ع=0.02)، إذ کانت قيمة "ت" (95)= 3.08، عند مستوى دلالة 0.001. کما أسفرت النتائج أيضا أن إضافة بديل "لا اعرف" للمجموعة التجريبية واستخدامه في الاختبار قد حسّن من بارامترات التمييز، فالمجموعة التجريبية (م=1.29، ع=0.55) کانت أعلى بصورة دالة من المجموعة الضابطة (م=1.20، ع=0.28)، في متوسط التمييز، إذ کانت قيمة "ت" (95)= 2.21، عند مستوى دلالة 0.03، وفيما يتعلق بکفاءة الاختبار، کانت المجموعة التجريبية (م=3.79، ع=1.16) أعلى بصورة دالة من المجموعة الضابطة (م=3.12، ع=0.08) في متوسط مقدار معلومات الاختبار، إذ کانت قيمة "ت" (95)= 24.32، عند مستوى دلالة 0.001 وکشفت النتائج أيضا أن المجموعة التجريبية (م=0.50، ع=0.13) کانت أقل بصورة دالة من المجموعة الضابطة (م=0.59، ع=0.17)، في متوسط الخطأ المعياري لتقدير القدرة، إذ کانت قيمة "ت" (95)= 3.13، عند مستوى دلالة 0.002 وقد خلصت الدراسة إلى بعض التضمينات التربوية، واقتراح بحوث ذات صلة.

الكلمات الرئيسية


أحمد سليمان عودة (2014). تصحيح معاملات صعوبة الفقرات لأثر التخمين في أسئلة الاختيار من متعدد: صورة معدلة لمعادلة جيلفورد. مجلة الدراسات التربوية والنفسية: جامعة السلطان قابوس، مجلد 8، ع2، 248-257.
حسين عبد الله الزهراني (2021). أثر عدد البدائل لاختبار الاختيار من متعدد على تقدير قدرة الفرد ومعالِم المفردة في ضوء کل من النظرية التقليدية والنموذج ثلاثي المعلمة في نظرية الاستجابة للمفردة، رسالة دکتوراه غير منشورة، قسم علم النفس، کلية التربية، جامعة الملک سعود.
رجاء محمود أبو علام (1987). قياس وتقويم التحصيل الدراسي، الکويت، دار القلم.
شادية عبدالعزيز منتصر، وحسان مخلوف خلاف (2017). الکشف عن التخمين باستخدام نموذج راش وعلاقته بخصائص الفرد والمفردة. دراسات تربوية واجتماعية: جامعة حلوان - کلية التربية، مج23, ع3، 1223 - 1308.
صفوت فرج (1989). القياس النفسي، القاهرة، الأنجلو المصرية.
صلاح الدين محمود علام (1991). أثر المواقف الاختبارية جماعية المرجع، ومحکية المرجع في مستويات التخمين وسلوک المخاطرة والأداء في علم النفس: دراسة تجريبية. علم النفس: الهيئة المصرية العامة للکتاب، س 5، ع 18-19، 98-107.
صلاح الدين محمود علام (2015). القياس والتقويم التربوي والنفسي: أساسياته وتطبيقاته وتوجهاته المعاصرة، القاهرة، دار الفکر العربي.
عبدالله مسند الرشيدي، وآمال أحمد الزعبي (2019). أثر عدد البدائل في اختبار الاختيار من متعدد في الخصائص السيکومترية للاختبار التحصيلي وفقراته وفق النموذجين الثلاثي والرباعي المعلمة في نظرية الاستجابة للفقرة. إربد للبحوث والدراسات الإنسانية: جامعة إربد الأهلية - عمادة البحث العلمي، مج21،ع2، 42-83.
محمد حسين فهيد اليامي (2016). بعض طرق تصحيح التخمين وأثرها على خاصيتي الصدق والثبات لاختبار الاختيار من متعدد. عالم التربية: المؤسسة العربية للاستشارات العلمية وتنمية الموارد البشرية، س17، ع53، 1-31.
ميساء محمود أحمد صمصم (2012). أثر طرق التصحيح لضبط التخمين في الاختبارات الاختيار من متعدد على کل من مؤشر ثبات الفقرة ومؤشر صدقها، رسالة ماجستير غير منشورة، جامعة مؤتة، الأردن.
هشام محمد الخولي (2018). أثر برنامج تدريبي لمهارات الحکمة الاختبارية على الأداء والتخمين والمخاطرة والحذر في مواقف اختبارية معيارية المرجع ومحکية المرجع لدى طلاب الجامعة. مجلة کلية التربية: جامعة بنها - کلية التربية، مج29، ع115 ، 282-346.
وسام عطية الشرفا (2016). أثر طريقة التصحيح لضبط أثر التخمين على مقدار التضخم المحسوب في قيمة معامل ارتباط الفقرة، رسالة ماجستير غير منشورة. جامعة مؤتة، الأردن.

المراجع الأجنبية

Abad, F. J., Olea, J., & Ponsoda, V. (2001). Analysis of the optimum number alternatives from the Item Response Theory. Psicothema13(1), 152-158.
American Psychological Association. (2015). APA dictionary of psychology.(2thed.), Washington, DC: American Psychological Association.
Angoff, W. H. (1989). Does guessing really help? Journal of Educational Measurement, 26, 323-336.
Avila, C., & Torrubia, R. (2004). Personality, expectations, and response strategies in multiple-choice question examinations in university students: A test of Gray‘s hypothesis. European Journal of Personality, 18, 45-59.
Azevedo, J. M., Oliveira, E., & Beites, P. (2019). Using Learning Analytics to Evaluate the Quality of Multiple-Choice Questions: A Perspective with Classical Test Theory and Item Response Theory. International Journal of Information and Learning Technology, 36, 322-341.
Baldwin, P. (2020). A problem with the bookmark procedure's correction for guessing. Educational Measurement: Issues and Practice, 40, 7-15.
Betts, L. R., Elder, T. J., Hartley, J., & Trueman, M. (2009). Does correction for guessing reduce students' performance on multiple-choice examinations? Yes? No? Sometimes? Assessment & Evaluation in Higher Education, 34(1), 1–15.
Bond, T., Yan, Z. & Heene, M. (2020). Applying the Rasch Model: Fundamental Measurement in the Human Sciences (4th Ed.). New York: Routledge.
Budescu, D., & Bar-Hillel, M. (1993). To guess or not to guess: A decision-theoretic view of formula scoring. Journal of Educational Measurement, 30(4), 277–291.
Carroll, J. B. (1945). The effect of difficulty and chance success on correlations between items or between tests. Psychometrika, 10, 1-19.
Chiu, T. (2010). Correction for guessing in the framework of the 3PL item response theory (Order No. 3418414). Available from ProQuest Dissertations & Theses Global. (751246969).
Choppin, B. H. (1990). Correction for guessing. In H. J. Walberg and G. D. Haertel, (Eds.), The international encyclopedia of educational evaluation (pp. 345-348). Oxford: Pergamon Press.
Crocker, L. M., & Algina, J. (2008). Introduction to classical and modern test theory. New York: Cengage Learning.
Daoust, M K., Côté-Bouchard, C. (2021). Epistemic Consequentialism, Veritism, and Scoring Rules. Erkenn https://doi.org/10.1007/s10670-021-00426-5
DeVellis, R. F. (2016). Scale development: Theory and applications. Newbury Park, CA: Sage.
Frey, B. (2018). The SAGE encyclopedia of educational research, measurement, and evaluation. SAGE Publications, Inc.
Gierl, M. J., Bulut, O., Guo, Q., & Zhang, X. (2017). Developing, Analyzing, and Using Distractors for Multiple-Choice Tests in Education: A Comprehensive Review. Review of Educational Research87(6), 1082–1116.
Grant, N. K., & McGrath, A. L. (2021). Effects of PowerPoint slides on attendance and learning: If you share it, they will (still) come. Scholarship of Teaching and Learning in Psychology. Advance online publication. https://doi.org/10.1037/stl0000241
Haladyna, T. M. (2004). Developing and Validating Multiple-choice Test Items (3rd ed.). Routledge.
Hambleton, R. K., Swaminathan, H., & Rogers, J. (1991). Item response theory: Principles and applications (2nd ed.). Boston: Kluwer-Nijhoff.
Hejri, S. M., Mafinezhad, M. K., and Jalili, M. (2014). Guessing in Multiple Choice Questions: Challenges and Strategies. Iranian Journal of Medical Education, 14, 594-604.
IBM Corp. (2019). IBM SPSS Statistics for Windows, Version 26.0. Armonk, NY: IBM Corp. [Computer software]
Ketterlin-Geller, L. R. (2005). Knowing what all students know: Procedures for developing universal design for assessment. The Journal of Technology, Learning and Assessment, 4(2), 1–23.
Kubinger, K. D., Holocher-Ertl, S., Reif, M., Hohensinn, C., & Frebort, M. (2010). On minimizing guessing effects on multiple-choice items: Superiority of a two solutions and three distractors item format to a one solution and five distractors item format. International Journal Of Selection And Assessment18(1), 111-115.
Lesage, E., Valcke, M., & Sabbe, E. (2013). Scoring methods for multiple choice assessment in higher education – Is it still a matter of number right scoring or negative marking? Studies in Educational Evaluation, 39, 188-193.
Lord, F. M. (1975). Formula scoring and number-right scoring. Journal of Educational Measurement, 12(1), 7–11.
Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Erlbaum.
Nitko, A. J., & Brookhart, S. M. (2014). Educational assessment of students. (6thed.), Boston, MA: Pearson/Allyn & Bacon.
Nunnally, J. C. (1978). Psychometric theory (2nd ed.). New York: McGraw-Hill.
Paek I. (2015). An Investigation of the Impact of Guessing on Coefficient α and Reliability. Applied psychological measurement39(4), 264–277.
Parkes, J., & Zimmaro, D. (2016). Learning and Assessing with Multiple-Choice Questions in College Classrooms (1st ed.). Routledge.
Plumlee, L. B. (1952). The effect of difficulty and chance success on item-test correlation and on test reliability. Psychometrika, 17, 69-85.
Traub, R. E., Hambleton, R. K., & Singh, D. (1969). Effects of promised reward and threatened penalty on performance of a multiple-choice vocabulary test. Educational and Psychological Measurement, 29, 847-862.
Weiss, D. & Yoes, M. (1994). Item response theory. In R. K. Hambleton, & J. N. Zaal. (eds.), Advances in educational and psychological testing : theory and applications. (pp. 69-95) Boston: Kluwer academic.
Zimmerman, D. W., & Williams, R. H. (2003). A new look at the influence of guessing on the reliability of multiple-choice tests. Applied Psychological Measurement, 27, 357-371.
Zimowski, M. E, Muraki, E., Mislevy, R. J., & Bock, R. D. (2003). BILOG-MG 3: Item analysis and test scoring with binary logistic models [Computer program]. Chicago: Scientific Software.