-
2013_05_01, 23:00
بالا |
پست 1
سنجش بر اساس کامپیوتر و آزمون های انطباقی
"به نام خدا"
سنجش بر اساس کامپیوتر و آزمون های انطباقی
Computer based assessment & Adapting testing
عاصفه احمدی کمرپشتی
دانشجوی دکتری روان شناسی تربیتی
سنجش بر اساس کامپیوتر
تعریف سنجش بر اساس کامپیوتر:
سنجش بر اساس کامپیوتر[1] (CBA)، به آزمون بر اساس کامپیوتر[2] (CBT)، سنجش الکترونیکی[3]، آزمون گرفتن کامپیوتری، و آزمون اجرا شده به کمک کامپیوتر نیز مشهور است. این روش یک روش اجرای آزمون است که در آن پاسخ ها به صورت الکترونیکی ثبت می شوند و سپس ارزیابی می شوند. همان طور که از نامش پیداست در سنجش بر اساس کامپیوتر ما از یک کامپیوتر و یا یک ارزیاب الکتریکی معادل آن مانند موبایل و یا PDA استفاده می کنیم. سیستم CBA معلمان را قادر می سازد تا در باره امتحانات و برنامه های کلاسی برنامه ریزی، گزارش، و رسیدگی داشته باشند (ویکیپدیا)
مزایا و معایب سنجش بر اساس کامپیوتر در مقایسه با آزمون های مداد-کاغذی:
مزیت سنجش بر اساس کامپیوتر از نظر شیوه توزیع آزمون و جمع آوری اطلاعات:
پرینت گرفتن از دفترچه سوالات و فرستادن تعداد زیادی از انها هزینه های خیلی زیادی را در برنامه های آزمودن بر مراکز آزمون تحمیل می کند. اگر اشتباهی بعد از چاپ دفترچه ها یافت شود(که اغلب ماه ها قبل از ازمودن واقعی چاپ کردن صورت می گیرد) دفترچه ها باید دوباره پرینت گرفته شوند و فرستاده شوند که این خود هزینه قابل توجهی را در بر دارد. اگر آزمون یک فایل کامپیوتری باشد می توان خیلی راحت در هر مرحله ای قبل از اجرا ان را اصلاح کرد و بعد به صورت الکترونیکی و یا از طریق اینترنت به مکان هایی که برای آزمودن مطرح هستند در سراسر دنیا با هزینه اندک فرستاد. فرستادن الکترونیکی آزمونها یک مزیت اساسی دیگری را هم دارد که از جهت امنیت ازمون است. آزمون ها در این حالت به جای اینکه روزها و حتی هفته ها قبل از اجرا در دفاتر باقی بمانند، که موقعیت دزدیدن و توزیع شدن قبل از ازمون نیز وجود دارد، در لحظه آخر از طریق اینترنت ارسال می شوند . بعد از اجرای ازمون، دیگر نیازی به باز فرستادن پاسخ نامه ها به مراکز نمره گذاری وجود ندارد که این خودش خطر احتمال گم شدن آن برگه ها را به دنبال دارد. فرستادن از طریق کامپیوتر امکان نمره گذاری فوری را هم به همراه دارد. با استفاده از این روش ها آزمودنی می تواند بالافاصله بعد از پاسخ دادن به اخرین سوال به یک درک کلی از نمره خودش دست پیدا کند.
اطلاعاتی که به صورت کامپیوتری جمع اوری می شوند می توانند انواع مختلفی داشته باشند: مثلا این اطلاعات می توانند میزان زمان صرف شده برای هر سوال باشند و همینطور می شود اطلاعاتی را درباره فرمت های دیگر پاسخ جمع اوری کرد.
عیب سنجش بر اساس کامپوتر از نظر توزیع ازمون و جمع اوری اطلاعات:
علی رغم بسیاری از مزیت های توزیع کامپیوتری آزمون و جمع اوری اطلاعات از این طریق مشکلات و چالش های بالقوه ای هم وجود دارد، مثلا خاموش شدن ناگهانی کامپیوتر. در این حالت وقفه ای در فرایند آزمون ایجاد میشود و باعث می شود که فرد مجبور به راه اندازی مجدد سیستم شود. در حالیکه این مسئله تاثیری در آزمون های مداد کاغذی ندارد. اگر چه سیستم های recovery وجود دارند که اطلاعات را ذخیره می کنند و باعث می شود که اطلاعات از دست نروند و ازمودنی ها می توانند از همان نقطه قبلی کار خودشان را اغاز کنند سیتم های اینچنینی در ساخت آزمون و ازمون گیری اغلب گران قیمت هستند.مثلا word سیستم ذخیره خودکار دارد اما برای آزمون این سیستم گران تمام می شود. استفاده از لپ تاپ و یا سایر سیستم هایی که باطری دارند با این مشکل قطع شدن برق سیتم مواجه نیستند.
فرستادن کامپیوتری نیازمند توجه به یک سری موضوعات سخت افزاری دارد که در مورد ازمون های مداد-کاغذی مطرح نمی شود. مثلا صفحه نمایش کامپیوتر باید برای تمامی شرکت کننده ها استاندارد باشد. مطالعه جک انتال، لنون، و بریجمن (2003) نشان می دهد که شرکت کنندگانی که ازمون را در مونیتوری بزرگ با resolution بالا دادند، به طور معنا داری نمرات بالاتری را کسب کردند نسبت به ازمودنی هایی که از مونیتور کوچک تر و با resolution پایین تر استفاده می کردند. به نظر می رسد مشکل اصلی این باشد که با یک صفحه مونیتوری که resolution پایینی دارد فرد باید صفحه را با موس بالا و پایین ببرد و حرکت دهد تا بتواند کل عبارت را ببنید. در حالی که صفحات بزرگی که resolution بالایی دارند این امکان را فراهم می کنند که فرد بتواند کل پاراگراف سوال را ببیند و در عین حال هم به سوالات جواب دهد. تفاوت افراد در مهارت های تایپ و شناسایی کی بورد هم می تواند در صورتی اهمیت داشته باشد که آزمون از افراد بخواهد چیزی را تایپ کنند. بریجمن و کوپر آزمون هایی را هم به صورت مداد کاعذی و هم به صورت فرمت کامپیوتری روی افرادی ثابت اجرا کردند و بعد تفاوت بین نمرات را در دو فرمت مقایسه کردند. آنها دریافتند که این تفاوت برای ازمون شوندگانی قابل ملاحظه بود که مهارت تایپ کمی را داشتند. نوع کی بورد هم اهمیت داشت. پاورز و پوتنزا (1996) نمرات ازمون هایی روی لپ تاپ و یا روی کاموپتر را با هم مقایسه کردند. نتیجه این بررسی این بود که در مورد سوالات چند گزینه ای نوع کامپیوتر اهمیتی نداشت اما در مورد آزمون های تشریحی نمرات آزمون شوندگانی که محبور بودند با لپ تاپ کار کنند عموما کمتر بوده است. اما حتما باید به تاریخ این مطالعه هم توجه کرد این مطالعه در 1996 انجام شده که در آن زمان دانش اموزان اندکی از لپ تاپ استفاده می کردند اما امروزه برای اکثر دانش اموزان لپ تاپ ، کامپیوتر استاندارد است. ممکن است اگر این ازمون مجددا تکرار شود کسایی که از کامپیوتر استفاده می کنند نمره کمتری بگیرند. نتیجه ازمون بستگی به این دارد که کدام نوع کامپیوتر برای ازمون شوندگان اشناتر و راحت تر است. اما همین مسئله معما و چالشی را برای ازمودن استاندارد شده فراهم می کند چون برای ما در شرایط استاندارد شده ممکن است امکان پذیر نباشد که بتوانیم دانش اموزان را با کامپیوتری که ترجیح می دهند بیازماییم.
مزیت سنجش بر اساس کامپیوتر از نظر استاندارد کردن بیشتر اجرای تست:
استاندارد کردن آزمون مستلزم این است که شرایط اجرای ان تا حد ممکن برای تمامی شرکت کنندگان یکسان باشد. مثلا اگرزمان، فاکتور مهمی در آزمون تلقی شود شرایط زمانی آزمون هم باید برای تمامی شرکت کنندگان یکسان باشد. اگر اجرای ازمون به این صورت باشد که آزماینده فراموش کند چه زمانی دقیقا باید ازمون را به پایان ببرد ممکن است یک گروه از ازمود شوندگان وقت بیشتری به انها داده شود تا آزمون شونده دیگر. کامپیوترها می توانند به دقت زمان بندی آزمون را مدیریت بکنند و برای همه ازمودنی ها به طور منصفانه زمان یکسانی را فراهم کنند. در سطح فردی هم کامپیوتر ها میتوانند به دقت و درستی زمان واکنش را در آزمون های سرعت و زمان حل مسئله را برای مسائل پیچیده تر ضبط کنند.
عیب سنجش بر اساس کامپیوتر از نظر استاندارد کردن بیشتر اجرای تست:
اگرچه کامپیوترها می توانند به دقت زمان را ثبت کنند، آزمون هایی که محدودیت های زمانی خیلی سفت و سختی دارند می توانندبرای انواع خاصی از ازمون های کامپیوتری شده مشکل ساز باشند. CAT هایی با محدودیت های زمانی سخت در برخی موارد چندان عادلانه نیستند. اگر الگوریتم انتخاب سوال فقط بر اساس سطح دشواری و تمیز ان باشد و نه بر اساس زمان صرف شده برای پاسخ دادن به یک سوال خاص ممکن است که برخی از شرکت کنندگان ازمون هایی را انتخاب کنند که زمانبرتر از ازمون هایی دیگر باشد. مثلا بریجمن و کلاین (2000) نشان دادند که آیتم های ریاضی که سطح دشواری یکسانی هم دارند ممکن است از نظر زمان مورد نیاز برای پاسخ دهی بسیار متفاوت باشند. بعلاوه چون الگوریتم نمره گذاری CAT فرض می کند که پاسخ نادرست نشان دهنده توانایی پایین دانش آموزان است (نه اینکه دانش آموزی با توانایی بالا به دلیل کمبود وقت پاسخ نادرست بدهد یا اینکه پاسخ تصادفی بدهد) مجموعه ای از پاسخ های نادرست که به دلیل حدس دانش اموزان پس از تمام شدن وقت است می تواند به طور معنی داری نمرات ازمون را کاهش بدهد. به طوری که نمرات تا 2 انحراف معیار کمتر از زمانی شوند که پاسخدهی حدسی انجام نمیگیرد. اگرچه مدلهایی برای توصیف اثر محدودیتهای زمانی بر نمرات CAT وجود دارند، روش مناسبی برای ارزیابی این مسئله وجود ندارد که اگر محدودیت زمانی وجود نداشت نمرات چگونه بودند.
مزیت سنجش بر اساس کامپیوتر از نظر نظارت بر انگیزش دانش آموزان:
تحقیقات ملی آموزشی مثل ارزیابی ملی پیشرفت اموزشی در امریکا یا بررسی های بین المللی باید فرض کنند که دانش اموزانی که پاسخگوی تست هستند صادقانه تلاش می کنند باحداکثر توانایی شان به سوالات پاسخ بدهند. اما هیچ نتیجهای برای آزمودهندگانی که عملکرد ضعیف دارند وجود ندارد. اگر بخواهیم نتایج این تحقیقات را باور کنیم باید راه هایی را پیدا کنیم تا بتوانیم پاسخ های ازمودن شوندگان کم انگیزه را غربال کنیم. خوشبختانه فرستادن آزمون از طریق کامپیوتر می تواند ابزارهای مفیدی را برای تشخیص این دانش اموزان فراهم کند. مخصوصا با استفاده از ارزیابی زمانی که صرف پاسخ دهی سوال می شود. می توانیم از طریق کامپیوتر دانش اموزانی را شناسایی کنیم که نرخ پاسخدهی آنها بیش از حد و نامعقولانه سریع استکه این خودش نشان دهنده این است که این دانش اموزان به سوالات توجه کافی نمی کنند. یک رویکرد نسبتا پیچیده تر مقایسهتفاوت های زمانی صرف شده برای پاسخ به سوالاتی است که معمولا دانش اموزان به انها سریع جواب میدهند با سوالاتی که معمولا زمانبر هستند. در این رویکرد دانش اموزانی که زمان یکسانی را صرف هر دو نوع سوال می کنند ممکن است به طور جدی به سوالات ازمون توجه نکرده باشند.بدین گونه پاسخ دانش اموزان ظاهرا بی انگیزه را می توانیم بایگانی کنیم و انها را از تحلیل خارج کنیم. اما رویکرد کارامدتر برای اینکه دانش اموزان را برانگیزانیم استفاده از نظارت " زمان واقعی " است.. در این حالت دانش آموزانی که به انها اطلاع می دهیم کامپیوتر آنها را به عنوان افرادی شناسایی کرده که حداکثر تلاششان را نکرده اند تشویق می شوند که بهتر عمل کنند. دانش آموزانی که شناسایی می شوند و تشویق می شوند که بهتر عمل کنند در واقع عملکردشان را بهبود می بخشند و اثر مثبتی بر روایی ازمون دارند. این نوع نظارت های انگیزشی در مطالعات تجربی درباره انواع جدید ایتم یا سایر مشخصه های تست هم ( که در آنها نتیجه گیری باید صرفاً بر اساس پاسخ های دانش اموزانی باشد که حداکثر تلاش صادقانه شان را انجام می دهند)مفید هستند .
عیب سنجش بر اساس کامپیوتر از نظر نظارت بر انگیزش دانش آموزان:
به نظر می رسد چند مشکل درباره نظارت بر انگیزش دانش اموزان وجود داشته باشد.یک سری نگرانی های وجود دارد دراین باره که آیا اطلاعات مربوط به زمان بندی ازمون بدون اطلاع دانش آموزان جمع اوری شده است یا نه. اگر به دانش اموزان گفته شود زمانی که صرف سوالات می کنند نظرات می شود سطح اضطرابشان افزایش می یابد. اگرچه افزایش سطح اضطراب برای دانش اموزان بی انگیزه ممکن است در واقع منجر به نمرات معتبرتری شود برای دانش آموزانی که به سختی تلاش می کنند و انکیزه کافی را دارند منجر به عملکرد پایین تری می شود.
مزیت سنجش بر اساس کامپیوتر از نظر بدست اوردن پاسخ هایی که به صورت ماشینی قابل نمره گذاری هستند (کتبی و شفاهی):
اگر پاسخ های کتبی وارد کامپیوتر شود می تواند به صورت الکترونیکی نمره گذاری شود و این خودش منجر به صرفه جویی قابل ملاحظهای در هزینه آزمون می شود. می توان از ابزارهای پردازش زبان طبیعی کامپیوتری شده استفاده کرد و مشخصه های نوشتاری را مثل سازمان بندی ، گرامر، پختگی ، و فنی بودن مطلب را ارزیابی کرد. نمره گذاری الکترونیکی پاسخ های شفاهی بسیار نزدیک به نتایج نمره گذاری دستی هستند و میزان توافق نمره الکترونیکی با نمره دستی معمولا به اندازه توافق بین نمرات دستی دو نمره گذار و حتی گاهی بیشتر از آن است. به همین ترتیب پاسخ های شفاهی را هم می توانیم با کامپیوتر ضبط کنیم و به طور خودکار نمره گذاری کنیم. نمره گذاری خودکار عبارتی که تا حد زیادی قابل پیش بینی هست، مثل جمله ای که در پاسخ به یک سوال ساده داده می شود، همبستگی بسیار بالایی با رتبه بندی افراد از کیفیت ان پاسخ شفاهی دارد. برای پاسخ های طولانی تر و بازتر نمره گذاری شفاهی خودکار به اندازه کافی مناسب نیست که بشود ان را در ازمون های خطیر استفاده کرد. اما تکنولوژی به سرعت رو به پیشرفت است و به نظر می رسد که این روش برای ازمون هایی که کمتر خطیر هستند مناسب و کافی باشد.
عیب سنجش بر اساس کامپیوتر از نظر بدست اوردن پاسخ هایی که به صورت ماشینی قابل نمره گذاری هستند (کتبی و تشریحی):
اگر چه نمره گذاری ماشینی عموما به طور متوسط خوب عمل می کند ماشین نمی تواند کیفیت عبارت را ارزشیابی کند. ممکن است یک پاسخ تشریحی گرامری از نمره گذاری کامپیوتری نمره بالایی بدست اورد اما عبارت نوشته شده سفسطه امیز و نادرست باشد. ازمودن دهندگانی که به طور کلی می دانند که نمره گذاری ماشینی چطور عمل می کند ممکن است قادر باشند عبارتی را بنویسند که ماشین را گول بزند و نمره بالاتر از حقشان را بدست اورند. اگرچه گول زدن سیستم هم ممکن است به این سادگی ها هم که به نظر می رسد نباشد. چون امکان پذیر است که بتوان با پاسخ های خوب نوشته شده ماشین را گول زد، بنابراین بیشتر آزمون های خطیر که از ماشین استفاده می کنند حداقل یک نمره گذار انسانی هم دارند. یک مشکل دیگر این است که ممکن است خود افراد نمره ای که ماشین به انها داده را نپذیرند حتی اگر تحقیقات بگویند که اعتبار این نمرات بالاست. یک رویکرد برای حل این مشکل این است که عملکرد ماشین محدود شود به ابزاری برای کنترل کیفیت که پاسخ هایی را مشخص می کند که نمره گذاری دستی و ماشینی آنها با هم فرق می کند. سپس این پاسخ های مشخص شده به نمره گذار داده می شود تا به صورت دستی آنها را نمره گذاری کند. این عمل پایایی نمره گذاری را بالا می برد اما نمره ماشینی به هیچ عنوان بخشی از نمره داده شده به ان سوال تشریحی نخواهد بود.
مزیت سنجش بر اساس کامپوتر از نظر فراهم کردن ابزارهای اضافی مثل ماشین حساب و دیکشنری برای دانش آموزان
اگر آزمون برای ارزیابی مهارت های استدلال ریاضی طراحی شده باشد مطلوب ان است که با فراهم کردن ماشین حساب خطاهای محاسباتی ساده به حداقل برسد. به علاوه دانش آموزان برای فعالیت های کلاسی و یا تکلیف خانه خودشان هم متداولاً از ماشین حساب استفاده میکنند بنابریان، خیلی معقولانه است که ماشین حساب در ازمون هم برای انها فراهم شود. در آزمون هایی که به صورت کامپیوتری اجرا می شوند ماشین حساب می تواند به صورت یک ابزار یکسان برای تمام آزمون شوندگان روی صفحه مونیتور ظاهر شود. این ماشین حساب می تواند با توجه به نیاز هر ازمون خاص تطبیق پیدا کند. به این ترتیب که برای یک ازمون از یک ماشین حساب کاملا مهندسی استفاده شود و در یک ازمون دیگر از یک ماشین حسابی که 4 عمل اصلی را فقط دارد استفاده شود. به علاوه ماشین حساب می تواند برای جواب دادن فقط به سوالات خاصی روشن شود و برای سوالات دیگر (یعنی سوالاتی که استفاده از ماشین حساب در ارزیابی مهارتهای محاسباتی و یا تخمین مهارت افراد تداخل می کند) خاموش شود.
اگر چه در ازمون های مداد کاغذی هم می توانیم از ماشین حساب های دستی استفاده کنیم استفاده از ماشین حساب در مورد سوالات خاص فقط محدود می شود به آزمون هایی که به صورت کاموپیتری استفاده می شوند.سایر ابزارهایی مثل دیکشنری ها می توانند در صورت نیاز فراهم شوند. دیکشنری ها ممکن است به طور خاص برای آزمودنی های غیر انگلسی زبان و یا ازمودنی هایی استفاده شود که مشکلاتی را با صورت سوال دارند چون فقط یک کلمه از آن را نمی فهمند. همانند ماشین حساب می توان دیکشنری را برای پاسخ دادن به سوالات خاصی روشن کنیم و برای سوال خاصی هم (مثلا سوالی که هدفش ارزیابی مهارت کلامی و درک یک کلمه خاص است) خاموش کنیم.
عیب سنجش بر اساس کامپوتر از نظر فراهم کردن ابزارهای اضافی مثل ماشین حساب و دیکشنری برای دانش آموزان
اگرچه فراهم کردن یک ماشین حساب یکسان روی صفحه کامپیوتر برای تمام شرکت کنندگان مزایی را به همراه دارد اما باز هم یک مسئله برابری و یا انصاف را مطرح می شود. ممکن است برخی از شرکت کنندگان ماشین حسابیکسان مورد استفاده در آزمون از ماشین حسابی که انها معمولا مورد استفاده قرار می دهند متفاوت باشد. مثلا برخی از ماشین حساب ها به نظم عملیات جبری اهمیت می دهند و بقیه نمی دهند به این ترتیب که در برخی از ماشین حساب ها 5+ 2x 3 برابر با 11 می شود در صورتی که در برخی از ماشین حساب ها 21 می شود. بنابراین، باید یک تمرین پیش اموزنی برای کار با ماشین حساب در نظر گرفته شود.
مزیت سنجش بر اساس کامپوتر از نظر انواع سوال تعاملی تر:
اگرچه بسیاری از CBT های نسل اول به سادگی سوالات چند گزینه ای استاندارد شده را از طریق کامپیوتر استفاده می کردند نسل بعدی ممکن است استفاده گسترده تری از ظرفیت های کامپیوتری داشته باشند و سوالاتی را اجرا کنند که فراتر از چند گزینه ای عمل می کند. مثلا میشود از ازمودنی ها خواست تا ازمایشات آنلاینی را انجام دهند ، نمودارهای داده ای را رسم کنند، و سپس به سوالات مربوط به ازمایشی که همان لحظه انجام دادند پاسخ دهند. سوالات ازمایشی که از این رویکرد استفاده کردند به صورت موفقیت امیزی در ارزیابی ملی امریکا از پیشرفت آموزشی مورد بررسی اولیه قرا گرفتند. از 1997 یک ازمون پیچیده کامپیوتری که مسائل گرافیکی را در بر داشت و به صورت کاموپتری هم نمره گذاری می شد مورد استفاده قرار گفت. در ازمون لیسانس معماران برای انجمن ملی معماری ازمون شوندگان افراد مسائل طراحی را روی صفحه مونیتور حل می کنند. مثلا بخشی از ساختمان را که مربوط می شود به پله های اضطراری را طراحی می کنند یا بخش مربوط به ورود افراد معلول را ترسیم می کنند. و ماشین هم به صورت خودکار کارآمدی پاسخ های آنها را ارزشیبای می کند.
عیب سنجش بر اساس کامپوتر از نظر سوال های تعاملی تر:
طراحی سوالات تعاملی تر گاهی اوقات ساده تر از طراحی استراتژی نمره گذاری مناسب برای این سوالات است. نمره گذاری مناسب برای یک مسئله طراحی که پاسخ باز هم هست بسیار دشوارتر از ساختن یک کلید پاسخ سوالات چند گزینه ای است. به علاوه سوالاتیکه به نظر منحصر به فرد یا خلاقانه تر می رسد ممکن استهمان سازه ای را مورد نظر داشته باشد که یک سوال مشابه 4 گزینه ای می تواند این کار را بکند.اگرچه روایی صوری در ارزیابی این چنینی ظاهرا افزایش پیدا می کند براورد هزینه های اضافی که این روش تحمیل می کند بسیار دشوار است.
سنجش انطباقی:
سنجش انطباقی[4] نوعی از آزمون براساس کامپیتر است که با سطح توانایی ازمودنی انطباق پیدا می کند، به همین دلیل به ان انطباقی می گویند.
کاراترین روش اندازه گیری یک ویژگی یا نمره واقعی، منطبق کردن سطح دشواری سوال باسطح ویژگی یا نمره واقعی آزمودنی است؛ به این معنی که سوال های دشوار برای آزمودنی هایی که دارای نمره واقعی بالا یا سطح بالایی از ویژگی هستند، و سوال های اسان برای آزمودنی هایی که دارای نمره واقعی پایین یا سطح پایینی از ویژگی هستند اجرا می شود. چنانچه سوال های ازمونی برای یک ازمودنی خیلی دشوار یا خیلی اسان باشد، آنچه از این ازمون به دست می اید اطلاعاتی درباره ازمودنی هایی است که در دامنه های بالا و پایین سطح ویژگی قرار دارند. هنگامی که یک ازمودنی به سوالاتی با دشواری متوسط پاسخ غلط می دهد، سوال های بسیار دشوار کارایی نخواهد داشت.
هنگامی که امکان حدس زدن وجود نداشته باشد، کاراترین سوال ، سوالی است که احتمال پاسخ صحیح دادن ازمودنی به آن مساوی %50 باشد. زمانی که گروهی از ازمودنی ها با تنوع وسیعی از ویژگی ها با همان ازمون اندازه گیری می شوند، امکان ندارد که به طور همزمان، آن ازمون حداکثر کارایی را برای کلیه ازمودنی ها داشته باشد. در این موراد بهتر است سوال هایی به ازمودنی ها داده شود که اطلاعات عمده تری را درباره میزان و سطح ویژگی او به دست دهد. برای رسیدن به این هدف باید سوال های متفاوتی برای آزمودنی های مختلف مطرح شود؛ یعنی اندازه گیری انفرادی شود (سنجش انطباقی).
در حال حاضر سنشج انطباقی برای ازمودن های هوش انفرادی مثل ازمون های استانفورد-بینه و وکسلر اجرا می شود. مجری ازمون با توجه به قضاوت شخصی خویش، سطح دشواری را برای شروع اندازه گیری انتخاب می کنند. در صورتی که سوال های اولیه برای ازمودنی دشوار باشد، سوالهای ساده تر جای گیزین آن می شود و سپس به ازمودنی سوالات مشکل و مشکلتر ارائه می شود. این عمل تا مرحله ای که ازمودنی درصد معینی از سوال ها را غلط پاسخ دهد ادامه می یابد؛ مرحلهای که در ان اندازه گیری آن دسته از سوال ها خاتمه می پذیرد. در نمره گذاری آزمون فرض بر این است که ازمودنی به سوال هایی که ساده تر از سوال هایی است که به انها پاسخ درست داده است پاسخ درست می دهد و به سوال هایی که دشواتر از سوال هایی است که او غلط پاسخ داده است پاسخ نادرست می دهد.
چگونگی کارکرد سنجش انطباقی:
سنجش انطباقی براساس پاسخ ازمودنی به سوالات پیشین، به صورت پیشرونده ای، سوالاتی را انتخاب می کند که دقت ازمون را افزایش دهد.از نظر آزمودنی به نظر می رسد که دشواری سوال با سطح توانایی ان فرد انطباق پیدا می کند. به عنوان مثال اگر آزمودنی در پاسخ به سوالی با دشواری متوسط خوب عمل کند به او سوالی ارائه می شود که دشواری بیشتری دارد. و یا اگر در پاسخ به سوال با دشواری متوسط عمل کند سوال ساده تری ارائه می شود. در آزمون های انطباقی کامپیوتری، در مقایسه با آزمون های چند گزینه ای ثابت که مجموعه ثابتی از سوالات به ازمودنی ارائه می شود، به تعداد سوالات کمتری نیاز دارد تا بتواند به همان نتایج دقیق دست پیدا کند. البته هیچ محدودیتی وجود ندارد که در روش شناسی CAT الزاماً از سوالات چند گزینهای استفاده شود اما از آنحایی که اکثر سوالات چندگزینهای هستند، در بیشتر آزمونهای CAT نیز از این فرمت استفاده میشود.
سنجش انطباقی کامپیوتری اساسی الگوریتم تکرار شونده ای با گام های زیر است:
بانکی از سوالات در دسترس برای سوال بهینه بر اساس تخمین فعلی از توانایی ازمودنی جستجو می شود.
آیتم انتخاب شده به ازمودنی ارائه می شود که به انها یا پاسخ درست می دهدو یا پاسخ نادرست.
براساس پاسخ به تمامی سوالات قبل توانایی براورده شده به روز می شود .(یعنی با توجه به سوالات پاسخ داده یا سوالاتی با درجه دشواری بیشتر و یا سوالاتی با درجه دشواری کمتر ارائه می شود).این سه گام تا زمانی تکرار می شود که ملاک نهایی براورده شوند. تا زمانی که اولین سوال اجرا نشود روی آزمودنی هیچ گونه اطلاعاتی در دسترس نیست. بنابراین، این الگوریتم با انتخاب سوالی که سطح دشواری متوسط دارد و یا متوسط-ساده دارد به عنوان اولین سوال اغاز می شود.
در نتیجه اجرای آزمون انطباقی ازمودنی های مختلف با ازمون های کاملا مختلفی مواجه می شوند. تکنولوژی روان سنجی که ما را قادر می کند نمرات مناسبی را از طریق این مجوعه های مختلف سوالات به دست اوریم نظریه سوال-پاسخ و یا IRT نام دارد. IRT روش شناسی برتر برای انتخاب سوالات بهینه ای است که بر اساس اطلاعات (آگاهی) انتخاب می شوند تا خود دشواری. در حال حاضر چندین آزمون در امریکا وجود دارد که به صورت انطباقی و کامپیوتری اجرا می شوند که لیست آنها در سایت www.CAT.central وجود دارد.
انواع سنجش انطباقی:
نظریه رایت و داگلاس: رایت و داگلاس (1975) سنجش انطباقی را که در آن سوال ها بر اساس سطح دشواری الگوی منطقی راش مقیاس بندی شده بودند پیشنهاد کردند. انها در این روش به ازمودنی اجازه میدهند سوالاتی را که می خواهند پاسخ دهد، خود انتخاب کنند. به آزمودنی آزمونی ارائه میشود که در آن سوالات بر اساس افزایش درجات دشواری مرتب شده اند و به او گفته می شود که کار خود را با پاسخ دادن به سوال هایی دشوارتر و اسانتر ادامه دهد. نمره ازمودنی برابر است با تعداد سوال هایی که او درست پاسخ داده است، به اضافه تعداد سوال هایی که از نظر او ساده بوده و ارزش پاسخ دادن را نداشته اند.
سنجش دو مرحله ای: نوع دیگر سنجش انطباقی، سنجش دو مرحله ای است. نمره ازمودنی در یک آزمون (معمولا یک ازمون کوتاه جایگزین ب یک ازمون کوتاه معمولی) تعیین می کند که کدام سطح از آزمون دو مرحله ای باید پذیرفته شود. در برخی از موراد، در آزمون جای گزین، نمره ازمودنی فقط برای ارزشیابی دومین مرحله ازمون به کار برده می شود؛ نه به عنوان بخشی از براورد نمره واقعی یا مقدار ویژگی آزمودنی. روش لرد (1969)بدین گونه است که اجرای ازمون عادی، با برآورد حاصل از اجرای دومین مرحله ترکیب می شود. لرد با استفاده از مطالعه شبیه سازی، اطلاعات توابع ترکیب های مختلف طرح های ازمون عادیو دومین مرحله را مورد بررسی قرار داده است. روش سنجش دو مرحله ای در برآورد ویژگی های افراطی بر سنجش تک مرحله ای مرسوم برتری دارد، اما برای براورد ویژگی هایی که در حد متوسط قرار دارند، مفید نیستند.
بر اساس کامپیوتر: یک روش پیچیده تر سنشج انطباقی استفاده از کامپیوتر در انتخاب سوال ، ضمن پاسخگویی آزمودنی به هر سوال است (سنجش به کمک کامپیوتر). زمانی که ازمودنی به سوال پاسخ درست می دهد، بر اساس فرمول خاصی سوال مشکل تری به او ارائه می شود. چنانچه به سوال پاسخ غلط داده شود سوال اسانتری پیشنهاد می گردد. انتخاب سطح دشواری سوال های متوالی بر اساس عملکرد ازمودنی در هر مرحله صورت می گیرد. دشواری سوال i+1، به نحوی انتخاب می شود که اندازه مرحله نامیده می شود. اندازه مرحله تفاوت بین دو درجه دشواری سوال است. در برخی از روش ها، کاهش طول مرحله از اندازه های مرحله بزرگ شروع می شود و به تدریج اندازه مرحله کاهش می یابد و این روند ادامه می یابد تا موقعی که سطح دشواری ازمون همتا می شود. مثلا در ابتدا سوالی با درجه دشواری 1 به ازمودنی ارائه می شود وسپس در صورت پاسخ صحیح دادن سوالی با درجه دشواری 1.5 ارائه می شود (یعنی اندازه مرحله 0.5) می باشد، سپس سوال بعدی با درجه دشواری 1.9 ارائه می شود(اندازه مرحله 0.4) دشواری سوال بعدی 2.2 (اندازه مرحله 0.3) و الی ... در اینجا به تدریج اندازه مرحله کمتر شده است اما دقت اندازه گیری بیشتر شده است. در آزمونهای دیگر، اندازه مرحله ممکن است در کلیه مراحل ثابت نگه داشته شود. مثلا ابتدا سوالی با درجه دشواری 1 به ازمودنی ارائه می شود وسپس در صورت پاسخ صحیح دادن سوالی با درجه دشواری 1.5 ارائه می شود (یعنی اندازه مرحله 0.5) می باشد، سپس سوال بعدی با درجه دشواری 2 ارائه می شود(اندازه مرحله 0.5) دشواری سوال بعدی 2.5 (اندازه مرحله 0.5) و الی ... در اینجا به همه سوالات با یک اندازه مرحله 0.5 ارائه می شوند. و روش کاهش طول مرحله، براورد خوبی ازویژگی مورد اندازه گیری به دست می دهد؛ با وجود این، برای انتخاب سوال های مورد نظر وجود خزانه وسیعی از سوال ها الزامی است. مثلا اگر یک ازمودنی به N سوال پاسخ دهد، سوال لازم است. برای N=5 در خزانه سوال ها، باید حداقل 32 سوال، و برای N=10 حدود 1024 سوال لازم است. دستیابی به چنین خزانه گسترده ای به ندرت امکان پذیر است. در صورتی که روش ثابت نگه داشتن اندازه مرحله به کار برده شده دقت برآورد ویژکی برای N های همانند، از روش کاهش طول مرحله کمتر است.
مولفه های CAT:
5 مولفه فنی در ساخت CAT وجود دارد. این فهرست شامل موضوعات عملی نمی شود مثل پیش اجرای ازمون.
بانک سوالات مدرج شده
نقطه اغاز یا سطح مدخل
الگوریتم انتخاب سوال
رویه نمره گذاری
ملاک نهایی بانک سوالات مدرج شده:
باید برای CAT بانکی از سوالات مدرج شده وجود داشته باشد که بتوان از ان سوال انتخاب کند. این بانک باید با یک مدل روان سنجی مدرج شده باشد که همین مدل اساس و پایه 4 مولفه دیگر هم هست. معمولا IRT به عنوان مدل روان سنجی مورد استفاده قرار می گیرد. یک دلیلی که از IRT استفاده می شود و این روش محبوبیت دارد این است که IRT افراد و سوالات را روی یک مقیاس متریک یکسانی قرار می دهد (که با حرف یونانی تتا نشان داده می شود) و این عمل برای انتخاب سوال خیلی مفید است.در نظریه سوال پاسخ، سطوح صفت در مقایسه با سوال ها دارای معنا هستند. اشخاص و سوال ها روی یک مقیاس مشترک قرار می گیرند.
نقطه آغاز
در CAT سوالات بر اساس عملکرد ازمودنی در یک نقطه مشخصی یک سوال از ازمون انتخاب می شود. اگرچه واضح است که CAT نمی تواند زمانی که هیچ ایتمی اجرا نشده هیچ تخمین خاصی از توانایی ازمودنی ارائه دهد، بنابراین برآورد اولیه از توانایی ازمودنی ضروری به نظر می رسد.اگر اطلاعات قبلی در باره ازمودنی در دسترس باشد می توان از انها استفاده کرد. اما اغلب در CAT فرض بر این است که توانایی ازمودنی متوسط است. و از این رو اولین آیتم ارائه شده دشواری متوسط دارد.
الگوریتم انتخاب سوال
همان طور که پیشتر ارائه شده بود نظریه سوال-پاسخ، افراد و سوالات را روی یک مقیاس متریک مشابه قرار می دهد از این رو اگر CAT برآوردی از توانایی ازمودنی داشته باشد می تواند آیتمی را انتخاب کند که با ان برآورد بیشترین تناسب را داشته باشد. این کار از لحاظ فنی از طریق انتخاب سوالی صورت می گیرد که در آن نقطه خاص بالاترین آگاهی را دارد. آگاهی تابعی است از پارامتر تمیز سوال و همین طور واریانس conditional و پارامتر حدس. (اگر پارامتر حدس را بگنجانیم). یعنی هر چقدر سوالی قدرت ضریب تشخیص اش بالاتر باشد، و دشواری اش با توانایی ازمودنی متناسب تر باشد، دقت برآوردن ان بیشتر خواهد بود. یعنی خطای اندازه گیری کمتر خواهد بود. بنابریان اطلاعات و آگاهی بیشتری به ما می دهد.
رویه نمره گذاری
بعد از اینکه ایتم اجرا شد CAT برآورد خودش از سطح توانایی ازمودنی را به روز می کند. اگر آزمودنی به سوال به درستی جواب دهد CAT سطح توانایی برآورد شده خودش را اندکی بالاتر می برد و برعکس. می توان با استفاده از تابع سوال-پاسخ تابع درست نمایی توانایی ازمودنی را بدست اورد. دو روش برای این عمل وجود دارد که به آن برآورد حداکثر درست نمایی و براورد بیزین گفته می شود. براورد بیزین یک توزیع اولیه را برای توانایی ازمودنی فرض می کند و 2 برآورد کننده متدوال را مورد استفاده قرار می دهد: انتظار پسین و حداکثر پسین. (MAP و EAP).
ملاک نهایی
الگوریتم CAT طراحی شده است تا سوالات را به طور مکرر اجرا کند و برآورد توانایی آزمودنی را به روز کند. این عمل تا زمانی ادامه مییابد که بانک سوالات تمام شود مگر اینکه ملاک نهاییای در CAT جای داده شود. معیار پایانی دیگری برای آزمونهایی با اهداف خاصی وجود دارد مثلاً آزمونهایی که فقط برای تعیین این مسئله طراحی شدهاند که آیا افراد در آزمون قبول میشوند یا رد میشوند. در این آزمونها هدف این نیست که برآورد دقیقی از توانایی افراد به عمل آید.
مزایای سنجش انطباقی
CAT از اجرای سوالات نامربوط اجتناب می کند: آیتم هایی که برای آزمودنی خیلی آسان و یا خیلی سخت هستند رفتارهای که نمی خواهیم مثل حدس زدن، بی توجهی، و الگوهای پاسخ دادن را تحریک می کنند. این سوالات تا حد خیلی زیادی حذف می شوند.
آزمون های CAT می توانند تجارب بهتری را برای دانش آموزان بوجود آورند. آزمون های انطباقی می توانند منجربه پدیده غرقه شدن در فرد شوند.
غرقه شدن |
اضطراب |
ملال |
بی علاقگی |
زمانی که سوالات به گونه ای ارائه شوند که با سطح توانایی آزمودنی منطبق نباشد و سطح چالش سوال (درجه دشواری) بالا باشد دانش اموز مضطرب خواهد شد و اگر پایین باشد دچار ملالو یا بی علاقگی خواهد شد. تنها در صورتی فرد تجربه غرقه شدن را تجربه خواهد کرد که دشواری سوال با سطح توانایی اش منطبق باشد که ازمون های انطباقی این ویژگی را دارند.
آزمون های انطباقی می توانند نمرات دقیق و یک دستی را برای آزمودنی ها به دست بدهند. در مقابل، سوالات ثابت استاندارد همواره بهترین دقت را برای آزمودنی هایی دارند که توانایی متوسط دارند و به طور فزاینده ای برای ازمودنی هایی که در کرانه های سطح توانایی قرار دارند دقت ضعیف تری را دارد.
یک ازمون انطباقی در مقایسه با نسخه ثابت ان می تواند تا 50% کوتاهتر شود، نصف شود، و همچنان سطح بالاتری از دقت را داشته باشد. به این معنا که در وقت صرفهجویی میشود. آزمودنیها دیگر وقتشان را صرف تلاش برای پاسخدهی به سوالات بیش از حد دشوار یا پیش پاافتاده نمیکنند. به علاوه سازمان آزمون نیز از این صرفهجویی زمانی بهره میبرد. زمان اجرای آزمون اساساً کاهش مییابد. اگرچه چون پیشرفت CAT هزینة بیشتری را نسبت به آزمون معمولی دارد، برای اینکه برنامة سنجش CAT از لحاظ مالی به صرفه باشد، باید روی جمعیت بزرگی اجرا شود.
آزمونهای انطباقی با سرعت بیشتری ساخته، اجرا، و نمره گذاری می شوند.
معایب سنجش انطباقی
اولین مسئله ای که در CAT با ان روبرو می شویم مدرج کردن بانک سوالات است. به منظور مدل سازی مشخصه های سوال (مثلا برای انتخاب سوال بهینه) تمامی سوالات ازمون باید ابتدا روی یک نمونه بزرگ اجرا و بعد تحلیل شوند. برای دستیابی به این مسئله سوالات جدید باید با سوالات آزمون قاطی شوند که به ان "pilot testing" یا " آزمون اولیه" و یا " پیش ازمون" می گویند، که در آن پاسخ ها ضبط می شوند اما در نمرات آزمون شونده دخیل نیستند.
مرور سوالات قبلی در سنجش انطباقی مجاز نیست. همان طور که می دانیم زمانی که یک فرد پاسخ نادرست می دهد در ازمون انطباقی به او سوال ساده تری داده می شود.مثلا ممکن است یک ازمودنی ناقلا بتواند از این سرنخ ها استفاده کند تا پاسخ های نادرستش را شناسایی کند و آنها را تصحیح کند. و یا ممکن است ازمودنی ها این طور تقویت شوند که پاسخ های نادرست دهند تا ازمون برای آنها ساده و سادهتر شود. و بعد از اینکه ازمون را گول زدند، به این صورت که از سوالات ساده ای تشکیل شود، برگردند و دوباره جواب آن سوالات را تصحیح کنند. و نمره بالایی را بدست اورند و اگر هم به انها اجازه مرور سوالات قدیمی داده نشود شکایت اصلی ازمودنی ها این است که نمی توانند مرور کنند.
Russell, M. (2006). Computer-Based Assessment in E-Learning:A Framework for Constructing" Intermediate Constraint” Questions and Tasks for Technology Platforms. The Journal of Technology, Learning, and Assessment, 4, 6.
Bridgeman, B. (2009). Experiences from Large-Scale Computer-Based Testing in the USA. JRC scientific and technical reports.
Linacre, M, J. (2000). Computer-Adaptive Testing: A Methodology Whose Time Has Come. MESA Memorandum ,69.
مزایای CBT:
[1] Computer based assessment
[2] Computer based testing
[3] E- assessment
[4] Adapting testing
اختصاصی همیاری
-