ویژگی های یک آزمون خوب چیست؟
آزمون وسیله ای است عینی و استاندارد شده که برای اندازگیری نمونه ای از رفتار یا خصایص آدمی به کار میرود.در این تعریف مراد از عینی بودن این است که روش اجراء، نمره دادن وتعبیر وتفسیر نتایج آزمون براساس قواعدی معین و مشخص صورت میگیرد و قضاوت و نظر شخصی در آن بیتأثیر است.برای هر آزمون دستورالعمل خاصی در مورد نحوه اجرا، طول مدت آزمایش ، دستورهای شفاهی ونحوه ارائه مثالها و روش تفسیرنمرهها تهیه میشود.اصطلاح استاندارد شده بدین معناست که آزمون قبلاًدر مورد گروه نمونه ای از افراد مورد نظر، در بوته آزمایش گذاشته شده است و نتایج پژوهشهای مربوط به آن از راه روشهای آماری مورد تجزیه و تحلیل قرار گرفته و روایی و اعتبار آن تعیین شده است.یک آزمون خوب دارای جدول نرم یا هنجارهایی است که نمرههای خام آزمون بر مبنای آن مورد تعبیر و تفسیر قرار میگیرند. مقصود از نمونهایی از رفتار یا خصایص،آن است که در هر آزمون نمونههای کوچکی از رفتار یا خصایص فرد که به دقّت انتخاب شده است، مورد مشاهده و اندازهگیری قرار میگیرد.همچنان که یک متخصص شیمی، برای تعیین مواد محلول در آب قطرهای از آن را مورد آزمایش قرار میدهد، یک روانشناس نیز مثلاًبرای اندازه گیری استعداد ریاضی یک فرد می تواند نمونههایی از توانایی وی را در حل مسایل،محاسبات کمی ریاضی مورد مطالعه قرار دهد.معرّف بودن[1] محتوای آزمون و قدرت تشخیص و پیشبینی آن بسته به این است که ماهیت و تعداد پرسشهای آزمون با چه دقتی از میان پرسشهای ممکن انتخاب شده و تا چه اندازه نمونههای واقعی رفتار مورد نظررا مورد سنجش قرار میدهد. به عنوان مثال،هرگاه در یک تحقیق معلوم شود که بین نمرههایی که گروهی از آزمودنیها با پاسخ دادن به پرسشهای یک آزمون فنی به دست میآورند و میزان موفقیّت آنها در مسایل فنی همبستگی معنیدار وجود دارد، در این صورت گفته میشود که آزمون مذکور دارای قدرت تشخیص و پیشبینی است.به همین دلیل است که گفته میشود مواد آزمونها باید با رفتارهای مورد پیشبینی، مشابهت داشته باشند.علاوه بر موارد بالا، باید به این نکته مهّم اشاره کنیم که نتایج آزمون تنها در مورد گروهی از افراد یا جامعه معتبر است که این آزمون قبلاًدر مورد افراد نمونهای استاندارد شده باشد که از نظر خصایص و متغیّرهای مؤثّر در نتایج آزمون کم و بیش مشابه گروه یا جامعه مورد نظر باشد. یکی از متغیّرهای بسیار مؤثّر در نتایج آزمونهای اجرا شده عامل فرهنگی است.نتایج آزمونی که براساس عوامل فرهنگی حاکم بر جوامع غرب استاندارد شده است، نمی تواند در مورد کودکان و نوجوانان و جوانان ایرانی از اعتبار و روایی کافی برخوردار باشد،مگر این که پرسشهای آن با شرایط فرهنگی ایران تطبیق داده شود و بررسیها و تحلیلهای آماری لازم در مورد نتایج حاصل از اجرای آزمون در باره گروههای نمونهای از کودکان و نوجوانان ایرانی انجام گیرد. بنابراین یک آزمون روانی باید مثل هر وسیله اندازهگیری دیگر، ویژگیهایی داشته باشد.ویژگیهای یک آزمون خوب را می توان به دو گروه بزرگ تقسیم کرد: ویژگیهای اصلی و ویژگیهای فرعی.
ویژگیهای اصلی یک آزمون خوب
اعتبار یا پایایی: منظور از این اعتبار این است که اگر یک آزمون دوبار در مورد یک آزمودنی به کار برود نتایج تقریباً یکسانی به دست آید. بنابراین میتوان گفت که اعتبار یک آزمون عبارت است از ثبات و پایایی نتایج آن در اجرای متعدد است.اگرآزمون در هر بار اجرا نتایج متفاوتی بدهد،آن آزمون پایا نخواهد بود و در واقع چیزی را به درستی اندازه نخواهد گرفت و در این حالت آزمون اطلاعات مفیدی را به ما نخواهد داد. بنابراین در این جا انسجام داخلی آزمون مورد نظر است.نتایج یک آزمون میتواند تحتتأثیر تغییرات محیط و تمایل لحظهای آزمودنی قرار بگیرد.اعتبار آزمون را به شیوههای زیر اندازه میگیرند:
اجرای مجدد یک آزمون: آزمونی را در مورد یک گروه اجرا میکنند و بعد از گذشت یک زمان مشخص مثلاً یک هفته، همان آزمون را با همان شرایط در مورد همان گروه تکرار میکنند.نتایج دو نوبت را با یکدیگر مقایسه میکنند.اگر بین نتایج دو نوبت همبستگی مثبت قابل قبولی دیده شود،آزمون از اعتبار برخوردار است.
اجرای دو فرم موازی: این روش ایجاب میکند که ما از یک آزمون دو فرم موازی داشته باشیم.دو آزمون را وقتی موازی گویند که از نظر درجهی دشواری، قدرت تشخیص و محتوای درونی مثل هم باشند و تنها از نظر شکل ظاهر تفاوت داشته باشند. اگر از یک آزمون دو فرم موازی در دست باشد میتوان هردو فرم را پشت سرهم(بدون فاصله زمانی) یا با فاصله زمانی چند روز اجرا کرد و ضریب همبستگی بین دو سری نمره را به دست آورد.ضریب همبستگی به دست آمده اعتبار آزمون خواهد بود.
روش دو نیمه کردن: در این روش آزمون را در یک زمان واحد و در مورد تعدادی از آزمودنیها به کار میبرند. پس از اجرای آزمون،آن را به دو نیمه تقسیم میکنند.بدین ترتیب که سؤالهای زوج آن را به عنوان یک آزمون و سؤالهای فرد آن را به عنوان آزمون دیگر در نظرمیگیرند.یعنی برای هر آزمودنی دو نمره به دست میآورند. بین دو سری نمره ضریب همبستگی محاسبه میشود.
روش کودر-ریچاردسون: در این روش نیز مثل روش دو نیمه کردن،آزمون فقط یک بار اجرا میشود و میزان همبستگی درونی یا تجانس سؤالها مورد بررسی قرار میگیرد.ضریب همبستگی به دست آمده با این روش بین صفر و یک متغیر خواهد بود.هر اندازه این ضریب به یک نزدیکتر باشد، تجانس سؤالهای آزمون به همان اندازه بیشتر خواهد بود.
روایی : روایی یعنی این که آزمون باید چیزی را اندازه بگیرد که برای اندازهگیری آن ساخته شده است.مثلاً یک آزمون هوش زمانی از روایی برخوردار است که اطلاعات درستی را از آن چه معمولاًهوش نامیده میشود در اختیار ما بگذارد نه از تواناییهای دیگر.روایی آزمون را به شیوههای زیر اندازه میگیرند:
- معنیدار بودن آماری.
- محاسبه خطای برآورد.
- استفاده از جدولهای انتظار.
- استفاده از نرخهای پایه.
- نسبتهای انتخاب.
- استفاده از تئوریهای تصمیم.
انواع روایی
روایی ظاهری: یعنی اینکه مواد یا سؤالات آزمون از نظر ظاهر شبیه موضوعی باشد که مورد اندازهگیری است.
روایی محتوا: یعنی اینکه آزمون باید ارتباط کامل با کل زمینه مورد نظر داشته باشد.
روایی پیش بینی: یعنی اینکه بین نتایج حاصل از اجرای آزمونها و نتایجی که بعداً به دست میآید همبستگی و قرابت وجود داشته باشد.
روایی همزمان: نتایج آزمونها را با نتایجی که همزمان با اجرای آنها،با یه فاصله کمی بعد از اجرای آنها به دست میآیدمقایسه میکنند.مثلاً اگر آزمونی بسازیم و در همان زمان بخواهیم روایی آن را تعیین کنیم،میتوانیم نتایج آن را با نتایج آزمون دیگری که در همان زمینه وجود دارد و درباره همان گروه اجرا میشود مقایسه کنیم.
روایی سازه (روایی مفهومی): عبارت است از تطابق نتایج یک آزمون با پیش بینیهایی که توسط یک نظریه یا سایر واقعیات شناخته شده به عمل آمده است.مثلاًیکی از نظریههای هوش این است که هوش موجب سازگاری با موقعیت تازه میشود.بنابراین اگر ما،براساس معیارهای مورد قبول،به یک عدد از نظر سازگاری نمره بدهیم و بعد یک آزمون هوشی اجرا کنیم و دو نتیجه تطابق بالایی را نشان دهند، خواهیم گفت که آزمون ما دارای روایی سازه است.
حساسیت یا ظرافت تشخیص: منظور از حساسیت این است که یک آزمون بتواند تفاوتهای افراد را به خوبی نشان دهد.هر اندازه یک آزمون بتواند رفتارهای آزمودنیها را به درجات بیشتر تقسیم کند حساسیت آن به همان اندازه بیشتر خواهد بود. هر اندازه وسعت رفتارهایی که یک آزمون میتواند اندازه بگیرد، بیشتر باشد، به همان اندازه حساسیت این آزمون کمتر خواهد بود. یعنی هر اندازه پدیده مورد اندازهگیری محدودتر باشد حساسیت آزمون بهتر خواهد بود.همچنین حساسیت یک آزمون به ساختمان خود آن بستگی دارد.زیرا قدرت تشخیص سؤالات متفاوت است.برخی از سؤالات توانایی بهتری برای طبقهبندی افراد دارند، در حالی که برخی دیگر این توانایی را ندارند.پیدا کردن سؤالاتی که از قدرت تشخیص(حساسیت) بهتری برخوردار باشند نیاز به تجربهی گوناگونی و محاسبات آماری دارد. زیرا حساسیت یا قدرت تشخیص یک سؤال پس از اجرا معلوم میشود. یعنی اگر پس از اجرای یک آزمون معلوم شد که سؤالات آن توانستهاند آزمودنیهای خیلی ضعیف، ضعیف، متوسط، قوی و خیلی قوی را از یکدیگر متمایز کنند خواهیم گفت آن آزمون حساسیت دارد.
ویژگیهای فرعی یک آزمون خوب
در استفاده از آزمونها، نه تنها باید ویژگیهای مهم آنها (اعتبار، روایی و حساسیت) را در نظر گرفت باید برخی و یژگیهای دیگر را،که اهمیّت کمتری از ویژگیهای اصلی ندارد، به حساب آورد.زیرا معلوم نیست که ما بتوانیم هر آزمونی را که دار ای اعتبار و روایی است در همه جا و همه شرایط مورد استفاده قرار دهیم.ویژگیهای دیگری را که برای یک آزمون در نظر میگیرند عبارتند از:سهولت اجرا، سهولت نمرهگذاری، صرفهجویی در زمان و صرفهجویی در هزینه.
سهولت اجرای یک آزمون زمانی امکانپذیر خواهد بود که آزمون یک دستورالعمل کاملاًروشن،کلید تصحیح، شیوه نمرهگذاری دقیق و معیار مقایسه،که آن را نرم یا هنجار مینامیم، داشته باشد.آزمونی که اجراکننده بارها باید دستورالعمل آن را بخواند تا خوب بفهمد،آزمونی که مدت زیادی برای اجرا لازم دارد، به طور کلی،آزمونی که وقتگیر است عملاًمورد استفاده قرار نخواهد گرفت.سهولت نمرهگذاری هم زمانی امکانپذیر خواهد بود که نمرهگذاری کاملاًعینی باشد.منظور از عینی بودن این است که اگر دو مصحح به یک ورقه نمره بدهند به نتیجه یکسانی برسند.این حالت زمانی اتفّاق میافتد که پاسخ آشکارا صحیح یا غلط باشد و درستی آن به قضاوت تصحیح کننده نیاز نداشته باشد.
در مورد اینکه یک آزمون، از نظر زمان و هزینه لازم برای برگذاری آن، باید مقرون به صرفه باشد جای هیچ تردیدی وجود ندارد.امروزه بیش از همه وقت طلاست.محدودیتهای زمانی و اقتصادی اجازه نمیدهند که ما بتوانیم هر آزمونی را با هر نوع صرف وقت و هزینه به کار ببریم. امروزه ما به دنبال آزمونهایی هستیم که در حداقل زمان بیشترین اطلاعات را در اختیار ما بگذارند. ویژگی دیگری را که میتوانیم برای آزمونها قائل شویم این است که یک آزمون حتماً باید در آزمودنی رغبت ایجاد کند.یعنی مواد آن طوری باید باشد که آزمودنی با علاقه به آنها پاسخ دهد.
نظریه کلاسیک نمره واقعی
بیشتر شیوه های« هنجارشده»ساخت و ارزشیابی آزمون ها بر پایه مجموعهای از مفروضات قردارند که معمولاًنظریه کلاسیک(یاضعیف) نمره واقعی نامیده میشود..نظریه کلاسیک نمره واقعی متضمن یک الگوی جمعپذیر است.نمره مشاهده شده یک آزمون مساوی مجموع دو جزء است:نمره واقعی Tو نمره خطای تصادفی E. فرض بر این است که نمره خطای یک آزمون با نمره واقعی همان آزمون و با نمره های خطا و واقعی تمام آزمونها ناهمبسته هستند.آزمونهای موازی،نمرههای واقعی و واریانس یکسان دارند. در آزمونهای اساساً Tمعادل، تفاوت بین نمرههای واقعی در یک مقدار ثابت اضافی است.مفروضات نظریه کلاسیک نمره واقعی ممکن است بر اثرشرایطی که بر آزمون تأثیر دارند، نقض شوند.به هر حال، چون معمولاً نمی توانیم TوE را تعیین کنیم، قادر نیستیم درستی و نادرستی مفروضات را بررسی کنیم. مناسب بودن آنها فقط با حدس زدن امکانپذیر است. نمره های واقعی و خطا ساخت نظری و غیر قابل مشاهدهای دارند.هنگامی که درباره نمره واقعی صحبتمیکنیم، اساساً باید به خاطر داشته باشیم که یک نمره واقعی(میانگین نمره هایی که در اثر اندازه گیری مستقل و مکرر با یک آزمون به دست میآید) یک اندیشه نظری است.این نمره وقتی به طور کامل نشان دهنده ویژگیهای مورد نظر است که آزمون دارای اعتبار کامل باشد؛به این معنی که آزمون دقیقاً آنچه را که لازم است، اندازهگیری کند.
نظریه خصیصه مکنون
فرض بر این است که مهمترین جنبه های عملکرد آزمون میتواند با تعیین وضعیت فرد در یک خصیصه مکنونیک ویژگی فرضی و مشاهده نشده یا خصیصه، مثل توانایی کلامی، معلومات تاریخی یا برون گرایی توصیف شود. الگوهای نظریههای خصیصه مکنون به این منظور طراحی شدهاند تا نحوهی تأثیرگذاری خصیصه مکنون را بر عملکرد هر یک از سؤالهای آزمون توصیف کند.برخلاف نمرههای آزمون یا نمرههای واقعی، ویژگی های مکنون می توانند از لحاظ نظری مقدارهای بین ∞- تا ∞+ داشته باشند.گرچه در این نظریه، ارزش مورد انتظار نمره مشاهده شده،همان نمره واقعی است، اما این نمره،یک تابع خطی از خصیصه مکنون نیست، بنابراین ارزش مورد انتظار نمره مشاهده شده مساوی مقدار خصیصه مکنون نیست.برای دستیابی به برآوردهای مقدارهای خصیصه مکنون، برنامههای کامپیوتری به کار برده میشوند.نطریه های خصیصه مکنون را، همانند نظریههای کارآمد نمره واقعی،میتوان برای تعین تناسب آنها با مجموعهای از دادهها آزمایش کرد.هنگامی که این نظریهها متناسب با مجموعهای از دادهها باشند،آلگوهای خصیصه مکنون مقیاسهای فاصلهای را به وجود میآورند.منحنی درصدی طبیعی و الگوههای منطقی ، به عنوان نمونههایی از نظریههای خصیصه مکنون ارائه میشوند.
عناصر مورد نظر در تهیّه و استاندارد کردن آزمونها
ساختن و استاندارد کردن آزمون، عملی پیچیده و فنی بوده و مستلزم دانش و مهارت سطح بالای تخصص در همهی زمینههای روانسنجی است. سازندگان آزمون علاوه بر داشتن صلاحیت علمی و تخصصی و دانش نظری در روانسنجی باید در مورد انواع آزمونهای مختلف نیز از تجارب عملی کافی برخوردار باشد.ذکر این نکته در خور اهمیّت است که سازندگان آزمون به پیچیدگی و وقتگیر بودن این کار توجّه داشته و از کمکهای تخصصی افراد متخصّص و کارآزموده در این زمینه استفاده کنند. اقدام به ساختن و استانداردکردن آزمون در هر زمینه منوط به برقراری شرایط زیر است:(1)آزمونهای معتبر و استاندارد شدهی کافی در آن زمینه موجود نباشد.(2)سازندگان آزمون علاوه بر داشتن نیروی تخصصی در زمینههای مختلف روانسنجی از منابع مالی کافی برخوردار باشند.(3)آزمونی که ساخته میشود در مورد تعداد زیادی از آزمودنیها و برای مدت نسبتاً طولانی برای هدفهای راهنمایی تحصیلی و شغلی،تشخیصهای بالینی و سایر مقاصد آموزشی و درمانی به کار بسته شود.آزمونهای استاندارد شده در بوتهی تجربه و محاسبات آماری قرار میگیرند تا اعتبار، روایی، حساسیت و سایر ویژگیهای آنها به دقّت معلوم شود.نتایج این آزمونها درجه بندی شده است، یعنی دارای نرم یا هنجارهستند. آزمونهای استاندارد شده در اصل برای از بین بردن نقایص آزمونهای معلّم ساخته به وجود آمدهاند.فرق عمده آزمونهای استاندارد شده با آزمونهای معلّم ساخته این است که اولاً محتوا و هدفهای بسیار کلی را اندازه میگیرند.ثانیاً دارای نرم یا هنجار هستند.به کمک این آزمونها میتوان افراد یک گروه را با گروه دیگر، دانشجویان یک دانشگاه را با دانشگاه دیگر، دانشآموزان یک مدرسه را با مدرسه دیگر مقایسه کرد.اما این کار با کمک آزمونهای معلّم ساخته منطقی نیست.برای تهیه آزمونهای استاندارد شده، ابتدا زمینه مورد نظر را به دقّت تعریف میکنند، بعد تعدادی سؤال برای اندازهگیری آن مینویسند. در نوشتن سؤالها،که مهّمترین بخش آزمونسازی را تشکیل میدهد، معمولاً از متخصّصان استفاده میکنند.پس از آنکه سؤالها نوشته شد، سؤالها را طبق دستورالعملی که تهیّه کردهاند در اختیار گروه کوچکی از آزمودنیها قرار میدهند تا پاسخ دهند. اوراق تصحیح میشوند و درجه دشواری و قدرت تشخیص تک تک سؤالها را به دست میآورند.این عمل نشان میدهد که کدام سؤالها باید حذف یا جایگزین شوند و کدام سؤالها باید باقی بمانند.سؤالهای باقی مانده را در یک گروه وسیع اجرا میکنند.نتایج به دست آمده درجهبندی میشود و به صورت یک جدول که اصطلاحاً نرم یا هنجار نامیده میشود در میآید.آزمونهای معلّم ساخته هیچ یک از مراحل فوق را پشتسر نمیگذارند.خوبی یا بدی این آزمونها به قضاوت تهیّه کننده آنها بستگی دارد.
یک آزمون استاندارد ویژگیهای زیر را دارد:
- زمان اجرای تست که میتواند محدود یا نا محدود باشد.در روشی که محدودیت زمانی دارد، مدت انجام آزمون قبلاًتعیین میشود(مثلاًیک فرد چند علامت را میتواند در دو دقیقه خط بزند یا چند مسأله را میتواند در یک ربع ساعت حل کند)؛ در روشی که محدودیت کاری دارد،آزمودنی باید کار محول شده را به اتمام برساند و به محض اتمام آن آزماینده زمان صرف شده را یادداشت میکند.
- نظم ارائه سؤالات نیز همیشه بیاثر نیست و در مورد بعضی آزمونها این نظم ازقبل تعیین شده است.
- شکل سؤالات.
- نگرش آزماینده.
- محل اجرا و مواد مورد استفاده نیز جزء عناصر اصلی به حساب میآید
مسلماًعناصر دیگری نیز وجود دارد که در دستورالعمل صراحتاً به آنها اشاره میشود.نباید چیزی از دستورالعمل را تغییر دهیم، حتی اگر علت بعضی قواعد خاص را ندانیم و بعضی سؤالات به نظرمان مبهم یا غلط برسند؛ در غیر این صورت ممکن است بعضی کارها را خیلی آسان یا خیلی دشوار سازیم.گاهی اتفّاق میافتد که اجرا کنندگان آزمونها، دشوراریهایی را در رعایت مواد دستورالعمل احساس میکنند. در واقع بسیاری از انتقادهای ناروا علیه آزمونها در اثر نتایج گمراهکننده یا نامناسبی است که به علت عدم توجه به استاندارد بودن آزمونها یا اجرای آنهایی که متناسب با موارد اجرا نبوده، به وجود آمده است.کوششهایی که برای یکنواختی روش اجرای آزمونها به عمل آمده، بعضی مؤلفان را وادار کرده است تا از ضبط صوت استفاده کنند. قطعاً آزمونها ماشینهای معجزهگر نیستند و این چیزی است که باید با صراحت خاطر نشان داده شود.همیشه تغییراتی از یک آزمایش به آزمایشی دیگر وجود خواهد داشت.قبول اینکه در دو نوبت متوالی بتوان موقعیت کاملاً یکسانی ایجاد کرد،خیالی بیش نیست و به همین دلیل است که حتی بهترین آزمونها هرگز اعتبار مطلق ندارند.نمرهگذاری پاسخها نیز باید با قواعد یکنواختی انجام گیرد.برای تفسیر و طبقهبندی پاسخهای آزمودنی فقط یک راه وجود دارد، راهی که توسط سازندگان آزمون،پیشبینی و تثبیت شده است. نمرهگذاری آزمونها گاهی به کمک ماشین انجام میگیرد و این امر موجب صرفه جویی در وقت میشود. با وجود این، استفاده از ماشین برای نمرهگذاری همهی انواع آزمونها امکانپذیر نیست. قاعدهایی که برای اجرای همهی آزمونها لازم است خلق جو مناسب، به طوری که آزمودنی با خیال راحت کار خواسته شده را انجام دهد.ایجاد حالت اعتماد از ضروریات است و هر نوع مزاحمت یا عامل بازدارنده را از بین میبرد.خطر عدم اعتماد مخصوصاً زمانی بیشتر خواهد بود که آزمودنیها کودک یا افراد هیجانی باشند.شخصیت آزمایشگر مهّمترین عاملی است که میتواند حصول یک فضای اطمینان بخش را تضمین کند.تخصص داشتن و آزمون را طبق دستورالعمل اجرا کردن به تنهایی کافی نیست، بلکه باید طرز برخورد با آزمودنی را یاد گرفت، نگرشها و سخنان لازم برای خلق یک جو مناسب، جهت انجام کار مورد نظر، را پیدا کرد.
منبع
حمیلی ، ثریا (1392)، هنجاریابی آزمون سازگاری تحصیلی ، پایان نامه کارشناسی ارشد ، روان شناسی، دانشگاه امام خمینی
از فروشگاه بوبوک دیدن نمایید
دیدگاهی بنویسید