Pengertian Tes, Pengukuran,
Penilaian dan Evaluasi
Menurut Allen & Yen, 1979 (Djemari Mardapi, 2008:1) “Pengukuran
adalah penetapan angka dengan cara yang sistematik untuk menyatakan keadaan
individu”; keadaan itu dapat mencakup kemampuan kognitif, afektif, dan
psikomotor. Kini telah dikembangkan untuk kemampuan mengendalikan emosi.
Menurut TGAT, 1987 (Djemari Mardapi, 2008:1) penilaian atau asesmen
mencakup semua cara yang digunakan untuk menilai unjuk kerja individu atau
kelompok. Prosesnya meliputi pengumpulan bukti-bukti tentang pencapaian belajar
peserta didik yang didapatkan dengan cara tes maupun non tes. Definisi asesmen
berkaitan dengan semua proses pendidikan, seperti karakteristik peserta didik,
karakteristik metode mengajar, kurikulum, fasilitas, dan administrasi.
Evaluasi merupakan tindakan penetapan nilai atau implikasi suatu
perilaku, baik individu atau lembaga. Pengukuran, penilaian dan evaluasi
menurut Griffin dan Nix, 1991 (Djemari Mardapi, 2008:1) adalah bersifat
herarkhi atau berjenjang. Pengukuran adalah tindakan membandingkan hasil
pengamatan dengan kriteria, sementara penilaian atau asesmen adalah tindakan
menafsirkan atau menjelaskan hasil pengukuran, dan evaluasi adalah penetapan
tentang nilai atau implikasi dari perilaku hasil pengukuran dan penilaian. Jadi
setiap tindakan evaluasi selalu didahului oleh tindakan pengukuran dan
penilaian, sehingga di sini menjadi jelas bahwa tindakan penilaian harus
didahului oleh tindakan pengukuran.
1. Tes
Tes dapat didefinisikan sebagai suatu pertanyaan atau tugas yang
direncanakan untuk memperoleh informasi tentang trait atau atribut pendidikan
atau psikologi yang setiap butir pertanyan atau tugas itu mempunyai jawaban
atau ketentuan yang dianggap benar (Zainul & Nasution, 2001: 3). Sebagai
konsekuensinya setiap tes menuntut adanya tanggapan atau respon dari peserta
didik (subjek yang dikenai tes) dan karenanya disimpulkan sebagai trait yang
dimiliki oleh peserta didik atau subjek yang sedang dicari informasinya. Oleh
sebab itu jika ada tugas atau pertanyaan yang harus dikerjakan oleh peserta
didik tetapi tidak ada jawaban atau tidak ada respon berupa jawaban yang benar
atau salah, maka hal itu bukanlah tes. Miller (2008: 1) menyatakan bahwa:
“tests are formal assessment
instruments used to judge students’ cognitive ability in an academic discipline
as well as to gather quantitative information about student’ psychomotor
performance (physical skills) and affective characteristics (e.g. attitudes,
emotions, interests, and values).
Tes pada umumnya terdiri dari seperangkat himpunan pertanyaan,
pernyataan, atau tugas yang diadministrasikan dan dikenakan kepada peserta
didik atau sekelompok peserta didik. Berhubung adanya kendala keterbatasan
waktu dan faktor lainnya, tes hanya mengukur sebagian saja (sampel) dari suatu
perilaku objek pengukuran. Jadi tes memiliki keterbatasan, tidak mampu mengukur
semua informasi tentang apa yang sudah dipelajari oleh peserta didik, kecuali
hanya dipilih sebagai sampel dari objek kawasan yang telah dipelajari oleh peserta
didik. Untuk dapat mewakili kawasan atau objek yang dicari informasinya dari
apa yang telah dipelajari oleh peserta didik maka digunakanlah kisi-kisi tes
atau blue print test dalam
merancangnya.
2. Pengukuran
Hampir setiap hari kita selalu
berhadapan dengan tindakan pengukuran. Saat kita akan berangkat ke kuliah kita
sudah punya kriteria waktu yakni jam berapa harus tiba di kampus, misalnya jam
8.00. Atas dasar kriteria ini kita mempertimbangkan jam berapa harus mulai
berangkat dari rumah jika jarak tempuh rumah dengan kampus 30 kilometer.
Apabila diperkirakan kondisi jalan lancar tidak macet dan kecepatan rata-rata
per kilometer 60 km/jam, berarti berangkat dari rumah paling tidak harus pukul
7.30. Contoh semacam ini adalah salah satu tindakan yang di dalam tindakan itu
ada unsur pengukuran. Contoh yang lain, pada saat kita akan membeli kertas
untuk membuat tugas paper kita mencari kertas yang berukuran kwarto dan bukan
yang folio. Tindakan memilih ukuran kertas yang kwarto ini telah melalui
tindakan pengukuran yakni membanding ukuran panjang dan lebar kertas yang
sesuai dengan ketentuan ukuran kertas yang dipersyaratkan dalam pembuatan
paper. Jika demikian, apa sebenarnya pengukuran itu?
Pengukuran pada dasarnya merupakan
kegiatan penentuan angka bagi suatu objek secara sistematik, untuk
menggambarkan karakteristik objek tersebut. Dalam penentuan karakteristik pada objek
pengukuran, sedapat mungkin dihindari adanya kesalahan pengukuran. Kesalahan
pengukuran bersumber dari alat ukur, cara mengukur, dan kondisi objek yang diukur
(Djemari Mardapi, 2008:2). Sementara ahli lain Miller (2008: 2) membuat
definisi pengukuran sebagai berikut:
“Measurement is a quantitative
description of an individual’s achievement on a single test or multiple
assessments (e.g. a student answered 9 to 10 or 90% of the test questions
correctly).
Hasil
pengukuran melalui tes dan penilaian (asesmen) digunakan untuk melihat unjuk
kerja atau sebagai dasar pemberian nilai (grade). Informasi dari hasil
pengukuran juga dapat digunakan untuk: (1) memantau kemajuan belajar peserta
didik, (2) membantu perencanaan pengembangan karir peserta didik, (3)
mengelompokan peserta didik berdasarkan minat, sikap, dan kesiapannya, (4)
membuat keputusan tentang kebijakan pendidikan, (5) untuk perbaikan kurikulum,
dan (6) untuk mengetahui efektivitas pengajaran.
Pada kegiatan evaluasi hasil belajar akan dihadapi masalah-masalah yang
berkaitan dengan alat ukur yang digunakan, cara menggunakan, cara penilaian,
dan evaluasinya. Alat ukur yang memenuhi kaidah pengukuran harus memiliki bukti
kesahihan (validitas) dan kehandalan (reliabilitas).
Kesahihan alat ukur dari segi
konstruknya dapat dilihat sejauh mana alat ukur mengukur apa yang sebenarnya
diukur. Secara teori pengukuran, substansinya harus satu dimensi (unidimensionality). Untuk melihat apakah
tes memiliki sifat satu dimensi tentang konstruknya dapat dianalisis dengan
pendekatan analisis faktor (factor
analysis) atau dengan analisis konfirmasi faktor (confirmatory factor analysis). Analisis faktor dapat dilakukan
dengan bantuan software SPSS dan analisis konfirmasi faktor dapat dilakukan
dengan software AMOS atau Lisrel. Lebih lanjut telaah tentang konstruksi alat
ukur dapat ditinjau dari aspek materi, teknik penulisan soal, dan bahasa yang
digunakan.
Kesahihan alat ukur dari segi isi
dapat dilihat dari kisi-kisinya. Kisi-kisi alat ukur berisi tentang materi yang
diujikan, bentuk soal, tingkat berpikir yang diacu, bobot soal, dan cara
penskoran. Kisi-kisi dikatakan baik jika sudah mewakili cakupan bahan ajar.
Cakupan bahan ajar yang dipilih dengan kriteria (1) pokok bahasannya esensial,
(2) memiliki nilai aplikasi, (3) berkelanjutan, dan (4) dibutuhkan untuk
mempelajari matapelajaran lain. Lamanya waktu untuk mengerjakan soal juga perlu
menjadi kriteria.
Alat ukur yang baik, memiliki
kesalahan pengukuran minimal dan hasil pengukuran cenderung konstan walaupun
dipakai berulang-ulang pada tingkat kemampuan objek yang relatif tetap. Kesalahan
pengukuran dapat bersifat acak dan bersifat sistematik. Kesalahan pengukuran
mengakibatkan under atau over estimate hasil pengukuran. Kesalahan
acak bersumber dari variasi kondisi fisik dan mental subjek yang diukur dan
yang mengukur. Kesalahan sistematik bersumber dari alat ukurnya, yang diukur,
dan yang mengukur. Contoh kesalahan sistematik, misalnya memberi skor murah
atau mahal pada semua peserta didik. Jika murah atau mahal untuk kelompok
tertentu, maka telah terjadi bias pengukuran. Berdasarkan kenyataan betapa
rumitnya melakukan pengukuran yang acapkali mengandung kesalahan sistematik dan
acak, muncullah teori pengukuran. Ada dua teori yang bebeda asumsi kini telah
banyak ditelaah orang, yakni teori tes klasik atau clacical test theory (CTT) dan teori modern atau item response theory (IRT).
Teori tes klasik berasumsi bahwa (a) skor yang diperoleh individu dari
hasil pengukuran dapat diurai menjadi skor sebenarnya dan skor kesalahan, (b)
tidak ada hubungan antara skor yang sebenarnya dengan skor kesalahan. Berangkat
dari dua asumsi ini maka berkembanglah rumus-rumus untuk menghitung tingkat
kesahihan (validitas) dan tingkat kehandalan (reliabilitas).
Teori tes klasik memiliki kelemahan,
antara lain: (a) ketergantungan statistik butir pada karakteristik kelompok
yang diukur, akibatnya besaran statistik butir bervariasi dari satu kelompok
terhadap kelompok yang lain, lebih lanjut sulit membandingkan kemampuan
kelompok atau individu yang satu dengan yang lain. Kelemahan ini telah
dirasakan untuk pengukuran pada objek alam (karakteristiknya lebih konstan) dan
semakin dirasakan jika objek pengukuran adalah manusia (karakteristiknya
labil). Atas dasar kelemahan ini maka dikembangkan oleh para pakar tentang
teori tes modern (IRT) dengan mengacu dan berusaha mengembangkan analisis untuk
estimasi kemampuan seseorang tanpa dipengaruhi oleh alat ukur yang digunakan.
Statistik butir diupayakan juga tidak tergantung pada karakteristik individu
yang diukur.
3. Penilaian
Usaha peningkatan mutu pendidikan dapat ditempuh dengan berbagai cara
antara lain dengan peningkatan kualitas pembelajaran dan sistem penilaiannya.
Antara keduanya terdapat hubungan timbal balik, kondisi sistem pembelajaran
yang baik memberi dampak pada hasil belajar yang baik, hasil penilaian menjadi
tolok ukur kualitas sistem pembelajaran. Sistem pembelajaran yang baik akan
memotivasi pendidik untuk memilih strategi mengajar dan memotivasi peserta
didik yang paling tepat. Jadi peningkatan sistem penilaian merupakan hal yang
urgen atau penting untuk peningkatan mutu pendidikan.
Penilaian meliputi semua cara untuk menilai unjuk kerja atau hasil
kerja yang berfokus pada individu yakni prestasi belajar yang dicapai individu.
Prosesnya adalah menghimpun bukti-bukti tentang pencapaian belajar peserta
didik antara lain melalui tes, pengamatan dan laporan diri. Penilaian yang baik
memerlukan data dan proses pengukuran yang baik.
Menurut Bento, 1994 (Djemari Mardapi, 2008:6) penilaian mulai dikenal
sebagai cara membelajarkan seseorang dirintis oleh staf pengajar Fakultas
Alverno sejak 20 tahun yang lalu. Ini merupakan contoh bagaimana mengubah
lembaga melalui program penilaian. Terkait dengan itu, menurut Chittenden, 1991
(Djemari Mardapi, 2008:6) kegiatan penilaian dalam pembelajaran perlu diarahkan
kepada: (1) penelusuran; yakni menelusuri kesesuaian proses pembelajaran dengan
rencana, (2) pengecekan, yakni mencari informasi tentang kekurangan pada
peserta didik selama proses pembelajaran, (3) pencarian, yakni mencari dan
menemukan penyebab kekurangan yang timbul dalam proses pembelajaran, dan (4) penyimpulan, yakni
menyimpulkan tentang tingkat pencapaian belajar peserta didik.
Peningkatan mutu pendidikan memerlukan alat ukur yang sahih (valid) dan handal (reliabel). Pada sisi lain terdapat 2 acuan yang digunakan untuk
penilaian, yakni acuan norma (norm
reference test) dan acuan kriteria (creterion
reference test). Penafsiran hasil tes antara kedua acuan ini berbeda
(karena asumsi yang digunakan berbeda) sehingga informasi yang didapat juga
berbeda. Penggunaan acuan yang mana yang tepat, tergantung pada karakteristik
kemampuan pada bidang studi yang diukur dan tujuan yang ingin dicapai.
4. Evaluasi
Sebagaimana telah disebut di
atas bahwa evaluasi bertujuan untuk meningkatkan kinerja individu atau lembaga,
sehingga kegiatan evaluasi merupakan rangkaian kegiatan dalam meningkatkan
kualitas kinerja, atau produktivitas
lembaga dalam melaksanakan program. Titik sentral dari evaluasi adalah
individu. Dalam konteks pendidikan kinerja yang dievaluasi adalah menyangkut
individu berupa hasil belajar dalam kelompok atau kelas. Hasil evaluasi akan
menyajikan informasi tentang seberapa jauh pencapaian program dan informasi
pencapaian program ini menjadi bahan informasi untuk perbaikan atau pengayaan
program.
Para ahli ada keselarasan dalam menjelaskan pengertian evaluasi.
Griffin & Nix, 1999 menyatakan evaluasi adalah judgement terhadap nilai hasil dari tindakan pengukuran; sedangkan
menurut Tyler, 1950 menyebutkan evaluasi sebagai proses penentuan sejauh mana
tujuan pendidikan telah dicapai (Djemari Mardapi, 2008: 8-9). Djemari Mardapi,
2008 menyimpulkan bahwa evaluasi didefinisikan sebagai proses mengumpulkan
informasi untuk mengetahui pencapaian belajar kelas atau kelompok. Hasil
evaluasi diharapkan dapat mendorong pendidik untuk mengajar lebih baik dan
memotivasi peserta didik untuk belajar lebih baik. Jadi evaluasi menyajikan
informasi untuk kepentingan evaluasi program pembelajaran bagi kelas dan
pendidik untuk meningkatkan kualitas proses belajar mengajar.
Berhubung hasil evaluasi program pembelajaran bersifat multi dimensi,
maka evaluasi yang hanya membandingkan antara unjuk kerja dan tujuan, telah
mendapatkan kritik para ahli karena terlalu menyempitkan persoalan dalam ragam
kasus di bidang pendidikan. Hasil program pembelajaran beragam, ada yang
terkait langsung dengan tujuan pendidikan (intended)
dan ada yang tidak (unintended),
selain itu ada yang berdampak positif dan ada yang berdampak negatif. Oleh
karena itu cara pendekatan evaluasi yang goal
free lebih tepat digunakan untuk mengevaluasi program pembelajaran, karena
betapa pun tujuan program untuk meningkatkan prestasi belajar, tetapi masih ada
tujuan atau dampak ikutan lain berupa rasa percaya diri, kreativitas,
kemandirian, keuletan dan sebagainya. Astin (1993) mempertegas bahwa cakupan
evaluasi untuk program pembelajaran di sekolah setidaknya meliputi masukan,
lingkungan sekolah, dan keluarannya. Orientasi evaluasi saat ini sering hanya
mengarah pada ranah kognitif dan jarang kepada ranah afektif, berhubung ranah
afektif sulit mengukurnya walaupun juga penting bagi evaluator untuk memenuhi tujuan
peningkatan kualitas dan kinerja lembaga. Lingkungan sekolah baik iklim
akademik dan iklim sosial, sama-sama memiliki peranan yang tidak bisa
diabaikan. Iklim akademik menunjuk pada kegiatan akademik baik di dalam kelas
mau pun di luar kelas, sementara iklim sosial adalah terciptanya hubungan
sosial antara pendidik, peserta didik dan sivitas akademik yang lain di
sekolah.
Ditilik dari cakupannya, evaluasi bisa bersifat makro dan mikro.
Evaluasi makro cenderung menggunakan sampel dalam melakukan telaah suatu
program dan dampaknya, dengan sasaran program pendidikan yang dirancang untuk
memperbaiki bidang pendidikan. Pada sisi lain evaluasi mikro biasanya digunakan
untuk evaluasi di tingkat kelas, yaitu untuk mengetahui tingkat pencapaian
hasil belajar peserta didik baik ranah kognitif maupun ranah yang lain.
Terdapat dua kategori evaluasi pengajaran, yakni evaluasi formatif dan
evaluasi sumatif. Evaluasi formatif bertujuan untuk memperbaiki proses belajar
mengajar sehingga sifatnya on going mengikuti
proses, dan dengan demikian dapat diketahui tujuan-tujuan belajar yang masih
belum dicapai dan yang sudah dicapai sehingga dapat dilakukan tindakan
perbaikan atau remidi dan pengayaan lanjut. Evaluasi sumatif bertujuan
mengetahui tingkat pencapaian hasil belajar setelah seluruh proses kegiatan
belajar mengajar terselesaikan, sehingga sifatnya adalah sesaat atau snap shoot pada akhir dari seluruh
proses kegiatan. Implikasi dari evaluasi sumatif akan diperoleh ketetapan lulus
atau tidak lulus bagi peserta didik. Agar peserta didik dapat terlibat belajar
dalam iklim akademik dengan baik, maka dalam kepentingan kegiatan pengukuran
dan penilaian kepada mereka perlu dijelaskan di awal pengajaran tentang
pentingnya penentuan nilai akhir. Komponen-komponen penilaian, bobot penilaian
dan cara pendekatan yang digunakan dalam penilaian perlu diberitahukan kepada peserta
didik.
Thorndike telah menyitir melalui teori belajar behavioristiknya, dalam
hukum belajar “law of effect”
dinyatakan bahwa dampak dari evaluasi ada dua: (1) jika hasilnya baik atau
sukses, maka akan memberikan motivasi yang semakin kuat bagi peserta didik;
tetapi (2) jika hasilnya jelek atau gagal, maka akan menimbulkan frustrasi bagi
peserta didik. Hasil evaluasi dengan demikian dapat digunakan untuk mengetahui
karakteristik peserta didik, yakni yang naik motivasi belajarnya, yang tetap,
dan yang menjadi turun motivasinya. Atas dasar ini maka dibutuhkan suatu sistem
evaluasi yang dapat memenuhi tujuan untuk pendorong peningkatan kualitas
pendidikan secara menyeluruh yang berangkat dari acuan hasil belajar peserta
didik dibandingkan dengan acuan kriteria, sehingga dapat dicari kelemahan dan
keunggulan dalam proses kegiatan belajar-mengajar dan dicari upaya untuk
penanggulangan kelemahannya.
Tidak ada komentar:
Posting Komentar