Suatu alat ukur harus memenuhi syarat validitas dan reliabilitas. Menurut Allen dan Yen (1979: 95), suatu tes dikatakan valid jika dapat mengukur apa yang seharusnya diukur. Secara umum terdapat tiga macam validitas, yaitu validitas isi (content validity), validitas kriteria (creterion-related validity), dan validitas konstruk (construct validity) (Kerlinger, 1986: 417). Untuk menguji validitas instrumen pengukuran afektif, dapat digunakan salah satu atau semua jenis validitas berikut: validitas isi, validitas konstruk, dan validitas kriteria (Fernandes, 1984: 73-74).
Validitas isi dinilai melalui analisis rasional terhadap isi suatu tes dan penentuannya didasarkan pada penilaian subjektif dan individual (Allen dan Yen 1979: 95). Validitas isi biasanya diuji dengan penilaian personal oleh ahli di bidangnya. Validitas isi didasarkan pada keputusan penilaian (bersifat judgmental). Validitas kriteria diteliti dengan membandingkan suatu tes atau skala dengan satu atau lebih ubahan-ubahan eksternal, atau kriteria yang dianggap mengukur kualitas yang diteliti (Kerlinger, 1986: 418). Validitas konstruk (construct validity) suatu tes adalah sejauh mana tes tersebut mengukur konstruk atau trait teoretik yang ingin diukur. Menurut Kerlinger (1986: 427) metode yang digunakan untuk meneliti validitas konstruk adalah analisis faktor.
Reliabilitas juga disebut sebagai dependabilitas, stabilitas, konsistensi, prediktabilitas, atau akurasi. Reliabilitas dan dependabilitas menunjukkan suatu pengukuran yang dapat diandalkan atau dapat dipercaya. Stabilitas, konsistensi, dan prediktabilitas menunjukkan pengukuran yang tidak relatif berubah-ubah, sehingga dapat diprediksi hasilnya. Prediktabilitas menunjukkan pengukuran yang dapat diduga (Kerlinger, 1986: 407).
Salah satu pendekatan dasar untuk mengukur reliabilitas adalah stabilitas. Stabilitas diperoleh dengan mengkorelasikan skor siswa dari dua kali pelaksanaan tes, dengan korelasi intraklas (interclass correlation). Estimasi reliabilitas didefinisikan sebagai perbandingan (rasio) antara true score variance dengan observed variance (Nachmias & Nachmias, 1981: 148). Menurut Borg dan Gall (1983: 284), reliabilitas tes-retes disebut koefisien stabilitas (coefficient of stability). Reliabilitas tes-retes sangat cocok untuk tes yang mengukur trait (sifat), misalnya tes untuk mengukur ketajaman pengamatan visual dan auditori (Allen dan Yen, 1979: 76-77). Jika digunakan untuk keputusan individual, batas minimum reliabilitas adalah 0,9, sedangkan untuk menarik kesimpulan tentang kelompok 0,5 (Fernandes, 1984: 73)