Statistiske metoder for analyse av data fra nasjonale prøver og undersøkelser i skoleverket.

Johannessen, Håkon Berg.

dc.contributor.advisor	Kvaløy, Jan Terje
dc.contributor.author	Johannessen, Håkon Berg.
dc.date.accessioned	2021-09-29T16:28:42Z
dc.date.available	2021-09-29T16:28:42Z
dc.date.issued	2021
dc.identifier	no.uis:inspera:79010903:23746301
dc.identifier.uri	https://hdl.handle.net/11250/2786266
dc.description.abstract	Nasjonale prøver ble for første gang gjennomført våren 2004. En forskningsbasert evaluering av prøvene i 2005 anbefalte sterkt en kraftig kompetanseheving på testteori og psykometri for de som utvikler og for de som leder utviklingen av prøvene på nasjonalt nivå. Som konsekvens ble det fra og med 2014 introdusert Item Response Theory (IRT) som grunnlag for analyse av data fra nasjonale prøver. Denne oppgaven tar for seg grunnleggende IRT samt elementer av IRT som brukes i analyse av nasjonale prøver. Den tar også for seg DIF-analyse som brukes i piloteringen og IRT-metoder for lenking av prøvene som gjør det mulig å sammenligne resultater over tid. Deretter simuleres resultater fra nasjonale prøver for enkeltelever, klasser og skoler for å studere egenskapene til prøvene. Det kommer fram at IRT-metodene som ble tatt i bruk i 2014 var en nødvendig og stor forbedring fra de tidligere brukte metodene. Det var før 2014 umulig å vite om endringene i resultater fra år til år skyldtes endring i prøvene eller endring i elevenes ferdighet. Med IRT-metoder for skalering av prøvene og ved bruk av ankeroppgaver ble det slik at samme tall beskriver samme ferdighet, til tross for at målingen er foretatt ved ulike prøver. Det ble fra 2014 også mulig å sammenligne resultater over tid. Elevenes skåre på prøvene uttrykkes på en skala med nasjonalt gjennomsnitt på 50 skalapoeng og standardavvik 10. Simuleringene for enkeltelever viser at prøven er mest persis rundt gjennomsnittet på skalaen og det er noe høy usikkerhet ved antall skalapoeng eleven får rapportert. Simuleringene for klasser og skoler tydeliggjør at ved rapportering av gjennomsnittskåre for klassen eller skolen er det én usikkerhet i forhold til det prøven måler, og en annen usikkerhet knyttet til naturlig variasjon i populasjonen. Prøvene måler gjennomsnittet for en klasse mer presist jo større klassen er, og enda mer presist for skoler jo større de er. Den usikkerheten som rapporteres for gjennomsnittet til en skole på utdanningsdirektoratet sine sider er knyttet til naturlig variasjon i ferdigheten til elevgruppen på skolen, og blir med det høyere enn usikkerheten til ferdigheten prøven måler for akkurat den elevgruppen.
dc.description.abstract	The Norwegian national tests were first implemented spring of 2004. A scientific evaluation of the tests in 2005 strongly reccomends that the competence in test theory and psychometrics of the developers and the management of those responsible should be highly elevated. As a result Item Response Theory was introduced in 2014 as the paradigm for analysis of the national tests. This thesis explains the the basics of Item Response Theory and more advanced parts which are necessary for the development and analysis of the national tests. It also explains DIF-analysis which are used in test development and IRT-based linking which makes it possible to compare results over time. Then results from the national tests will be simulated for students, classes and schools to study the properties of the tests. The thesis shows that the IRT-methods that were introduced in 2014 was a crucial and huge improvement over earlier used methods. Before 2014 it was not possible to know if changes in students abilities over time came as a result of tests varying in difficulty or that the abilities of the students changed. With IRT-methods for scaling and with use of anchors the same scale now measured the same abilitiy, even though the tests were different. It also became possible to measure change in ability over time. The students score are reported at a scale with a national average of 50 points and standard deviation of 10. The simulations for students shows that the tests are more accurate at the middle of the scale, and that the uncertainty is somewhat high. The simulations for classes and schools shows that the average score of the class or school has two distinct uncertainties, one that comes from the statistical methods within the IRT-paradigm and one that comes from the distribution of students. The uncertainty reported by Utdanningsdirektoratet is the one that comes from the distribution of students, which is higher than the one that comes from the statistical methods.
dc.language	nob
dc.publisher	uis
dc.title	Statistiske metoder for analyse av data fra nasjonale prøver og undersøkelser i skoleverket.
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.uis:inspera:79010903:237463 ...
Størrelse:: 2.632Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Studentoppgaver (TN-IMF) [99]
Master- og bacheloroppgaver i matte og fysikk

Vis enkel innførsel