Alles, was Fragen der Evaluationsforschung betrifft.
Potenziell sollten Sie hier also Informationen zur Evaluationstheorie, zu verschiedenen Evaluationsansätzen und zu Ergebnissen und sonstigen Fragen der Evaluationsforschung finden.
Steuerungsebenen, auf das eine Evaluation sich beziehen kann, z.B. Bedarf, Ausgangsbedingungen, Prozess, Outcome, Impact, Kosten-Nutzen etc.
Ziel einer Evaluierbarkeitsanalyse (evaluability assessment) ist, die Wahrscheinlichkeit zu erhöhen, dass die Evaluation rechtzeitig, relevant und responsiv (den Informationsbedürfnissen entsprechend) sein wird. Damit ist sie eine Strategie zur Kosteneffizienz, da die für Evaluationen zur Verfügung stehenden Ressourcen optimal ausgenutzt werden sollen.
Als Ergebnisse einer Evaluierbarkeitsanalyse sollten folgende Informationen vorliegen, auf welche die anschließende Evaluation aufbauen kann:
Datenquellen für eine Evaluierbarkeitsanalyse sind
Literatur: Wholey (1979), Trevisan & Huang (2003)
Kritik am ursprünglichen Konzept der Evaluierbarkeit, aus Sicht der theory-based evaluation:
In späteren Revisionen greift Wholey (1987) neuere Entwicklungen auf. Auch die Formulierung der Programmtheorie gehört nun zur Evaluierbarkeitsanalyse.
Einführung
###
Def.: "people whose lives are affected by the program and people whose decisions can affect the future of the program" (Greene, 1988, S. 101).
Evaluation (von engl./frz. "Bewertung"): "Die systematische Untersuchung von Nutzen oder Wert einer Sache" (Joint committee on standards for educational evaluation, 1994). Evaluation bezeichnet die Anwendung sozialwissenschaftlicher Methoden und spezifischer Evaluationskompetenzen zur Bewertung von Gegenständen wie Projekten, Programmen, Maßnahmen, Produkten, Personal, Organisationen, Dienstleistungen und anderen Gegenständen.
Evaluiert wird üblicherweise, um die Handlungssteuerung in sozialen Handlungsfeldern zu rationalisieren, da Evaluation Erkenntnisse zur Verfügung stellt, welche zur Optimierung, Entscheidungshilfe, Überzeugung, Rechenschaftslegung und/oder Forschung dienen können.
Zugleich meint Evaluation immer auch die Produkte der beschriebenen Prozesse (z.B. in Form von Berichten). Der Begriff "Evaluationsforschung" wird im deutschen Sprachraum oft synonym verwendet, betont aber die Verwendung wissenschaftlicher Methoden zum Zwecke der Bewertung. Ein davon abweichendes Begriffsverständnis versteht unter "Evaluationsforschung" die Forschung über Evaluation.
Patton (1997): "Program evaluation is the systematic collection of information about the activities, characteristics, and outcomes of programs to make judgements about the program, improve program effectiveness, and/or inform decisions about future programming" (S. 23)
Etymologische Herleitung (Online etymology dictionary ):
evaluation: 1755, from Fr. evaluation', from evaluer "to find the value of," from ex- "out" + value (see value). Evaluate'' is an 1842 back-formation.
Message-ID:
Date: Thu, 12 Aug 2004 21:25:36 -0700 Sender: American Evaluation Association Discussion ListFrom: Richard Hake Subject: Re: Assessment vs Evaluation To: EVALTALK@BAMA.UA.EDU
In his ASSESS post of 10 Aug 2004 titled "Assessment vs Evaluation" Mark Davenport wrote:
"I often read in the literature and hear on the conference circuit people using the terms 'assessment' and 'evaluation' interchangeably, as if they were synonyms. Even more confusing, I have found the word assessment is used to define evaluation, and vice versa . . . . Personally, I don't think we need two terms to explain identical concepts (unless they occur in two completely unrelated fields wherein the risk of confusion is minimal). Certainly academic and student affairs assessment are related enough that we can share terms. . . . I have documented my thoughts in an internal white paper to my constitutents and would be happy to share it if you will drop me a note privately."
I hope Mark will place his white paper on the web so as to increase
the readership and decrease mailing expenses. His post stimulated a
12-post (as of 12 Aug 2004 16:20:00-0700) ASSESS thread accessible at
A similar thread (4 posts) titled "distinction between evaluation and
assessment was initiated by Jeanne Hubelbank (2003) on EvalTalk and
is accessible at the EvalTalk archives
Assessment: "The act of determining the standing of an object on some variable of interest, for example, testing students, and reporting scores."
Evaluation: Systematic investigation of the worth or merit of an object; e.g., a program, project, or instructional material.
Nevertheless, I'm with Mark Davenport in preferring to make no distinction between "assessment" and "evaluation." In a post titled "Re: A taxonomy" Hake (2003a), I proposed an assesment taxonomy for consideration and comment that is best presented in quadrant form cf., Stokes (1999):
plus Y PUBLIC | | Scientific Research |
<--FORMATIVE ASSESSMENT | SUMMATIVE ASSESSMENT --> _ plus X
0| | Action Research | Institutional Research | | | PRIVATE
Fig. 1. Quadrant representation of various types of assessment/evaluation. (Figure may be distorted by email transmission.)
For educational research, the X-axis represents a continuum from pure FORMATIVE to pure SUMMATIVE assessment of either teaching or learning. NO DISTINCTION IS MADE BETWEEN "ASSESSMENT' AND EVALUATION." The Y axis represents a continuum from complete privacy to complete public disclosure of results.
The locations of various types of research in terms of the type of assessment they offer are shown as:
"Scientific Research" see e.g. Shavelson & Towne (2002): upper two quadrants - always public and anywhere in the continuum between formative and summative.
"Action Research" [see e.g. Feldman & Minstrell (2000) and Bransford et al.]: lower left quadrant - usually private to some degree, and usually formative to some degree.
"Institutional Research": lower right quadrant - usually private to some degree, and usually summative to some degree, although it could approach the formative for those who study and attempt to improve institutional practice.
Leamnson's (2003):
(a) "classroom research" can be either "scientific" or "action" research.
(b) "institutional research" is generally NOT formative from the standpoint of classroom teachers.
In my opinion, the science education use of pre/post testing [for reviews see Hake (2002; 2004a,b,c)] is usually formative for both action and scientific research, since the object is to improve classroom teaching and learning, NOT to rate instructors or courses.
Richard Hake, Emeritus Professor of Physics, Indiana University
24245 Hatteras Street, Woodland Hills, CA 91367
REFERENCES
Bransford, J.D., A.L. Brown, R.R. Cocking, eds. 2000. How People
Learn: Mind, Brain, Experience, and School: Expanded Edition. Nat.
Acad. Press; online at
Feldman, A. & J. Minstrell. 2000. "Action research as a research
methodology for the study of the teaching and learning of science,"
in E. Kelly & R. Leash, eds., "Handbook of Research Design in
Mathematics and Science Education." Lawrence Erlbaum; online at
Hake, R.R. 2002. "Lessons from the physics education reform effort,"
Ecology and Society 5(2): 28; online at
Hake, R.R. 2003a. "Re: A taxonomy"; online at
Hake, R.R. 2003b. "Re: A taxonomy"; online at
Hake, R.R. 2004a. " Re: Measuring Content Knowledge," online at
Hake, R.R. 2004b. "Re: Measuring Content Knowledge," online at
Hake, R.R. 2004c. "Design-Based Research: A Primer for Physics
Education Researchers," submitted to the "American Journal of
Physics" on 10 June 2004; online as reference 34 at
Hubelbank, J. 2003. "distinction between evaluation and assessment."
EvalTalk post of 13 Nov 2003 10:52:00-0500; online at
Leamnson, R. 2003. "A Taxonomy," STLHE-L/POD post of 9 Jul 2003
10:32:02-0400; online at
Shavelson, R.J. & L. Towne. 2002. "Scientific Research in Education,"
National Academy Press; online at
Stokes, D. E. (1997). "Pasteur's quadrant: Basic science and technological innovation." Brookings Institution Press.
EVALTALK - American Evaluation Association (AEA) Discussion List. See also
the website: http://www.eval.org
To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu
with only the following in the body: UNSUBSCRIBE EVALTALK
To get a summary of commands, send e-mail to listserv@bama.ua.edu
with only the following in the body: INFO REFCARD
To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu
Original Message --------
Subject: Re: Evaluation, Assessment, and Rubrics
Date: Wed, 15 Sep 2004 16:31:10 -0700
From: Richard Hake
In her POD post of 14 Sep 2004 10:00:14-0700 titled "Evaluation, Assessment, and Rubrics," Leora Baron wrote:
I am looking for two items that my fellow POD'ers may be able to provide: First, a definition distinguishing between evaluation and assessment; and second, an online location that has a good description and illustration of rubrics.
I. ASSESSMENT vs EVALUATION If one:
(1) goes to the powerful but little used POD search engine
(2) types into the "Since" slot "2003" (without the quotes), and into the "Subject" slot,
(a) "assessment" (without the quotes), s(he) will obtain 90 hits,
(b) "evaluation" (without the quotes), s(he) will obtain 168 hits,
(c) "assessment vs evaluation" (without the quotes) s(he) will obtain 10 hits.
My own take on "assessment vs evaluation" can be found in Hake (2004). From the perspective of the physics education reform effort [Hake (2002a,b), I find it useful to make NO distinction between "assessment" and "evaluation," but to make a 4-quadrant discrimination cf., Stokes (2000) of types of assessment/evaluation on the basis formative vs summative on one axis and public vs private on an orthogonal axis.
The non distinction between "assessment" and "evaluation," is
contrary to the preferences of: (a) Steve Ehrmann (2004), (b) most of
those contributing to the POD thread "Assessment vs Evaluation," (c)
Mark Davenport (2004), and (d) the "Glossary of Program Evaluation
Terms"
II. RUBRICS If you mean by "rubric": "a technique, custom, form, or thing established or settled (as by authority)" (definition #4 in Webster's Third New International Dictionary Unabridged), then it all depends on what one is attempting to assess/evaluate.
IF it's student learning, and not *affective" impact as might be assessed by student evaluations of teaching (SET's)
(a) Peggy Maki's (2004) recent book might be useful, but I have not seen it. In a POD post of 22 Jul 2004 15:09:54-0400, Barbara Cambridge, Director of the Carnegie Academy Campus Program wrote: "Peggy Maki's new book on assessment is excellent. It is jointly published by Stylus and AAHE."
(b) You might consider pre/post testing using valid and consistently reliable tests developed by disciplinary experts in education research Hake (2004b,c). As indicated in Hake (2004b), this is becoming more and more popular in astronomy, economics, biology, chemistry, computer science, and engineering. In many cases it has been stimulated by the pre/post testing effort in physics education research, initiated by the landmark work of Halloun & Hestenes (1998a,b).
Richard Hake, Emeritus Professor of Physics, Indiana University
24245 Hatteras Street, Woodland Hills, CA 91367
REFERENCES
Davenport, M.A. 2004. "Re: Assessment vs Evaluation," ASSESS post of
13 Aug 2004 12:08:46-0400; online at
Ehrmann, S. 2004. "Re: Evaluation, Assessment, and Rubrics." POD post
of 14 Sep 2004 14:31:48-0700; online at
Hake, R.R. 2002a. "Lessons from the physics education reform effort,"
Ecology and Society 5(2): 28; online at
Hake, R.R. 2002b. "Assessment of Physics Teaching Methods,
Proceedings of the UNESCO-ASPEN Workshop on Active Learning in
Physics, Univ. of Peradeniya, Sri Lanka, 2-4 Dec. 2002; also online
as ref. 29 at
Hake, R.R. 2004a. "Re: Assessment vs Evaluation," online at
Hake, R.R. 2004b. "Re: Measuring Content Knowledge," online at
Hake, R.R. 2004c. "Re: Measuring Content Knowledge," online at
Halloun, I. & D. Hestenes. 1985a. "The initial knowledge state of
college physics students." Am. J. Phys. 53:1043-1055; online at
Halloun, I. & D. Hestenes. 1985b. "Common sense concepts about
motion." Am. J. Phys. 53:1056-1065; online at
Halloun, I., R.R. Hake, E.P Mosca, D. Hestenes. 1995. Force Concept
Inventory (Revised, 1995); online (password protected) at
Hestenes, D., M. Wells, & G. Swackhamer, 1992. "Force Concept
Inventory." Phys. Teach. 30: 141-158; online (except for the test
itself) at
Maki, P. 2004. "Assessing for Learning: Building a Sustainable Commitment Across the Institution." Stylus. Maki is the former Director of Assessment of the AAHE.
Stokes, D. E. 1997. "Pasteur's quadrant: Basic science and technological innovation." Brookings Institution Press.
EVALTALK - American Evaluation Association (AEA) Discussion List. See also
the website: http://www.eval.org
To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu
with only the following in the body: UNSUBSCRIBE EVALTALK
To get a summary of commands, send e-mail to listserv@bama.ua.edu
with only the following in the body: INFO REFCARD
To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu
Einrichtung: 13.06.1998 Letzte Änderung: 01.01.2000
Der unbefangene Sprecher hält das Wort Evaluation für lateinisch, allerdings wird er es in einem lateinischen Wörterbuch vergeblich suchen. Es handelt sich vielmehr um eine romanische Neuentwicklung.
Aus dem lateinischen Verb valere ("bei Kräften sein", "wert sein", stammverwandt mit dem althochdeutschen waltan) entwickelt sich das französische valoir [1]. Dessen Partizip Perfekt valu wird gegen Ende des 12. Jahrhunderts in seiner femininen Form value substantiviert [2] mit der Bedeutung «valeur, prix» [3]. Davon wird wiederum das Verb évaluer und von diesem das Substantiv évaluation [4] gebildet. Im heutigen Französisch bedeutet évaluation "Schätzung", "Ermittlung" oder "Wertbestimmung" [5].
Mit dieser Bedeutung ist das Wort in der Aufklärungszeit ins Deutsche entlehnt worden; allerdings meinte man wohl, ein ursprünglich lateinisches Wort vor sich zu haben, und "verbesserte" die als unlateinisch empfundene Lautfolge ua zu va Evalvation [6]. In dieser Gestalt ist das Wort noch 1960 und 1968 belegt. [7] Danach verschwindet das Wort aus den Nachschlagewerken. [8]
In der Mitte der achtziger Jahre taucht es wieder auf, allerdings in neuer deutscher Lautgestalt und mit einer zusätzlichen Bedeutung: Evaluation als "Beurteilung von Lehrplänen und Unterrichtsprogrammen". [9]
Diese Semantik kann, wie wir gesehen haben, nicht aus dem Französischen kommen. Sie stammt vielmehr aus dem Englischen, wo das aus dem Französischen entlehnte evaluation auch "Einschätzung" und "Auswertung" [10] bedeutet. Dies und die geänderte deutsche Phonetik (u statt v) machen kenntlich, daß es sich nunmehr um eine Neuübernahme aus dem Englischen handelt.
Leider wird das aber im deutschen Sprachgebrauch nicht klar, denn das Wort wird quasi-lateinisch und nicht englisch ausgesprochen. Vom etymologischen Standpunkt wäre aber die englische Aussprache zu bevorzugen, denn es handelt sich schließlich um kein lateinisches Wort. Vielleicht aber sollte man auf den Gebrauch von Evaluation ganz verzichten, denn "Lehrplanbeurteilung" drückt klarer aus, was eigentlich gemeint ist.
Manfred Karbach, Lünen 1998
[1] So seit der Chanson de Roland Ende 11. Jh. «avoir un certain mérite» (Walther von Wartburg: Französisches Etymologisches Wörterbuch. Bd. 14. Basel: Zbinden 1961. S. 153)
[2] Paul Robert: Dictionnaire de la langue française. Tome 6. Paris 1964. p. 933
[3] ebd. S. 132. Wartburg führt als erste Nennung das Jahr 1180, Robert das Jahr 1248 an. Value ist bis ins 17. Jh. gebräuchlich, stirbt danach aber aus (Trésor de la Langue Française. Centre National de la Recherche Scientifi-que. Tome 8. Paris 1980. p. 333)
[4] «1365 évaluacion ‘action d’évaluer’ [...]. Dér. du rad. de évaluer, suff. -tion.» (Trésor de la Langue Française. Centre National de la Recherche Scientifique. Tome 8. Paris 1980. p. 332)
[5] vergl. Erich Weis und Heinrich Mattutat: Pons-Großwörterbuch Französisch-Deutsch. Stuttgart 1988. S. 219
[6] vergl. Duden. Das große Wörterbuch der deutschen Sprache. Bd. 2. Mannheim 21993. S. 996
[7] Duden, Bd. 5: Fremdwörterbuch. Mannheim 1960. S. 179; Gerhard Wahrig: Deutsches Wörterbuch. Bd. 1. Gütersloh 1968. Sp. 1176; beidesmal als veraltet gekennzeichnet.
[8] So haben weder Meyers Enzyklopädisches Lexikon im Bd. 8 (Mannheim 1973) noch Lutz Mackensen: Ursprung der Wörter (München 1985) einen entsprechenden Eintrag.
[9] Duden, Bd. 5: Fremdwörterbuch. Mannheim 61997; so bereits die Brockhaus-Enzyklopädie, Bd. 6, Mannheim 1988; auch die Neubearbeitung des Wahrig hat nunmehr Evaluation (Deutsches Wörterbuch, Gütersloh 1997, S. 450). Zum ersten Mal erscheint Evaluation 1984 (s. auch Fußnote 6).
[10] vergl. Duden-Oxford Großwörterbuch Englisch. Mannheim 1990. S. 247. In dieser Bedeutung im Englischen erstmals 1779 (s. auch The Oxford English dictionary. Vol. 3. Oxford: Clarendon 1933. p. 327)
"From the ambitions of the academic disciplines, from the convulsive reforms of the educational system, from the battle-ground of the War on Poverty, from the ashes of the Great Society, from the reprisals of an indignant taxpaying public, there has emerged evaluation." (Glass, 1976, S. 9)
(Leseprobe aus Hense, J. U. (2006). Selbstevaluation. Erfolgsfaktoren und Wirkungen eines Ansatzes zur selbstbestimmten Qualitätsentwicklung im schulischen Bereich. Frankfurt a. M.: Peter Lang. [Kapitel 3.2])
Im Kontext der historischen Entwicklung von Evaluation, die in den folgenden Abschnitten skizziert wird, ist zunächst die Herkunft des Begriffs von Interesse. Etymologisch lässt sich der Begriff „Evaluation" folgendermaßen herleiten: Obwohl die bei uns übliche Aussprache des Wortes eine Wurzel im Lateinischen vermuten lässt, existiert eine direkte Entsprechung dort nicht. Vielmehr nahm der Begriff erst einen Umweg über das Französische und Englische (Karbach, 2000): Aus dem lateinischen valere („bei Kräften sein", „wert sein") entstand zuerst das französische valoir und daraus über mehrere Zwischenstufen die Neubildung évaluation. In der Aufklärung ist diese nicht nur ins Englische übernommen worden, sondern auch ins Deutsche. Dort ist sie leicht modifiziert als „Evalvation" (sic) mit den Bedeutungen „Schätzung", „Ermittlung" noch bis Mitte des 20. Jahrhunderts nachweisbar, dann aber verschwunden. In Folge der nordamerikanischen Evaluationsexpansion der 1960er Jahre kam es dann zu einer erneuten Entlehnung, dieses Mal aber aus dem Englischen mit der aktuellen Bedeutung. Etymologisch gesehen handelt es sich bei dem deutschen „Evaluation" in der heutigen Bedeutung also trotz der latinisierten Aussprache um eine direkte Übernahme aus dem Englischen.
Eine Praxis der Evaluation lässt sich bis in die Renaissance, die ihr zugrunde liegende Denktradition sogar bis in die Antike zurückverfolgen (vgl. Cronbach et al., 1980; Henninger, 2000). Für das Bildungswesen werden üblicherweise die Entwicklungen in den USA der 1930er und 1940er Jahre als Ursprung der modernen Evaluationspraxis gesehen. Da auch in den folgenden Jahrzehnten maßgebliche Impulse von Nordamerika ausgingen, wird im Folgenden zunächst die internationale Entwicklung dargestellt (Kapitel 3.2.1). Auf die Besonderheiten der bundesdeutschen Evaluationsgeschichte wird anschließend in Kapitel 3.2.2 eingegangen.
Für die Darstellung der Evaluationsgeschichte liegen verschiedene Einteilungen in historische Phasen vor, die sich vor allem im Grad ihrer Differenzierung unterscheiden (Cook & Matt, 1990; Cronbach et al., 1980; Shadish et al., 1991). Für den Bildungsbereich bietet sich besonders die Einteilung in fünf Phasen von Madaus und Stufflebeam (2000; vgl. Walberg & Haertel; 1990) an, welche die internationalen und insbesondere nordamerikanischen Entwicklungen zusammenfasst und daher der folgenden Darstellung zugrunde gelegt wird (vgl. Tabelle 1).
Tabelle 1: Phasen der Evaluationsgeschichte nach Madaus und Stufflebeam (2000)
Phase Dauer Die Tylersche Phase 1930-1945 Die Phase der Stagnation 1946-1957 Die Phase der Expansion 1958-1972 Die Phase der Professionalisierung und Diversifizierung 1973-1982 Die Phase der Integration seit 1983
Bahnbrechend für die moderne Evaluation waren Arbeiten von Ralph W. Tyler, der oft auch als „Vater der Bildungsevaluation" bezeichnet wird. Vor dem Hintergrund der Depression der dreißiger Jahre und den Reformprogrammen des New Deal von Präsident Roosevelt kam es in den USA unter dem Stichwort Progressive Education Movement zu umfangreichen Reformbemühungen im Bildungswesen. Tyler war im Rahmen der berühmten Eight Year Study verantwortlich für die Untersuchung der differentiellen Effekte verschiedener Schulformen. Im Rahmen dieser Arbeiten entwickelte er sein Konzept der Evaluation, in dessen Mittelpunkt der Vergleich der beabsichtigten Ziele eines Curriculums mit den tatsächlich erreichten Lernergebnissen der Schüler steht (Tyler, 1935, 1942; vgl. Kapitel 3.1.2).
Da bis dato vor allem die Lehrerqualifikation und Input-Faktoren auf organisationaler Ebene herangezogen wurden, um die Produktion von Bildung zu gewährleisten, schuf Tyler durch die Betonung der Outputs von Lernprozessen ein alternatives Modell zur Steuerung von Bildungssystemen und institutionen. Weitere Innovationen bestanden in der Überwindung subjektiver Verfahren der Leistungsüberprüfung und die Anwendung wissenschaftlicher Verfahren im Kontext größerer Reformvorhaben. Dadurch übten seine Arbeiten einen erheblichen Einfluss auf die weitere Entwicklung aus (Madaus & Stufflebeam, 2000).
In der Nachkriegszeit beschränkte sich die Weiterentwicklung von Evaluationsverfahren auf methodische Aspekte. Dazu gehörte die Ausweitung landesweit standardisierter Leistungstests, mit denen einzelne Schulen und Schuldistrikte die Erreichung curricularer Lernziele vergleichend überprüfen konnten. Daneben kam es zu einer Weiterentwicklung experimenteller Designs und des Tylerschen Evaluationsansatzes. Betrachtet man allerdings die damalige Bedeutung von Evaluation für die allgemeine gesellschaftliche Entwicklung und den Bildungsbereich insgesamt, ist eine relative Bedeutungslosigkeit festzustellen. Madaus und Stufflebeam (2000) nennen diese Phase daher „Age of Innocence" oder sogar „Age of Ignorance" (p. 9), da trotz vorhandener gesellschaftlicher Defizite kaum ein Bedarf für Evaluation gesehen wurde.
Als Auslöser für die große Expansionsphase der Evaluation wird häufig der „Sputnikschock" im Jahr 1957 genannt, als es der UdSSR erstmals gelang, einen künstlichen Satelliten in eine Erdumlaufbahn zu befördern (Stufflebeam, 2001). Diese überraschende Demonstration technologischer Überlegenheit durch ein unterlegen geglaubtes System führte zu einer allgemeinen Verunsicherung und Ängsten in Bezug auf die eigene Verteidigungsfähigkeit. Die in der Folge initiierten Reformbemühungen erfassten vor allem das Bildungssystem in starkem Maße. Insbesondere im Bereich Mathematik und Naturwissenschaften kam es zu großen landesweiten Programmen der Curriculumreform. Ein weiterer Schub ergab sich durch den von der Johnson-Administration 1965 ausgerufenen war on poverty, der die großen sozialen Missstände und Ungleichheiten jener Zeit beseitigen wollte. Auch hier wurden umfangreiche Reformprogramme aufgelegt, deren Effektivität im Rahmen begleitender Evaluationen überprüft wurde. Allgemein entstand also ein erhöhter Bedarf nach Überprüfung und objektivierter Steuerung gesellschaftlicher Entscheidungsprozesse, der durch Evaluationen gedeckt werden sollte (Shadish et al., 1991). Die Erwartung an Evaluation lautete dabei im Sinne von Poppers (1992) „Sozialtechnik der kleinen Schritte" (S. 187), den schrittweisen Umbau der Gesellschaftsordnung wissenschaftlich lenken zu können. Am exemplarischsten fanden diese Ideen ihren Ausdruck in Campbells (1969) Sichtweise von „reforms as experiments" und seinem Begriff der „experimenting society".
Mit der Ausweitung der Praxis der Evaluation zeigten sich allerdings auch erste Schwächen der bis dahin dominierenden Evaluationsmethoden, zu denen das Tylersche Zielerreichungsmodell, standardisierte Leistungstests und das klassische Experiment mit Kontrollgruppenversuchsplan gehörten. Diese ausschließlich auf Endergebnisse fokussierenden Methoden erwiesen sich als wenig tauglich, um jene Informationen zu liefern, die zur Optimierung der Praxis vonnöten waren. Cronbach (1963) war der erste, der auf diese Problematik hinwies und damit die Idee einer Evaluation für Verbesserungszwecke schuf, für die Scriven (1972) später die Bezeichnung „formative Evaluation" etablierte. Gleichzeitig begann sich jenes Phänomen abzuzeichnen, für das Rossi (1987) die pessimistischen, zugleich aber auch ironisch gemeinten „metallic and plastic laws of evaluation" formulierte:
Prototypisch für Rossis Diagnose kann beispielsweise die bekannte „What works'"-Studie von Martinson (1974) gelten. Sie fasste die damals vorliegenden Evaluationsergebnisse zu verschiedenen Rehabilitationsmaßnahmen für Strafgefangene zusammen und kam im Wesentlichen zum Schluss: „nothing works". Martinsons methodisches Vorgehen konnte später als defizitär und sein Fazit damit als ungültig belegt werden (Sarre, 2001). Darin drückte sich auch ein methodischer Fortschritt für die Disziplin aus, denn nicht zuletzt aufgrund dieser krisenhaften Entwicklungen resultierte gegen Ende der Expansionsphase der Evaluation auch eine Expansion der Evaluationsforschung (vgl. Kapitel 3.1.4.2). Wesentliche Paradigmen und Prämissen der frühen Phasen der Evaluationsgeschichte wurden dabei einer Überprüfung unterzogen, wodurch einer weitgehenden Umorientierung und Neukonzeptionalisierung des gesamten Felds der Weg bereitet wurde. Sie kann durch die Stichworte Professionalisierung und Diversifizierung charakterisiert werden.
Im Laufe der siebziger Jahren stellten sich eine Reihe von Entwicklungen ein, die von Madaus und Stufflebeam (2000) als Anzeichen einer zunehmenden Professionalisierung der Evaluation gedeutet werden (vgl. Rossi, 1984):
Neben solchen Professionalisierungstendenzen zeichnete sich in dieser Phase auch eine deutliche Diversifizierung der Praxis ab (Shadish et al., 1991). Eine Fülle neuer Evaluationsansätze und modelle entstand und etablierte sich, von denen viele, teils in einer weiterentwickelten Fassung, heute noch als aktuell gelten können (Alkin, 2004). Darunter befinden sich beispielsweise das CIPP-Modell von Stufflebeam (1973, 2003), das Konzept der zielfreien Evaluation von Scriven (1973), die responsive Evaluation von Stake (1975) oder naturalistische Evaluationsansätze (Guba, 1987). Daneben erschienen in dieser Phase die Erstauflagen wichtiger Lehrbücher (v.a. Rossi, Freeman & Wright, 1979; Weiss, 1972a), die heute in ihren aktualisierten Neuauflagen immer noch als Standardwerke gelten (Rossi et al., 2004; Weiss, 1998).
Negativ äußerte sich die Diversifizierung dieser Phase allerdings in zweierlei Hinsicht. Erstens gab es neben vielen wegweisenden Entwicklungen auch viel „Wildwuchs". Popham (1993) charakterisiert treffend: „For a time it appeared that an educational evaluation model was being generated by anyone who (1) could spell educational evaluation and (2) had access to an appropriate number of boxes and arrows" (p. 23). Einige der damals konzipierten Evaluationsansätze, die aus heutiger Sicht leicht exotisch wirken, sind inzwischen zurecht wieder in der Versenkung verschwunden. Ein zweites Problem stellte die zunehmende Polarisierung in der evaluationstheoretischen Auseinandersetzung dar, deren Lager als positivistisch-quantitativ auf der einen Seite und phänomenologisch-qualitativ auf der anderen Seite bezeichnet werden können (vgl. Kapitel 3.4.4). Diese Auseinandersetzung betrifft vordergründig methodische Fragen, im Grunde drückt sie aber eher ideologische und epistemologische Differenzen aus (Madaus & Stufflebeam, 2000).
Neben Professionalisierung und Diversifizierung ist diese Phase durch ein drittes wichtiges Phänomen gekennzeichnet, die aufkommende bzw. sich verstärkende Nutzungskrise der Evaluation (Legge, 1984; vgl. Kapitel 3.5.1). Erste Fragen zur Nutzung von sozialwissenschaftlichen Forschungsergebnissen allgemein und Evaluationsergebnissen im Speziellen kamen bereits Ende der 1960 auf. Wegweisend waren dabei die Arbeiten von Weiss (1972b, 1972c). Diese lösten in der Folge breite Diskussionen aus, zu denen auch vielfältige theoretische und empirische Forschungsbemühungen zu der Frage gehörten, wann und wie Evaluationsergebnisse überhaupt in der Praxis aufgegriffen und genutzt werden (Alkin, 1985; Alkin, Daillak & White, 1979; Ciarlo, 1981; Leviton & Hughes, 1981; Patton, 1997c; Patton et al., 1977; Weiss, 1981). Insgesamt konnten nur wenige empirische Belege dafür gefunden werden, dass Ergebnisse von Evaluation in dem Maße oder in der Art von Entscheidungsträgern und in der öffentlichen Debatte verwendet wurden, wie es vorgesehen war (Cook, 1997). Da aber Evaluation im Gegensatz zur Grundlagenforschung gerade durch ihre Handlungsorientierung (vgl. Kapitel 3.1.4.1) gekennzeichnet ist, stellte sich angesichts der Erkenntnis, dass konkrete Handlungen in Folge von Evaluationsergebnissen offenbar nur selten zu beobachten waren, die Sinnfrage (Alkin et al., 1979; Cronbach et al., 1980).
Das Zwischenfazit am Ende dieser Phase war also ein ernüchterndes: „Complaint has accompanied the expansion of evaluation. Everybody seems to think that evaluation is not rendering the service it should." (Cronbach et al., 1980, p. 44). Allerdings bleibt festzuhalten, dass die Nutzungskrise der Evaluationsforschung ein äußerst fruchtbares Forschungsgebiet erschlossen hat. Denn heute kann die Evaluationsnutzung als das bisher am besten untersuchte Teilgebiet der Forschung über Evaluation gelten (Leviton, 2003).
Die Nutzungskrise der Evaluation trug etwa seit Beginn der 1980er Jahre wesentlich zu einer Neu- und Umorientierung des gesamten Feldes bei. Nachdem gezeigt wurde, dass Evaluationsergebnisse in der bisherigen Praxis häufig nicht in konkreten Entscheidungssituationen herangezogen wurden, waren verschiedene Teilentwicklungen zu beobachten. Sie werden an dieser Stelle nur skizziert, da sie ein wichtige Rolle im Kontext der Kritik spielt, die an der traditionellen Evaluationspraxis geübt wurde, und in Kapitel 3.5 genauer diskutiert werden. Verkürzt lassen sich drei Tendenzen feststellen:
Auch in Folge dieser Entwicklungen trat der Methodenstreit zwischen quantitativem und qualitativem bzw. positivistischem und phänomenologischem Lager in den Hintergrund. Es kann zwar nicht behauptet werden, dass die methodische Polarisierung endgültig überwunden wurde. Dennoch ist unverkennbar, dass der Methodenstreit in dieser Phase an Bedeutung verliert. Stattdessen ergibt sich aus der Nutzungsdebatte zunehmende Akzeptanz für einen an praktischen Zwecken orientierten Methodeneklektizismus. Dies drückt sich beispielhaft in den neueren Auflagen des Standardlehrbuchs von Rossi et al. (2004) aus, in dem es nicht mehr um das eine, „richtige" Verfahren der Evaluation geht, sondern darum, Evaluationen je nach Kontext und Gegebenheiten „maßzuschneidern". Die Wahl der Methoden und Verfahren ist also in erster Linie eine Frage danach, was in welcher Situation als zweckdienlich und zielführend angesichts der vorliegenden Anforderungen gelten kann.
Gegensätze und Widersprüche der vergangenen Evaluationsgeschichte werden also zunehmend überbrückt und integriert, was nach Shadish et al. (1991) exemplarisch in den Arbeiten von Cronbach (1982; Cronbach et al., 1980) und Rossi (Rossi et al., 2004) deutlich wird. Gleichzeitig zeigt ihre umfassende theoriegeschichtliche Aufarbeitung des Felds auch, dass zwar bei vielen Fragen inzwischen weitgehende Einigkeit erzielt werden konnte, dennoch aber viele wesentliche evaluationstheoretische und praktische Fragen weiterer Klärung bedürfen.
Auf Seite der Praxis war diese Phase in Nordamerika gekennzeichnet durch die wachsende Bedeutung des Wettbewerbs als Faktor im Bemühen um Qualität in der Bildung und in anderen gesellschaftlichen Bereichen. Unter den Vorzeichen Rechenschaftslegung und Ergebnisüberprüfung fand Evaluation einen festen Platz im öffentlichen Bewusstsein und bei politischen Entscheidungsprozessen (Madaus & Stufflebeam, 2000).
Nachdem die bisherigen Darstellungen sich weitgehend an der internationalen Diskussion orientierten, welche durch die nordamerikanischen Entwicklungen stark geprägt ist, geht der folgende Abschnitt auf die Besonderheiten der bundesdeutschen Debatte ein.
Während in Nordamerika als Anfangspunkt der Evaluation im modernen Sinn die 40er Jahre des vorigen Jahrhunderts gelten können, setzt eine vergleichbares Fachinteresse in der Bundesrepublik erst in den 1970er Jahren ein (Lange, 1983; Müller, 1987; Wollmann, 1994). Einige Grundlinien der Entwicklungen im angloamerikanischen Raum sind dabei mit Verzögerung im deutschen Sprachraum zu beobachten (vgl. Stangel-Meseke & Wottawa, 1993; Will & Krapp, 1983). Allerdings liegen ihnen hier jeweils spezifische Begründungszusammenhänge und Bedürfnislagen zugrunde, die sich etwa auch in unterschiedlichen Formen der institutionellen Verankerung von Evaluation äußerte. So lässt sich momentan die deutsche Entwicklung im Gegensatz zur internationalen Entwicklung noch nicht in ein sinnvolles Phasenmodell bringen.
Den gesellschaftlichen Hintergrund der beginnenden Evaluationstätigkeiten stellen auch hier allgemeine Reformbemühungen seit den 1960er Jahren und insbesondere die beschleunigte Bildungsexpansion der 1970er Jahre dar (Lange, 1983). Dabei fand eine erste vertiefte Auseinandersetzung mit theoretischen und praktischen Fragen der Evaluation insbesondere im Rahmen von Reformbemühungen und Modellversuchen zur Curriculumentwicklung statt, die bereits im letzten Drittel der sechziger Jahre begonnen hatten (Frey, 1975; Neul, 1977; Wulf, 1971). Wulf (1975a) sieht als soziale Funktion (vgl. Kapitel 3.3) damaliger Evaluationstätigkeiten vor allem Legitimationsprobleme des staatlichen Bildungssystems. Sie entstünden dadurch, dass selbstgesetzte Ansprüche und Erwartungen der Öffentlichkeit nicht erfüllt werden. Vor allem Bildungsverwaltungen wollten wissenschaftliche Evaluation als Mittel nutzen, um ein chronisches Legitimitätsdefizit zu lindern und politische und planerische Entscheidungen in der Öffentlichkeit abzusichern.
Für öffentlich geförderte Evaluationsprojekte war ein 1971 geschlossenes Verwaltungsabkommen zwischen Bund und Ländern besonders wichtig, aus dem die heutige Bund-Länder-Kommission für Bildungsplanung und Forschungsförderung (BLK) hervorging (Scholz, 1984). Im Rahmen von Modellversuchen und Modellversuchsprogrammen, mit denen die BLK Innovationen im Bildungswesen initiiert und begleitet, spielte auch Evaluation eine wachsende Rolle (Lange, 1983; Stangel-Meseke & Wottawa, 1993). Weiterer Evaluationsbedarf im Bildungswesen ergab sich im Kontext der Auseinandersetzung um die Gesamt- und Regelschule (vgl. Wittmann, 1990), die auch Anlass für evaluationsmethodologische Diskussionen waren (Wottawa, 1981). Ein Symposium zum Thema Evaluation fand 1982 im Rahmen der Herbsttagung der Arbeitsgruppe für Empirische Pädagogische Forschung (AEPF) in der Deutschen Gesellschaft für Erziehungswissenschaft (DGfE) in Wien statt (Will & Krapp, 1983). Dort kam es zwar zu Ansätzen einer vielversprechenden Auseinandersetzung über evaluationstheoretische und praktische Fragestellungen, wie etwa die Frage der notwendigen Praxisnähe, die jedoch, zumindest wenn man ihren Ertrag in der Literatur aufzuspüren versucht, relativ folgenlos blieb.
Nach einer ersten „Blüte" im Bildungswesen der 1970er geriet also Evaluation während des folgenden Jahrzehnts für praktisch und theoretisch tätige Pädagogen eher an den Rand des Blickfelds, so dass Beywl (1999) sogar von einer „winterschlafenden Evaluationsdiskussion" (S. 2) spricht. Für Lange (1983) stellt sich die Entwicklung anders dar. Ihm zufolge bleibt das Aufkommen an Evaluation im Bildungswesen zwar in etwa konstant, es kommt aber in zweierlei Hinsicht zu allmählichen Verlagerungen, die einen Kontinuitätsbruch zur heutigen Entwicklung darstellen. Zum einen werden Evaluationen nicht mehr nur von rein wissenschaftlich orientierten Hochschulinstitutionen durchgeführt, sondern immer häufiger unter direkter Aufsicht der Bildungs- und Kulturverwaltungen. Dieser Trend manifestiert sich in der Schaffung eigener Forschungsinstitutionen der Länder, die als nachgeordnete Dienststellen der Kultusverwaltungen fungieren. Zum anderen gewinnen im Kontext allgemeiner wissenschaftssoziologischer Entwicklungen die Methoden und Paradigmen der Handlungsforschung (Heinze, Müller, Stickelmann & Zinnecker, 1975a) eine zunehmende Dominanz bei praktischen Evaluationsvorhaben. Vor dem Hintergrund dieser Trends am Ende eines ersten Evaluationsbooms in der BRD überrascht es nicht, wenn Lange (1983) feststellt, dass sich in Deutschland zum damaligen Zeitpunkt noch keine wissenschaftlicher Diskurs über theoretische und methodische Voraussetzungen der Evaluation herausbilden konnte. Erst im Laufe der 1990er Jahre kommt es angesichts der in Kapitel 2 geschilderten gesellschaftlichen Hintergründe und Entwicklungen zu einer Wiederbelebung des Evaluationsdiskurses.
Parallel zur Entwicklung bis zu diesem Zeitpunkt verläuft die Rezeption der internationalen Fachdiskussion. Zu Beginn der deutschen Evaluationspraxis kann noch eine relativ intensive Auseinandersetzung mit dem internationalen Diskurs festgestellt werden. Dafür steht etwa die Aufsatzsammlung von Wulf (1972), in der nicht nur einige theoretische Beiträge von prominenten Autoren wie Cronbach, Scriven, Stake, Stufflebeam, Alkin oder Glass in deutscher Übersetzung vorgelegt wurden, die heute noch als seminal writings nicht nur der pädagogischen Evaluationsliteratur gelten, sondern auch mehrere beispielhafte „klassische" Studien wie beispielsweise „Das erste Jahr von Sesame Street" von Ball und Bongatz (1972). Auch das im gleichen Jahr erschienene Lehrbuch von Weiss (1972a) wurde zwei Jahre später in deutscher Übersetzung aufgelegt. Danach scheint aber, parallel zum Abflauen des allgemeinen Evaluationsdiskurses, die Wahrnehmung der angelsächsischen Entwicklungen zu erlahmen (Beywl, 1999). Insbesondere die Fortschritte, die sich seit der Phase der Professionalisierung und Diversifizierung ergeben haben (vgl. Kapitel 3.2.1.4), sind bis auf Ausnahmen hierzulande kaum aufgegriffen worden (Beywl, 1991). Prototypisch kann dafür das einzige deutschsprachige Lehrbuch von Wottawa und Thierau (1998) genannt werden, das auch in seiner aktuellen zweiten Auflage die nordamerikanische Entwicklung wenn überhaupt nur etwa bis Mitte der 1970er Jahre reflektiert.
Will man den gegenwärtigen Stand der deutschen Evaluationsdiskussion im internationalen Vergleich verorten, so fallen in erster Linie Ähnlichkeiten zur Phase der Professionalisierung und Diversifizierung auf. Dies sei an den drei in Kapitel 3.2.1.4 genannten Kennzeichen dieser Phase (Professionalisierung, Diversifizierung, Nutzungskrise) erläutert.
Während Stangel-Meseke und Wottawa (1993) noch keinerlei Anzeichen einer Professionalisierung der Evaluation in der BRD beobachten konnten, haben sich seitdem einige wichtige Entwicklungen vollzogen. So gründete sich 1997 die Deutsche Gesellschaft für Evaluation (DeGEval) in Köln als Berufs- und Interessensverband für Personen und Organisationen, die sich praktisch oder theoretisch mit Evaluation befassen. Die DeGEval war unter anderem verantwortlich für eine Adaption der Standards für Evaluation des Joint Committee (1994), die allerdings nur geringfügig an die hiesigen Besonderheiten angepasst wurden (DeGEval, 2002). Als einzige deutschsprachige Fachzeitschrift existiert seit 2002 die Zeitschrift für Evaluation, die ebenfalls von der DeGEval ausgeht. Eigene Aus- bzw. Fortbildungsgänge für eine Tätigkeit als Evaluator existieren momentan in Form eines postgradualen Studiengangs Evaluation der Universität Bern und als Fortbildungsprogramm Evaluation in der Entwicklungszusammenarbeit beim Centrum für Evaluation der Universität des Saarlandes in Saarbrücken. Ein auf das Praxisfeld Pädagogik zugeschnittener Studiengang existiert dagegen noch nicht.
Auch Anzeichen einer zunehmenden konzeptionellen Diversifizierung sind im deutschen Sprachraum zu beobachten. Im Gegensatz zur rein begrifflichen Diversifizierung, die bereits seit Neuerstarken der Evaluationspraxis Mitte der 1990er Jahre als eher negative Begleiterscheinung des Evaluationsdiskurses zu beobachten ist (vgl. Kapitel 3.2.2), kommt es in den vergangenen Jahren zu einer Erweiterung konzeptioneller Ansätze und Herangehensweisen bei der praktischen Umsetzung von Evaluation. Eine wichtige Rolle spielen dabei eine inzwischen wieder intensivierte Auseinandersetzung mit der internationalen Debatte und ein zunehmender Austausch zwischen den verschiedenen Fachdisziplinen, in denen Evaluation betrieben wird.
Als drittes Merkmal des gegenwärtigen Stands der Theorie- und Praxisentwicklung sind auch in der BRD schon seit längerem Anzeichen einer Nutzungskrise zu verzeichnen (vgl. Wittmann, 1990). Gerade im bildungspolitischen Bereich wurde beobachtet, dass Evaluationen oft nicht für Entscheidungszwecke herangezogen werden, sondern eher, um bereits getroffene Entscheidungen besser „verkaufen" zu können (Will & Krapp, 1983). Diesen Ergebnissen entsprechen die von Thonhauser und Patry (1999) referierten Befunde. Sie stellen fest, dass die Hoffnung, Evaluationen von Schulversuchen als Entscheidungsgrundlage für die Bildungspolitik zu nutzen, sich bei verschiedenen Beispielen der siebziger und frühen achtziger Jahre nicht erfüllt hat. Die Evaluationsergebnisse wurden demnach bestenfalls als Anlass für Ad-hoc-Argumente verwendet, selten aber im Sinn der tatsächlichen Ergebnisse. Auch an den Erfahrungen der Autoren aus der eigenen Praxis wird deutlich, dass die Beteiligten im Feld (Befürworter und Gegner einer evaluierten Innovationsmaßnahme) Evaluation oft hauptsächlich als ihren Interessen dienlich bzw. bedrohlich empfinden, der Glaube an eine mögliche Verbesserungsfunktion und Objektivität der Evaluation aber wesentlich geringer ausgeprägt ist.
Aktuelle Beispiele für eine mangelnde Nutzung und Akzeptanz von Evaluationsergebnissen durch Lehrkräfte sind im Kontext jüngerer Modellvorhaben und internationaler Schulleistungsstudien zu finden. Ditton und Arnoldt (2004) fanden, dass selbst wenn Lehrer die Rückmeldung von Evaluationsergebnissen verständlich, gut erläutert, informativ und übersichtlich beurteilen, sie die Verwertbarkeit für konkrete Verbesserungen der Unterrichtsarbeit weniger günstig einschätzen. Nach Schwippert (2004) machten im Kontext der internationalen Grundschul-Vergleichsuntersuchung IGLU nur die Hälfte aller Lehrkräfte von der Möglichkeit Gebrauch, individuelle Rückmeldungen zu erhalten, um Informationen über den relativen Leistungsstand ihrer Klassen zu bekommen. Hier bestehen offenbar von vorne herein Zweifel über den möglichen Nutzen der Rückmeldung solcher Ergebnisse. Auch Schrader und Helmke (2004) berichten von einer deutlichen Reserviertheit der Lehrkräfte gegenüber der Nutzung von Evaluationsrückmeldungen im Rahmen der rheinland-pfälzischen Evaluationsstudie MARKUS. Eine Diskussion weiterer Beispiele für die mangelnde Akzeptanz und Nutzung von Evaluationsergebnissen leisten Henninger und Balk (2001).
Das Problem der unzureichenden Nutzung von Evaluationsergebnissen scheint inzwischen erkannt und in der deutschsprachigen Diskussion aufgegriffen worden zu sein. Stockbauer (2000) hat die wichtigsten Erträge der internationalen Nutzungsforschung zusammengefasst. Ein von Kohler und Schrader (2004) herausgegebenes Themenheft von Empirische Pädagogik enthält verschiedene Untersuchungen, die sich mit dem Themenkomplex Ergebnisrückmeldung und Rezeption von Evaluationsergebnissen auseinandersetzen.
Auch in der Evaluationsmethodik vollzieht sich in Deutschland eine langsame Wende im „Hegemoniestreit" (Lassnigg, 1997). Während beim oben erwähnten AEPF-Symposium Anfang der achtziger Jahre (Will & Krapp, 1983) die Vertreter einer pragmatischen Sichtweise von Evaluation, die sich in erster Linie dem Praxisnutzen von Evaluation verpflichtet fühlen, offenbar noch stark in der Defensive waren, finden sich zunehmend Belege für einen Abschied von der alleinigen Dominanz der methodenfixierten Sichtweise von Evaluation, wie sie durch den Paradigmenstreit zwischen kritischen Rationalismus und Handlungsforschung oder zwischen qualitativen und quantitativen Methoden provoziert wurde. So postuliert Kromrey (2001b) als eine der Besonderheiten der Evaluation als angewandte Sozialwissenschaft ein Primat der Praxis. Im Zweifel hat demnach das Ziel, Handlungswissen für die Praxis bereitzustellen, vor rein wissenschaftlichen Ansprüchen zu rangieren. Lassnig (1997) stellt fest, dass sich insgesamt eine pragmatische Sichtweise zu etablieren beginnt, in der die verschiedenen Ansätze und Verfahren der Evaluation mit ihren spezifischen Stärken und Schwächen anerkannt werden.
Insgesamt scheint sich also heute ein Trend abzuzeichnen, der zu einer Entwicklung führen kann, wie sie für die Phase der Integration (vgl. Kapitel 3.2.1.5) in der internationalen Evaluationsgeschichte festgestellt worden ist: Eine pragmatische Sichtweise von Evaluation als Element geplanter sozialer Veränderungsprozesse setzt sich durch, deren Erfolg in erster Linie in einer nachhaltigen und sinnvollen Nutzung ihrer Ergebnisse gesehen wird. Methodisch ergibt sich daraus der Abschied von der Vorstellung, es gebe nur eine richtige Art und Weise, Evaluation zu betreiben, die für alle Situationen Gültigkeit hat. Sie wird ersetzt durch einen gewissen Eklektizismus, der je nach Zielsetzung und Kontext eines gegebenen Evaluationsprojekts jene Methoden und Verfahren auswählt, die zweckdienlich und zielführend erscheinen. Als Absicherung gegenüber Fehlentwicklungen dienen nicht alleine die Gütekriterien sozialwissenschaftlicher Forschung, sondern vor allem fachspezifische Standards für Evaluation (z. B. DeGEval, 2002).
(Leseprobe aus Hense, J. U. (2006). Selbstevaluation. Erfolgsfaktoren und Wirkungen eines Ansatzes zur selbstbestimmten Qualitätsentwicklung im schulischen Bereich. Frankfurt a. M.: Peter Lang. [Kapitel 3.2])
(Leseprobe aus Hense, J. U. (2006). Selbstevaluation. Erfolgsfaktoren und Wirkungen eines Ansatzes zur selbstbestimmten Qualitätsentwicklung im schulischen Bereich. Frankfurt a. M.: Peter Lang. [Kapitel 2.3])
Das zunehmende Interesse an Qualität im Bildungswesen kann also als „semantische Begleitung" struktureller Veränderungen im Bildungssystem und der Gesamtgesellschaft verstanden werden (Kuper, 2002). Damit hat die Qualitätsdiskussion viele Ursachen auf unterschiedlichen Ebenen. Ebenso mannigfaltig sind die Reaktionen, die durch die Diskussion ausgelöst wurden bzw. parallel zu ihr zu beobachten sind. Die wichtigsten und häufigsten Antworten auf diese Fragen lassen sich unter den vier Schlagworten veränderte Steuerungskonzepte, Bildungsstandards, Professionalisierung und Evaluation zusammenfassen. Wie die folgende Diskussion der vier Reaktionstendenzen zeigt, bestehen auch hier deutliche Interdependenzen.
Im Bereich der öffentlich finanzierten Bildung stellte die Inputsteuerung lange Zeit das dominierende Steuerungskonzept in Schulen und Hochschulen dar (Müller-Böling, 1997; Rolff, 1996). Auf Systemebene wird dabei die Produktion von Qualität primär durch gesetzliche Vorgaben und Verordnungen, Lehrpläne und die Reglementierung der Lehreraus- und fortbildung geregelt. Auch auf Ebene der einzelnen pädagogischen Institution stand die Regulierung des Inputs lange im Vordergrund, indem sich das Hauptaugenmerk auf die Qualifikation und Auswahl von Lehrenden in Schule und Hochschule konzentrierte. Die zugrunde liegende Annahme dabei ist, dass Qualität sich dann einstellt, wenn sichergestellt wird, dass Lehrende zum Zeitpunkt der Einstellung gut ausgebildet und ausreichend qualifiziert sind. Prozess- und Produktmerkmale haben dagegen bei dieser Steuerungsphilosophie nur eine geringe Relevanz.
Nachdem sich die Inputsteuerung im deutschen Bildungswesen lange Zeit durchaus bewährt hat (Kuper, 2002; Marksthaler, 1999), sind als Reaktion auf die neuere Qualitätsdebatte Zweifel aufgekommen, ob diese bürokratische Steuerungsphilosophie veränderten Bedingungen noch gerecht werden kann (Steffens, 1999). Insbesondere ihre Inflexibilität und Trägheit sowie die Missbrauchsgefahr in Folge fehlender Kontrollmöglichkeiten spielten dabei eine Rolle (Müller-Böling, 1997; Posch & Altrichter, 1998). In der Folge kam es somit zu einer Öffnung des Bildungsbereichs für alternative Steuerungsmodelle und techniken, die sich sämtlich durch eine stärkere Betonung der Prozesse und Produkte von Bildungsmaßnahmen auszeichnen. Im Gegensatz zur reinen Inputsteuerung lautet dabei die Erwartung, dass Schwachstellen in der laufenden Arbeit schneller aufgedeckt und verbessert werden können und dass flexibler auf veränderte Rahmenbedingungen reagiert werden kann.
Zu den neuen Steuerungsverfahren gehören unter anderem übergreifende Konzepte und Ansätze aus den Bereichen Qualitätssicherung (Donabedian, 1996), Qualitätsmanagement (Beywl, 1994; Dubs, 1998; Greve & Pfeiffer, 2002) und Bildungscontrolling (Hense, Mandl & Schratzenstaller, 2005; Seeber, 2002) sowie eine Reihe weiterer Techniken und Verfahren wie etwa Qualitätszirkelarbeit (Blenck, 2000), Gütesiegel (Liebald, 1998), Benchmarking (Bessoth, 2000; Halfar & Lehnerer, 1997), Balanced Scorecards (Kaplan & Norton, 1992) oder die Normenreihe DIN EN ISO 9000-9004 (Wunder, 1995; Wuppertaler Kreis, 1996). Wie diese Aufzählung zeigt, gingen bei der Suche nach alternativen Steuerungsmodellen starke Impulse vom betrieblichen Bereich aus.
Eine Marktübersicht ausgearbeiteter Qualitätssicherungs- und Qualitätsmanagementsysteme für den Bildungsbereich von Gonon et al. (1998) zeigte bereits eine große Vielfalt. Die Ansätze unterscheiden sich teils erheblich in Faktoren wie der konkreten Zielsetzung, der konzeptionellen Fundierung, dem Grad der Standardisierung oder dem Vorgehen. Gleichzeitig liegen jenseits von Pilotprojekten bisher kaum Umsetzungsbeispiele in der Praxis vor. Dies kann auch auf eine starken Skepsis gegenüber betrieblich und marktwirtschaftlich orientierten Steuerungsphilosophien zurückgeführt werden, die insbesondere im schulischen Bereich verbreitet ist (vgl. Altrichter, 1999; Dubs, 1998). Daher wird gewöhnlich empfohlen, diese nicht unverändert zu übernehmen, sondern immer erst an die spezifischen Gegebenheiten des Bildungswesens und pädagogischer Institutionen anzupassen (Reinmann-Rothmeier, 2000; Schicke, 1997). Ohnehin erscheint aufgrund einiger unüberwindlicher, systembedingter Unterschiede von Marktwirtschaft und Bildungswesen die unkritische Übertragung der betriebswirtschaftlichen Logik auf Bildungsinstitutionen allgemein problematisch (vgl. Fend, 2000; Gonon et al., 1998).
Die Diskussion von Bildungsstandards kann ebenfalls als Reaktion auf die neuere Qualitätsdebatte genannt werden. Bildungsstandards haben die Funktion, die Ziele pädagogischer Arbeit für einen bestimmten Geltungsbereich präzise und verständlich festzulegen. Dazu gehört, dass diese Ziele in Form von erwünschten Lernergebnissen der Lernenden explizit gemacht werden (OECD, 1989). Im Gegensatz zu klassischen Curricula wird also einerseits die unmittelbare Operationalisierbarkeit von Lernzielen angestrebt, während andererseits keine Vorgaben gemacht werden, wie und mit welchen Methoden diese zu erreichen sind. So kommt etwa der auf Standards umgestellte finnische Rahmenlehrplan für den grundbildenden Unterricht mit Anhängen auf nur 180 Seiten Umfang, wobei sämtliche Fächer der Klassenstufen 1 bis 9 abgedeckt werden. Als Finnland nach dem ersten „PISA-Schock" in der deutschen Bildungsdiskussion zum vielzitierten Vorbild wurde, war dies ein Sachverhalt, der viele deutsche Pädagogen offenbar sehr erstaunt hat (Kahl, 2004, 29. März).
Bildungsstandards nehmen im aktuellen Bildungsdiskurs eine doppelte Funktion ein (Klieme et al., 2003). Einerseits konkretisieren sie den Auftrag, den Bildungsinstitutionen zu erfüllen haben, und übernehmen damit curriculare Aufgaben. Andererseits stellen sie Kriterien und Maßstäbe zur Verfügung, anhand derer die Ergebnisse von Bildungsprozessen auf individueller und institutioneller Ebene bewertet werden können (Bessoth, 2000; Dubs, 1998). Damit steht die Entwicklung von Bildungsstandards in einem engen Zusammenhang mit der bereits diskutierten Veränderung von Steuerungsstrategien. Denn Verfahren der Prozess- und insbesondere Outputsteuerung sind darauf angewiesen, dass klar formulierte Zielvorgaben existieren, an denen Erfolge gemessen und Schwachstellen aufgedeckt werden können. Auch mit Prinzipien wie Dezentralisierung und Schulautonomie zeigen sich Kongruenzen, da die Entscheidungsbefugnis darüber, mit welchen Mitteln und auf welchem Wege Standards angestrebt werden, den verantwortlichen Akteuren vor Ort überlassen wird.
Ein drittes Thema, das im Kontext der Qualitätsdiskussion im Bildungswesen ein stärkeres Gewicht bekommen hat, ist die Frage der pädagogischen Professionalität bzw. Professionalisierung (Combe & Helsper, 1996; Darling-Hammond & Wise 1992; Lüders, 1998). Sie setzt bei den oben genannten Defiziten in den Prozessen der Bildungsproduktion auf zwei Ebenen an.
Auf unterrichtlicher Ebene geht es unter dem Schlagwort Professionalisierung primär darum, die Qualität der pädagogischen Interaktion durch geeignete Fortbildungsmaßnahmen bei Lehrkräften und anderen Lehrenden sicherzustellen (vgl. Avenarius et al., 2003). Darin ist kein grundsätzliches Misstrauen gegenüber der Qualifikation von Lehrkräften zu sehen. Vielmehr kann auch die Forderung nach einer kontinuierlichen und obligatorischen Fort- und Weiterbildung als Ausdruck einer Umorientierung der allgemeinen Steuerungsphilosophie verstanden werden.
Analog wird im Kontext der neueren Qualitätsdebatte auf der institutionellen Ebene des Schulmanagements mehr Professionalität gefordert. Da in der BRD die Leitung einer Schule oft als Nebentätigkeit zur pädagogischen Arbeit und ohne eigene Ausbildung ausgeübt werden muss, konzentriert sich auch hierbei die Aufmerksamkeit auf den Bereich der Fort- und Weiterbildung. Deren Bedeutung ist nicht zu unterschätzen, da damit zu rechnen ist, dass unter anderem im Zuge der wachsenden Autonomie von Einzelschulen die Aufgaben und Verantwortlichkeiten von Schulleitungen sowohl quantitativ als auch qualitativ eher zu- als abnehmen werden (Bonsen, Iglhaut & Pfeiffer, 1999; Füssel, 1998; Höher & Rolff, 1996).
Als vierte wichtige Reaktionstendenz im Zuge der neueren Qualitätsdebatte kann schließlich die Wiederentdeckung der Evaluation und ihrer verschiedenen Varianten genannt werden. Sie steht dabei in enger Verbindung zu den drei zuvor genannten Trends:
Somit überrascht es nicht, dass Evaluation im Kontext der neueren Qualitätsdebatte einen zentralen Stellenwert einnimmt und dass Evaluation heute zu einem der wichtigsten Indikatoren von Bildungsqualität gerechnet wird (Europäische Kommission, 2001). Das folgende Kapitel wird den Begriff der Evaluation vertiefen und dazu auf wichtige Entwicklungslinien, Aufgaben, Ansätze und Problemfelder eingehen.
(Leseprobe aus Hense, J. U. (2006). Selbstevaluation. Erfolgsfaktoren und Wirkungen eines Ansatzes zur selbstbestimmten Qualitätsentwicklung im schulischen Bereich. Frankfurt a. M.: Peter Lang. [Kapitel 2.3])
In diesem Abschnitt finden sich Inhalte zu verschiedenen Evaluationsansätzen, -modellen und -theorien und ihre jeweilige Protagonisten.
Haubrich, K. (2001). Cluster-Evaluation - lokale Kontexte berücksichtigen, Innovation und Beteiligung fördern. In BMFSFJ (Hrsg.), QS 35 Materialien zur Qualitätssicherung in der Kinder- und Jugendhilfe.
Millet, R. (1995). W.K. Kellogg Foundation cluster evaluation model of evolving practices. Battle Creek, MI: W.K. Kellogg Foundation.
Sanders, J. R. (1997). Cluster Evaluation. In E. Chelimsky & W. R. Shadish (Hrsg.), Evaluation for the 21st century. A handbook (S. 396-404). Thousand Oaks: Sage.
"Evaluation may be done to provide feedback to people who are trying to improve something (formative evaluation); or to provide information for decision-makers who are wondering whether to fund, terminate, or purchase something (summative evaluation)." (Scriven, 1980, S. 6-7)
Der Begriff formative Evaluation (nicht das Konzept) geht auf Scriven (1972) zurück und bildet mit seinem Gegenstück summative Evaluation wohl das prominenteste Begriffspaar in der Evaluationsliteratur. Dennoch handelt es sich um einen problematischen Begriff, da er ungenau definiert, theoretisch unstimmig und in seiner praktischen Verwendung oft entsprechend beliebig ist (vgl. dazu etwa die Beiträge von Patton, Chen und Wholey in Evaluation Practice, 1996, Vol. 17, No. 2).
Da sich das Begriffspaar wegen seiner hohen Anmutungsqualität trotz dieser Probleme mit Sicherheit halten wird, scheint mir folgende Begriffsverwendung sinnvoll:
Die Begrifflichkeiten formativ/summativ werden ausschließlich zur Bezeichnung intendierter Evaluationszwecke verwendet, so wie es das obige Zitat Scrivens andeutet. Auf alle anderen von Scriven und Apologeten vertretenen Addenda wird verzichtet. Darunter fallen:
Subject: Re: Formative/Summative & Process/Outcome 2*2 Matrix?
Date: Tue, 28 Dec 2004 12:24:10 -0500
From: Eileen Stryker
I don't remember whether or where Dan Stufflebeam might have written this, but back in olden times when I took his class, he talked about how he and Scriven grew to understand that the CIPP model and Formative / Summative evaluation complement, rather than compete with, each other. It went something like what I've portrayed below (roughly and w/o the careful thought portrayed by Dan in class -- I haven't enough room or time for that right now). Context evaluation includes (but is not limited to) evaluation of goals; input includes evaluation of designs and resources; process includes implementation and product includes effects -- outputs, outcomes, short, medium, long term, etc. etc. These are further defined in the design phase of any evaluation study, of course. Formative focusses on providing information for program development, summative for accountability (with the extended meanings Scriven has portrayed in previous posts and writings, of course
| Context Input Process Product --------------|---------------------------------------------- Formative | | Summative | |
Some sample questions might include:
Formative /Context: Are program goals responsive to participant needs? Are the goals good?
Summative /Context: Were the goals appropriate to participant needs? To the setting? What contextual factors were important to project successes/ failures?
Formative Input: What designs might be most effective to reach the goals? What can (educational, social, health, management) theory tell us about effective intervention designs?
Summative Input: Was the project design well-founded in theory, best practice, organizational experience?
I'm sure you can fill in the rest.
Hope this helps. It has certainly helped me think about questions an evaluation might address as I meet with client groups.
Happy New Year,
Eileen
Dr. Eileen Stryker Stryker and Endias, Inc. Planning, Research and Evaluation Services Kalamazoo, Michigan 269-668-2373
Original Message -----
From: "Charles Partridge"
> Group, > > Before I reinvent the wheel, if someone out there has already put > together a 2*2 matrix that defines the Formative/Summative & > Process/Outcome dimensions, could you please forward it to me? > > Thanks in advance. > > Charles R. Partridge > Evaluation Specialist > Center for Learning Excellence > The John Glenn Institute for Public Service and Public Policy > The Ohio State University > Columbus, Ohio 43212-1421 > Email: Partridge.6@osu.edu > > ------------------------------------------------------------------ > EVALTALK - American Evaluation Association (AEA) Discussion List. See also > the website: http://www.eval.org > To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu > with only the following in the body: UNSUBSCRIBE EVALTALK > To get a summary of commands, send e-mail to listserv@bama.ua.edu > with only the following in the body: INFO REFCARD > To use the archives, go to this web site: > http://bama.ua.edu/archives/evaltalk.html > For other problems, contact a list owner at kbolland@sw.ua.edu or > carolyn.sullins@wmich.edu
EVALTALK - American Evaluation Association (AEA) Discussion List. See also
the website: http://www.eval.org
To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu
with only the following in the body: UNSUBSCRIBE EVALTALK
To get a summary of commands, send e-mail to listserv@bama.ua.edu
with only the following in the body: INFO REFCARD
To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu
From: "Alan Listiak"
Last week a request went out for info on logic models. I have accumulated a number of resources on "How-to" develop and use logic models in program development and evaluation. Here they are.
1. Mayeske, George W. and Michael T. Lambur (2001). How to Design Better Programs: A Staff Centered Stakeholder Approach to Program Logic Modeling. Crofton, MD: The Program Design Institute. Highly Recommended.
And, Mayeske, George W. (2002). How to Develop Better Programs & Determine Their Results: An Organic & Heuristic Client & Staff Centered Approach with Stakeholder Involvement. Bowie, MD: The Program Design Institute. Highly Recommended.
The first manual (How to Design Better Programs) is a step-by-step guide to developing and implementing logic models. The second manual (How to Develop Better Programs) deals focuses on how-to develop experiential educational programs "based on, but not restricted to, the use of program logic models which serve as a tool for the development process." (from the Foreword).
Both manuals are available from The Program Design Institute, c/o Dr. George W. Mayeske, 12524 Knowledge Lane, Bowie, MD 20715-2622. The Logic Modeling manual is $28.00 (includes shipping) and the Better Pro-grams manual is $45.00 (including shipping) - checks only. But both manuals can be purchased at a discount. Contact Dr. Mayeske for details at gwmayeske@aol.com.
2. W. K. Kellogg Foundation (2001). W. K. Kellogg Foundation Logic Model Development Guide. Available for no cost at http://www.wkkf.org/ by clicking on the link to the guide on the right of the page.
This guide is not as detailed as the Program Design Institute guides on the nuts and bolts of logic modeling, but is better at discussing program theory and its application. And it's free for the downloading. Highly Recommended.
Also see: W. K. Kellogg Foundation (1998). W. K. Kellogg Foundation Evaluation Handbook. Available at no cost through this site at http://www.wkkf.org/ by clicking on the link to the handbook.
3. Devine, Patricia (1999). Using Logic Models in Substance Abuse Treatment Evaluations. Fairfax, VA: National Evaluation Data and Technical Assistance Center, Caliber Associates. Available at
http://www.calib.com/home/work_samples/files/logicmdl.pdf.
Highly Recommended.
This paper discusses the use of logic models in planning and evaluating substance abuse treatment services. The best part is the "sample data maps" that specify evaluation questions, measures, and variables.
The paper is part of the Integrated Evaluation Methods Package
for substance abuse treatment programs developed under the auspices of the Center for Substance Abuse Treatment, Department of Health and Human Services. The full discussion of this evaluation framework, concepts, and tools is presented in: Devine, Patricia (1999). A Guide for Substance Abuse Treatment Knowledge-Generating Activities. Fairfax, VA:
National Evaluation Data and Technical Assistance Center, Caliber
Associates. Available at http://www.calib.com/home/work_samples/files/iemdoc.pdf.
There are other papers in the Integrated Evaluation Methods Package available at http://www.calib.com/home/work_samples/pubs.cfm under the heading Substance Abuse Research and Evaluation, Evaluation Tools and Resources. These papers include:
Devine, Patricia (1999). A Guide to Process Evaluation of Substance Abuse Treatment Services. Fairfax, VA: National Evaluation Data and Technical Assistance Center, Caliber Associates.
Devine, Patricia, Bullman, Stephanie, & Zeaske, Jessica (1999). Substance Abuse Treatment Evaluation Product Outlines Notebook. Fairfax, VA: National Evaluation Data and Technical Assistance Center, Caliber Associates.
Devine, Patricia, Christopherson, Eric, Bishop, Sharon, Lowery, Jacquelyn, & Moore, Melody (1999). Self-Adjusting Treatment Evaluation Model. Fairfax, VA: National Evaluation Data and Technical Assistance Center, Caliber Associates.
4. The University of Wisconsin-Cooperative Extension has an online course entitled, Enhancing Program Performance with Logic Models. The course contains two modules - Module 1, "Logic Model Basics," is an introduction to logic models; and Module 2, "Introducing The Community Nutrition Education Logic Model," is an application of logic models to community nutrition education programs. Each module has various interactive elements, including practice activities designed to help students better understand the course content. The free course is available at http://www1.uwex.edu/ces/lmcourse/. The citation is:
Taylor-Powell, E., Jones, L., & Henert, E. (2002) Enhancing Program Performance with Logic Models. Retrieved December 1, 2003, from the University of Wisconsin-Extension web site: http://www1.uwex.edu/ces/lmcourse/.
5. United Way of America (1996). Measuring Program Outcomes: A Practical Approach. This manual can be purchased for $5.00 plus S&H by calling 1-800-772-0008 and ordering item number 0989. You can find the manual's table of contents and excerpts on the United Way web site at http://national.unitedway.org/outcomes/resources/mpo/.
6. Harrell, Adele, with Burt, Martha, Hatry, Harry, Rossman, Shelli, Roth, Jeffrey, and Sabol, William (no date). Evaluation Strategies for Human Service Programs: A Guide for Policymakers and Providers. Washington, DC: The Urban Institute.
This guide focuses on developing a logic model and selecting and implementing an evaluation design. Gives an example of a logic model for a children-at-risk program. It is available at http://www.bja.evaluationwebsite.org/html/documents/evaluation_strategies.ht ml. 7. Hernandez, M. & Hodges, S. (2003). Crafting Logic Models for Systems of Care: Ideas into Action. Making children's mental health services successful series, volume 1. Tampa, FL: University of South Florida, The Louis de la Parte Florida Mental Health Institute, Department of Child & Family Studies. Available at http://cfs.fmhi.usf.edu/TREAD/CMHseries/IdeasIntoAction.html. This monograph is a guide to developing a system of care using a theory-based approach. System stakeholders can use the theory of change approach to move from ideas to action-oriented strategies to achieve their goals and understand the relationships among the populations that the system is intended to serve.
Other resources
Alter, C. & Murty, S. (1997). Logic modeling: A tool for teaching practice evaluation. Journal of Social Work Education, 33(1), 103-117. Conrad, Kendon J., & Randolph, Frances L. (1999). Creating and using logic models: Four perspectives. Alcohol-ism Treatment Quarterly, 17(1-2), 17-32.
Hernandez, Mario (2000). Using logic models and program theory to build outcome accountability. Education and Treatment of Children, 23(1), 24-41.
Julian, David A. (1997). The utilization of the logic model as a system level planning and evaluation device. Evaluation and Program Planning, 20(3), 251-257.
McLaughlin, J. A., & Jordan, G. B. (1999). Logic models: A tool for telling your program's performance story. Evaluation and Program Planning, 22(1), 65-72.
Stinchcomb, Jeanne B. (2001). Using logic modeling to focus evaluation efforts: Translating operational theories into practical measures. Journal of Offender Rehabilitation, 33(2), 47-65.
Unrau, Y.A. (2001). Using client exit interviews to illuminate outcomes in program logic models: A case example. Evaluation and Program Planning, 24(4), 353-361.
Alan
Alan Listiak, Ph.D. Coordinator of Sex Offender Program Certification Minnesota Department of Corrections 1450 Energy Park Drive St. Paul, MN 55108 651.642.0317 Alan.Listiak@state.mn.us
Mary Meyer aus Berlin hat mich freundlicherweise auf einen fehlerhaften Literaturhinweis beim Stichwort "Nutzung" im Online-Wörterbuch aufmerksam gemacht. Bei dieser Gelegenheit zitierte sie einige Literaturquellen zum Thema Nutzung, die mir nur teilweise bekannt waren, daher stelle ich die Mail von Frau Meyer mit ihrer Einwilligung hier in die Textsammlung:
Ich beschäftige mich mit Evaluationsnutzung und habe eine Nachfrage bzw. einen Hinweis bezüglich des Online-Wörterbuchs und dort zur Nutzung: meines Wissens nach stammt das Buch von Alkin, Daillak und White aus dem Jahr 1979 (Using Evaluations. Does evaluation make a difference? Sage) und die von Ihnen beschriebenen Formen bzw. Arten von Evaluationsnutzung werden in dem Buch nicht beschrieben. Instrumental use wurde von u.a. von Wingens, M. (1988, S. 117ff) erläutert, conceptional use (auch "englightenment" genannt) von Berk und Rossi (1977), Owen (1992) und Kiessling-Naef et al. (1997), symbolische Nutzung (auch "conspiratorical use" genannt) mit legitimatorisch-politischen Charakter wurde von Pelz (1978) und Huberman (1987) beschrieben.
Mit freundlichen Grüßen M. Meyer
Der angesprochene Fehler ist inzwischen natürlich behoben, gemeint war Alkin (1985), A Guide for evaluation decision makers, nicht das frühere Buch mit Daillak und White.
Was kann evaluiert werden?
Organisatorisch vorbereitetes Vorhaben mit definierten/m
Mehrere gleichgerichtete Projekte / Maßnahmen
Gesamtheit staatlicher Maßnahmen
Quelle: Foliensatz von Dr. Hendrik Faßmann, Institut für empirische Soziologie an der Friedrich-Alexander-Universität Erlangen-Nürnberg (http://www.soziologie.wiso.uni-erlangen.de/ss02/evaluation/folien1.zip)
Metavaluation ist die Evaluation einer konkreten Evaluation, also die Beurteilung von Qualität und Nutzen der Evaluation. Die möglichen Ziele einer Metavaluation sind identisch mit den allgemein möglichen Evaluationszielen: Verbesserung, Entscheidungshilfe, Kontrolle/Rechenschaftslegung und Erkenntnisgewinn.
(Metanalyse ist die Zusammenfassung der Ergebnisse mehrerer Evaluationsstudien, die im Sinne von Grundlagenforschung dazu dienen soll, Wissen hervorzubringen, das über den einzelnen Evaluationsgegenstand hinaus generalisierbar ist.)
Methodische Fragen
Original Message --------
Subject: history threats
Date: Wed, 25 Aug 2004 13:57:31 -0400
From: Diana Silver
I am looking for cases I can cite in which evaluators of a program, using a quasi-experimental design, have noted history threats in attempting to assess the impact of a given program. The case I have is of an evaluation of the Bay Area Rapid Transit System (BART) that showed that highway traffic decreased in 1974 when BART's Transbay Tunnel was opened. External events -- history-- posed a threat to their findings, because the gasoline shortage and higher gas prices due to the Arab oil embargo occured at about the same time. I'm looking for additional such examples-- can anyone help?
Literaturempfehlungen
zum Thema Evaluation
Dr. Jan Hense, LMU München
März 2004
Kromrey, H. (2001). Evaluation - ein vielschichtiges Konzept. Begriff und Methodik von Evaluierung und Evaluationsforschung. Empfehlungen für die Praxis. Sozialwissenschaften und Berufspraxis, 24, 105-129.
Lee, B. (2000). Theories of Evaluation. In Stockmann, Reinhard (Hrsg.), Evaluationsforschung (S. 127-164). Opladen: Leske+Budrich.
Madaus, G. F. & Kellaghan, T. (2000). Models, metaphors and definitions in evaluation. In D. L. Stufflebeam, G. F. Madaus, & T. Kellaghan (Hrsg.), Evaluation models - viewpoints on educational and human services evaluation (S. 19-31). Boston: Kluwer.
Pekrun, R. (2000). Evaluation in der betrieblichen Weiterbildung. In C. Harteis, H. Heid & S. Kraft (Hrsg.), Kompendium Weiterbildung - Aspekte und Perspektiven betrieblicher Personal- und Organisationsentwicklung (S. 258-275). Opladen: Leske + Budrich.
Shadish,W. R., Cook, T. D. & Leviton, L. C. (1991). Foundations of program evaluation. Theories of practice. Newbury Park: SAGE.
Stufflebeam, D. L. (2001). Evaluation models. In New directions for evaluation No. 89. San Fransisco: Jossey-Bass.
Stufflebeam, D. L., Madaus G. F. & Kellaghan T. (Hrsg.) (2000). Evaluation models - viewpoints on educational and human services evaluation. Boston: Kluwer Academic Publisher Group.
Wottawa, H. (2001). Evaluation. In A. Krapp & B. Weidenmann (Hrsg.), Pädagogische Psychologie (S. 649-674). Weinheim: Beltz.
Bortz & Döring (2002). Forschungsmethoden und Evaluation
für Sozialwissenschaftler (3. Aufl.). Kap. 3: Besonderheiten der Evaluationsforschung. Berlin: Springer.
Rossi, P. H., Lipsey, M. W. & Freeman, H. E. (2004). Evaluation. A systematic approach (7th ed.). Thousand Oaks: Sage.
Freeman, H., Rossi, P. H. & Sandefur, G. D. (1993). Workbook for evaluation - A systematic approach. Thousand Oaks: SAGE.
Rossi, P. H., Freeman, H. E. & Hofmann, G. (1988). Programm-Evaluation. Einführung in die Methoden angewandter Sozialforschung. Stuttgart: Ferdinand Enke. (dt. Übersetzung der 4. Aufl.)
Wottawa, H. & Thierau, H. (1998). Lehrbuch Evaluation. Bern: Huber. (nicht unumschränkt zu empfehlen, aber z. Zt. das einzige dt. Evaluations-Lehrbuch)
Madaus G. F. & Stufflebeam D. L. (2000). Program evaluation: A historical overview. In D. L. Stufflebeam, G. F. Madaus & T. Kellaghan (Hrsg.), Evaluation models - viewpoints on educational and human services evaluation (S. 3-18). Boston: Kluwer.
Titze, H. (2002). Die Evaluierung des Bildungswesens in historischer Sicht. Zeitschrift für Erziehungswissenschaft, 4, 552-569.
Alkin, M. C. (1972). Evaluation theory development. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 105-117). Boston: Allyn and Bacon.
Cronbach, L.J. (1963). Evaluation for course improvement. Teachers College Record, 64, 672-683. (dt. in Wulf, 1972)
Cronbach, L. J., Ambron, S. R., Dornbusch, S. M., Hess, R. D., Hornik, R. C., Phillips, D. C., Walker, D. F. & Weiner, S. S. (1980). Toward reform of program evaluation. San Francisco: Jossey-Bass.
Glass, G.V. (1972). Die Entwicklung einer Methodologie der Evaluation. In Ch.Wulf, Evaluation. Beschreibung und Bewertung von Unterricht, Curricula und Schulversuchen (S. 166-206). München: Piper.
Guba, E. G. (1972). The failure of educational evaluation. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 250-266). Boston: Allyn and Bacon.
Kirkpatrick, D. (1959). Techniques for evaluating training programs. Part 1 - Reaction. Journal of the American Society for Training and Development, 13 (11), 3-9.
Kirkpatrick, D. (1959). Techniques for evaluating training programs. Part 2 - Learning. Journal of the American Society for Training and Development, 13 (12), 21-26.
Kirkpatrick, D. (1960). Techniques for evaluating training programs. Part 3 - Behavior. Journal of the American Society for Training and Development, 14 (1), 13-18.
Kirkpatrick, D. (1960). Techniques for evaluating training programs. Part 4 - Results. Journal of the American Society for Training and Development, 14 (2), 28-32.
Rossi, P. H. (1972). Boobytraps and pitfalls in the evaluation of social action programs. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 224-235). Boston: Allyn and Bacon.
Schwarzer, R. (1975). Instrumente der empirischen Curriculumevaluation. In K. Frey (Hrsg.), Curriculum-Handbuch (S. 748-766). München: Piper.
Scriven, M. (1972). The methodology of evaluation. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 123-136). Boston: Allyn and Bacon. (dt. in Wulf, 1972)
Stake, R. E. (1972). The countenance of educational evaluation. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 31-51). Boston: Allyn and Bacon. (dt. in Wulf, 1972)
Stufflebeam, D. L. (1969). Evaluation as enlightenment for decision-making. In H. B. Walcott (Ed.), Improving educational assessment and an inventory of measures of affective behavior (pp. 41-73). Washington, DC: Association for Supervision and Curriculum Development and National Education Association. (dt. in Wulf, 1972)
Suchman, E. A. (1967). Evaluative research. Principles and practices in public service and social action programs. New York: Russel Sage Foundation.
Suchman, E. A. (1970). Action for what? A critique of evaluative research. In R. O'Toole (Hrsg.), The organization, management, and tactics of social research. Cambridge, Mass.: Schenkman.
Weiss, C. H. (1972). Utilization of evaluation: Toward comparative study. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 318-326). Boston: Allyn and Bacon.
Wulf, C. (1975). Funktionen und Paradigmen der Evaluation. In K. Frey (Hrsg.), Curriculum-Handbuch (S. 580-600). München: Piper.
Wulf, C. (Hrsg.). (1972). Evaluation. Beschreibung und Bewertung von Unterricht, Curricula und Schulversuchen. München: Piper. (Sammlung von einigen klassischen US-Aufsätzen aus den 60er Jahren)
Chelimsky, E. & Shadish, W. R. (Hrsg.). Evaluation for the 21st century. A handbook. Thousand Oaks: Sage.
Donaldson, S. I., Gooler, L. E. & Scriven, M. (2002). Strategies for managing evaluation anxiety: Toward a psychology of program evaluation. American Journal of Evaluation, 23, 261-273.
Lipsey, M. & Cordray, D. (2000). Evaluation Methods for Social Intervention (S. 345-373). Nashville, Tennessee:
Rossi, P. H. (1984). Professionalisierung der Evaluierungsforschung? Beobachtungen zu den Entwicklungen in den USA. In G.-M. Hellstern & H. Wollmann (Hrsg.), Handbuch zur Evaluierungsforschung (Bd. 1, S. 654-673). Opladen: Westdeutscher Verlag.
Scriven, M. (1993). Hard-won lessons in program evaluation. San Francisco: Jossey-Bass.
Sechrest, L. & Figueredo, A. J. (1993). Program Evaluation. Annual Review of Psychology, 44, 645-674.
Deutsche Gesellschaft für Evaluation. (2002). Standards für Evaluation. Köln: Deutsche Gesellschaft für Evaluation e. V.
ERS Standard Committee. (1982). Evaluation research society standards for program evaluation. New directions for program evaluation: Standards for evaluation practice, 15, 7-19.
Joint committee on standards for educational evaluation. (1988). The personnel evaluation standards. How to assess systems for evaluating educators. Newbury Park: Sage.
Joint committee on standards for educational evaluation. (1994). The program evaluation standards. How to assess evaluations of educational programs. Thousand Oaks: Sage.
Joint committee on standards for educational evaluation. (2003). The student evaluation standards. How to improve evaluations for students. Thousand Oaks: Corwin Press.
Stufflebeam, D. L. (2000). Professional standards and principles for evaluations. In D. L. Stufflebeam, G. F. Madaus & T. Kellaghan (Hrsg.), Evaluation models - viewpoints on educational and human services evaluation (S. 440-454). Boston: Kluwer Academic Publisher Group.
(unvollständig)
Fetterman, D. M. (1996). Empowerment evaluation: An introduction to theory and practice. In D. M. Fetterman, S. Kaftarian & A. Wandersman (Hrsg.), Empowerment evaluation (S. 3-46). Thousand Oaks: SAGE.
Fetterman, D., Kaftarian, S. J. & Wandersman, A. (eds.). (1996). Empowerment evaluation. Knowledge and tools for self-assessment & accountability. Thousand Oaks: Sage.
Guba, E. G. & Lincoln, Y. S. (1989). Fourth generation evaluation. London: Sage.
Patton, M. Q. (1997). Utilization-focused evaluation: the new century text. Thousand Oaks: SAGE.
Patton, M. Q. (1998). Die Entdeckung des Prozeßnutzens - Erwünschtes und unerwünschtes Lernen durch Evaluation. In Heiner, M. (Hrsg.), Experimentierende Evaluation: Ansätze zur Entwicklung lernender Organisationen (S. 55-66). Weinheim, München: Juventa Verlag.
Karbach, M. (2000). Anmerkungen zum Wort Evaluation. Geschwister-Scholl-Gesamtschule, Dortmund-Brackel: Verfügbar unter http://schulen.hagen.de/GSGE/ew/EvalW.html (27.2.2003).
Legge, K. (1984). Evaluating planned organizational change. London: Academic Press.