Einführung

Akteure einer Evaluation

Akteure einer Evaluation.gif

###

Legende:

Stakeholder

Def.: "people whose lives are affected by the program and people whose decisions can affect the future of the program" (Greene, 1988, S. 101).

Definition von Evaluation

Evaluation (von engl./frz. "Bewertung"): "Die systematische Untersuchung von Nutzen oder Wert einer Sache" (Joint committee on standards for educational evaluation, 1994). Evaluation bezeichnet die Anwendung sozialwissenschaftlicher Methoden und spezifischer Evaluationskompetenzen zur Bewertung von Gegenständen wie Projekten, Programmen, Maßnahmen, Produkten, Personal, Organisationen, Dienstleistungen und anderen Gegenständen.

Evaluiert wird üblicherweise, um die Handlungssteuerung in sozialen Handlungsfeldern zu rationalisieren, da Evaluation Erkenntnisse zur Verfügung stellt, welche zur Optimierung, Entscheidungshilfe, Überzeugung, Rechenschaftslegung und/oder Forschung dienen können.

Zugleich meint Evaluation immer auch die Produkte der beschriebenen Prozesse (z.B. in Form von Berichten). Der Begriff "Evaluationsforschung" wird im deutschen Sprachraum oft synonym verwendet, betont aber die Verwendung wissenschaftlicher Methoden zum Zwecke der Bewertung. Ein davon abweichendes Begriffsverständnis versteht unter "Evaluationsforschung" die Forschung über Evaluation.

Patton (1997): "Program evaluation is the systematic collection of information about the activities, characteristics, and outcomes of programs to make judgements about the program, improve program effectiveness, and/or inform decisions about future programming" (S. 23)

Etymologische Herleitung (Online etymology dictionary ):

evaluation: 1755, from Fr. evaluation', from evaluer "to find the value of," from ex- "out" + value (see value). Evaluate'' is an 1842 back-formation.

Abgrenzung von Evaluation zu Assessment

Message-ID:

 Date: Thu, 12 Aug 2004 21:25:36 -0700
 Sender: American Evaluation Association Discussion List 
 From: Richard Hake 
 Subject: Re: Assessment vs Evaluation
 To: EVALTALK@BAMA.UA.EDU

In his ASSESS post of 10 Aug 2004 titled "Assessment vs Evaluation" Mark Davenport wrote:

"I often read in the literature and hear on the conference circuit people using the terms 'assessment' and 'evaluation' interchangeably, as if they were synonyms. Even more confusing, I have found the word assessment is used to define evaluation, and vice versa . . . . Personally, I don't think we need two terms to explain identical concepts (unless they occur in two completely unrelated fields wherein the risk of confusion is minimal). Certainly academic and student affairs assessment are related enough that we can share terms. . . . I have documented my thoughts in an internal white paper to my constitutents and would be happy to share it if you will drop me a note privately."

I hope Mark will place his white paper on the web so as to increase the readership and decrease mailing expenses. His post stimulated a 12-post (as of 12 Aug 2004 16:20:00-0700) ASSESS thread accessible at .

A similar thread (4 posts) titled "distinction between evaluation and assessment was initiated by Jeanne Hubelbank (2003) on EvalTalk and is accessible at the EvalTalk archives . One post in this thread led me to a "Glossary of Program Evaluation Terms" at Western Michigan University (Michael Scriven's new location), where these definitions are given:

Assessment: "The act of determining the standing of an object on some variable of interest, for example, testing students, and reporting scores."

Evaluation: Systematic investigation of the worth or merit of an object; e.g., a program, project, or instructional material.

Nevertheless, I'm with Mark Davenport in preferring to make no distinction between "assessment" and "evaluation." In a post titled "Re: A taxonomy" Hake (2003a), I proposed an assesment taxonomy for consideration and comment that is best presented in quadrant form cf., Stokes (1999):

                      plus Y
                      PUBLIC
                        |
                        |
               Scientific Research
                        |

<--FORMATIVE ASSESSMENT | SUMMATIVE ASSESSMENT --> _ plus X

                       0|
                        |
    Action Research     |  Institutional Research
                        |
                        |
                        |
                      PRIVATE

Fig. 1. Quadrant representation of various types of assessment/evaluation. (Figure may be distorted by email transmission.)

For educational research, the X-axis represents a continuum from pure FORMATIVE to pure SUMMATIVE assessment of either teaching or learning. NO DISTINCTION IS MADE BETWEEN "ASSESSMENT' AND EVALUATION." The Y axis represents a continuum from complete privacy to complete public disclosure of results.

The locations of various types of research in terms of the type of assessment they offer are shown as:

"Scientific Research" see e.g. Shavelson & Towne (2002): upper two quadrants - always public and anywhere in the continuum between formative and summative.

"Action Research" [see e.g. Feldman & Minstrell (2000) and Bransford et al.]: lower left quadrant - usually private to some degree, and usually formative to some degree.

"Institutional Research": lower right quadrant - usually private to some degree, and usually summative to some degree, although it could approach the formative for those who study and attempt to improve institutional practice.

Leamnson's (2003):

(a) "classroom research" can be either "scientific" or "action" research.

(b) "institutional research" is generally NOT formative from the standpoint of classroom teachers.

In my opinion, the science education use of pre/post testing [for reviews see Hake (2002; 2004a,b,c)] is usually formative for both action and scientific research, since the object is to improve classroom teaching and learning, NOT to rate instructors or courses.

Richard Hake, Emeritus Professor of Physics, Indiana University 24245 Hatteras Street, Woodland Hills, CA 91367

REFERENCES Bransford, J.D., A.L. Brown, R.R. Cocking, eds. 2000. How People Learn: Mind, Brain, Experience, and School: Expanded Edition. Nat. Acad. Press; online at , pages 199-200. This is an update of the earlier 1999 edition.

Feldman, A. & J. Minstrell. 2000. "Action research as a research methodology for the study of the teaching and learning of science," in E. Kelly & R. Leash, eds., "Handbook of Research Design in Mathematics and Science Education." Lawrence Erlbaum; online at (72kB).

Hake, R.R. 2002. "Lessons from the physics education reform effort," Ecology and Society 5(2): 28; online at . Ecology and Society (formerly Conservation Ecology) is a free "peer-reviewed journal of integrative science and fundamental policy research" with about 11,000 subscribers in about 108 countries.

Hake, R.R. 2003a. "Re: A taxonomy"; online at . Post of 9 Jul 2003 12:47:42-0700 to STLHE-L, PhysLnrR, EvalTalk, and POD. See also Hake (2003b).

Hake, R.R. 2003b. "Re: A taxonomy"; online at . Post of 12 Jul 2003 13:07:54-0700 to ASSESS, EvalTalk, PhysLrnR, STLHE-L, and POD.

Hake, R.R. 2004a. " Re: Measuring Content Knowledge," online at . Post of 14 Mar 2004 16:29:47 -0800 to ASSESS, Biopi-L, Chemed-L, EvalTalk, Phys-L, PhysLrnR, Physhare, STLHE-L, and POD. See also Hake (2004b).

Hake, R.R. 2004b. "Re: Measuring Content Knowledge," online at . Post of 15 Mar 2004 14:29:59 -0800 to ASSESS, EvalTalk, Phys-L, PhysLrnR, and POD; online at .

Hake, R.R. 2004c. "Design-Based Research: A Primer for Physics Education Researchers," submitted to the "American Journal of Physics" on 10 June 2004; online as reference 34 at , or download directly as a 310kB pdf by clicking on .

Hubelbank, J. 2003. "distinction between evaluation and assessment." EvalTalk post of 13 Nov 2003 10:52:00-0500; online at . The encyclopedic URL indicates that one must subscribe to EvalTalk to access its archives, but it takes only a few minutes to subscribe by following the simple directions at / "Join or leave the list (or change settings)" where "/" means "click on." If you're busy, then subscribe using the "NOMAIL" option under "Miscellaneous." Then, as a subscriber, you may access the archives and/or post messages at any time, while receiving NO MAIL from the list!

Leamnson, R. 2003. "A Taxonomy," STLHE-L/POD post of 9 Jul 2003 10:32:02-0400; online at .

Shavelson, R.J. & L. Towne. 2002. "Scientific Research in Education," National Academy Press; online at .

Stokes, D. E. (1997). "Pasteur's quadrant: Basic science and technological innovation." Brookings Institution Press.

EVALTALK - American Evaluation Association (AEA) Discussion List. See also

  the website:  http://www.eval.org

To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu

  with only the following in the body: UNSUBSCRIBE EVALTALK

To get a summary of commands, send e-mail to listserv@bama.ua.edu

  with only the following in the body: INFO REFCARD

To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu

Re: Evaluation, Assessment, and Rubrics

Original Message -------- Subject: Re: Evaluation, Assessment, and Rubrics Date: Wed, 15 Sep 2004 16:31:10 -0700 From: Richard Hake Reply-To: American Evaluation Association Discussion List To: EVALTALK@BAMA.UA.EDU

In her POD post of 14 Sep 2004 10:00:14-0700 titled "Evaluation, Assessment, and Rubrics," Leora Baron wrote:

I am looking for two items that my fellow POD'ers may be able to provide: First, a definition distinguishing between evaluation and assessment; and second, an online location that has a good description and illustration of rubrics.

I. ASSESSMENT vs EVALUATION If one:

(1) goes to the powerful but little used POD search engine ,

(2) types into the "Since" slot "2003" (without the quotes), and into the "Subject" slot,

(a) "assessment" (without the quotes), s(he) will obtain 90 hits,

(b) "evaluation" (without the quotes), s(he) will obtain 168 hits,

My own take on "assessment vs evaluation" can be found in Hake (2004). From the perspective of the physics education reform effort [Hake (2002a,b), I find it useful to make NO distinction between "assessment" and "evaluation," but to make a 4-quadrant discrimination cf., Stokes (2000) of types of assessment/evaluation on the basis formative vs summative on one axis and public vs private on an orthogonal axis.

The non distinction between "assessment" and "evaluation," is contrary to the preferences of: (a) Steve Ehrmann (2004), (b) most of those contributing to the POD thread "Assessment vs Evaluation," (c) Mark Davenport (2004), and (d) the "Glossary of Program Evaluation Terms" at Western Michigan University (Michael Scriven's new location).

II. RUBRICS If you mean by "rubric": "a technique, custom, form, or thing established or settled (as by authority)" (definition #4 in Webster's Third New International Dictionary Unabridged), then it all depends on what one is attempting to assess/evaluate.

IF it's student learning, and not *affective" impact as might be assessed by student evaluations of teaching (SET's)

(a) Peggy Maki's (2004) recent book might be useful, but I have not seen it. In a POD post of 22 Jul 2004 15:09:54-0400, Barbara Cambridge, Director of the Carnegie Academy Campus Program wrote: "Peggy Maki's new book on assessment is excellent. It is jointly published by Stylus and AAHE."

(b) You might consider pre/post testing using valid and consistently reliable tests developed by disciplinary experts in education research Hake (2004b,c). As indicated in Hake (2004b), this is becoming more and more popular in astronomy, economics, biology, chemistry, computer science, and engineering. In many cases it has been stimulated by the pre/post testing effort in physics education research, initiated by the landmark work of Halloun & Hestenes (1998a,b).

Richard Hake, Emeritus Professor of Physics, Indiana University 24245 Hatteras Street, Woodland Hills, CA 91367

REFERENCES Davenport, M.A. 2004. "Re: Assessment vs Evaluation," ASSESS post of 13 Aug 2004 12:08:46-0400; online at .

Ehrmann, S. 2004. "Re: Evaluation, Assessment, and Rubrics." POD post of 14 Sep 2004 14:31:48-0700; online at .

Hake, R.R. 2002a. "Lessons from the physics education reform effort," Ecology and Society 5(2): 28; online at . Ecology and Society (formerly Conservation Ecology) is a free "peer-reviewed journal of integrative science and fundamental policy research" with about 11,000 subscribers in about 108 countries.

Hake, R.R. 2002b. "Assessment of Physics Teaching Methods, Proceedings of the UNESCO-ASPEN Workshop on Active Learning in Physics, Univ. of Peradeniya, Sri Lanka, 2-4 Dec. 2002; also online as ref. 29 at .

Hake, R.R. 2004a. "Re: Assessment vs Evaluation," online at . In this post I misinterpreted Mark Davenport's interpretation - he DOES distinguish between assessment and evaluation Davenport (2004).

Hake, R.R. 2004b. "Re: Measuring Content Knowledge," online at Post of 14 Mar 2004 16:29:47-0800 to ASSESS, Chemed-L, EvalTalk, Physhare, Phys-L, PhysLrnR, POD, and STLHE-L.

Hake, R.R. 2004c. "Re: Measuring Content Knowledge," online at . Post of 15 Mar 2004 14:29:59-0800 to ASSESS, EvalTalk, Phys-L, PhysLrnR, and POD.

Halloun, I. & D. Hestenes. 1985a. "The initial knowledge state of college physics students." Am. J. Phys. 53:1043-1055; online at . Contains the landmark "Mechanics Diagnostic" test, precursor to the much used "Force Concept Inventory" Hestenes et al. (1992).

Halloun, I. & D. Hestenes. 1985b. "Common sense concepts about motion." Am. J. Phys. 53:1056-1065; online at .

Halloun, I., R.R. Hake, E.P Mosca, D. Hestenes. 1995. Force Concept Inventory (Revised, 1995); online (password protected) at . (Available in English, Spanish, German, Malaysian, Chinese, Finnish, French, Turkish, and Swedish.)

Hestenes, D., M. Wells, & G. Swackhamer, 1992. "Force Concept Inventory." Phys. Teach. 30: 141-158; online (except for the test itself) at . For the 1995 versions see Halloun et al. (1995).

Maki, P. 2004. "Assessing for Learning: Building a Sustainable Commitment Across the Institution." Stylus. Maki is the former Director of Assessment of the AAHE.

Stokes, D. E. 1997. "Pasteur's quadrant: Basic science and technological innovation." Brookings Institution Press.

EVALTALK - American Evaluation Association (AEA) Discussion List. See also

   the website:  http://www.eval.org

To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu

   with only the following in the body: UNSUBSCRIBE EVALTALK

To get a summary of commands, send e-mail to listserv@bama.ua.edu

   with only the following in the body: INFO REFCARD

To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu

Etymologie von "Evaluation"

(von Manfred Karbach)

Vorbemerkung JH: Der folgende Text stammt nicht von mir (Jan Hense), sondern von Herrn Manfred Karbach, Oberstudienrat für Deutsch, Latein und Russisch aus Lünen. Er war lange Zeit unter der URL http://schulen.hagen.de/GSGE/ew/EvalW.html (archivierte Seite

) verfügbar, ist aber schon seit 2005 offline.

Da ich in der Literatur keine andere Stelle kenne, die die Etymologie des Begriffs so gründlich herleitet, veröffentliche ich mit freundlicher Genehmigung von Herrn Karbach an dieser Stelle ein Kopie der Seite, die ich im Februar 2003 gespeichert habe. Der Inhalt ist unverändert und nur in den Formatierungen leicht modifiziert.

Der Copyright-Hinweis am Ende dieser Seite wird automatisch generiert und kann nicht für einzelne Seiten unterdrückt werden, daher weise ich hier noch einmal ausdrücklich darauf hin, dass das Copyright für den folgenden Text bei Manfred Karbach liegt.

Einrichtung: 13.06.1998 Letzte Änderung: 01.01.2000

Anmerkungen zum Wort Evaluation

Der unbefangene Sprecher hält das Wort Evaluation für lateinisch, allerdings wird er es in einem lateinischen Wörterbuch vergeblich suchen. Es handelt sich vielmehr um eine romanische Neuentwicklung.

Aus dem lateinischen Verb valere ("bei Kräften sein", "wert sein", stammverwandt mit dem althochdeutschen waltan) entwickelt sich das französische valoir [1]. Dessen Partizip Perfekt valu wird gegen Ende des 12. Jahrhunderts in seiner femininen Form value substantiviert [2] mit der Bedeutung «valeur, prix» [3]. Davon wird wiederum das Verb évaluer und von diesem das Substantiv évaluation [4] gebildet. Im heutigen Französisch bedeutet évaluation "Schätzung", "Ermittlung" oder "Wertbestimmung" [5].

Mit dieser Bedeutung ist das Wort in der Aufklärungszeit ins Deutsche entlehnt worden; allerdings meinte man wohl, ein ursprünglich lateinisches Wort vor sich zu haben, und "verbesserte" die als unlateinisch empfundene Lautfolge ua zu va Evalvation [6]. In dieser Gestalt ist das Wort noch 1960 und 1968 belegt. [7] Danach verschwindet das Wort aus den Nachschlagewerken. [8]

In der Mitte der achtziger Jahre taucht es wieder auf, allerdings in neuer deutscher Lautgestalt und mit einer zusätzlichen Bedeutung: Evaluation als "Beurteilung von Lehrplänen und Unterrichtsprogrammen". [9]

Diese Semantik kann, wie wir gesehen haben, nicht aus dem Französischen kommen. Sie stammt vielmehr aus dem Englischen, wo das aus dem Französischen entlehnte evaluation auch "Einschätzung" und "Auswertung" [10] bedeutet. Dies und die geänderte deutsche Phonetik (u statt v) machen kenntlich, daß es sich nunmehr um eine Neuübernahme aus dem Englischen handelt.

Leider wird das aber im deutschen Sprachgebrauch nicht klar, denn das Wort wird quasi-lateinisch und nicht englisch ausgesprochen. Vom etymologischen Standpunkt wäre aber die englische Aussprache zu bevorzugen, denn es handelt sich schließlich um kein lateinisches Wort. Vielleicht aber sollte man auf den Gebrauch von Evaluation ganz verzichten, denn "Lehrplanbeurteilung" drückt klarer aus, was eigentlich gemeint ist.

Manfred Karbach, Lünen 1998

[1] So seit der Chanson de Roland Ende 11. Jh. «avoir un certain mérite» (Walther von Wartburg: Französisches Etymologisches Wörterbuch. Bd. 14. Basel: Zbinden 1961. S. 153)

[2] Paul Robert: Dictionnaire de la langue française. Tome 6. Paris 1964. p. 933

[3] ebd. S. 132. Wartburg führt als erste Nennung das Jahr 1180, Robert das Jahr 1248 an. Value ist bis ins 17. Jh. gebräuchlich, stirbt danach aber aus (Trésor de la Langue Française. Centre National de la Recherche Scientifi-que. Tome 8. Paris 1980. p. 333)

[4] «1365 évaluacion ‘action d’évaluer’ [...]. Dér. du rad. de évaluer, suff. -tion.» (Trésor de la Langue Française. Centre National de la Recherche Scientifique. Tome 8. Paris 1980. p. 332)

[5] vergl. Erich Weis und Heinrich Mattutat: Pons-Großwörterbuch Französisch-Deutsch. Stuttgart 1988. S. 219

[6] vergl. Duden. Das große Wörterbuch der deutschen Sprache. Bd. 2. Mannheim 21993. S. 996

[7] Duden, Bd. 5: Fremdwörterbuch. Mannheim 1960. S. 179; Gerhard Wahrig: Deutsches Wörterbuch. Bd. 1. Gütersloh 1968. Sp. 1176; beidesmal als veraltet gekennzeichnet.

[8] So haben weder Meyers Enzyklopädisches Lexikon im Bd. 8 (Mannheim 1973) noch Lutz Mackensen: Ursprung der Wörter (München 1985) einen entsprechenden Eintrag.

[9] Duden, Bd. 5: Fremdwörterbuch. Mannheim 61997; so bereits die Brockhaus-Enzyklopädie, Bd. 6, Mannheim 1988; auch die Neubearbeitung des Wahrig hat nunmehr Evaluation (Deutsches Wörterbuch, Gütersloh 1997, S. 450). Zum ersten Mal erscheint Evaluation 1984 (s. auch Fußnote 6).

[10] vergl. Duden-Oxford Großwörterbuch Englisch. Mannheim 1990. S. 247. In dieser Bedeutung im Englischen erstmals 1779 (s. auch The Oxford English dictionary. Vol. 3. Oxford: Clarendon 1933. p. 327)

Geschichte der Evaluation

"From the ambitions of the academic disciplines, from the convulsive reforms of the educational system, from the battle-ground of the War on Poverty, from the ashes of the Great Society, from the reprisals of an indignant taxpaying public, there has emerged evaluation." (Glass, 1976, S. 9)

Historische Entwicklung der Evaluation von Bildung

(Leseprobe aus Hense, J. U. (2006). Selbstevaluation. Erfolgsfaktoren und Wirkungen eines Ansatzes zur selbstbestimmten Qualitätsentwicklung im schulischen Bereich. Frankfurt a. M.: Peter Lang. [Kapitel 3.2])

Our search as lay historians reveals that the first recorded instance of evaluation occurred when man, woman, and serpent were punished for having engaged in acts which apparently had not been among the objectives defined by the Program circumscribing their existence. (Perloff et al., 1976, p. 264)

Im Kontext der historischen Entwicklung von Evaluation, die in den folgenden Abschnitten skizziert wird, ist zunächst die Herkunft des Begriffs von Interesse. Etymologisch lässt sich der Begriff „Evaluation" folgendermaßen herleiten: Obwohl die bei uns übliche Aussprache des Wortes eine Wurzel im Lateinischen vermuten lässt, existiert eine direkte Entsprechung dort nicht. Vielmehr nahm der Begriff erst einen Umweg über das Französische und Englische (Karbach, 2000): Aus dem lateinischen valere („bei Kräften sein", „wert sein") entstand zuerst das französische valoir und daraus über mehrere Zwischenstufen die Neubildung évaluation. In der Aufklärung ist diese nicht nur ins Englische übernommen worden, sondern auch ins Deutsche. Dort ist sie leicht modifiziert als „Evalvation" (sic) mit den Bedeutungen „Schätzung", „Ermittlung" noch bis Mitte des 20. Jahrhunderts nachweisbar, dann aber verschwunden. In Folge der nordamerikanischen Evaluationsexpansion der 1960er Jahre kam es dann zu einer erneuten Entlehnung, dieses Mal aber aus dem Englischen mit der aktuellen Bedeutung. Etymologisch gesehen handelt es sich bei dem deutschen „Evaluation" in der heutigen Bedeutung also trotz der latinisierten Aussprache um eine direkte Übernahme aus dem Englischen.

Eine Praxis der Evaluation lässt sich bis in die Renaissance, die ihr zugrunde liegende Denktradition sogar bis in die Antike zurückverfolgen (vgl. Cronbach et al., 1980; Henninger, 2000). Für das Bildungswesen werden üblicherweise die Entwicklungen in den USA der 1930er und 1940er Jahre als Ursprung der modernen Evaluationspraxis gesehen. Da auch in den folgenden Jahrzehnten maßgebliche Impulse von Nordamerika ausgingen, wird im Folgenden zunächst die internationale Entwicklung dargestellt (Kapitel 3.2.1). Auf die Besonderheiten der bundesdeutschen Evaluationsgeschichte wird anschließend in Kapitel 3.2.2 eingegangen.

Die internationale Entwicklung

Für die Darstellung der Evaluationsgeschichte liegen verschiedene Einteilungen in historische Phasen vor, die sich vor allem im Grad ihrer Differenzierung unterscheiden (Cook & Matt, 1990; Cronbach et al., 1980; Shadish et al., 1991). Für den Bildungsbereich bietet sich besonders die Einteilung in fünf Phasen von Madaus und Stufflebeam (2000; vgl. Walberg & Haertel; 1990) an, welche die internationalen und insbesondere nordamerikanischen Entwicklungen zusammenfasst und daher der folgenden Darstellung zugrunde gelegt wird (vgl. Tabelle 1).

Tabelle 1: Phasen der Evaluationsgeschichte nach Madaus und Stufflebeam (2000)

 Phase                                                    Dauer
 Die Tylersche Phase                                      1930-1945
 Die Phase der Stagnation                                 1946-1957
 Die Phase der Expansion                                  1958-1972
 Die Phase der Professionalisierung und Diversifizierung  1973-1982
 Die Phase der Integration                                seit 1983

Die Tylersche Phase

Bahnbrechend für die moderne Evaluation waren Arbeiten von Ralph W. Tyler, der oft auch als „Vater der Bildungsevaluation" bezeichnet wird. Vor dem Hintergrund der Depression der dreißiger Jahre und den Reformprogrammen des New Deal von Präsident Roosevelt kam es in den USA unter dem Stichwort Progressive Education Movement zu umfangreichen Reformbemühungen im Bildungswesen. Tyler war im Rahmen der berühmten Eight Year Study verantwortlich für die Untersuchung der differentiellen Effekte verschiedener Schulformen. Im Rahmen dieser Arbeiten entwickelte er sein Konzept der Evaluation, in dessen Mittelpunkt der Vergleich der beabsichtigten Ziele eines Curriculums mit den tatsächlich erreichten Lernergebnissen der Schüler steht (Tyler, 1935, 1942; vgl. Kapitel 3.1.2).

Da bis dato vor allem die Lehrerqualifikation und Input-Faktoren auf organisationaler Ebene herangezogen wurden, um die Produktion von Bildung zu gewährleisten, schuf Tyler durch die Betonung der Outputs von Lernprozessen ein alternatives Modell zur Steuerung von Bildungssystemen und ﷓institutionen. Weitere Innovationen bestanden in der Überwindung subjektiver Verfahren der Leistungsüberprüfung und die Anwendung wissenschaftlicher Verfahren im Kontext größerer Reformvorhaben. Dadurch übten seine Arbeiten einen erheblichen Einfluss auf die weitere Entwicklung aus (Madaus & Stufflebeam, 2000).

Die Phase der Stagnation

In der Nachkriegszeit beschränkte sich die Weiterentwicklung von Evaluationsverfahren auf methodische Aspekte. Dazu gehörte die Ausweitung landesweit standardisierter Leistungstests, mit denen einzelne Schulen und Schuldistrikte die Erreichung curricularer Lernziele vergleichend überprüfen konnten. Daneben kam es zu einer Weiterentwicklung experimenteller Designs und des Tylerschen Evaluationsansatzes. Betrachtet man allerdings die damalige Bedeutung von Evaluation für die allgemeine gesellschaftliche Entwicklung und den Bildungsbereich insgesamt, ist eine relative Bedeutungslosigkeit festzustellen. Madaus und Stufflebeam (2000) nennen diese Phase daher „Age of Innocence" oder sogar „Age of Ignorance" (p. 9), da trotz vorhandener gesellschaftlicher Defizite kaum ein Bedarf für Evaluation gesehen wurde.

Die Phase der Expansion

Als Auslöser für die große Expansionsphase der Evaluation wird häufig der „Sputnikschock" im Jahr 1957 genannt, als es der UdSSR erstmals gelang, einen künstlichen Satelliten in eine Erdumlaufbahn zu befördern (Stufflebeam, 2001). Diese überraschende Demonstration technologischer Überlegenheit durch ein unterlegen geglaubtes System führte zu einer allgemeinen Verunsicherung und Ängsten in Bezug auf die eigene Verteidigungsfähigkeit. Die in der Folge initiierten Reformbemühungen erfassten vor allem das Bildungssystem in starkem Maße. Insbesondere im Bereich Mathematik und Naturwissenschaften kam es zu großen landesweiten Programmen der Curriculumreform. Ein weiterer Schub ergab sich durch den von der Johnson-Administration 1965 ausgerufenen war on poverty, der die großen sozialen Missstände und Ungleichheiten jener Zeit beseitigen wollte. Auch hier wurden umfangreiche Reformprogramme aufgelegt, deren Effektivität im Rahmen begleitender Evaluationen überprüft wurde. Allgemein entstand also ein erhöhter Bedarf nach Überprüfung und objektivierter Steuerung gesellschaftlicher Entscheidungsprozesse, der durch Evaluationen gedeckt werden sollte (Shadish et al., 1991). Die Erwartung an Evaluation lautete dabei im Sinne von Poppers (1992) „Sozialtechnik der kleinen Schritte" (S. 187), den schrittweisen Umbau der Gesellschaftsordnung wissenschaftlich lenken zu können. Am exemplarischsten fanden diese Ideen ihren Ausdruck in Campbells (1969) Sichtweise von „reforms as experiments" und seinem Begriff der „experimenting society".

Mit der Ausweitung der Praxis der Evaluation zeigten sich allerdings auch erste Schwächen der bis dahin dominierenden Evaluationsmethoden, zu denen das Tylersche Zielerreichungsmodell, standardisierte Leistungstests und das klassische Experiment mit Kontrollgruppenversuchsplan gehörten. Diese ausschließlich auf Endergebnisse fokussierenden Methoden erwiesen sich als wenig tauglich, um jene Informationen zu liefern, die zur Optimierung der Praxis vonnöten waren. Cronbach (1963) war der erste, der auf diese Problematik hinwies und damit die Idee einer Evaluation für Verbesserungszwecke schuf, für die Scriven (1972) später die Bezeichnung „formative Evaluation" etablierte. Gleichzeitig begann sich jenes Phänomen abzuzeichnen, für das Rossi (1987) die pessimistischen, zugleich aber auch ironisch gemeinten „metallic and plastic laws of evaluation" formulierte:

The laws claim that a review of the last two decades of evaluation research on major social programs in the United States does not sustain the proposition that over this period the American establishment of policy makers, agency officials, professionals and social scientists knew how to design and implement social programs that were at all effective, let alone spectacularly so (Rossi, 1987, pp. 3﷓4).

Prototypisch für Rossis Diagnose kann beispielsweise die bekannte „What works'"-Studie von Martinson (1974) gelten. Sie fasste die damals vorliegenden Evaluationsergebnisse zu verschiedenen Rehabilitationsmaßnahmen für Strafgefangene zusammen und kam im Wesentlichen zum Schluss: „nothing works". Martinsons methodisches Vorgehen konnte später als defizitär und sein Fazit damit als ungültig belegt werden (Sarre, 2001). Darin drückte sich auch ein methodischer Fortschritt für die Disziplin aus, denn nicht zuletzt aufgrund dieser krisenhaften Entwicklungen resultierte gegen Ende der Expansionsphase der Evaluation auch eine Expansion der Evaluationsforschung (vgl. Kapitel 3.1.4.2). Wesentliche Paradigmen und Prämissen der frühen Phasen der Evaluationsgeschichte wurden dabei einer Überprüfung unterzogen, wodurch einer weitgehenden Umorientierung und Neukonzeptionalisierung des gesamten Felds der Weg bereitet wurde. Sie kann durch die Stichworte Professionalisierung und Diversifizierung charakterisiert werden.

Die Phase der Professionalisierung und Diversifizierung

Im Laufe der siebziger Jahren stellten sich eine Reihe von Entwicklungen ein, die von Madaus und Stufflebeam (2000) als Anzeichen einer zunehmenden Professionalisierung der Evaluation gedeutet werden (vgl. Rossi, 1984):

die Gründung von Berufs- und Interessensverbänden wie etwa die Evaluation Research Society (ERS), die Vorläuferorganisation der heutigen American Evaluation Association (AEA)
die Schaffung eigener Ausbildungs- und Fortbildungsgänge, die im Gegensatz zu der üblichen sozialwissenschaftlichen Methodenausbildung gezielt auf eine Tätigkeit als Evaluator vorbereiten sollten
die Gründung regelmäßig erscheinender Fachzeitschriften als Forum des professionellen Austauschs (bspw. Studies in Educational Evaluation oder New Directions for Program Evaluation)
die Entwicklung von Standards der Evaluation (ERS Standard Committee, 1982; Joint committee, 1981, 1988, 1994, 2002; vgl. Kapitel 3.4.5)
die Entwicklung der Metaevaluation, also von Techniken zur Evaluation von Evaluationen, mit deren Hilfe die Qualität von Evaluation überprüft und sichergestellt werden kann (vgl. Kapitel 3.4.1.1)
die allgemeine Anerkennung der Eigenständigkeit von Evaluation als wissenschaftliche Disziplin und praktisches Tätigkeitsfeld

Neben solchen Professionalisierungstendenzen zeichnete sich in dieser Phase auch eine deutliche Diversifizierung der Praxis ab (Shadish et al., 1991). Eine Fülle neuer Evaluationsansätze und ﷓modelle entstand und etablierte sich, von denen viele, teils in einer weiterentwickelten Fassung, heute noch als aktuell gelten können (Alkin, 2004). Darunter befinden sich beispielsweise das CIPP-Modell von Stufflebeam (1973, 2003), das Konzept der zielfreien Evaluation von Scriven (1973), die responsive Evaluation von Stake (1975) oder naturalistische Evaluationsansätze (Guba, 1987). Daneben erschienen in dieser Phase die Erstauflagen wichtiger Lehrbücher (v.a. Rossi, Freeman & Wright, 1979; Weiss, 1972a), die heute in ihren aktualisierten Neuauflagen immer noch als Standardwerke gelten (Rossi et al., 2004; Weiss, 1998).

Negativ äußerte sich die Diversifizierung dieser Phase allerdings in zweierlei Hinsicht. Erstens gab es neben vielen wegweisenden Entwicklungen auch viel „Wildwuchs". Popham (1993) charakterisiert treffend: „For a time it appeared that an educational evaluation model was being generated by anyone who (1) could spell educational evaluation and (2) had access to an appropriate number of boxes and arrows" (p. 23). Einige der damals konzipierten Evaluationsansätze, die aus heutiger Sicht leicht exotisch wirken, sind inzwischen zurecht wieder in der Versenkung verschwunden. Ein zweites Problem stellte die zunehmende Polarisierung in der evaluationstheoretischen Auseinandersetzung dar, deren Lager als positivistisch-quantitativ auf der einen Seite und phänomenologisch-qualitativ auf der anderen Seite bezeichnet werden können (vgl. Kapitel 3.4.4). Diese Auseinandersetzung betrifft vordergründig methodische Fragen, im Grunde drückt sie aber eher ideologische und epistemologische Differenzen aus (Madaus & Stufflebeam, 2000).

Neben Professionalisierung und Diversifizierung ist diese Phase durch ein drittes wichtiges Phänomen gekennzeichnet, die aufkommende bzw. sich verstärkende Nutzungskrise der Evaluation (Legge, 1984; vgl. Kapitel 3.5.1). Erste Fragen zur Nutzung von sozialwissenschaftlichen Forschungsergebnissen allgemein und Evaluationsergebnissen im Speziellen kamen bereits Ende der 1960 auf. Wegweisend waren dabei die Arbeiten von Weiss (1972b, 1972c). Diese lösten in der Folge breite Diskussionen aus, zu denen auch vielfältige theoretische und empirische Forschungsbemühungen zu der Frage gehörten, wann und wie Evaluationsergebnisse überhaupt in der Praxis aufgegriffen und genutzt werden (Alkin, 1985; Alkin, Daillak & White, 1979; Ciarlo, 1981; Leviton & Hughes, 1981; Patton, 1997c; Patton et al., 1977; Weiss, 1981). Insgesamt konnten nur wenige empirische Belege dafür gefunden werden, dass Ergebnisse von Evaluation in dem Maße oder in der Art von Entscheidungsträgern und in der öffentlichen Debatte verwendet wurden, wie es vorgesehen war (Cook, 1997). Da aber Evaluation im Gegensatz zur Grundlagenforschung gerade durch ihre Handlungsorientierung (vgl. Kapitel 3.1.4.1) gekennzeichnet ist, stellte sich angesichts der Erkenntnis, dass konkrete Handlungen in Folge von Evaluationsergebnissen offenbar nur selten zu beobachten waren, die Sinnfrage (Alkin et al., 1979; Cronbach et al., 1980).

Das Zwischenfazit am Ende dieser Phase war also ein ernüchterndes: „Complaint has accompanied the expansion of evaluation. Everybody seems to think that evaluation is not rendering the service it should." (Cronbach et al., 1980, p. 44). Allerdings bleibt festzuhalten, dass die Nutzungskrise der Evaluationsforschung ein äußerst fruchtbares Forschungsgebiet erschlossen hat. Denn heute kann die Evaluationsnutzung als das bisher am besten untersuchte Teilgebiet der Forschung über Evaluation gelten (Leviton, 2003).

Die Phase der Integration

Die Nutzungskrise der Evaluation trug etwa seit Beginn der 1980er Jahre wesentlich zu einer Neu- und Umorientierung des gesamten Feldes bei. Nachdem gezeigt wurde, dass Evaluationsergebnisse in der bisherigen Praxis häufig nicht in konkreten Entscheidungssituationen herangezogen wurden, waren verschiedene Teilentwicklungen zu beobachten. Sie werden an dieser Stelle nur skizziert, da sie ein wichtige Rolle im Kontext der Kritik spielt, die an der traditionellen Evaluationspraxis geübt wurde, und in Kapitel 3.5 genauer diskutiert werden. Verkürzt lassen sich drei Tendenzen feststellen:

Es kommt zu einer Rekonzeptionalisierung des Nutzungsbegriffs. Unter Evaluationsnutzung wird nicht mehr nur ihre Verwendung zur Entscheidungsstützung gesehen. Auch begleitende, indirekte, verzögerte und nicht-intendierte Wirkungen werden nun auf verschiedenen Ebenen als Nutzung von Evaluation beobachtet und berücksichtigt.
Der Nutzung und Nützlichkeit von Evaluation wird verstärkt Aufmerksamkeit geschenkt. Sie wird aufgewertet zu einem der wichtigsten Gütekriterien bei der Bewertung des Erfolgs einer Evaluation (vgl. Kapitel 3.4.5).
Verstärkt werden alternative Methoden und Zugänge zur Evaluation gesucht, die der Rekonzeptionalisierung und Aufwertung der Evaluationsnutzung gerecht werden können.

Auch in Folge dieser Entwicklungen trat der Methodenstreit zwischen quantitativem und qualitativem bzw. positivistischem und phänomenologischem Lager in den Hintergrund. Es kann zwar nicht behauptet werden, dass die methodische Polarisierung endgültig überwunden wurde. Dennoch ist unverkennbar, dass der Methodenstreit in dieser Phase an Bedeutung verliert. Stattdessen ergibt sich aus der Nutzungsdebatte zunehmende Akzeptanz für einen an praktischen Zwecken orientierten Methodeneklektizismus. Dies drückt sich beispielhaft in den neueren Auflagen des Standardlehrbuchs von Rossi et al. (2004) aus, in dem es nicht mehr um das eine, „richtige" Verfahren der Evaluation geht, sondern darum, Evaluationen je nach Kontext und Gegebenheiten „maßzuschneidern". Die Wahl der Methoden und Verfahren ist also in erster Linie eine Frage danach, was in welcher Situation als zweckdienlich und zielführend angesichts der vorliegenden Anforderungen gelten kann.

Gegensätze und Widersprüche der vergangenen Evaluationsgeschichte werden also zunehmend überbrückt und integriert, was nach Shadish et al. (1991) exemplarisch in den Arbeiten von Cronbach (1982; Cronbach et al., 1980) und Rossi (Rossi et al., 2004) deutlich wird. Gleichzeitig zeigt ihre umfassende theoriegeschichtliche Aufarbeitung des Felds auch, dass zwar bei vielen Fragen inzwischen weitgehende Einigkeit erzielt werden konnte, dennoch aber viele wesentliche evaluationstheoretische und ﷓praktische Fragen weiterer Klärung bedürfen.

Auf Seite der Praxis war diese Phase in Nordamerika gekennzeichnet durch die wachsende Bedeutung des Wettbewerbs als Faktor im Bemühen um Qualität in der Bildung und in anderen gesellschaftlichen Bereichen. Unter den Vorzeichen Rechenschaftslegung und Ergebnisüberprüfung fand Evaluation einen festen Platz im öffentlichen Bewusstsein und bei politischen Entscheidungsprozessen (Madaus & Stufflebeam, 2000).

Nachdem die bisherigen Darstellungen sich weitgehend an der internationalen Diskussion orientierten, welche durch die nordamerikanischen Entwicklungen stark geprägt ist, geht der folgende Abschnitt auf die Besonderheiten der bundesdeutschen Debatte ein.

Die bundesdeutsche Entwicklung

Während in Nordamerika als Anfangspunkt der Evaluation im modernen Sinn die 40er Jahre des vorigen Jahrhunderts gelten können, setzt eine vergleichbares Fachinteresse in der Bundesrepublik erst in den 1970er Jahren ein (Lange, 1983; Müller, 1987; Wollmann, 1994). Einige Grundlinien der Entwicklungen im angloamerikanischen Raum sind dabei mit Verzögerung im deutschen Sprachraum zu beobachten (vgl. Stangel-Meseke & Wottawa, 1993; Will & Krapp, 1983). Allerdings liegen ihnen hier jeweils spezifische Begründungszusammenhänge und Bedürfnislagen zugrunde, die sich etwa auch in unterschiedlichen Formen der institutionellen Verankerung von Evaluation äußerte. So lässt sich momentan die deutsche Entwicklung im Gegensatz zur internationalen Entwicklung noch nicht in ein sinnvolles Phasenmodell bringen.

Den gesellschaftlichen Hintergrund der beginnenden Evaluationstätigkeiten stellen auch hier allgemeine Reformbemühungen seit den 1960er Jahren und insbesondere die beschleunigte Bildungsexpansion der 1970er Jahre dar (Lange, 1983). Dabei fand eine erste vertiefte Auseinandersetzung mit theoretischen und praktischen Fragen der Evaluation insbesondere im Rahmen von Reformbemühungen und Modellversuchen zur Curriculumentwicklung statt, die bereits im letzten Drittel der sechziger Jahre begonnen hatten (Frey, 1975; Neul, 1977; Wulf, 1971). Wulf (1975a) sieht als soziale Funktion (vgl. Kapitel 3.3) damaliger Evaluationstätigkeiten vor allem Legitimationsprobleme des staatlichen Bildungssystems. Sie entstünden dadurch, dass selbstgesetzte Ansprüche und Erwartungen der Öffentlichkeit nicht erfüllt werden. Vor allem Bildungsverwaltungen wollten wissenschaftliche Evaluation als Mittel nutzen, um ein chronisches Legitimitätsdefizit zu lindern und politische und planerische Entscheidungen in der Öffentlichkeit abzusichern.

Für öffentlich geförderte Evaluationsprojekte war ein 1971 geschlossenes Verwaltungsabkommen zwischen Bund und Ländern besonders wichtig, aus dem die heutige Bund-Länder-Kommission für Bildungsplanung und Forschungsförderung (BLK) hervorging (Scholz, 1984). Im Rahmen von Modellversuchen und Modellversuchsprogrammen, mit denen die BLK Innovationen im Bildungswesen initiiert und begleitet, spielte auch Evaluation eine wachsende Rolle (Lange, 1983; Stangel-Meseke & Wottawa, 1993). Weiterer Evaluationsbedarf im Bildungswesen ergab sich im Kontext der Auseinandersetzung um die Gesamt- und Regelschule (vgl. Wittmann, 1990), die auch Anlass für evaluationsmethodologische Diskussionen waren (Wottawa, 1981). Ein Symposium zum Thema Evaluation fand 1982 im Rahmen der Herbsttagung der Arbeitsgruppe für Empirische Pädagogische Forschung (AEPF) in der Deutschen Gesellschaft für Erziehungswissenschaft (DGfE) in Wien statt (Will & Krapp, 1983). Dort kam es zwar zu Ansätzen einer vielversprechenden Auseinandersetzung über evaluationstheoretische und ﷓praktische Fragestellungen, wie etwa die Frage der notwendigen Praxisnähe, die jedoch, zumindest wenn man ihren Ertrag in der Literatur aufzuspüren versucht, relativ folgenlos blieb.

Nach einer ersten „Blüte" im Bildungswesen der 1970er geriet also Evaluation während des folgenden Jahrzehnts für praktisch und theoretisch tätige Pädagogen eher an den Rand des Blickfelds, so dass Beywl (1999) sogar von einer „winterschlafenden Evaluationsdiskussion" (S. 2) spricht. Für Lange (1983) stellt sich die Entwicklung anders dar. Ihm zufolge bleibt das Aufkommen an Evaluation im Bildungswesen zwar in etwa konstant, es kommt aber in zweierlei Hinsicht zu allmählichen Verlagerungen, die einen Kontinuitätsbruch zur heutigen Entwicklung darstellen. Zum einen werden Evaluationen nicht mehr nur von rein wissenschaftlich orientierten Hochschulinstitutionen durchgeführt, sondern immer häufiger unter direkter Aufsicht der Bildungs- und Kulturverwaltungen. Dieser Trend manifestiert sich in der Schaffung eigener Forschungsinstitutionen der Länder, die als nachgeordnete Dienststellen der Kultusverwaltungen fungieren. Zum anderen gewinnen im Kontext allgemeiner wissenschaftssoziologischer Entwicklungen die Methoden und Paradigmen der Handlungsforschung (Heinze, Müller, Stickelmann & Zinnecker, 1975a) eine zunehmende Dominanz bei praktischen Evaluationsvorhaben. Vor dem Hintergrund dieser Trends am Ende eines ersten Evaluationsbooms in der BRD überrascht es nicht, wenn Lange (1983) feststellt, dass sich in Deutschland zum damaligen Zeitpunkt noch keine wissenschaftlicher Diskurs über theoretische und methodische Voraussetzungen der Evaluation herausbilden konnte. Erst im Laufe der 1990er Jahre kommt es angesichts der in Kapitel 2 geschilderten gesellschaftlichen Hintergründe und Entwicklungen zu einer Wiederbelebung des Evaluationsdiskurses.

Parallel zur Entwicklung bis zu diesem Zeitpunkt verläuft die Rezeption der internationalen Fachdiskussion. Zu Beginn der deutschen Evaluationspraxis kann noch eine relativ intensive Auseinandersetzung mit dem internationalen Diskurs festgestellt werden. Dafür steht etwa die Aufsatzsammlung von Wulf (1972), in der nicht nur einige theoretische Beiträge von prominenten Autoren wie Cronbach, Scriven, Stake, Stufflebeam, Alkin oder Glass in deutscher Übersetzung vorgelegt wurden, die heute noch als seminal writings nicht nur der pädagogischen Evaluationsliteratur gelten, sondern auch mehrere beispielhafte „klassische" Studien wie beispielsweise „Das erste Jahr von Sesame Street" von Ball und Bongatz (1972). Auch das im gleichen Jahr erschienene Lehrbuch von Weiss (1972a) wurde zwei Jahre später in deutscher Übersetzung aufgelegt. Danach scheint aber, parallel zum Abflauen des allgemeinen Evaluationsdiskurses, die Wahrnehmung der angelsächsischen Entwicklungen zu erlahmen (Beywl, 1999). Insbesondere die Fortschritte, die sich seit der Phase der Professionalisierung und Diversifizierung ergeben haben (vgl. Kapitel 3.2.1.4), sind bis auf Ausnahmen hierzulande kaum aufgegriffen worden (Beywl, 1991). Prototypisch kann dafür das einzige deutschsprachige Lehrbuch von Wottawa und Thierau (1998) genannt werden, das auch in seiner aktuellen zweiten Auflage die nordamerikanische Entwicklung wenn überhaupt nur etwa bis Mitte der 1970er Jahre reflektiert.

Will man den gegenwärtigen Stand der deutschen Evaluationsdiskussion im internationalen Vergleich verorten, so fallen in erster Linie Ähnlichkeiten zur Phase der Professionalisierung und Diversifizierung auf. Dies sei an den drei in Kapitel 3.2.1.4 genannten Kennzeichen dieser Phase (Professionalisierung, Diversifizierung, Nutzungskrise) erläutert.

Während Stangel-Meseke und Wottawa (1993) noch keinerlei Anzeichen einer Professionalisierung der Evaluation in der BRD beobachten konnten, haben sich seitdem einige wichtige Entwicklungen vollzogen. So gründete sich 1997 die Deutsche Gesellschaft für Evaluation (DeGEval) in Köln als Berufs- und Interessensverband für Personen und Organisationen, die sich praktisch oder theoretisch mit Evaluation befassen. Die DeGEval war unter anderem verantwortlich für eine Adaption der Standards für Evaluation des Joint Committee (1994), die allerdings nur geringfügig an die hiesigen Besonderheiten angepasst wurden (DeGEval, 2002). Als einzige deutschsprachige Fachzeitschrift existiert seit 2002 die Zeitschrift für Evaluation, die ebenfalls von der DeGEval ausgeht. Eigene Aus- bzw. Fortbildungsgänge für eine Tätigkeit als Evaluator existieren momentan in Form eines postgradualen Studiengangs Evaluation der Universität Bern und als Fortbildungsprogramm Evaluation in der Entwicklungszusammenarbeit beim Centrum für Evaluation der Universität des Saarlandes in Saarbrücken. Ein auf das Praxisfeld Pädagogik zugeschnittener Studiengang existiert dagegen noch nicht.

Auch Anzeichen einer zunehmenden konzeptionellen Diversifizierung sind im deutschen Sprachraum zu beobachten. Im Gegensatz zur rein begrifflichen Diversifizierung, die bereits seit Neuerstarken der Evaluationspraxis Mitte der 1990er Jahre als eher negative Begleiterscheinung des Evaluationsdiskurses zu beobachten ist (vgl. Kapitel 3.2.2), kommt es in den vergangenen Jahren zu einer Erweiterung konzeptioneller Ansätze und Herangehensweisen bei der praktischen Umsetzung von Evaluation. Eine wichtige Rolle spielen dabei eine inzwischen wieder intensivierte Auseinandersetzung mit der internationalen Debatte und ein zunehmender Austausch zwischen den verschiedenen Fachdisziplinen, in denen Evaluation betrieben wird.

Als drittes Merkmal des gegenwärtigen Stands der Theorie- und Praxisentwicklung sind auch in der BRD schon seit längerem Anzeichen einer Nutzungskrise zu verzeichnen (vgl. Wittmann, 1990). Gerade im bildungspolitischen Bereich wurde beobachtet, dass Evaluationen oft nicht für Entscheidungszwecke herangezogen werden, sondern eher, um bereits getroffene Entscheidungen besser „verkaufen" zu können (Will & Krapp, 1983). Diesen Ergebnissen entsprechen die von Thonhauser und Patry (1999) referierten Befunde. Sie stellen fest, dass die Hoffnung, Evaluationen von Schulversuchen als Entscheidungsgrundlage für die Bildungspolitik zu nutzen, sich bei verschiedenen Beispielen der siebziger und frühen achtziger Jahre nicht erfüllt hat. Die Evaluationsergebnisse wurden demnach bestenfalls als Anlass für Ad-hoc-Argumente verwendet, selten aber im Sinn der tatsächlichen Ergebnisse. Auch an den Erfahrungen der Autoren aus der eigenen Praxis wird deutlich, dass die Beteiligten im Feld (Befürworter und Gegner einer evaluierten Innovationsmaßnahme) Evaluation oft hauptsächlich als ihren Interessen dienlich bzw. bedrohlich empfinden, der Glaube an eine mögliche Verbesserungsfunktion und Objektivität der Evaluation aber wesentlich geringer ausgeprägt ist.

Aktuelle Beispiele für eine mangelnde Nutzung und Akzeptanz von Evaluationsergebnissen durch Lehrkräfte sind im Kontext jüngerer Modellvorhaben und internationaler Schulleistungsstudien zu finden. Ditton und Arnoldt (2004) fanden, dass selbst wenn Lehrer die Rückmeldung von Evaluationsergebnissen verständlich, gut erläutert, informativ und übersichtlich beurteilen, sie die Verwertbarkeit für konkrete Verbesserungen der Unterrichtsarbeit weniger günstig einschätzen. Nach Schwippert (2004) machten im Kontext der internationalen Grundschul-Vergleichsuntersuchung IGLU nur die Hälfte aller Lehrkräfte von der Möglichkeit Gebrauch, individuelle Rückmeldungen zu erhalten, um Informationen über den relativen Leistungsstand ihrer Klassen zu bekommen. Hier bestehen offenbar von vorne herein Zweifel über den möglichen Nutzen der Rückmeldung solcher Ergebnisse. Auch Schrader und Helmke (2004) berichten von einer deutlichen Reserviertheit der Lehrkräfte gegenüber der Nutzung von Evaluationsrückmeldungen im Rahmen der rheinland-pfälzischen Evaluationsstudie MARKUS. Eine Diskussion weiterer Beispiele für die mangelnde Akzeptanz und Nutzung von Evaluationsergebnissen leisten Henninger und Balk (2001).

Das Problem der unzureichenden Nutzung von Evaluationsergebnissen scheint inzwischen erkannt und in der deutschsprachigen Diskussion aufgegriffen worden zu sein. Stockbauer (2000) hat die wichtigsten Erträge der internationalen Nutzungsforschung zusammengefasst. Ein von Kohler und Schrader (2004) herausgegebenes Themenheft von Empirische Pädagogik enthält verschiedene Untersuchungen, die sich mit dem Themenkomplex Ergebnisrückmeldung und Rezeption von Evaluationsergebnissen auseinandersetzen.

Auch in der Evaluationsmethodik vollzieht sich in Deutschland eine langsame Wende im „Hegemoniestreit" (Lassnigg, 1997). Während beim oben erwähnten AEPF-Symposium Anfang der achtziger Jahre (Will & Krapp, 1983) die Vertreter einer pragmatischen Sichtweise von Evaluation, die sich in erster Linie dem Praxisnutzen von Evaluation verpflichtet fühlen, offenbar noch stark in der Defensive waren, finden sich zunehmend Belege für einen Abschied von der alleinigen Dominanz der methodenfixierten Sichtweise von Evaluation, wie sie durch den Paradigmenstreit zwischen kritischen Rationalismus und Handlungsforschung oder zwischen qualitativen und quantitativen Methoden provoziert wurde. So postuliert Kromrey (2001b) als eine der Besonderheiten der Evaluation als angewandte Sozialwissenschaft ein Primat der Praxis. Im Zweifel hat demnach das Ziel, Handlungswissen für die Praxis bereitzustellen, vor rein wissenschaftlichen Ansprüchen zu rangieren. Lassnig (1997) stellt fest, dass sich insgesamt eine pragmatische Sichtweise zu etablieren beginnt, in der die verschiedenen Ansätze und Verfahren der Evaluation mit ihren spezifischen Stärken und Schwächen anerkannt werden.

Insgesamt scheint sich also heute ein Trend abzuzeichnen, der zu einer Entwicklung führen kann, wie sie für die Phase der Integration (vgl. Kapitel 3.2.1.5) in der internationalen Evaluationsgeschichte festgestellt worden ist: Eine pragmatische Sichtweise von Evaluation als Element geplanter sozialer Veränderungsprozesse setzt sich durch, deren Erfolg in erster Linie in einer nachhaltigen und sinnvollen Nutzung ihrer Ergebnisse gesehen wird. Methodisch ergibt sich daraus der Abschied von der Vorstellung, es gebe nur eine richtige Art und Weise, Evaluation zu betreiben, die für alle Situationen Gültigkeit hat. Sie wird ersetzt durch einen gewissen Eklektizismus, der je nach Zielsetzung und Kontext eines gegebenen Evaluationsprojekts jene Methoden und Verfahren auswählt, die zweckdienlich und zielführend erscheinen. Als Absicherung gegenüber Fehlentwicklungen dienen nicht alleine die Gütekriterien sozialwissenschaftlicher Forschung, sondern vor allem fachspezifische Standards für Evaluation (z. B. DeGEval, 2002).

Reaktionen auf die Qualitätsdebatte

Das zunehmende Interesse an Qualität im Bildungswesen kann also als „semantische Begleitung" struktureller Veränderungen im Bildungssystem und der Gesamtgesellschaft verstanden werden (Kuper, 2002). Damit hat die Qualitätsdiskussion viele Ursachen auf unterschiedlichen Ebenen. Ebenso mannigfaltig sind die Reaktionen, die durch die Diskussion ausgelöst wurden bzw. parallel zu ihr zu beobachten sind. Die wichtigsten und häufigsten Antworten auf diese Fragen lassen sich unter den vier Schlagworten veränderte Steuerungskonzepte, Bildungsstandards, Professionalisierung und Evaluation zusammenfassen. Wie die folgende Diskussion der vier Reaktionstendenzen zeigt, bestehen auch hier deutliche Interdependenzen.

Veränderte Steuerungskonzepte

Im Bereich der öffentlich finanzierten Bildung stellte die Inputsteuerung lange Zeit das dominierende Steuerungskonzept in Schulen und Hochschulen dar (Müller-Böling, 1997; Rolff, 1996). Auf Systemebene wird dabei die Produktion von Qualität primär durch gesetzliche Vorgaben und Verordnungen, Lehrpläne und die Reglementierung der Lehreraus- und ﷓fortbildung geregelt. Auch auf Ebene der einzelnen pädagogischen Institution stand die Regulierung des Inputs lange im Vordergrund, indem sich das Hauptaugenmerk auf die Qualifikation und Auswahl von Lehrenden in Schule und Hochschule konzentrierte. Die zugrunde liegende Annahme dabei ist, dass Qualität sich dann einstellt, wenn sichergestellt wird, dass Lehrende zum Zeitpunkt der Einstellung gut ausgebildet und ausreichend qualifiziert sind. Prozess- und Produktmerkmale haben dagegen bei dieser Steuerungsphilosophie nur eine geringe Relevanz.

Nachdem sich die Inputsteuerung im deutschen Bildungswesen lange Zeit durchaus bewährt hat (Kuper, 2002; Marksthaler, 1999), sind als Reaktion auf die neuere Qualitätsdebatte Zweifel aufgekommen, ob diese bürokratische Steuerungsphilosophie veränderten Bedingungen noch gerecht werden kann (Steffens, 1999). Insbesondere ihre Inflexibilität und Trägheit sowie die Missbrauchsgefahr in Folge fehlender Kontrollmöglichkeiten spielten dabei eine Rolle (Müller-Böling, 1997; Posch & Altrichter, 1998). In der Folge kam es somit zu einer Öffnung des Bildungsbereichs für alternative Steuerungsmodelle und ﷓techniken, die sich sämtlich durch eine stärkere Betonung der Prozesse und Produkte von Bildungsmaßnahmen auszeichnen. Im Gegensatz zur reinen Inputsteuerung lautet dabei die Erwartung, dass Schwachstellen in der laufenden Arbeit schneller aufgedeckt und verbessert werden können und dass flexibler auf veränderte Rahmenbedingungen reagiert werden kann.

Zu den neuen Steuerungsverfahren gehören unter anderem übergreifende Konzepte und Ansätze aus den Bereichen Qualitätssicherung (Donabedian, 1996), Qualitätsmanagement (Beywl, 1994; Dubs, 1998; Greve & Pfeiffer, 2002) und Bildungscontrolling (Hense, Mandl & Schratzenstaller, 2005; Seeber, 2002) sowie eine Reihe weiterer Techniken und Verfahren wie etwa Qualitätszirkelarbeit (Blenck, 2000), Gütesiegel (Liebald, 1998), Benchmarking (Bessoth, 2000; Halfar & Lehnerer, 1997), Balanced Scorecards (Kaplan & Norton, 1992) oder die Normenreihe DIN EN ISO 9000-9004 (Wunder, 1995; Wuppertaler Kreis, 1996). Wie diese Aufzählung zeigt, gingen bei der Suche nach alternativen Steuerungsmodellen starke Impulse vom betrieblichen Bereich aus.

Eine Marktübersicht ausgearbeiteter Qualitätssicherungs- und Qualitätsmanagementsysteme für den Bildungsbereich von Gonon et al. (1998) zeigte bereits eine große Vielfalt. Die Ansätze unterscheiden sich teils erheblich in Faktoren wie der konkreten Zielsetzung, der konzeptionellen Fundierung, dem Grad der Standardisierung oder dem Vorgehen. Gleichzeitig liegen jenseits von Pilotprojekten bisher kaum Umsetzungsbeispiele in der Praxis vor. Dies kann auch auf eine starken Skepsis gegenüber betrieblich und marktwirtschaftlich orientierten Steuerungsphilosophien zurückgeführt werden, die insbesondere im schulischen Bereich verbreitet ist (vgl. Altrichter, 1999; Dubs, 1998). Daher wird gewöhnlich empfohlen, diese nicht unverändert zu übernehmen, sondern immer erst an die spezifischen Gegebenheiten des Bildungswesens und pädagogischer Institutionen anzupassen (Reinmann-Rothmeier, 2000; Schicke, 1997). Ohnehin erscheint aufgrund einiger unüberwindlicher, systembedingter Unterschiede von Marktwirtschaft und Bildungswesen die unkritische Übertragung der betriebswirtschaftlichen Logik auf Bildungsinstitutionen allgemein problematisch (vgl. Fend, 2000; Gonon et al., 1998).

Bildungsstandards

Die Diskussion von Bildungsstandards kann ebenfalls als Reaktion auf die neuere Qualitätsdebatte genannt werden. Bildungsstandards haben die Funktion, die Ziele pädagogischer Arbeit für einen bestimmten Geltungsbereich präzise und verständlich festzulegen. Dazu gehört, dass diese Ziele in Form von erwünschten Lernergebnissen der Lernenden explizit gemacht werden (OECD, 1989). Im Gegensatz zu klassischen Curricula wird also einerseits die unmittelbare Operationalisierbarkeit von Lernzielen angestrebt, während andererseits keine Vorgaben gemacht werden, wie und mit welchen Methoden diese zu erreichen sind. So kommt etwa der auf Standards umgestellte finnische Rahmenlehrplan für den grundbildenden Unterricht mit Anhängen auf nur 180 Seiten Umfang, wobei sämtliche Fächer der Klassenstufen 1 bis 9 abgedeckt werden. Als Finnland nach dem ersten „PISA-Schock" in der deutschen Bildungsdiskussion zum vielzitierten Vorbild wurde, war dies ein Sachverhalt, der viele deutsche Pädagogen offenbar sehr erstaunt hat (Kahl, 2004, 29. März).

Bildungsstandards nehmen im aktuellen Bildungsdiskurs eine doppelte Funktion ein (Klieme et al., 2003). Einerseits konkretisieren sie den Auftrag, den Bildungsinstitutionen zu erfüllen haben, und übernehmen damit curriculare Aufgaben. Andererseits stellen sie Kriterien und Maßstäbe zur Verfügung, anhand derer die Ergebnisse von Bildungsprozessen auf individueller und institutioneller Ebene bewertet werden können (Bessoth, 2000; Dubs, 1998). Damit steht die Entwicklung von Bildungsstandards in einem engen Zusammenhang mit der bereits diskutierten Veränderung von Steuerungsstrategien. Denn Verfahren der Prozess- und insbesondere Outputsteuerung sind darauf angewiesen, dass klar formulierte Zielvorgaben existieren, an denen Erfolge gemessen und Schwachstellen aufgedeckt werden können. Auch mit Prinzipien wie Dezentralisierung und Schulautonomie zeigen sich Kongruenzen, da die Entscheidungsbefugnis darüber, mit welchen Mitteln und auf welchem Wege Standards angestrebt werden, den verantwortlichen Akteuren vor Ort überlassen wird.

Professionalisierung

Ein drittes Thema, das im Kontext der Qualitätsdiskussion im Bildungswesen ein stärkeres Gewicht bekommen hat, ist die Frage der pädagogischen Professionalität bzw. Professionalisierung (Combe & Helsper, 1996; Darling-Hammond & Wise 1992; Lüders, 1998). Sie setzt bei den oben genannten Defiziten in den Prozessen der Bildungsproduktion auf zwei Ebenen an.

Auf unterrichtlicher Ebene geht es unter dem Schlagwort Professionalisierung primär darum, die Qualität der pädagogischen Interaktion durch geeignete Fortbildungsmaßnahmen bei Lehrkräften und anderen Lehrenden sicherzustellen (vgl. Avenarius et al., 2003). Darin ist kein grundsätzliches Misstrauen gegenüber der Qualifikation von Lehrkräften zu sehen. Vielmehr kann auch die Forderung nach einer kontinuierlichen und obligatorischen Fort- und Weiterbildung als Ausdruck einer Umorientierung der allgemeinen Steuerungsphilosophie verstanden werden.

Analog wird im Kontext der neueren Qualitätsdebatte auf der institutionellen Ebene des Schulmanagements mehr Professionalität gefordert. Da in der BRD die Leitung einer Schule oft als Nebentätigkeit zur pädagogischen Arbeit und ohne eigene Ausbildung ausgeübt werden muss, konzentriert sich auch hierbei die Aufmerksamkeit auf den Bereich der Fort- und Weiterbildung. Deren Bedeutung ist nicht zu unterschätzen, da damit zu rechnen ist, dass unter anderem im Zuge der wachsenden Autonomie von Einzelschulen die Aufgaben und Verantwortlichkeiten von Schulleitungen sowohl quantitativ als auch qualitativ eher zu- als abnehmen werden (Bonsen, Iglhaut & Pfeiffer, 1999; Füssel, 1998; Höher & Rolff, 1996).

Evaluation

Als vierte wichtige Reaktionstendenz im Zuge der neueren Qualitätsdebatte kann schließlich die Wiederentdeckung der Evaluation und ihrer verschiedenen Varianten genannt werden. Sie steht dabei in enger Verbindung zu den drei zuvor genannten Trends:

Die Umsetzung von veränderten Steuerungskonzepten, die über die reine Inputsteuerung hinausgehen, ist auf verlässliches Wissen über Prozesse, Produkte und Wirkungen pädagogischer Arbeit angewiesen. In diesem Kontext werden Verfahren und Techniken der Evaluation meist explizit etwa als Elemente von Qualitätssicherungs- und Qualitätsmanagementsystemen integriert.
Eine wichtige Funktion von Bildungsstandards ist es, Kriterien und Maßstäbe bereitzustellen, anhand derer die Ergebnisse von Bildungsprozessen überprüft werden können. Bei dieser Überprüfung spielt Evaluation eine zentrale Rolle.
Zentrale Aspekte von Professionalität sind Rechenschaftslegung und Legitimation. Evaluationen können diese Aufgaben wahrnehmen, da sie ein bewährtes Mittel zum Nachweis eigener Leistungen oder zur Kontrolle dieser Leistungen von außen darstellen.

Somit überrascht es nicht, dass Evaluation im Kontext der neueren Qualitätsdebatte einen zentralen Stellenwert einnimmt und dass Evaluation heute zu einem der wichtigsten Indikatoren von Bildungsqualität gerechnet wird (Europäische Kommission, 2001). Das folgende Kapitel wird den Begriff der Evaluation vertiefen und dazu auf wichtige Entwicklungslinien, Aufgaben, Ansätze und Problemfelder eingehen.