Textsammlung& Geschichte der Evaluation - evoluation.de

Jan Hense 23 Aug 2006 - 13:01 Geschichte der Evaluation Textsammlung

(Leseprobe aus Hense, J. U. (2006). Selbstevaluation. Erfolgsfaktoren und Wirkungen eines Ansatzes zur selbstbestimmten Qualitätsentwicklung im schulischen Bereich. Frankfurt a. M.: Peter Lang. [Kapitel 3.2])

Our search as lay historians reveals that the first recorded instance of evaluation occurred when man, woman, and serpent were punished for having engaged in acts which apparently had not been among the objectives defined by the Program circumscribing their existence. (Perloff et al., 1976, p. 264)

Im Kontext der historischen Entwicklung von Evaluation, die in den folgenden Abschnitten skizziert wird, ist zunächst die Herkunft des Begriffs von Interesse. Etymologisch lässt sich der Begriff „Evaluation" folgendermaßen herleiten: Obwohl die bei uns übliche Aussprache des Wortes eine Wurzel im Lateinischen vermuten lässt, existiert eine direkte Entsprechung dort nicht. Vielmehr nahm der Begriff erst einen Umweg über das Französische und Englische (Karbach, 2000): Aus dem lateinischen valere („bei Kräften sein", „wert sein") entstand zuerst das französische valoir und daraus über mehrere Zwischenstufen die Neubildung évaluation. In der Aufklärung ist diese nicht nur ins Englische übernommen worden, sondern auch ins Deutsche. Dort ist sie leicht modifiziert als „Evalvation" (sic) mit den Bedeutungen „Schätzung", „Ermittlung" noch bis Mitte des 20. Jahrhunderts nachweisbar, dann aber verschwunden. In Folge der nordamerikanischen Evaluationsexpansion der 1960er Jahre kam es dann zu einer erneuten Entlehnung, dieses Mal aber aus dem Englischen mit der aktuellen Bedeutung. Etymologisch gesehen handelt es sich bei dem deutschen „Evaluation" in der heutigen Bedeutung also trotz der latinisierten Aussprache um eine direkte Übernahme aus dem Englischen.

Eine Praxis der Evaluation lässt sich bis in die Renaissance, die ihr zugrunde liegende Denktradition sogar bis in die Antike zurückverfolgen (vgl. Cronbach et al., 1980; Henninger, 2000). Für das Bildungswesen werden üblicherweise die Entwicklungen in den USA der 1930er und 1940er Jahre als Ursprung der modernen Evaluationspraxis gesehen. Da auch in den folgenden Jahrzehnten maßgebliche Impulse von Nordamerika ausgingen, wird im Folgenden zunächst die internationale Entwicklung dargestellt (Kapitel 3.2.1). Auf die Besonderheiten der bundesdeutschen Evaluationsgeschichte wird anschließend in Kapitel 3.2.2 eingegangen.

Die internationale Entwicklung

Für die Darstellung der Evaluationsgeschichte liegen verschiedene Einteilungen in historische Phasen vor, die sich vor allem im Grad ihrer Differenzierung unterscheiden (Cook & Matt, 1990; Cronbach et al., 1980; Shadish et al., 1991). Für den Bildungsbereich bietet sich besonders die Einteilung in fünf Phasen von Madaus und Stufflebeam (2000; vgl. Walberg & Haertel; 1990) an, welche die internationalen und insbesondere nordamerikanischen Entwicklungen zusammenfasst und daher der folgenden Darstellung zugrunde gelegt wird (vgl. Tabelle 1).

Tabelle 1: Phasen der Evaluationsgeschichte nach Madaus und Stufflebeam (2000)

 Phase                                                    Dauer
 Die Tylersche Phase                                      1930-1945
 Die Phase der Stagnation                                 1946-1957
 Die Phase der Expansion                                  1958-1972
 Die Phase der Professionalisierung und Diversifizierung  1973-1982
 Die Phase der Integration                                seit 1983

Die Tylersche Phase

Bahnbrechend für die moderne Evaluation waren Arbeiten von Ralph W. Tyler, der oft auch als „Vater der Bildungsevaluation" bezeichnet wird. Vor dem Hintergrund der Depression der dreißiger Jahre und den Reformprogrammen des New Deal von Präsident Roosevelt kam es in den USA unter dem Stichwort Progressive Education Movement zu umfangreichen Reformbemühungen im Bildungswesen. Tyler war im Rahmen der berühmten Eight Year Study verantwortlich für die Untersuchung der differentiellen Effekte verschiedener Schulformen. Im Rahmen dieser Arbeiten entwickelte er sein Konzept der Evaluation, in dessen Mittelpunkt der Vergleich der beabsichtigten Ziele eines Curriculums mit den tatsächlich erreichten Lernergebnissen der Schüler steht (Tyler, 1935, 1942; vgl. Kapitel 3.1.2).

Da bis dato vor allem die Lehrerqualifikation und Input-Faktoren auf organisationaler Ebene herangezogen wurden, um die Produktion von Bildung zu gewährleisten, schuf Tyler durch die Betonung der Outputs von Lernprozessen ein alternatives Modell zur Steuerung von Bildungssystemen und ﷓institutionen. Weitere Innovationen bestanden in der Überwindung subjektiver Verfahren der Leistungsüberprüfung und die Anwendung wissenschaftlicher Verfahren im Kontext größerer Reformvorhaben. Dadurch übten seine Arbeiten einen erheblichen Einfluss auf die weitere Entwicklung aus (Madaus & Stufflebeam, 2000).

Die Phase der Stagnation

In der Nachkriegszeit beschränkte sich die Weiterentwicklung von Evaluationsverfahren auf methodische Aspekte. Dazu gehörte die Ausweitung landesweit standardisierter Leistungstests, mit denen einzelne Schulen und Schuldistrikte die Erreichung curricularer Lernziele vergleichend überprüfen konnten. Daneben kam es zu einer Weiterentwicklung experimenteller Designs und des Tylerschen Evaluationsansatzes. Betrachtet man allerdings die damalige Bedeutung von Evaluation für die allgemeine gesellschaftliche Entwicklung und den Bildungsbereich insgesamt, ist eine relative Bedeutungslosigkeit festzustellen. Madaus und Stufflebeam (2000) nennen diese Phase daher „Age of Innocence" oder sogar „Age of Ignorance" (p. 9), da trotz vorhandener gesellschaftlicher Defizite kaum ein Bedarf für Evaluation gesehen wurde.

Die Phase der Expansion

Als Auslöser für die große Expansionsphase der Evaluation wird häufig der „Sputnikschock" im Jahr 1957 genannt, als es der UdSSR erstmals gelang, einen künstlichen Satelliten in eine Erdumlaufbahn zu befördern (Stufflebeam, 2001). Diese überraschende Demonstration technologischer Überlegenheit durch ein unterlegen geglaubtes System führte zu einer allgemeinen Verunsicherung und Ängsten in Bezug auf die eigene Verteidigungsfähigkeit. Die in der Folge initiierten Reformbemühungen erfassten vor allem das Bildungssystem in starkem Maße. Insbesondere im Bereich Mathematik und Naturwissenschaften kam es zu großen landesweiten Programmen der Curriculumreform. Ein weiterer Schub ergab sich durch den von der Johnson-Administration 1965 ausgerufenen war on poverty, der die großen sozialen Missstände und Ungleichheiten jener Zeit beseitigen wollte. Auch hier wurden umfangreiche Reformprogramme aufgelegt, deren Effektivität im Rahmen begleitender Evaluationen überprüft wurde. Allgemein entstand also ein erhöhter Bedarf nach Überprüfung und objektivierter Steuerung gesellschaftlicher Entscheidungsprozesse, der durch Evaluationen gedeckt werden sollte (Shadish et al., 1991). Die Erwartung an Evaluation lautete dabei im Sinne von Poppers (1992) „Sozialtechnik der kleinen Schritte" (S. 187), den schrittweisen Umbau der Gesellschaftsordnung wissenschaftlich lenken zu können. Am exemplarischsten fanden diese Ideen ihren Ausdruck in Campbells (1969) Sichtweise von „reforms as experiments" und seinem Begriff der „experimenting society".

Mit der Ausweitung der Praxis der Evaluation zeigten sich allerdings auch erste Schwächen der bis dahin dominierenden Evaluationsmethoden, zu denen das Tylersche Zielerreichungsmodell, standardisierte Leistungstests und das klassische Experiment mit Kontrollgruppenversuchsplan gehörten. Diese ausschließlich auf Endergebnisse fokussierenden Methoden erwiesen sich als wenig tauglich, um jene Informationen zu liefern, die zur Optimierung der Praxis vonnöten waren. Cronbach (1963) war der erste, der auf diese Problematik hinwies und damit die Idee einer Evaluation für Verbesserungszwecke schuf, für die Scriven (1972) später die Bezeichnung „formative Evaluation" etablierte. Gleichzeitig begann sich jenes Phänomen abzuzeichnen, für das Rossi (1987) die pessimistischen, zugleich aber auch ironisch gemeinten „metallic and plastic laws of evaluation" formulierte:

The laws claim that a review of the last two decades of evaluation research on major social programs in the United States does not sustain the proposition that over this period the American establishment of policy makers, agency officials, professionals and social scientists knew how to design and implement social programs that were at all effective, let alone spectacularly so (Rossi, 1987, pp. 3﷓4).

Prototypisch für Rossis Diagnose kann beispielsweise die bekannte „What works'"-Studie von Martinson (1974) gelten. Sie fasste die damals vorliegenden Evaluationsergebnisse zu verschiedenen Rehabilitationsmaßnahmen für Strafgefangene zusammen und kam im Wesentlichen zum Schluss: „nothing works". Martinsons methodisches Vorgehen konnte später als defizitär und sein Fazit damit als ungültig belegt werden (Sarre, 2001). Darin drückte sich auch ein methodischer Fortschritt für die Disziplin aus, denn nicht zuletzt aufgrund dieser krisenhaften Entwicklungen resultierte gegen Ende der Expansionsphase der Evaluation auch eine Expansion der Evaluationsforschung (vgl. Kapitel 3.1.4.2). Wesentliche Paradigmen und Prämissen der frühen Phasen der Evaluationsgeschichte wurden dabei einer Überprüfung unterzogen, wodurch einer weitgehenden Umorientierung und Neukonzeptionalisierung des gesamten Felds der Weg bereitet wurde. Sie kann durch die Stichworte Professionalisierung und Diversifizierung charakterisiert werden.

Die Phase der Professionalisierung und Diversifizierung

Im Laufe der siebziger Jahren stellten sich eine Reihe von Entwicklungen ein, die von Madaus und Stufflebeam (2000) als Anzeichen einer zunehmenden Professionalisierung der Evaluation gedeutet werden (vgl. Rossi, 1984):

die Gründung von Berufs- und Interessensverbänden wie etwa die Evaluation Research Society (ERS), die Vorläuferorganisation der heutigen American Evaluation Association (AEA)
die Schaffung eigener Ausbildungs- und Fortbildungsgänge, die im Gegensatz zu der üblichen sozialwissenschaftlichen Methodenausbildung gezielt auf eine Tätigkeit als Evaluator vorbereiten sollten
die Gründung regelmäßig erscheinender Fachzeitschriften als Forum des professionellen Austauschs (bspw. Studies in Educational Evaluation oder New Directions for Program Evaluation)
die Entwicklung von Standards der Evaluation (ERS Standard Committee, 1982; Joint committee, 1981, 1988, 1994, 2002; vgl. Kapitel 3.4.5)
die Entwicklung der Metaevaluation, also von Techniken zur Evaluation von Evaluationen, mit deren Hilfe die Qualität von Evaluation überprüft und sichergestellt werden kann (vgl. Kapitel 3.4.1.1)
die allgemeine Anerkennung der Eigenständigkeit von Evaluation als wissenschaftliche Disziplin und praktisches Tätigkeitsfeld

Neben solchen Professionalisierungstendenzen zeichnete sich in dieser Phase auch eine deutliche Diversifizierung der Praxis ab (Shadish et al., 1991). Eine Fülle neuer Evaluationsansätze und ﷓modelle entstand und etablierte sich, von denen viele, teils in einer weiterentwickelten Fassung, heute noch als aktuell gelten können (Alkin, 2004). Darunter befinden sich beispielsweise das CIPP-Modell von Stufflebeam (1973, 2003), das Konzept der zielfreien Evaluation von Scriven (1973), die responsive Evaluation von Stake (1975) oder naturalistische Evaluationsansätze (Guba, 1987). Daneben erschienen in dieser Phase die Erstauflagen wichtiger Lehrbücher (v.a. Rossi, Freeman & Wright, 1979; Weiss, 1972a), die heute in ihren aktualisierten Neuauflagen immer noch als Standardwerke gelten (Rossi et al., 2004; Weiss, 1998).

Negativ äußerte sich die Diversifizierung dieser Phase allerdings in zweierlei Hinsicht. Erstens gab es neben vielen wegweisenden Entwicklungen auch viel „Wildwuchs". Popham (1993) charakterisiert treffend: „For a time it appeared that an educational evaluation model was being generated by anyone who (1) could spell educational evaluation and (2) had access to an appropriate number of boxes and arrows" (p. 23). Einige der damals konzipierten Evaluationsansätze, die aus heutiger Sicht leicht exotisch wirken, sind inzwischen zurecht wieder in der Versenkung verschwunden. Ein zweites Problem stellte die zunehmende Polarisierung in der evaluationstheoretischen Auseinandersetzung dar, deren Lager als positivistisch-quantitativ auf der einen Seite und phänomenologisch-qualitativ auf der anderen Seite bezeichnet werden können (vgl. Kapitel 3.4.4). Diese Auseinandersetzung betrifft vordergründig methodische Fragen, im Grunde drückt sie aber eher ideologische und epistemologische Differenzen aus (Madaus & Stufflebeam, 2000).

Neben Professionalisierung und Diversifizierung ist diese Phase durch ein drittes wichtiges Phänomen gekennzeichnet, die aufkommende bzw. sich verstärkende Nutzungskrise der Evaluation (Legge, 1984; vgl. Kapitel 3.5.1). Erste Fragen zur Nutzung von sozialwissenschaftlichen Forschungsergebnissen allgemein und Evaluationsergebnissen im Speziellen kamen bereits Ende der 1960 auf. Wegweisend waren dabei die Arbeiten von Weiss (1972b, 1972c). Diese lösten in der Folge breite Diskussionen aus, zu denen auch vielfältige theoretische und empirische Forschungsbemühungen zu der Frage gehörten, wann und wie Evaluationsergebnisse überhaupt in der Praxis aufgegriffen und genutzt werden (Alkin, 1985; Alkin, Daillak & White, 1979; Ciarlo, 1981; Leviton & Hughes, 1981; Patton, 1997c; Patton et al., 1977; Weiss, 1981). Insgesamt konnten nur wenige empirische Belege dafür gefunden werden, dass Ergebnisse von Evaluation in dem Maße oder in der Art von Entscheidungsträgern und in der öffentlichen Debatte verwendet wurden, wie es vorgesehen war (Cook, 1997). Da aber Evaluation im Gegensatz zur Grundlagenforschung gerade durch ihre Handlungsorientierung (vgl. Kapitel 3.1.4.1) gekennzeichnet ist, stellte sich angesichts der Erkenntnis, dass konkrete Handlungen in Folge von Evaluationsergebnissen offenbar nur selten zu beobachten waren, die Sinnfrage (Alkin et al., 1979; Cronbach et al., 1980).

Das Zwischenfazit am Ende dieser Phase war also ein ernüchterndes: „Complaint has accompanied the expansion of evaluation. Everybody seems to think that evaluation is not rendering the service it should." (Cronbach et al., 1980, p. 44). Allerdings bleibt festzuhalten, dass die Nutzungskrise der Evaluationsforschung ein äußerst fruchtbares Forschungsgebiet erschlossen hat. Denn heute kann die Evaluationsnutzung als das bisher am besten untersuchte Teilgebiet der Forschung über Evaluation gelten (Leviton, 2003).

Die Phase der Integration

Die Nutzungskrise der Evaluation trug etwa seit Beginn der 1980er Jahre wesentlich zu einer Neu- und Umorientierung des gesamten Feldes bei. Nachdem gezeigt wurde, dass Evaluationsergebnisse in der bisherigen Praxis häufig nicht in konkreten Entscheidungssituationen herangezogen wurden, waren verschiedene Teilentwicklungen zu beobachten. Sie werden an dieser Stelle nur skizziert, da sie ein wichtige Rolle im Kontext der Kritik spielt, die an der traditionellen Evaluationspraxis geübt wurde, und in Kapitel 3.5 genauer diskutiert werden. Verkürzt lassen sich drei Tendenzen feststellen:

Es kommt zu einer Rekonzeptionalisierung des Nutzungsbegriffs. Unter Evaluationsnutzung wird nicht mehr nur ihre Verwendung zur Entscheidungsstützung gesehen. Auch begleitende, indirekte, verzögerte und nicht-intendierte Wirkungen werden nun auf verschiedenen Ebenen als Nutzung von Evaluation beobachtet und berücksichtigt.
Der Nutzung und Nützlichkeit von Evaluation wird verstärkt Aufmerksamkeit geschenkt. Sie wird aufgewertet zu einem der wichtigsten Gütekriterien bei der Bewertung des Erfolgs einer Evaluation (vgl. Kapitel 3.4.5).
Verstärkt werden alternative Methoden und Zugänge zur Evaluation gesucht, die der Rekonzeptionalisierung und Aufwertung der Evaluationsnutzung gerecht werden können.

Auch in Folge dieser Entwicklungen trat der Methodenstreit zwischen quantitativem und qualitativem bzw. positivistischem und phänomenologischem Lager in den Hintergrund. Es kann zwar nicht behauptet werden, dass die methodische Polarisierung endgültig überwunden wurde. Dennoch ist unverkennbar, dass der Methodenstreit in dieser Phase an Bedeutung verliert. Stattdessen ergibt sich aus der Nutzungsdebatte zunehmende Akzeptanz für einen an praktischen Zwecken orientierten Methodeneklektizismus. Dies drückt sich beispielhaft in den neueren Auflagen des Standardlehrbuchs von Rossi et al. (2004) aus, in dem es nicht mehr um das eine, „richtige" Verfahren der Evaluation geht, sondern darum, Evaluationen je nach Kontext und Gegebenheiten „maßzuschneidern". Die Wahl der Methoden und Verfahren ist also in erster Linie eine Frage danach, was in welcher Situation als zweckdienlich und zielführend angesichts der vorliegenden Anforderungen gelten kann.

Gegensätze und Widersprüche der vergangenen Evaluationsgeschichte werden also zunehmend überbrückt und integriert, was nach Shadish et al. (1991) exemplarisch in den Arbeiten von Cronbach (1982; Cronbach et al., 1980) und Rossi (Rossi et al., 2004) deutlich wird. Gleichzeitig zeigt ihre umfassende theoriegeschichtliche Aufarbeitung des Felds auch, dass zwar bei vielen Fragen inzwischen weitgehende Einigkeit erzielt werden konnte, dennoch aber viele wesentliche evaluationstheoretische und ﷓praktische Fragen weiterer Klärung bedürfen.

Auf Seite der Praxis war diese Phase in Nordamerika gekennzeichnet durch die wachsende Bedeutung des Wettbewerbs als Faktor im Bemühen um Qualität in der Bildung und in anderen gesellschaftlichen Bereichen. Unter den Vorzeichen Rechenschaftslegung und Ergebnisüberprüfung fand Evaluation einen festen Platz im öffentlichen Bewusstsein und bei politischen Entscheidungsprozessen (Madaus & Stufflebeam, 2000).

Nachdem die bisherigen Darstellungen sich weitgehend an der internationalen Diskussion orientierten, welche durch die nordamerikanischen Entwicklungen stark geprägt ist, geht der folgende Abschnitt auf die Besonderheiten der bundesdeutschen Debatte ein.

Die bundesdeutsche Entwicklung

Während in Nordamerika als Anfangspunkt der Evaluation im modernen Sinn die 40er Jahre des vorigen Jahrhunderts gelten können, setzt eine vergleichbares Fachinteresse in der Bundesrepublik erst in den 1970er Jahren ein (Lange, 1983; Müller, 1987; Wollmann, 1994). Einige Grundlinien der Entwicklungen im angloamerikanischen Raum sind dabei mit Verzögerung im deutschen Sprachraum zu beobachten (vgl. Stangel-Meseke & Wottawa, 1993; Will & Krapp, 1983). Allerdings liegen ihnen hier jeweils spezifische Begründungszusammenhänge und Bedürfnislagen zugrunde, die sich etwa auch in unterschiedlichen Formen der institutionellen Verankerung von Evaluation äußerte. So lässt sich momentan die deutsche Entwicklung im Gegensatz zur internationalen Entwicklung noch nicht in ein sinnvolles Phasenmodell bringen.

Den gesellschaftlichen Hintergrund der beginnenden Evaluationstätigkeiten stellen auch hier allgemeine Reformbemühungen seit den 1960er Jahren und insbesondere die beschleunigte Bildungsexpansion der 1970er Jahre dar (Lange, 1983). Dabei fand eine erste vertiefte Auseinandersetzung mit theoretischen und praktischen Fragen der Evaluation insbesondere im Rahmen von Reformbemühungen und Modellversuchen zur Curriculumentwicklung statt, die bereits im letzten Drittel der sechziger Jahre begonnen hatten (Frey, 1975; Neul, 1977; Wulf, 1971). Wulf (1975a) sieht als soziale Funktion (vgl. Kapitel 3.3) damaliger Evaluationstätigkeiten vor allem Legitimationsprobleme des staatlichen Bildungssystems. Sie entstünden dadurch, dass selbstgesetzte Ansprüche und Erwartungen der Öffentlichkeit nicht erfüllt werden. Vor allem Bildungsverwaltungen wollten wissenschaftliche Evaluation als Mittel nutzen, um ein chronisches Legitimitätsdefizit zu lindern und politische und planerische Entscheidungen in der Öffentlichkeit abzusichern.

Für öffentlich geförderte Evaluationsprojekte war ein 1971 geschlossenes Verwaltungsabkommen zwischen Bund und Ländern besonders wichtig, aus dem die heutige Bund-Länder-Kommission für Bildungsplanung und Forschungsförderung (BLK) hervorging (Scholz, 1984). Im Rahmen von Modellversuchen und Modellversuchsprogrammen, mit denen die BLK Innovationen im Bildungswesen initiiert und begleitet, spielte auch Evaluation eine wachsende Rolle (Lange, 1983; Stangel-Meseke & Wottawa, 1993). Weiterer Evaluationsbedarf im Bildungswesen ergab sich im Kontext der Auseinandersetzung um die Gesamt- und Regelschule (vgl. Wittmann, 1990), die auch Anlass für evaluationsmethodologische Diskussionen waren (Wottawa, 1981). Ein Symposium zum Thema Evaluation fand 1982 im Rahmen der Herbsttagung der Arbeitsgruppe für Empirische Pädagogische Forschung (AEPF) in der Deutschen Gesellschaft für Erziehungswissenschaft (DGfE) in Wien statt (Will & Krapp, 1983). Dort kam es zwar zu Ansätzen einer vielversprechenden Auseinandersetzung über evaluationstheoretische und ﷓praktische Fragestellungen, wie etwa die Frage der notwendigen Praxisnähe, die jedoch, zumindest wenn man ihren Ertrag in der Literatur aufzuspüren versucht, relativ folgenlos blieb.

Nach einer ersten „Blüte" im Bildungswesen der 1970er geriet also Evaluation während des folgenden Jahrzehnts für praktisch und theoretisch tätige Pädagogen eher an den Rand des Blickfelds, so dass Beywl (1999) sogar von einer „winterschlafenden Evaluationsdiskussion" (S. 2) spricht. Für Lange (1983) stellt sich die Entwicklung anders dar. Ihm zufolge bleibt das Aufkommen an Evaluation im Bildungswesen zwar in etwa konstant, es kommt aber in zweierlei Hinsicht zu allmählichen Verlagerungen, die einen Kontinuitätsbruch zur heutigen Entwicklung darstellen. Zum einen werden Evaluationen nicht mehr nur von rein wissenschaftlich orientierten Hochschulinstitutionen durchgeführt, sondern immer häufiger unter direkter Aufsicht der Bildungs- und Kulturverwaltungen. Dieser Trend manifestiert sich in der Schaffung eigener Forschungsinstitutionen der Länder, die als nachgeordnete Dienststellen der Kultusverwaltungen fungieren. Zum anderen gewinnen im Kontext allgemeiner wissenschaftssoziologischer Entwicklungen die Methoden und Paradigmen der Handlungsforschung (Heinze, Müller, Stickelmann & Zinnecker, 1975a) eine zunehmende Dominanz bei praktischen Evaluationsvorhaben. Vor dem Hintergrund dieser Trends am Ende eines ersten Evaluationsbooms in der BRD überrascht es nicht, wenn Lange (1983) feststellt, dass sich in Deutschland zum damaligen Zeitpunkt noch keine wissenschaftlicher Diskurs über theoretische und methodische Voraussetzungen der Evaluation herausbilden konnte. Erst im Laufe der 1990er Jahre kommt es angesichts der in Kapitel 2 geschilderten gesellschaftlichen Hintergründe und Entwicklungen zu einer Wiederbelebung des Evaluationsdiskurses.

Parallel zur Entwicklung bis zu diesem Zeitpunkt verläuft die Rezeption der internationalen Fachdiskussion. Zu Beginn der deutschen Evaluationspraxis kann noch eine relativ intensive Auseinandersetzung mit dem internationalen Diskurs festgestellt werden. Dafür steht etwa die Aufsatzsammlung von Wulf (1972), in der nicht nur einige theoretische Beiträge von prominenten Autoren wie Cronbach, Scriven, Stake, Stufflebeam, Alkin oder Glass in deutscher Übersetzung vorgelegt wurden, die heute noch als seminal writings nicht nur der pädagogischen Evaluationsliteratur gelten, sondern auch mehrere beispielhafte „klassische" Studien wie beispielsweise „Das erste Jahr von Sesame Street" von Ball und Bongatz (1972). Auch das im gleichen Jahr erschienene Lehrbuch von Weiss (1972a) wurde zwei Jahre später in deutscher Übersetzung aufgelegt. Danach scheint aber, parallel zum Abflauen des allgemeinen Evaluationsdiskurses, die Wahrnehmung der angelsächsischen Entwicklungen zu erlahmen (Beywl, 1999). Insbesondere die Fortschritte, die sich seit der Phase der Professionalisierung und Diversifizierung ergeben haben (vgl. Kapitel 3.2.1.4), sind bis auf Ausnahmen hierzulande kaum aufgegriffen worden (Beywl, 1991). Prototypisch kann dafür das einzige deutschsprachige Lehrbuch von Wottawa und Thierau (1998) genannt werden, das auch in seiner aktuellen zweiten Auflage die nordamerikanische Entwicklung wenn überhaupt nur etwa bis Mitte der 1970er Jahre reflektiert.

Will man den gegenwärtigen Stand der deutschen Evaluationsdiskussion im internationalen Vergleich verorten, so fallen in erster Linie Ähnlichkeiten zur Phase der Professionalisierung und Diversifizierung auf. Dies sei an den drei in Kapitel 3.2.1.4 genannten Kennzeichen dieser Phase (Professionalisierung, Diversifizierung, Nutzungskrise) erläutert.

Während Stangel-Meseke und Wottawa (1993) noch keinerlei Anzeichen einer Professionalisierung der Evaluation in der BRD beobachten konnten, haben sich seitdem einige wichtige Entwicklungen vollzogen. So gründete sich 1997 die Deutsche Gesellschaft für Evaluation (DeGEval) in Köln als Berufs- und Interessensverband für Personen und Organisationen, die sich praktisch oder theoretisch mit Evaluation befassen. Die DeGEval war unter anderem verantwortlich für eine Adaption der Standards für Evaluation des Joint Committee (1994), die allerdings nur geringfügig an die hiesigen Besonderheiten angepasst wurden (DeGEval, 2002). Als einzige deutschsprachige Fachzeitschrift existiert seit 2002 die Zeitschrift für Evaluation, die ebenfalls von der DeGEval ausgeht. Eigene Aus- bzw. Fortbildungsgänge für eine Tätigkeit als Evaluator existieren momentan in Form eines postgradualen Studiengangs Evaluation der Universität Bern und als Fortbildungsprogramm Evaluation in der Entwicklungszusammenarbeit beim Centrum für Evaluation der Universität des Saarlandes in Saarbrücken. Ein auf das Praxisfeld Pädagogik zugeschnittener Studiengang existiert dagegen noch nicht.

Auch Anzeichen einer zunehmenden konzeptionellen Diversifizierung sind im deutschen Sprachraum zu beobachten. Im Gegensatz zur rein begrifflichen Diversifizierung, die bereits seit Neuerstarken der Evaluationspraxis Mitte der 1990er Jahre als eher negative Begleiterscheinung des Evaluationsdiskurses zu beobachten ist (vgl. Kapitel 3.2.2), kommt es in den vergangenen Jahren zu einer Erweiterung konzeptioneller Ansätze und Herangehensweisen bei der praktischen Umsetzung von Evaluation. Eine wichtige Rolle spielen dabei eine inzwischen wieder intensivierte Auseinandersetzung mit der internationalen Debatte und ein zunehmender Austausch zwischen den verschiedenen Fachdisziplinen, in denen Evaluation betrieben wird.

Als drittes Merkmal des gegenwärtigen Stands der Theorie- und Praxisentwicklung sind auch in der BRD schon seit längerem Anzeichen einer Nutzungskrise zu verzeichnen (vgl. Wittmann, 1990). Gerade im bildungspolitischen Bereich wurde beobachtet, dass Evaluationen oft nicht für Entscheidungszwecke herangezogen werden, sondern eher, um bereits getroffene Entscheidungen besser „verkaufen" zu können (Will & Krapp, 1983). Diesen Ergebnissen entsprechen die von Thonhauser und Patry (1999) referierten Befunde. Sie stellen fest, dass die Hoffnung, Evaluationen von Schulversuchen als Entscheidungsgrundlage für die Bildungspolitik zu nutzen, sich bei verschiedenen Beispielen der siebziger und frühen achtziger Jahre nicht erfüllt hat. Die Evaluationsergebnisse wurden demnach bestenfalls als Anlass für Ad-hoc-Argumente verwendet, selten aber im Sinn der tatsächlichen Ergebnisse. Auch an den Erfahrungen der Autoren aus der eigenen Praxis wird deutlich, dass die Beteiligten im Feld (Befürworter und Gegner einer evaluierten Innovationsmaßnahme) Evaluation oft hauptsächlich als ihren Interessen dienlich bzw. bedrohlich empfinden, der Glaube an eine mögliche Verbesserungsfunktion und Objektivität der Evaluation aber wesentlich geringer ausgeprägt ist.

Aktuelle Beispiele für eine mangelnde Nutzung und Akzeptanz von Evaluationsergebnissen durch Lehrkräfte sind im Kontext jüngerer Modellvorhaben und internationaler Schulleistungsstudien zu finden. Ditton und Arnoldt (2004) fanden, dass selbst wenn Lehrer die Rückmeldung von Evaluationsergebnissen verständlich, gut erläutert, informativ und übersichtlich beurteilen, sie die Verwertbarkeit für konkrete Verbesserungen der Unterrichtsarbeit weniger günstig einschätzen. Nach Schwippert (2004) machten im Kontext der internationalen Grundschul-Vergleichsuntersuchung IGLU nur die Hälfte aller Lehrkräfte von der Möglichkeit Gebrauch, individuelle Rückmeldungen zu erhalten, um Informationen über den relativen Leistungsstand ihrer Klassen zu bekommen. Hier bestehen offenbar von vorne herein Zweifel über den möglichen Nutzen der Rückmeldung solcher Ergebnisse. Auch Schrader und Helmke (2004) berichten von einer deutlichen Reserviertheit der Lehrkräfte gegenüber der Nutzung von Evaluationsrückmeldungen im Rahmen der rheinland-pfälzischen Evaluationsstudie MARKUS. Eine Diskussion weiterer Beispiele für die mangelnde Akzeptanz und Nutzung von Evaluationsergebnissen leisten Henninger und Balk (2001).

Das Problem der unzureichenden Nutzung von Evaluationsergebnissen scheint inzwischen erkannt und in der deutschsprachigen Diskussion aufgegriffen worden zu sein. Stockbauer (2000) hat die wichtigsten Erträge der internationalen Nutzungsforschung zusammengefasst. Ein von Kohler und Schrader (2004) herausgegebenes Themenheft von Empirische Pädagogik enthält verschiedene Untersuchungen, die sich mit dem Themenkomplex Ergebnisrückmeldung und Rezeption von Evaluationsergebnissen auseinandersetzen.

Auch in der Evaluationsmethodik vollzieht sich in Deutschland eine langsame Wende im „Hegemoniestreit" (Lassnigg, 1997). Während beim oben erwähnten AEPF-Symposium Anfang der achtziger Jahre (Will & Krapp, 1983) die Vertreter einer pragmatischen Sichtweise von Evaluation, die sich in erster Linie dem Praxisnutzen von Evaluation verpflichtet fühlen, offenbar noch stark in der Defensive waren, finden sich zunehmend Belege für einen Abschied von der alleinigen Dominanz der methodenfixierten Sichtweise von Evaluation, wie sie durch den Paradigmenstreit zwischen kritischen Rationalismus und Handlungsforschung oder zwischen qualitativen und quantitativen Methoden provoziert wurde. So postuliert Kromrey (2001b) als eine der Besonderheiten der Evaluation als angewandte Sozialwissenschaft ein Primat der Praxis. Im Zweifel hat demnach das Ziel, Handlungswissen für die Praxis bereitzustellen, vor rein wissenschaftlichen Ansprüchen zu rangieren. Lassnig (1997) stellt fest, dass sich insgesamt eine pragmatische Sichtweise zu etablieren beginnt, in der die verschiedenen Ansätze und Verfahren der Evaluation mit ihren spezifischen Stärken und Schwächen anerkannt werden.

Insgesamt scheint sich also heute ein Trend abzuzeichnen, der zu einer Entwicklung führen kann, wie sie für die Phase der Integration (vgl. Kapitel 3.2.1.5) in der internationalen Evaluationsgeschichte festgestellt worden ist: Eine pragmatische Sichtweise von Evaluation als Element geplanter sozialer Veränderungsprozesse setzt sich durch, deren Erfolg in erster Linie in einer nachhaltigen und sinnvollen Nutzung ihrer Ergebnisse gesehen wird. Methodisch ergibt sich daraus der Abschied von der Vorstellung, es gebe nur eine richtige Art und Weise, Evaluation zu betreiben, die für alle Situationen Gültigkeit hat. Sie wird ersetzt durch einen gewissen Eklektizismus, der je nach Zielsetzung und Kontext eines gegebenen Evaluationsprojekts jene Methoden und Verfahren auswählt, die zweckdienlich und zielführend erscheinen. Als Absicherung gegenüber Fehlentwicklungen dienen nicht alleine die Gütekriterien sozialwissenschaftlicher Forschung, sondern vor allem fachspezifische Standards für Evaluation (z. B. DeGEval, 2002).