3. Qualität und Qualitätssicherung

3.1   Qualitätskriterien

Gute Wissenschaft kann langfristig nur praktiziert werden, wenn die Wissenschaftsgemeinschaft sich fortlaufend selbst kritisch überprüft, um die Qualität ihrer Arbeit zu sichern.

Um die Qualität von Wissenschaft zu bewerten, sie zu fördern und zu sichern, haben sich Kriterien etabliert, die gute wissenschaftliche Arbeit ausmachen [→ Grund­werte]. Zu diesen gehören insbesondere: Orientierung am Erkenntnisgewinn, der innovative Charakter einer Idee bzw. die Originalität einer Sichtweise, methodische und inhaltliche Nachvollziehbarkeit sowie wissenschaftliche und gesellschaftliche Relevanz. Zwar sind diese Qualitätskriterien allgemeingültig, sie können jedoch in unterschiedlichen Kontexten – Fachdisziplin, Wissenschaftsgemeinschaft, gesellschaftlicher Gesamtzusammenhang – eine unterschiedliche Gewichtung haben. Wissenschaft sollte sich den unterschiedlichen Ansprüchen bewusst sein und diese in den jeweiligen Kontexten reflektieren [→ Kommerzialisierung, → Ethik].

Forschung sollte von allen Seiten zugänglich und nicht von persönlichen Interessen gesteuert sein. Die kritische Diskussion aller Ergebnisse – im Sinne des „organisierten Skeptizismus“ nach Merton [14] – trägt nicht nur zur Überprüfung ihrer Qualität bei, sondern ermöglicht weiteren Erkenntnisgewinn, um potenziellen Nutzen Wissenschaft und Gesellschaft zur Verfügung stellen zu können [→ Grundwerte].

Die Qualität von Forschung kann auf unterschiedlichen Wegen bewertet und gesichert werden: Bei ihrer praktischen Arbeit haben die Forschenden selbst die Möglichkeit, die Qualität ihrer Arbeit zu erhöhen – indem sie diese nachvollziehbar und methodisch valide gestalten. Das Unterkapitel „Nachvollziehbarkeit“ zeigt, wie dieses Qualitätskriterium weiter gefördert werden kann.

Eine der wichtigsten Methoden, über die die Wissenschaftsgemeinschaft derzeit die Qualität von Forschungsergebnissen misst – und durch welche Mechanismen die Qualität dabei paradoxerweise in den Hintergrund rücken kann – wird im Unter­kapitel „Veröffentlichung in Fachzeitschriften“ diskutiert.

WissenschaftlerInnen agieren in einem Spannungsfeld: zwischen dem Anspruch „guter Wissenschaft“ und anderen Interessen, wie zum Beispiel finanzieller Förderung, der eigenen Karriereplanung oder der ökonomischen Verwertung von Forschungsergebnissen. Auswirkungen dieses Spannungsfeldes zeigen die Unterkapitel „Reputation“, „Wissenschaftliches Fehlverhalten“ und „Umgang mit negativen Ergebnissen“.

Wesentliche Kriterien qualitativ hochwertiger Wissenschaft sind Kreativität und Originalität. Das gleichnamige Unterkapitel zeigt, worauf zu achten ist, damit Qualitätssicherungsmaßnahmen nicht zu einer Einengung und Begrenzung von Kreativität und Originalität führen.

Nicht zuletzt bildet Evaluation einen institutionellen Weg, um die Qualität von Forschung und die Rahmenbedingungen dafür zu beurteilen und zu sichern. Das dazugehörige Unterkapitel zeigt, wie diese Art der Selbstkontrolle funktioniert – und wo sie versagen kann.

3.2   Nachvollziehbarkeit

Gute, qualitativ hochwertige Forschung muss nachvollziehbar durchgeführt und dargestellt werden. Leider ist dies nicht immer der Fall. Gerade in den vergangenen Jahren wurde im Rahmen von Stichproben bekannt, dass zum Beispiel in der biomedizinischen Forschung ein Großteil der publizierten Studienergebnisse experimentell nicht nachvollzogen werden konnte [15, 16].

3.2.1    Reproduzierbarkeit in den Naturwissenschaften

In den Naturwissenschaften versteht man unter Reproduzierbarkeit die Wiederholbarkeit von Forschungsmethoden und Forschungsergebnissen. Sie ist eine Grundanforderung an wissenschaftliche Experimente und Messungen. Unter gleichen Versuchsbedingungen müssen gleiche Ergebnisse erzielt werden, wenn der Messfehler sowie intrinsische Ungenauigkeiten berücksichtigt werden. Voraussetzung für den Nachweis der Reproduzierbarkeit ist eine ausreichende Protokollierung des experimentellen Aufbaus und der Versuchsdurchführung. Ein experimentelles Ergebnis gilt zudem erst dann als verlässlich, wenn es von unabhängigen ForscherInnen wiederholt worden ist. Reproduzierbarkeit ist nicht nur ein wesentliches Kriterium für den Wahrheitsgehalt eines Forschungsergebnisses. Sie stellt auch eine notwendige Bedingung für die (ökonomische) Verwertbarkeit desselben dar [17] – schließlich lässt sich kein Patent für einen einmalig erzielten Effekt beantragen.

Es gibt verschiedene Gründe, die dazu führen können, dass Forschungsergebnisse nicht reproduziert werden können. Dazu gehören unter anderem Fehler, unberücksichtigte Einflüsse und Betrug. Aufgrund der hohen Komplexität biologischer Systeme können unterschiedliche bekannte oder unbekannte Variablen (Einflussfaktoren wie der Tag-Nacht-Rhythmus, Sonnenaktivität) dazu führen, dass Forschungsergebnisse nicht reproduziert werden können. Es gibt sogar Anhaltspunkte dafür, dass Prozesse wie etwa die Ausprägung von Erbinformationen (Genexpression) stochastischer Natur sind, so dass beispielsweise Zellen in gleicher Umgebung und mit identischen Erbinformationen dennoch unterschiedlich aussehen oder funktionieren können [18].

Lösungsideen

1. Um die Reproduzierbarkeit zu erhöhen, sollten (finanzielle) Anreize zur Erforschung der Gründe für fehlende Reproduzierbarkeit geschaffen werden.

2. So wie einzelnen wissenschaftlichen Artikeln ein Zitations-Index zugeordnet wird, sollte auch ein Reproduzierungs-Faktor (reproduction factor) ermittelt werden. Dieser könnte sichtbar machen, wie viele der Reproduktionsversuche ein Ergebnis oder eine Methode erfolgreich reproduziert haben.

3. Einzelne Studien sollten unabhängig vom jeweiligen Ergebnis als „unreproduzierte Studie“ veröffentlicht werden. Erst wenn diese unabhängig reproduziert worden ist, sollte das Ergebnis als gesichert gelten. Diese Reproduzierung kann durch eine unabhängige Forschungsgruppe (dann als gemeinsame Publikation) oder durch einen unabhängigen Dienstleister erfolgen.

4. Insbesondere im Bereich der Lebenswissenschaften sollte der Staat unabhängige Forschung unterstützen, die Meta-Analysen erstellen und Gründe für fehlende Reproduzierbarkeit aufdecken kann.

3.2.2    Nachvollziehbarkeit in den Geistes- und Sozialwissenschaften

In den Geistes- und Sozialwissenschaften muss Nachvollziehbarkeit in einem anderen Kontext betrachtet werden. In diesen Wissenschaften stehen die Forschungsfrage oder das zu erwartende Ergebnis weniger von vornherein fest, sondern Forschungsfrage und -gegenstand ergeben sich mehr durch den Prozess der Auseinandersetzung mit dem Forschungsfeld. Andererseits ermöglicht die Freiheit der Forschungsziele einen Raum, der kreative Wege zulässt, die nicht unbedingt an Verwertbarkeit orientiert sein müssen. Dennoch bleibt die intersubjektive Nachvollziehbarkeit der dargestellten Perspektiven ein wichtiges Ziel. Dies ist allerdings nicht immer sofort möglich. Teilweise kann das Werk eines Forschenden auch erst lange Zeit später nachvollzogen und gewürdigt werden.

3.3   Veröffentlichung in Fachzeitschriften

Um auf seine Qualität und Nachvollziehbarkeit überprüft werden zu können, muss ein wissenschaftliches Ergebnis der Wissenschaftsgemeinschaft zur Verfügung gestellt werden, indem es publiziert wird.

3.3.1    Begutachtungsverfahren (Review)

Zur Veröffentlichung von Forschungsergebnissen wird ein Manuskript an die RedakteurInnen (Editor) einer Fachzeitschrift geschickt. Es gibt hauptberufliche RedakteurInnen (gerade bei den Fachzeitschriften mit einem hohen impact factor wie Nature, Science etc.) und RedakteurInnen, die diese Aufgabe neben ihrer Tätigkeit als WissenschaftlerIn übernehmen; gerade Letztere könnten im Interessenkonflikt zwischen eigenen und den zu beurteilenden Inhalten stehen [→ Kommerzialisierung]. Denn bei den meisten Fachzeitschriften entscheidet der Redakteur bzw. die Redakteurin, ob das Manuskript zur Veröffentlichung in der Fachzeitschrift in Frage kommt. Kriterien hierfür sind beispielsweise Relevanz für die LeserInnen der Zeitschrift, Qualität und Originalität. Entweder der Redakteur bzw. die Redakteurin lehnt das Manuskript gleich ab, oder er / sie wählt zwei bis drei GutachterInnen (Reviewer) mit Expertise auf dem Forschungsgebiet aus, die das Manuskript beurteilen und eventuell Verbesserungsvorschläge machen, zum Beispiel zusätzliche Experimente oder Kontrollen einfordern. Diese GutachterInnen bleiben üblicherweise für die AutorInnen anonym, die AutorInnen erhalten nur ihre Kommentare. Der Redakteur bzw. die Redakteurin entscheidet anhand der Kommentare und Einschätzung der GutachterInnen, ob das Manuskript überarbeitet werden soll und ob es letztlich veröffentlicht wird.

Das Begutachtungsverfahren einiger weniger Fachzeitschriften unterscheidet sich von dem oben beschriebenen traditionellen System. So ist bei der Fachzeitschrift Public Library of Science One (Plos One) nicht die Beurteilung des Redakteurs bzw. der Redakteurin über die Relevanz einer Forschungsarbeit, sondern nur die wissenschaftliche Qualität der Arbeit ausschlaggebend für die Veröffentlichung. Das heißt, es werden nicht nur aktuell besonders interessante Artikel veröffentlicht, von denen viele Zitationen erwartet werden, sondern alle Artikel, solange sie wissenschaftlich fundiert sind. Zudem sind bei einigen Fachzeitschriften wie zum Beispiel British Medical Journal (BMJ), European Molecular Biology Organization Journal (EMBOJ), eLife und Faculty of 1000 die GutachterInnen nicht anonym.

Probleme

Die RedakteurInnen von wissenschaftlichen Zeitschriften haben eine starke Machtposition. Sie können zum Beispiel entscheiden, welche Arbeiten als relevant erachtet und veröffentlicht werden.

Interessenkonflikte der RedakteurInnen und GutachterInnen können dazu führen, dass einerseits die Veröffentlichungen der RedakteurInnen bzw. GutachterInnen in dem zu begutachtenden Artikel zitiert werden. Dies kann entweder aufgrund von Forderungen derselben oder in vorauseilendem Gehorsam der AutorInnen erfolgen, die dadurch ihre Chancen für die Veröffentlichung erhöhen wollen. Andererseits kann ein Manuskript durch RedakteurInnen bzw. GutachterInnen abgelehnt oder seine Veröffentlichung verzögert werden, falls es mit Ergebnissen oder Sichtweisen der RedakteurInnen bzw. GutachterInnen konkurriert oder kollidiert.

Sind die GutachterInnen für die AutorInnen anonym, senkt das unter Umständen die Hemmschwelle, unfaire oder nicht konstruktive Gutachten abzugeben. Sind die GutachterInnen nicht anonym, kann das dazu führen, dass sie zögern, offene Kritik zu üben.

Lösungsideen

1. Um die Macht der RedakteurInnen zu schwächen, könnte man das Vorgehen der Online-Zeitschrift Plos One zum Standard machen. Hier beurteilen nicht die RedakteurInnen, ob ein Manuskript für das Fachmagazin geeignet ist, sondern jedes eingereichte Manuskript wird allein anhand der wissenschaftlichen Qualität bewertet.

2. Um die Subjektivität einzelner GutachterInnen auszugleichen, sollten ihre Anzahl erhöht (idealerweise auf drei) und die Bandbreite ihrer Fachgebiete erweitert werden. Die GutachterInnen sollten sich zudem über ihre Anmerkungen untereinander einigen, bevor diese an die AutorInnen zurückgehen. Auch wenn das den Aufwand für die GutachterInnen erhöht, rückt dadurch jedoch die Qualität der Veröffentlichung in den Vordergrund. Denn während die AutorInnen gut beraten sind, die Kommentare der GutachterInnen umzusetzen, wenn sie ihren Artikel veröffentlich sehen wollen, unterliegen die GutachterInnen diesem Druck nicht. Im schlimmsten Fall können sie willkürlich darauf bestehen, dass beispielsweise ihre eigenen Veröffentlichungen zitiert werden. Eine solche persönliche Vorteilsnahme könnte verhindert werden, wenn die GutachterInnen sich vorab untereinander einigen müssten. Dieses Modell wird beispielsweise von der Online-Fachzeitschrift eLife praktiziert. Insgesamt trägt das so nicht nur zur qualitativen Verbesserung der Gutachter-Kommentare selbst bei. Gleichzeitig beeinflusst diese Maßnahme auch die Reputation positiv, da Zitations-Indizes nicht mehr künstlich in die Höhe getrieben werden.

3. Die Forderungen von GutachterInnen adressieren oft ganz neue Aspekte der Forschungsergebnisse, gehen weit über die vorliegenden Experimente hinaus, kosten bei ihrer Erfüllung sehr viel Geld und Zeit und erhöhen dennoch nicht immer die wissenschaftliche Qualität des Artikels. Es sollte daher dafür gesorgt werden, dass die GutachterInnen die eingereichte Arbeit beurteilen, dass dabei aber klar wird, dass es nicht ihre Aufgabe ist, neue oder weitergehende Forschungsfragen zu identifizieren und deren Bearbeitung zu verlangen [19].

4. Denkbar wäre auch die Anonymität der GutachterInnen (teilweise) aufzuheben, um direkt sichtbar zu machen, wenn eigene Interessen verfolgt werden. Bei einem transparenten Gutachten muss aber gewährleistet sein, dass negative, aber dennoch konstruktive Kommentare dem Ruf der GutachterInnen nicht schaden. Ein Begutachtungsverfahren mit nicht-anonymen GutachterInnen wird zum Beispiel auf der Publikations-Plattform Faculty of 1000 erprobt [20].

5. Eine weitere Möglichkeit wäre es, das interaktive Begutachtungsverfahren zu übernehmen, wie es beispielweise die Fachzeitschrift Frontiers durchführt [21]: Während die erste Begutachtungsrunde auf traditionellem Wege erfolgt, findet die weitere Begutachtung in Interaktion zwischen den AutorInnen und GutachterInnen statt, welche in einer Diskussion Argumente für ihre Positionen austauschen und kurzfristig aufeinander eingehen können – anstatt wie im traditionellen System darauf warten zu müssen, dass alle GutachterInnen ihre Berichte geschrieben haben. Dies kann einen kritischen Diskurs vereinfachen und gleichzeitig das Verfahren beschleunigen.

3.3.2    Gewichtung der renommierten Fachzeitschrifen (high-impact journals)
Problemfelder

Wissenschaftliche Karrieren und Forschungsfinanzierung bzw. -förderung sind zunehmend davon abhängig, in welchen Zeitschriften (und wie oft) Wissenschaftler­Innen publiziert haben. Dabei zählen vor allem Veröffentlichungen in den renommierten Fachzeitschriften, die einen hohen impact factor aufweisen. Der impact factor einer Fachzeitschrift gibt an, wie viele Veröffentlichungen Artikel aus dieser Fachzeitschrift zitieren, in Relation zu der Gesamtzahl der zitierfähigen Artikel dieser Zeitschrift.

Je mehr Artikel WissenschaftlerInnen in Fachzeitschriften mit einem hohen impact factor (high-impact journals) veröffentlicht haben, desto angesehener sind sie in der Regel in ihrem jeweiligen Forschungsfeld. So werden Artikel in Fachzeitschriften nicht nur genutzt, um qualitativ gute Wissenschaft zu sichern, sondern auch, um daraus die Fähigkeiten von WissenschaftlerInnen abzuleiten. Das kann im Umkehrschluss die Forschungsarbeit selbst negativ beeinflussen, weil eventuell nicht an etwas geforscht wird, das aus wissenschaftlicher Sicht wichtig wäre, sondern stattdessen an etwas, das sich besser veröffentlichen lässt.

Darüber hinaus lehnen high-impact journals negative Ergebnisse häufig ab. Durch die Bedeutung von Veröffentlichungen in diesen Fachzeitschriften für Karriere und Forschungsförderung konzentriert sich Forschungsarbeit hauptsächlich auf „aussichtsreiche“ Projekte mit vorhersehbaren positiven Ergebnissen. Dadurch sinkt die Bereitschaft risikoreichere Forschungsprojekte durchzuführen, bei denen nicht absehbar ist, ob sie in kurzer Zeit positive Ergebnisse bringen. Das mindert in der Konsequenz die Forschungskreativität [22].

Der impact factor sagt nichts über die Qualität einer Arbeit aus, sondern nur etwas über das Journal, in dem sie veröffentlicht wurde. Zudem besteht das Problem, dass der impact factor eines Journals selbst auf unwissenschaftlichem und intransparentem Weg bestimmt wird [23–25]. Zur Berechnung des impact factor wird herangezogen, wie viele Artikel der Zeitschrift das Unternehmen Thomson Reuters als zitierfähig bestimmt. Dabei ist jedoch nicht transparent wie Thomson Reuters die Anzahl der zitierfähigen Artikel bestimmt. Am Beispiel der Zeitschrift Plos One zeigte sich, dass es durch unterschiedliche Bewertungen von Thomson Reuters zu Schwankungen des impact factor eines Journals zwischen 3 und 11 kommen kann [23].

Lösungsideen

1. Der impact factor sagt, wenn überhaupt, etwas über Fachzeitschriften, nicht aber über einzelne Forschungsarbeiten oder die ForscherInnen, die sie durchgeführt haben aus, und sollte daher auch nicht zu deren Beurteilung herangezogen werden.

2. Sollte der impact factor als solcher weiter bestehen bleiben, muss er auf jeden Fall mit wissenschaftlichen und transparenten Methoden bestimmt werden. Als ein erster Schritt in diese Richtung sollte öffentlich zugänglich und nachvollziehbar sein, nach welchen Kriterien Thomson Reuters die Zitierfähigkeit einzelner Artikel einer Fachzeitschrift bestimmt.

3. Am sinnvollsten wäre es, den ursprünglichen impact factor durch einen neuen Faktor zu ersetzen, der sowohl den Reproduzierungs-Faktor mit einbezieht als auch angibt, wie viele Widersprüche zu einem Paper veröffentlicht wurden. Solch ein neuer Faktor soll ebenfalls auf wissenschaftlichem Weg erhoben sowie öffentlich zugänglich und transparent sein.

4. Als ergänzende Maßnahme, um das Gewicht der high-impact journals abzumildern, sollte vermehrt auf die Zitationszahlen einzelner Paper gesetzt werden. Diese lassen dann auch bessere Rückschlüsse auf die WissenschaftlerInnen (und deren Arbeit) selbst zu, wobei fachspezifische Unterschiede berücksichtigt werden müssen. In diesem Zusammenhang sind auch Internet-Werkzeuge wie Google Scholar und CrossRef ein erster Ansatz [23].

5. Um die Gewichtung der Fachzeitschriften abzumildern, sollte man andere Faktoren, welche für die Reputation relevant sind, einfacher evaluierbar und zugänglich machen.

6. Ein weiterer möglicher Weg wäre, open access stärker zu fördern [23]. Beiträge aus high-impact journals liegen derzeit noch hinter Bezahlschranken, so dass viele Leser­Innen keinen Zugriff darauf haben. Durch einen freien Zugang verliert der impact factor einer Fachzeitschrift langfristig an Relevanz, weil LeserInnen die Möglichkeit erhalten, sich unbeeinflusst vom impact factor ein Bild von der Arbeit zu machen. So verliert der impact factor als unzureichendes Kriterium für die Qualität einer Arbeit an Gewicht.

3.4   Reputation

3.4.1    Reputation in den Naturwissenschaften

Die Reputation von WissenschaftlerInnen gilt häufig als ein Kriterium für die Bedeutung ihrer Forschung. Wissenschaftliche Reputation wird hauptsächlich über rein metrische Systeme gemessen, beispielsweise über die Anzahl von Publikationen oder die Anzahl von Zitierungen (H-Index). Wendet man solche bibliometrischen Methoden an, wird aus Quantität Qualität abgeleitet. Dabei fallen jedoch Qualitätskriterien oder Kriterien guter Reputation unter den Tisch, die sich quantitativ nicht bestimmen lassen [26, 27]. Um welche Kriterien es sich dabei handelt, wird ausführlicher in den Abschnitten „Qualitätskriterien“ und „Kreativität“ erläutert.

Empfehlungen

1. Um der Dominanz metrischer Systeme entgegenzuwirken, wäre ein erster möglicher Schritt, vielfältige, quantitativ messbare Kriterien für Reputation geltend zu machen, um so das Gewicht einiger weniger abzumildern. Neben den oben bereits genannten Kriterien sollte berücksichtigt werden: Einwerbung von Drittmitteln, wissenschaftliche Preise, aktive Teilnahme an Konferenzen, Mitgliedschaft in der Redaktion (Editorial Board) von Zeitschriften, Gutachtertätigkeit, aktive Mitgliedschaft in wissenschaftlichen Organisationen, Verbänden und Ausschüssen, Medienpräsenz, Engagement in der Lehre. All diese Kriterien könnten über ein einheitliches, zentrales „Zertifikat“ vergeben werden, aus dem auf einen Blick hervor geht, wie stark die jeweilige Person in den einzelnen Bereichen engagiert ist.

2. Um die Quantität von Publikationen weniger stark zu gewichten, sollten bei Bewerbungen und Anträgen zum Beispiel fünf von den WissenschaftlerInnen ausgewählte Artikel berücksichtigt werden, die dann im Gegensatz zu ihrer gesamten Publikationsliste inhaltlich bewertet werden können. Ein solches Verfahren wird zum Beispiel bereits von der Deutschen Forschungsgemeinschaft angewandt, sollte aber auch darüber hinaus implementiert werden.

3. Weiterhin sollten nicht quantifizierbare Kriterien – wie etwa gute Lehre, Voranbringen des eigenen Forschungsfeldes oder das Anstoßen von öffentlichen Diskursen – in ihrer Bedeutung gestärkt werden. Dies kann etwa durch finanzielle Anreize im Rahmen der Forschungsförderung geschehen oder beispielsweise in Berufungsprozessen. Die Gewichtung aller Kriterien sollte dabei flexibel sein und von Situation zu Situation angepasst werden.

3.4.2    Reputation in den Geisteswissenschaften

Die Beurteilung von Reputation über metrische Systeme wird theoretischen und qualitativ ausgerichteten Wissenskulturen nicht gerecht. Es ist weiter zu erforschen, inwieweit dies eine Zielverschiebung der Forschungsinhalte nach sich zieht. Die Wirkkraft eines Forschungsbeitrags zeigt sich manchmal erst über einen längeren Zeitraum hinweg. Die Reputation durch Medienpräsenz sowie durch produzierte Zitationszirkel sollte weder als notwendiges noch hinreichendes Kriterium für wissenschaftliche Qualität betrachtet werden.

3.5   Wissenschaftliches Fehlverhalten

Der Wunsch, Reputation zu erlangen und eine Karriere in der Wissenschaft voranzutreiben, kann ein starker Faktor sein, der zu wissenschaftlichem Fehlverhalten motiviert. In einer Studie wurde ermittelt, dass bei ca. zwei Dritteln der Artikel, die aus dem Bereich der Lebenswissenschaften zurückgezogen wurden, Fehlverhalten aufgetreten war [28]. In den dazugehörigen Umfragen gaben ca. ein Drittel der befragten WissenschaftlerInnen an, selber fragwürdige wissenschaftliche Praktiken angewandt zu haben, und rund zwei Prozent gaben sogar schweres Fehlverhalten wie Fälschungen zu [29]. Die eigentlichen Zahlen dürften noch deutlich über diesen Werten liegen – so berichteten mehr als 14 Prozent der Forschenden, bei KollegInnen schweres Fehlverhalten beobachtet zu haben, immerhin 70 Prozent fragwürdige Praktiken.

Wissenschaftliches Fehlverhalten umfasst eine große Bandbreite an Praktiken, welche die Qualität der Forschung verringern oder zunichte machen. Um Fehlverhalten entgegenzuwirken, wurden von verschiedenen Forschungseinrichtungen, wissenschaftlichen Fachgesellschaften und Verlagen Richtlinien zur guten wissenschaftlichen Praxis und dem Umgang mit Fehlverhalten erlassen [z. B. 30, 31]. Jedoch sind diese Richtlinien vielen WissenschaftlerInnen kaum bekannt, da sie auch nicht in die Curricula der Studiengänge sowie der Promotionen eingebaut sind. So ergab eine Umfrage unter RedakteurInnen wissenschaftlicher Zeitschriften, dass diese die relevanten Richtlinien kaum kannten und davon ausgingen, dass in ihren Zeitschriften kein Fehlverhalten auftrete [32]. Ombudspersonen stehen als Ansprechpartner über die Deutsche Forschungsgemeinschaft oder andere Forschungseinrichtungen zur Verfügung. Allerdings sind sie in wissenschaftlichen Prozessen noch unzureichend etabliert und bekannt [33].

Lösungsideen

1. Zur Verhinderung wissenschaftlichen Fehlverhaltens sind schon in der Lehre die kritische Reflexion wissenschaftlicher Erkenntnisprozesse und die zugrunde liegenden Qualitätsansprüche zu integrieren [→ Bildung]. So sollten in Seminaren und Praktika die relevanten Standards und übliche Probleme thematisiert werden. Studierende sollten konkrete Anleitung und Unterstützung zur Einhaltung der Standards beim Verfassen von Abschlussarbeiten erhalten.

2. Fächerspezifische sowie überfachliche Leitlinien der guten wissenschaftlichen Praxis können helfen, Problembewusstsein zu schaffen und Ansätze aufzuzeigen, wie Fehlverhalten vorgebeugt werden kann. Sie müssen jedoch stärker bekannt gemacht und zum Pflichtcurriculum von Studiengängen und Promotionen gehören.

3. Bei der Einstellung von WissenschaftlerInnen sowie der Vergabe ehrenamtlicher Tätigkeiten wie der einer Herausgeberschaft einer wissenschaftlichen Zeitschrift ist zu fordern und zu überprüfen, dass entsprechendes Bewusstsein für Probleme und Lösungsansätze vorhanden ist. An allen Forschungseinrichtungen sollten unabhängige Ombudspersonen eingerichtet und als Ansprechpartner für Fälle wissenschaftlichen Fehlverhaltens bekannt gemacht werden.

3.6   Umgang mit negativen Ergebnissen

Manipulation und Betrug sind nicht die einzigen Faktoren, die die Qualität von Forschung beeinträchtigen können. Auch das Nicht-Veröffentlichen von negativen Ergebnissen trägt zur Verzerrung und mangelnder Qualität wissenschaftlicher Erkenntnisse bei. Tatsächlich werden negative Ergebnisse deutlich weniger häufig veröffentlicht als positive. Eine Studie ermittelte über Stichproben, dass der Anteil von Veröffentlichungen, die ein positives Ergebnis berichten, von 70,2 Prozent im Jahr 2000 auf 85,9 Prozent im Jahr 2007 anstieg [34].

Problemfelder

Die Tatsache, dass positive Ergebnisse häufiger als negative Ergebnisse veröffentlicht werden, wird als Publikationsbias oder file drawer problem („Schubladenproblem“) bezeichnet. Damit ist gemeint, dass ForscherInnen unerwünschte Ergebnisse erst gar nicht zur Veröffentlichung einreichen, sondern in der Schublade verschwinden lassen. Dies betrifft vor allem sowohl sogenannte Null-Ergebnisse, bei denen kein signifikantes Ergebnis gefunden wurde, aber auch signifikante Ergebnisse, die nicht den Vorerwartungen entsprechen. In beiden Fällen kommt es zu einer starken Verzerrung der veröffentlichten wissenschaftlichen Ergebnisse. Zum Beispiel ist es sehr wahrscheinlich, dass bei 20 Wiederholungen eines Experiments (bei einer angenommenen Fehlerwahrscheinlichkeit von fünf Prozent) mindestens einmal ein falsch-positives Ergebnis erzielt wird, auch wenn kein realer Effekt vorliegt. Aufgrund des Publikationsbias könnte es also passieren, dass die eigentlich wenigen falsch-positiven Ergebnisse, die zufällig einen signifikanten Effekt zeigen, veröffentlicht werden – während die 95 Prozent der übrigen Ergebnisse, die keinen signifikanten Effekt zeigen, unberücksichtigt bleiben [35]. Selbst eine geringe Anzahl von Studien, die in der Schublade verschwinden, kann so zu einer großen Verzerrung des „Standes der Wissenschaft“ führen [36].

Eine weitere Studie ergab, dass Arbeiten, die die Nullhypothese bestätigen, um ein Drittel seltener veröffentlicht werden als Studien mit statistisch signifikanten Ergebnissen [37]. Auch für klinische Studien konnte gezeigt werden, dass Studien mit positiven Ergebnissen viermal häufiger publiziert werden als Studien, die negative oder gar keine Behandlungseffekte zeigen [38]. Bei Studien, die durch die Industrie durchgeführt oder finanziert werden, fiel auf, dass für das Unternehmen unvorteilhafte Daten oft selektiv nicht publiziert wurden [→ Kommerzialisierung] [39]. Das Nicht-Veröffentlichen von negativen klinischen Studien hat unter anderem die schwerwiegende Folge, dass Therapieeffekte überschätzt werden. Besonders schlägt sich das in Meta-Analysen nieder, die eine Zusammenfassung bisheriger Veröffentlichung liefern und auf Grundlage derer klinische Leitlinien entwickelt und Entscheidungen in der evidenzbasierten Medizin getroffen werden.

Durch das Wiederholen von bereits durchgeführten Experimenten, die nicht veröffentlicht wurden, werden zudem in erheblichem Ausmaß Ressourcen verschwendet. Negative und Null-Ergebnisse zu publizieren darf nicht rufschädigend sein, sondern sollte als Notwendigkeit angesehen werden, um vollständige und valide Erkenntnisse zu gewinnen, Ressourcen zu bündeln und Innovation zu fördern.

Um sich diesem Ziel zu nähern sind folgende Lösungsideen denkbar:

1. Zum einen sollte jede Fachzeitschrift einen neuen Faktor erhalten, der auf einen Blick sichtbar macht, wie viele Artikel korrigiert oder zurückgezogen werden mussten. Zu diesem Zweck könnte man eine Klassifizierung einführen, die zeigt, aus welchem Grund eine Veröffentlichung korrigiert oder zurückgezogen wurde. Grund 1: Betrug. Grund 2: AutorInnen der Studie selbst weisen auf Probleme oder Fehler hin. Grund 3: Eine andere Gruppe weist widersprechende Ergebnisse oder Fehler nach [40]. Korrekturen von Fehlern sollten beispielsweise bei Bewerbungsverfahren nicht als negativ, sondern als Beispiel guter wissenschaftlicher Praxis bewertet werden.

2. Zum anderen könnte jeder Fachzeitschrift eine Sektion angegliedert werden, in der widersprechende Ergebnisse zu jedem Artikel mit veröffentlicht werden müssen. Hier ist zu berücksichtigen, dass sowohl positive als auch negative Ergebnisse erst als sicheres Wissen angesehen werden können, wenn sie durch unabhängige Studien bestätigt wurden.

3. Außerdem könnten alle Verlage sich selbst verpflichten, vermehrt auch jene Manuskripte zu veröffentlichen, die zuvor erschienenen Artikeln widersprechen. Dabei muss der Begutachtungsprozess des widerlegenden Artikels sicherstellen, dass die Arbeit erstens nicht um des Widerlegens willen geschrieben wurde und sich zweitens nicht ein ganzer „Forschungszweig“ zur Widerlegung bereits veröffentlichter Ergebnisse bildet, nur um aufgrund der neuen Regel in einem high-impact journal veröffentlichen zu dürfen. Darüber hinaus muss der Begutachtungsprozess eines widerlegenden Artikels sicherstellen, dass dieser methodisch mindestens denselben Qualitätsansprüchen genügt wie der ursprünglich veröffentlichte. Auch hier bedarf es am Ende der Reproduzierung der Ergebnisse, bevor Experimente als gesichertes Wissen gelten.

4. Von medizinischen Fachzeitschriften und Drittmittelgebern wird zunehmend verlangt, dass klinische Studien vorher in einer öffentlich zugänglichen Datenbank registriert werden. Dies ermöglicht unter anderem einen Überblick über alle zum Thema durchgeführten Studien und erlaubt es zudem, einen möglichen Publikationsbias abschätzen zu können. Dieses Verfahren sollte auf alle klinischen Studien ausgeweitet werden, wie es auch die Deklaration von Helsinki des Weltärztebundes fordert: „Nicht nur positive, sondern auch negative und inkonklusive Ergebnisse sollten veröffentlicht oder in Form von klinischen Studienberichten (Clinical Study Reports) der Öffentlichkeit zugänglich gemacht werden“ [41].

5. Ein ähnliches Vorgehen wie unter 4. beschrieben sollte allgemein bei wissenschaftlichen Studien angewendet werden. Wenn auch nicht zwingend, so sollte es als Zeichen für methodische Qualität gelten und honoriert werden, wenn das geplante Protokoll von Studien vorab veröffentlicht wird, da dies Veränderungen während der Durchführung sichtbar macht. Zeitschriften und Forschungsinstitutionen sollten hierzu entsprechende Möglichkeiten vorsehen.

6. Drittmittelgeber wie auch zum Beispiel bei klinischen Studien beteiligte Behörden und Ethikkommissionen müssen sicherstellen, dass die Ergebnisse von Studien zeitnah öffentlich zugängig gemacht werden.

7. Studien mit nicht-signifikanten Null-Ergebnissen sollten zumindest mit Original­daten und Methodenbeschreibung in einer öffentlichen Datenbank abgelegt werden. Einträge in diese Datenbank sollten zum Beispiel bei Berufungen und Drittmittel­anträgen honoriert werden.

3.7   Originalität und Kreativität

Die Originalität einer Fragestellung oder Darstellung ist inhärenter Bestandteil von guter Forschung. Sie beruht auf der intrinsischen Motivation der Forschenden, sich selbst zu organisieren und mit anhaltender Neugierde kreativ nach jenen Faktoren zu suchen, die den Erkenntnisgewinn fördern, und jene auszuschließen, die dafür hinderlich sind. Reflexionsfähigkeit wird benötigt, um die eigenen und bestehenden Vorannahmen zu hinterfragen. Kreativität ist die Basis für Perspektivenwechsel, die es ermöglicht, unkonventionelle Möglichkeiten und Kontroversen zuzulassen. Sie setzt voraus, dass Wege jenseits der Lehrmeinung eingeschlagen werden und der Zufall als Erkenntnisquelle anerkannt wird. Ein weiter Freiraum für Neues trägt oft zur Freude an diesem Berufsfeld bei. Kriterien wie Originalität, Reflexionsfähigkeit oder Kreativität sind weder messbar, noch ist dies wünschenswert, weil sie eng an die Freiheit der Forschung sowie an die Motivation, sich für diesen Beruf zu entscheiden, gekoppelt sind. Als problematisch werden oft externe Beschränkungen und Bedingungen wahrgenommen, welche diese intrinsische Motivation schmälern.

Kreativität in den Naturwissenschaften

Der Gewinn neuer wissenschaftlicher Erkenntnisse ist kein vorhersagbarer, linearer Prozess – gerade bahnbrechende Entdeckungen werden oft zu Wendepunkten, die Perspektivenwechsel einleiten. Oft sind Durchbrüche erst einmal nicht willkommen, ihnen schlägt aus der wissenschaftlichen Gemeinschaft Widerstand entgegen. Zum einen kann dies daran liegen, dass Neuartiges im Gegensatz zu Vertrautem einfach abgelehnt wird. Zum anderen wird der Forschungsbetrieb von WissenschaftlerInnen dominiert, die das von ihnen vertretene Paradigma und ihre damit verbundene Macht erhalten wollen.

Jedoch sind gerade solche vom „normalen“ Muster abweichenden Ideen und Beobachtungen besonders wichtig, denn wirklich neue Erkenntnisse entstehen oft aus scheinbaren Zufallsentdeckungen, wie zum Beispiel die Entdeckung des Penicillins durch Alexander Flemming veranschaulicht. Daher sollte es in der wissenschaftlichen Forschung weiterhin Freiräume geben, um Zufallsbefunden nachzugehen. Das bedeutet nicht, dass Forschung ziellos sein soll, sondern dass sie in ihrem zielgerichteten Tun offen sein sollte für Unerwartetes und Widersprüchliches, das möglicherweise von ursprünglichen Forschungsplänen wegführt.

Problemfelder

In der wissenschaftlichen Ausbildung wird zu wenig Augenmerk auf wissenschaftliche Kreativität gelegt: Forschungspläne müssen oft nach starren Regeln abgearbeitet werden. Darüber hinaus suggeriert das Festhalten an Förderanträgen Vorhersehbarkeit und Sicherheit – Faktoren, die zum Beispiel im Rahmen der Kommerzialisierung der Forschung oder in großen Forschungsverbünden erwünscht sind. Jedoch lassen beide Vorgehensweisen keinen Raum zur Verfolgung von Zufallsentdeckungen.

Lösungsideen

1. In der wissenschaftlichen Ausbildung sollte über den Erkenntnisprozess und die Bedeutung von Zufallsentdeckungen gesprochen werden und auch während der ersten Forschungsarbeiten darüber nachgedacht werden. Dabei sollte vermittelt werden, dass in der wissenschaftlichen Forschung bahnbrechende Entdeckungen nicht geplant werden können.

2. Forschungsgelder sollten nicht daran geknüpft sein, dass ein Projekt wie beantragt abgearbeitet wird, sondern es sollte Freiraum bestehen das ursprüngliche Vorhaben begründet zu verändern.

3. Damit neue bahnbrechende Erkenntnisse auch veröffentlicht werden können, sollte die Entscheidung, ob eine Arbeit veröffentlicht wird, allein auf der Basis ihrer wissenschaftlichen Qualität beruhen und nicht auf inhaltlichen Vorstellungen von Redakteur­Innen oder GutachterInnen.

3.8   Evaluation

Aus dem deutschen Wissenschaftssystem sind Evaluationen nicht mehr wegzudenken. Forschungsförderprogramme, Hochschulen, Forschungseinrichtungen sowie einzelne Fächer werden evaluiert. Dabei dient die Evaluation zunehmend als Entscheidungsgrundlage für Ressourcenzuweisungen. Zudem führt sie ex ante oder ex post meist zu Veränderungen innerhalb sowie auf der Organisationsebene der Forschungseinrichtungen und damit zu Verschiebungen im wissenschaftlichen Alltag. Dabei geht es meist um mehr, als eine antizipierte Vorstellung von „guter Wissenschaft“ zu erreichen [42].

Evaluation ist im Laufe der vergangenen beiden Jahrzehnte zu einem strahlenden Begriff geworden. Mittlerweile wird jede Leistungsmessung, Begutachtung und Bewertung unter diesen Begriff gefasst. In der Fachwelt ist bereits die Rede von einer „Evaluitis“ (Wolfgang Frühwald) [42]. Damit stellt sich die Frage, ob der zunächst strahlende Anschein nicht doch eher bloße Blendung ist.

Bewertung ist ein wesentlicher Bestandteil des wissenschaftlichen Lebens, im Studium wie auch in Lehre und Forschung. Eine Begutachtung setzt voraus, dass eine dritte Instanz um Stellungnahme (zu Berufungsverfahren, Drittmittelvergaben, Zeitschriftenpublikationen) gebeten wird. Evaluiert werden zum Beispiel Forschungsprogramme, Institutionen oder Wissenschaftssysteme [42].

Die Vermessung der Wissenschaft

Bei einer Evaluation dient meist die Bewertung vergangener Leistungen als Maßstab für Empfehlungen der Zukunft. Eine systematische Herangehensweise nach aktuellen Standards der jeweiligen Fachdisziplin ist dabei im Grunde unumgänglich. Die Qualität der Datenlage, die Analyse der Daten sowie die Schlussfolgerungen daraus müssen strengsten Kontrollen standhalten können [44].

Zitations-Index und impact factor

Ein Teil ständiger Evaluation nach festen Kriterien sind Ratings und Rankings. Sie nehmen inzwischen einen prominenten Platz in der Vermessung der Wissenschafts- und Forschungswelt ein. Dabei werden jedoch systematische Probleme deutlich, zum Beispiel Verschiebungen in der Gewichtung einzelner Fächergruppen.

Betrachtet man zum Beispiel das Shanghai-Ranking, bei dem jährlich weltweit 1000 Hochschulen bewertet werden, so ist klar zu erkennen, dass seine Kriterien die Naturwissenschaften bevorteilen. So zählen zu den Bewertungsgrundlagen Nobelpreise in naturwissenschaftlichen Bereichen oder auch Publikationen in hochrangigen Fachzeitschriften wie Nature und Science. Hochschulen, die einen geistes- und gesellschaftswissenschaftlichen Schwerpunkt haben, fallen von vornherein aus dem Ranking heraus, zumindest, was die relevanten Plätze in der Rangliste betrifft.

Zitationen als Indikator für Forschungsqualität zu verwenden bedeutet also eine strukturelle Schwäche jeder darauf basierenden Evaluation, schon weil die Erfassung der Daten oft mit Fehlern und Verzerrungen behaftet ist. Beispielsweise führt die Erfassung nach Fachgebieten dazu, dass interdisziplinär arbeitende Forschende häufig durch das Raster fallen.

Diese Art der standardisierten Evaluation schafft Anreize, sich als WissenschaftlerIn zunehmend den Rahmenbedingungen anzupassen [42].

Hochschul-Rankings

Seit etwa 20 Jahren gibt es immer mehr Einrichtungen, die Hochschulen bewerten sollen. Allerdings sind die Grundvoraussetzungen für eine Evaluation ihrer Lehr- und Forschungsleistungen nur bedingt gegeben. Gewollte Unterschiede und Schwerpunktsetzungen der verschiedenen Universitäten werden oft nicht richtig dargestellt. In manchen populärwissenschaftlichen Rankings muss man annehmen [45], dass selbst eine Mittelwertberechnung nicht korrekt vorgenommen wird und damit sogar eine unterschiedliche Gewichtung der Fächer angenommen werden muss. Hinzu kommt, dass den Fragebögen meist eine öffentlich zugängliche, wissenschaftstheoretische Fundierung fehlt und die Gewichtung von Fragen und Antworten im Unklaren bleibt [45]. Die weit verbreitete Einteilung in Spitzengruppe, Mittelgruppe und Schlussgruppe ist verwirrend, wodurch eine Verzerrung des Meinungsbildes über die Universität entstehen kann.

Im Mittelpunkt der aktuellen Kritik steht die Rangliste des Centrums für Hochschulentwicklung (CHE). Sie soll Studieninteressierten bei der Entscheidung für die richtige Universität helfen und will darüber hinaus Hochschulen bewerten.

Das Ranking wird mit unterschiedlichen Kriterien, den sogenannten Indikatoren, vorgenommen. Sie dienen der Beschreibung und dem Vergleich der Bedingungen in Lehre und Forschung in den einzelnen Fachbereichen [46]. Das CHE wirbt dabei mit einer mehrdimensionalen Betrachtung der einzelnen Faktoren. So wird die subjektive Einschätzung der Studierenden sowie der DozentInnen eingeholt. Die Mehrdimen­sionalität besteht aus Fakten, Daten und Urteilen. Das CHE erhofft sich damit ein möglichst heterogenes Meinungsbild. Es bleibt unerwähnt, dass die quantitative Beurteilung überwiegt. Den Lehrbeauftragten bieten sich wenig Möglichkeiten, Aussagen über nicht feststehende Angaben wie die von Semester zu Semester wechselnde Betreuungssituation der Studierenden oder auch die Belegung von Vorlesungssälen und Seminarräumen einzubringen [46].

Ein Widerspruch zur Mehrdimensionalität ergibt sich aus der Struktur der Rangliste. Die Ergebnisse können nach einer Registrierung kostenfrei abgefragt werden. Die Voreinstellung ist eine alphabetische Sortierung nach Hochschulstandort. Die Tabelle kann beliebig nach Indikatoren sortiert werden, so dass sich eine Einschränkung auf eine Faktorgruppe ergibt. Die Mehrdimensionalität bleibt innerhalb der Faktorgruppe erhalten, die Beurteilung aber wird so eindimensional.

Zudem bemängeln Kritiker [47], dass der dem CHE-Ranking zugrunde liegende Fragenkatalog nicht genügend wissenschaftsorientiert ist, dass Qualitätsaspekte hinter quantitativen Indikatoren zurücktreten, dass zwischen den unterschiedlichen Bedingungen und Strukturen einzelner Fächer nicht genügend differenziert wird und dass das Verfahren intransparent ist. Diese Art der Beurteilung führt dazu, dass einzelne Fachbereiche, aber auch ganze Hochschulen sich dem Bewertungsverfahren entziehen, weil sie sich nicht angemessen repräsentiert finden.

Zwar wurden Teile des CHE-Rankings nachgebessert, das ändert jedoch nichts an den grundsätzlichen Schwächen des Verfahrens. Zweifelsohne ist es notwendig, dass Hochschulen sich nach außen darstellen. Das hat eine hohe wissenschaftspolitische Relevanz. Sie sollten aber nicht länger in eine Rangliste eingeordnet werden, die nicht geeignet ist, die wissenschaftliche Qualität ihrer Disziplinen ausreichend abzubilden [43].

Lösungsansätze

1. Im Rahmen von Rankings sollte der Zitations-Index durch weitere Faktoren ergänzt werden, die qualitative Aspekte des Forschungsprozesses und -ergebnisses einbeziehen und gewichten. Dabei sollten insbesondere Überlegungen angestellt werden, wie nicht-naturwissenschaftliche Ergebnisse und Perspektiven zum Beispiel im Bereich der Lebenswissenschaften repräsentiert werden könnten.

2. Das CHE-Ranking sollte abgeschafft werden, da es nicht geeignet ist, das Leistungsspektrum einer Hochschule angemessen abzubilden.

3. Populärwissenschaftliche Rankings müssen einer unabhängigen Überprüfung standhalten, damit Rechenfehler vermieden und Fachbereiche gleichwertig dargestellt werden. Dabei ist das Augenmerk vor allem auf die Strukturierung und Fragestellung der Fragebögen zu richten.

admin

Neueste Artikel von admin (alle ansehen)