How-to Daten nutzen
Als „Sekundärforschung“, „Sekundäranalyse“ oder „Sekundärnutzung“ wird Forschung mit bereits bestehenden Daten bezeichnet. Auf dieser Seite erfahren Sie, wozu Daten sekundär genutzt werden können, welche Vorteile, aber auch Herausforderungen mit der Sekundärnutzung von Daten einhergehen, und Sie erhalten Tipps dazu, wie man dabei vorgeht.
Hier gelangen Sie zu den einzelnen Inhalten:
Vorteile von SekundärforschungHerausforderungen der SekundärforschungHow-to sekundär forschen in 6 SchrittenWeiterführende Informationen und Quellen
Vorteile von Sekundärforschung
Daten für die eigene Forschung nicht selbst erheben zu müssen, sondern stattdessen auf bestehende Daten zurückzugreifen, spart Zeit und Kosten. Ressourcen, die gerade beim wissenschaftlichen Nachwuchs in der Regel knapp sind.
Sekundärdaten, die von darauf spezialisierten Expert*innen und Forschungsinstituten erhoben wurden, weisen zudem eine hohe Qualität auf. Gerade Large Scale Surveys wie das NEPS, PIAAC, PISA oder das SOEP beinhalten große Stichproben und eine hohe Anzahl an Kovariaten. Sie eröffnen dadurch umfangreiche Analysepotenziale für diverse Forschungsfragen. Diese Panel- und Mehrebenendaten sind anspruchsvoll in der Handhabung aber zugleich umfangreich dokumentiert. Bereitgestellt werden etwa auch statistische Analyseskripte, Verknüpfungen mit weiteren Daten oder Variablen wie Regionalinformationen oder amtliche Statistiken. Die bereitstellenden Forschungsdatenzentren beraten Nutzende und bieten regelmäßig Workshops an.
Im Diskussionsforum Forum4MICA können Forschende Fragen zur Nutzung bestimmter Daten stellen und Antworten finden.
Die Nachnutzung von Daten ist nicht nur ressourcenschonend und gewinnbringend für die Forschenden selbst. Wenn redundante Datenerhebungen durch den Rückgriff auf Sekundärdaten vermieden werden, hat dies positive Auswirkungen auch auf die beforschten Populationen und die Effizienz von Forschungsförderung. Datenfriedhöfe werden vermieden und Studienteilnehmende werden entlastet. Insbesondere bei „überforschten“ Populationen wie Schulen ist dies eine forschungspraktische Notwendigkeit und entspricht auch dem datenschutzrechtlichen Gebot der Datensparsamkeit.
Wozu können Forschungsdaten sekundär genutzt werden? Forschungsdaten können nachgenutzt werden für verschiedene Zwecke, etwa für:
- Reproduktion und Replikation
- Analysen mit neuen Forschungsfragen
- Reanalysen mit anderen Analysemethoden
- Zeit- und Stichprobenvergleiche, etwa Vergleiche zwischen verschiedenen Unterrichtsfächern oder verschiedenen Altersgruppen der gleichen Fächer
- Aggregierung von Daten, Kombinationen von Daten verschiedener Quellen
Reproduktions- und Replikationsstudien tragen dazu bei, die Validität und Interpretation veröffentlichter Forschungsbefunde zu prüfen und die Aussagekraft und Verlässlichkeit der Erkenntnisse zu stärken. Sie dienen damit dem wissenschaftlichen Fortschritt und Erkenntnisgewinn ebenso wie der Glaubwürdigkeit von Wissenschaft in der allgemeinen Öffentlichkeit. In den letzten Jahren haben Reproduktions- und Replikationsstudien – vermutlich ausgelöst durch die sogenannte Replikationskrise – zunehmend an Bedeutung gewonnen.
Herausforderungen der Sekundärforschung
Neben den beschriebenen Vorteilen der Sekundärnutzung von Daten, sind einige Herausforderungen zu nennen:
Aufwand der Datensuche und -auswahl
Die Datensuche und -auswahl kann einige Zeit in Anspruch nehmen. Datenbestände müssen zunächst gesichtet werden, um beurteilen zu können, ob sich diese zur Beantwortung der geplanten Fragestellung eignen.
Kein Einfluss auf die Methodik
Sekundärnutzende haben im Vergleich zu Primärforschenden keinen Einfluss etwa auf Studiendesign, Stichprobenziehung, verwendete Forschungsinstrumente. Aber: Einige Survey-Programme schreiben regelmäßig sogenannte Call for Questions aus. Bei einem Call for Questions werden Forschende dazu aufgefordert, Fragen oder Items für den Fragebogen eines bestimmten Surveys einzureichen.
Abhängigkeit von der vorhandenen Dokumentation
Die Nachvollziehbarkeit und Interpretierbarkeit der Daten hängt davon ab, wie gut diese aufbereitet und dokumentiert sind. Fehlt es an Dokumentation, etwa an Informationen zu Besonderheiten während der Datenerhebung oder Ausfallraten, lässt sich die Datenqualität schwieriger einschätzen.
Zugangsbeschränkungen
Je nach Sensibilität der Daten bestehen aus datenschutzrechtlichen oder ethischen Gründen Zugangsbeschränkungen zu Daten. Das heißt, Forschende müssen die Nutzung der Daten gesondert beantragen, bestimmte Auflagen erfüllen oder können diese nur über einen Gastwissenschaftler*innnenarbeitsplatz vor Ort am Forschungsdatenzentrum nutzen.
How-to sekundär forschen in 6 Schritten
1. Präregistrieren2. Daten suchen3. Daten auswählen4. Registrieren und Zugang beantragen5. Daten auswerten6. Ergebnisse publizieren, Daten zitieren
Präregistrieren
Im Sinne der Guten Wissenschaftlichen Praxis und den Open-Science-Prinzipien folgend ist der erste Schritt jeglicher Forschung deren Präregistrierung. Als Präregistrierung wird die Veröffentlichung des geplanten Forschungsvorhabens bezeichnet. Auch bei einer Sekundärforschung ist es sinnvoll, eine Präregistrierung der neuen Forschungsfragen, der ausgewählten Stichprobe, des Forschungsdesigns und der geplanten Analysen durchzuführen bevor mit der Analyse der Daten begonnen wird. Auch Reproduktions- oder Replikationsstudien können präregistriert werden.
Präregistrierungen können bei den folgenden Anbietern eingereicht werden:
Gut zu wissen – Präregistrierung
Die Präregistrierung von Forschungsvorhaben trägt zur Transparenz des Forschungsprozesses, zur Erhöhung der Forschungsqualität, zu größerer Sorgfalt bei der Planung der Studie und zur Vermeidung fragwürdiger Forschungspraktiken bei und kann Publikationsverzerrungen entgegenwirken.
Daten suchen
Über die Datensuche des VerbundFDB können Sie Daten der Bildungsforschung finden. In der Suche enthalten sind Surveydaten, Daten aus Kompetenz- und Leistungsmessungen, Tests und Skalen, Unterrichtsvideos, Beobachtungsprotokolle, Audiodaten und vieles mehr. Der Katalog wird kontinuierlich erweitert. In der Suche finden Sie Informationen zur datenerhebenden Studie, zu Design und Methodik sowie zur Datenverfügbarkeit: Wo und wie sind die Daten zugänglich?Zur Datensuche des VerbundFDB
Zugang zu den Daten erhalten Sie direkt bei den jeweiligen Forschungsdatenzentren. Sie gelangen zur Seite der Forschungsdatenzentren über den Klick auf die DOI in der Datenansicht. Bei den Forschungsdatenzentren finden Sie vertiefte Informationen zu den Daten. Dort können Sie etwa nach Konstrukten oder Variablen auf Datensatzebene oder in Interview-Transkripten suchen.
Eine breite, dafür weniger spezialisierte Suche bieten allgemeine Suchmaschinen wie Google Dataset Search, DataCite oder die Datensuche des Rats für Sozial- und Wirtschaftsdaten (RatSWD).
In der Reihe Meet-the-Data werden regelmäßig ausgewählte Forschungsdaten vorgestellt und Fragen hierzu beantwortet.Zur Veranstaltungsreihe Meet-the-Data
Gut zu wissen – Metadaten
Ob Daten in Suchportalen oder übers Web gefunden werden können, hängt davon ab, wie gut sie mit standardisierten Metadaten ausgezeichnet sind. Zur Aufgabe von Forschungsdatenzentren gehört es, die Daten entsprechend auszuzeichnen, so dass diese auch in anderen Portalen gefunden werden. Zentral hierfür ist der eindeutige Identifikator Digital Object Identifier (DOI).
Daten auswählen
Um einen geeigneten Datenbestand auszuwählen, können folgende Fragen bei der Prüfung unterstützen, inwieweit sich die Daten zur Beantwortung der eigenen Forschungsfrage eignen:
- Passt die untersuchte Stichprobe?
- Sind die Merkmale enthalten, die ich zur Prüfung meiner Hypothesen benötige? Sind ausreichend Kontrollvariablen enthalten?
- Ist die Qualität der Daten zur Bearbeitung meiner Forschungsfragen ausreichend?
- Ist die Datenerhebung ausreichend nachvollziehbar?
- Sind die Daten ausreichend verständlich dokumentiert und aufbereitet?
Als Forschende sollten Sie die Datenerhebung nachvollziehen und die Datenqualität einschätzen können. Denn dies beeinflusst die Aussagefähigkeit der Ergebnisse, die auf diesen Daten beruhen.
Gut zu wissen – Methodenbericht
Wie gut oder einfach Forschende die Daten einschätzen können, hängt von den über die Daten verfügbaren Informationen ab. Gibt es beispielsweise im Methodenbericht Angaben zur Datenqualität oder Problemen bei der Datenerhebung? Beinhaltet die Datendokumentation Hinweise zu fehlenden Werten? Liegen die Transkriptionsregeln oder Anonymisierungsprotokolle vor?
Forschungsdatenzentren bieten Hinweise zur Erstellung von Methodenberichten und Datendokumentationen oder unterstützen dabei. Bei der Aufnahme von Daten prüfen Forschungsdatenzentren Mindestanforderungen an die Verständlichkeit und Nachvollziehbarkeit der Dokumentation.Zu Forschungsdaten dokumentieren
Registrieren und Zugang beantragen
Um Daten sekundär nutzen zu können, die über ein Forschungsdatenzentrum bereitgestellt werden, ist in der Regel eine Registrierung erforderlich. Bei einem restriktiveren Zugriff kommt zudem ein Antragsverfahren hinzu, bei dem der Forschungszweck dargelegt werden soll. Die Forschungsdaten werden dann per Download, Remote Access oder vor Ort an einem Arbeitsplatz für Gastwissenschaftler*innen zur Verfügung gestellt.
Wie restriktiv der Zugang kontrolliert wird, hängt von der Sensibilität und Anonymität der Daten ab.
Speziell für den Einsatz in der Lehre werden sogenannte Campus Files bereitgestellt.
Für besonders geschützte Daten, die nicht herausgegeben werden dürfen, stehen Leerdatensätze zur Verfügung. Die Sekundärnutzenden schreiben auf dieser Basis die Syntax, die durch Mitarbeitende der Forschungsdatenzentren ausgeführt wird. Der oder die Sekundärnutzende erhält anschließend die hiermit erzielten Ergebnisse, jedoch nicht die Daten selbst.
Gut zu wissen – KonsortSWD und NFDI
Im KonsortSWD – NFDI4Society wird daran gearbeitet, Arbeitsplätze für Gastwissenschaftler*innen über verschiedene Forschungsdatenzentren hinweg zu vernetzen, sodass Forschende an vielen Standorten in Deutschland auf besonders geschützte Daten zugreifen können.Zu RDCnet
In der NFDI, der Nationalen Forschungsdateninfrastruktur, wird daran gearbeitet, über ein einheitliches Identitätsmanagements den Zugriff auf Daten für Forschende insgesamt zu vereinheitlichen.
Daten auswerten
Bei der Auswertung der Daten gilt es, wie auch bei der Primärforschung, die Schritte der Datenauswertung nachvollziehbar zu dokumentieren.
Zu Fragen der Datennutzung bieten Forschungsdatenzentren Unterstützung, etwa durch Workshops, Beratungsangebote oder auch das Nutzendenforum Forum4MICA, in dem Forschende Fragen stellen können.Zum Forum4MICA
Gut zu wissen – Syntax
Für quantitative Analysen gilt: Eine Replikation wird erleichtert, wenn gemeinsam mit den Forschungsdaten die Originalsyntax verfügbar ist, die den veröffentlichten, empirischen Befunden zugrunde liegt. Einige Forschungsdatenzentren bieten daher die Möglichkeit an, Syntax zu archivieren. GESIS betreibt für die Zeitschriften Soziologie, Soziale Welt und Historical Social Research einen Replikationsserver. Dort sind Daten und zugehörige Analyseskripte verfügbar.Zum Replikationsserver
Ergebnisse publizieren und Daten zitieren
Die verwendeten Forschungsdaten gilt es im Text zu zitieren und im Literaturverzeichnis der Publikation aufzuführen.
Bestandteile der Zitation:
Autorenschaft (Veröffentlichungsdatum/-jahr). Titel. Version. Datenveröffentlichende Einrichtung. Persistent Identifier.
Beispiel: Gaspard, H., Brisson, B., Häfner, I., Dicke, A.-L., Flunger, B., Parrisius, C., Nagengast, B. & Trautwein, U. (2021). Motivationsförderung im Mathematikunterricht (MoMa) (Version 1) [Datensatz]. Berlin: IQB – Institut zur Qualitätsentwicklung im Bildungswesen. doi.org/10.5159/IQB_MoMa_v1
Bei Forschungsdaten ist der sogenannte Persistent Identifier das Entscheidende. Häufig verwendet werden: Digital Object Identifier (DOI), Uniform Resource Identifier (URI) und handles.
Das anzugebende Jahr bezieht sich – ähnlich wie bei Forschungsartikeln – auf das Jahr der Veröffentlichung, und damit nicht auf das Jahr der Datenerhebung. Statt eines Verlags ist die Einrichtung, die die Daten veröffentlicht, anzugeben.
Die Zitation von Forschungsdaten ist Bestandteil der Guten Wissenschaftlichen Praxis. Durch die Zitation erhalten die Primärforschenden eine angemessene Würdigung und Sichtbarkeit ihrer Arbeit. Für Datenanbietende, wie Forschungsdatenzentren, ist die korrekte Zitation von Forschungsdaten in Publikationen eine Voraussetzung dafür, diese erfassen zu können.
Die korrekte Zitation der Daten hilft
- Lesenden dabei, das verwendete Datenmaterial finden zu können.
- Forschungsdatenzentren dabei, diese Publikation in die Publikationslisten zu den Daten aufnehmen zu können.
- dabei, den Impact der Daten messen zu können.
Weiterführende Informationen und Quellen
Zu Replikationsstudien
In dem DFG-Schwerpunktprogramm wird zum Thema Replizierbarkeit geforscht.
Zur Zitation von Forschungsdaten
Wie zitiere ich Forschungsdaten korrekt?
Ausführliche Empfehlungen zur Zitation von Forschungsdaten vom Leibniz-Informationszentrum Wirtschaft (ZBW), Leibniz-Institut für Sozialwissenschaften (GESIS) und Rat für Sozial- und Wirtschaftsdaten (RatSWD).
Empfehlung eines Minimalstandards zum Zitieren von Forschungsdaten von GESIS.
Vorschlag Zitation forschungsdaten.info
Prinzipien und Varianten beim Zitieren von Forschungsdaten im Überblick auf dem Informationsportal forschungsdaten.info.