Zuverlässigkeit von psychologischen Experimenten

Reliability in Psychology Experiments
JoVE Science Education
Experimental Psychology
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Science Education Experimental Psychology
Reliability in Psychology Experiments

8,615 Views

05:13 min
February 04, 2015

Overview

Quelle: Laboratorien von Gary Lewandowski, Dave Strohmetz und Natalie Ciarocco — Monmouth Universität

Um etwas wissenschaftlich zu untersuchen, muss ein Forscher bestimmen, einen Weg, um es zu quantifizieren. Psychologische Konstrukte können jedoch schwierig sein, zu messen und zu quantifizieren. Dieses Video wird Zuverlässigkeit im Rahmen der Inhaltsanalyse untersucht.

Eine aktuelle Studie in der Fachzeitschrift Pediatrics berichtet, dass 4-jährigen, die eine rasante Karikatur beobachtet schlechteren Performance auf kognitive Aufgaben, z. B. folgende Regeln in einem Spiel hatte, in Richtung von einem Erwachsenen hören und verzögern Befriedigung, im Vergleich zu anderen Kindern, die einen langsamer schnelllebigen Cartoon beobachtet. 1 neben das Tempo der Karikatur, kann der Inhalt der Karikatur auch nachteilige Auswirkungen auf seine jungen Zuschauer haben.

Dieses Video verwendet ein einfaches zwei-Gruppe-Design, um exemplarisch die Frage der Zuverlässigkeit bei der Prüfung der Frage, ob der Zeichentrickserie SpongeBob SquarePants unangebrachter Inhalte als die Karikatur Caillou tut.

Procedure

1. definieren Sie Schlüsselvariablen.

  1. Erstellen Sie eine operationale Definition (d.h., eine klare Beschreibung der genau was ein Forscher Mittel durch ein Konzept) von anstößigen Inhalten.
  2. Finden Sie Definitionen von der Organisation TV Parental Guidelines erstellt und von der Federal Communications Commission genehmigt.
  3. Unangemessene Inhalte ist jedes grob oder unhöflich Verhalten (z. B.Toilette Humor), Darstellungen von verbaler oder körperlicher Aggression (z.B., Namen zu nennen, schlagen usw.), vulgäre Sprache (z.B. Schimpfwörter) oder Hinweise auf Drogenkonsum, Gewalt oder Sex.

(2) Codierung Kategorien aus der Arbeitsdefinition von anstößigen Inhalten erstellen.

  1. Design einen systematischen Prozess für die Studienteilnehmer (nachfolgend als die Rater) Instanzen gezielt, unangemessene Verhaltensweisen zu identifizieren (siehe Tabelle 1).
Kategorien-Codierung Themen und Exemplare Graf
Grobe Verhalten Toilette humor
Gezielt ekelhaft Verhaltensweisen
Unhöfliches Verhalten Andere zu stören
Schlechte Manieren
Sprache Schimpfwörter verwenden
Verbale Aggression Beleidigungen
Schreien
Beschimpfungen
Physische Aggression Schlagen
Drücken/schieben
Stolpern
Droge-Referenzen Verbale (suggestive Aussagen/Gespräch)
Nonverbal (Nachahmung von Drogenkonsum)
Sexuelle Anspielungen Verbale (suggestive Aussagen/Gespräch)
Nonverbale (Nachahmung von sexuellen Handlungen)

Tabelle 1. Beispiel für Rekord Instanzen der unangemessene Verhaltensweisen. Dieses Protokoll kann systematisch genutzt werden, über Rater.

3. weisen Sie Rater separat sehen die gleiche Folge von SpongeBob SquarePants und Codierung zählt.

4. weisen Sie Rater separat sehen die gleiche Folge von Caillou und Codierung zählt.

5. vergleichen Sie Bewertungen zu sehen, ob die Rater mit ähnlichen Bewertungen für jede Show kam.

  1. Zuverlässigkeit ist die Fähigkeit, immer wieder die Variable messen – unangemessene Inhalte.
  2. Inter-Rater-Zuverlässigkeit ist die Möglichkeit für mehr als eine Person, die Variablen zu messen und ihre Messungen im Einklang zu sein.

Wissenschaftlicher Forschung nutzt präzise Methoden, um Daten zu sammeln, doch Variabilität bei der Beschaffung von Messungen oft vorhanden ist.

Zuverlässigkeit für jede experimentelle Messung beurteilt werden kann, und heute haben wir einen Blick auf Messungen der unangemessene Verhaltensweisen in Karikaturen.

Wenn Zuschauer einig, die Höhe der unangemessenes Material innerhalb der gleichen Show – über mehrere Episoden — ihre Urteile gelten als sehr zuverlässig. In diesem Fall können Bewertungen erstrecken sich über verschiedene Shows wegen der Konsistenz zwischen den Beobachtern, die als Inter Rater Zuverlässigkeit bezeichnet wird.

Dieses Video demonstriert, wie zu entwerfen und durchzuführen, und wie zu analysieren und zu interpretieren, ein Experiment zu prüfen, ob ein Cartoon unangebrachter Inhalte als ein anderer hat.

Um Zuverlässigkeit und Inter Rater Zuverlässigkeit zu prüfen, ist eine in Themen-Design in diesem Experiment verwendet. Teilnehmer werden gebeten, zwei Episoden von zwei verschiedenen Karikaturen zu sehen – SpongeBob SquarePants und Caillou.

In diesem Zusammenhang der Cartoon beobachten ist die abhängige Variable die maximale Teilnehmerzahl unangemessene Verhaltensweisen beobachten. Dazu gehören: grob und unhöflich Verhalten, schlechte Sprache, verbale und körperliche Aggression und Verweise auf Drogen und sexuelle Inhalte.

Wenn Zuverlässigkeit besteht in der Wertung von anstößigen Inhalten eines bestimmten Cartoons, werden Teilnehmer konsequent die Karikatur über verschiedene Episoden bewerten.

Darüber hinaus sind mehrere Teilnehmer im Einvernehmen mit der Anzahl der unangemessenen Instanzen, die sie sich verlassen, existiert Inter Rater Zuverlässigkeit.

So erlaubt die Festlegung Inter Rater Zuverlässigkeit Forscher die gleichen Teilnehmer verwenden, um Daten zwischen mehreren Bedingungen stärker zu vergleichen.

Zur Durchführung der Studie bereiten vier Clips: zwei verschiedene Episoden aus zwei verschiedenen Cartoons, SpongeBob SquarePants und Caillou.

Damit können Teilnehmer zu Instanzen von unangemessenem Verhalten systematisch zu identifizieren, erstellen Sie eine Codierung Blatt mit Kategorien, konkrete Beispiele und Raum, um jedes Vorkommen zählen.

Geben Sie mit dem Teilnehmer vor dem Bildschirm sitzen diese vier Kodierformulare. Weisen Sie die Teilnehmer in zwei Episoden von SpongeBob SquarePants getrennt zu sehen.

Da die Teilnehmer jede Episode Uhren, weisen sie jedes Vorkommen von unangemessenem Verhalten zu identifizieren.

Verwenden die gleiche Codierschema anweisen, die Teilnehmer zu beobachten und bewerten Sie zwei Episoden von Caillou.

Um die Zuverlässigkeit der Teilnehmer Bewertungen von Cartoon Inhalten zu analysieren, vergleichen Sie die Kodierformulare zwischen jeder Teilnehmer über die verschiedenen Episoden von Karikaturen. Addieren Sie alle Antworten auf einen master-Blatt.

Graph die Gesamtzahl der unangemessene Verhaltensweisen für jedes Rater über Episoden und Cartoons.

Beachten Sie, dass hoher Zuverlässigkeit in der Wertung der zwei verschiedenen Karikaturen, beobachtet wurde, wie SpongeBob durchweg höher als Caillou erzielt wird.

Jedoch fand man stärker Inter Rater Zuverlässigkeit in der Wertung von anstößigen Inhalten in Caillou im Vergleich zu SpongeBob. Reduzierte Inter Rater Zuverlässigkeit war noch deutlicher in der Wertung von Episode 2 von SpongeBob.

Sie mit Zuverlässigkeit im Rahmen der Inhaltsanalyse vertraut sind, können Sie diesen Ansatz auf andere Bereiche der Forschung anwenden.

Viele psychologische Experimente informieren Sie sich durch die Verwendung von kognitiven Tests und Umfragen, in denen Zuverlässigkeit zwischen jedes der Elemente zwischen den Teilnehmern übereinstimmen muss.

Zuverlässigkeit in neurophysiologischen Maßnahmen, wie EEG oder Eyetracking, unbedingt wiederholbare Experimente. Diese Zuverlässigkeit kann Forscher Assoziationen zwischen Funktion und Erkrankung Zustände des Gehirns über mehrere Themen zu machen.

Darüber hinaus müssen Forscher dafür sorgen, dass bestimmte Messungen in einem Experiment im Laufe der Zeit konsistent sind. Zum Beispiel sind Gewicht Messungen zuverlässig Daten vor und nach der Ausübung Routinen zu vergleichen.

Sie habe nur Jupiters Einführung in die Bestimmung der Zuverlässigkeit in psychologischen Experimenten beobachtet. Jetzt Sie ein gutes Verständnis der wie ein psychologisches Konstrukt wie unangemessenes Verhalten zu quantifizieren haben, entwerfen Sie ein Experiment, und schließlich, wie Zuverlässigkeit der Ergebnisse zu bewerten.

Danke fürs Zuschauen!

Results

Die Ergebnisse zeigen, dass die Rater ein hohes Maß an Zustimmung oder Konsistenz in ihre Bewertungen innerhalb jeder Cartoon-Episode hatte die hochzuverlässigen Inter Rater (Abbildung 1) angibt. Es gibt auch Zuverlässigkeit oder Konsistenz in SpongeBob SquarePants Episoden mit unangebrachter Inhalte als Caillou. Die Ergebnisse zeigten auch individuelle Vorurteile unter Rater. Z. B. Rater 3 berichtet unangebrachter Inhalte in SpongeBob als die anderen 2 Rater und Rater 1 berichtet in Caillou weniger als andere Rater.

Figure 1
Abbildung 1. Instanzen von anstößigen Inhalten durch Rater und Cartoon für Episoden 1 (oben) und 2 (unten).

Applications and Summary

Forscher haben vermehrt ihre Aufmerksamkeit auf die Analyse von Fernsehinhalten, zumal es sich um Kinder handelt. Wie vor diesem aktuellen Experiment besprochen, eine aktuelle Studie in der Fachzeitschrift Pediatrics korreliert das schnelle Tempo der Zeichentrickserie SpongeBob SquarePants, relativ schlechten kognitiven Fähigkeiten bei Kindern, die es zu sehen.

Da die Ergebnisse unseres Experiments zuverlässig erscheinen, zukünftige Forschung könnte prüfen, ob die relative Menge von anstößigen Inhalten in SpongeBob auch (oder alternativ) ist verantwortlich für Kinder geringere kognitive Leistungsfähigkeit nach beobachten.

Eines der wichtigsten Anwendungen der Zuverlässigkeit ist bei der Verwendung von Erhebungsinstrumenten. Forscher müssen sicher sein, dass die Teilnehmer konsequent jedes der Elemente in einem bestimmten Maßstab beantworten. Das heißt, sollte in einem 5-Punkt-Maß der Zufriedenheit mit dem Leben, Teilnehmer beantworten Punkte 1 und 2 in etwas ähnlicher Weise, wie sie Fragen 3, 4 und 5 zu beantworten.  Forscher wollen darüber hinaus sicherzustellen, dass ihre Messungen in einem Experiment im Laufe der Zeit übereinstimmen. Also wenn ein Forscher Erweiterung der Pupille verwendet, um Interesse an einen Anreiz zu geben, muss die Forscher sicher sein, dass Erweiterung der Pupille eine konsistente Anzeige von Interesse ist.

Transcript

Die wissenschaftliche Forschung verwendet präzise Methoden, um Daten zu sammeln, aber es gibt oft Unterschiede bei der Erlangung von Messungen.

Die Zuverlässigkeit kann für jede experimentelle Messung beurteilt werden, und heute werden wir uns die Messungen von unangemessenem Verhalten in Cartoons ansehen.

Wenn sich die Zuschauer über die Menge an unangemessenem Material innerhalb derselben Sendung über mehrere Episoden hinweg einig sind, gelten ihre Urteile als äußerst zuverlässig. In diesem Fall können sich die Bewertungen aufgrund der Konsistenz zwischen den Beobachtern, die als Inter-Rater-Reliabilität bezeichnet wird, über verschiedene Shows erstrecken.

Dieses Video zeigt, wie man ein Experiment entwirft und durchführt sowie wie man es analysiert und interpretiert, um zu untersuchen, ob ein Cartoon unangemesseneren Inhalt hat als ein anderer.

Um die Reliabilität und die Inter-Rater-Reliabilität zu untersuchen, wird in diesem Experiment ein Within-Subject-Design verwendet. Die Teilnehmer werden gebeten, zwei Episoden von zwei verschiedenen Zeichentrickfilmen anzusehen? SpongeBob Schwammkopf und Caillou.

In diesem Kontext des Anschauens von Zeichentrickfilmen ist die abhängige Variable die Anzahl der unangemessenen Verhaltensweisen, die die Teilnehmer beobachten. Dazu gehören: grobes und unhöfliches Verhalten, schlechte Sprache, verbale und körperliche Aggression sowie Anspielungen auf Drogen und sexuelle Inhalte.

Wenn die Bewertung von unangemessenen Inhalten eines bestimmten Cartoons zuverlässig ist, werden die Teilnehmer diesen Cartoon über verschiedene Episoden hinweg konsistent bewerten.

Wenn sich mehrere Teilnehmer über die Anzahl der von ihnen gezählten unangemessenen Instanzen einig sind, besteht außerdem eine Inter-Rater-Reliabilität.

Die Etablierung der Inter-Rater-Reliabilität ermöglicht es den Forschern, dieselben Teilnehmer zu verwenden, um Daten zwischen mehreren Erkrankungen besser zu vergleichen.

Um die Studie durchzuführen, bereiten Sie vier Clips vor: zwei verschiedene Episoden aus zwei verschiedenen Zeichentrickfilmen, SpongeBob Schwammkopf und Caillou.

Damit die Teilnehmer Fälle von unangemessenem Verhalten systematisch identifizieren können, erstellen Sie ein Codierungsblatt mit Kategorien, konkreten Beispielen und Platz, um jedes Auftreten zu zählen.

Wenn der Teilnehmer vor dem Bildschirm sitzt, reichen Sie ihm vier Programmierblätter. Weisen Sie den Teilnehmer an, sich zwei Episoden von SpongeBob Schwammkopf separat anzusehen.

Wenn der Teilnehmer sich jede Episode ansieht, weisen Sie ihn an, jedes Auftreten von unangemessenem Verhalten zu erkennen.

Weisen Sie den Teilnehmer an, nach demselben Codierungsschema zwei Episoden von Caillou anzusehen und zu bewerten.

Um die Zuverlässigkeit der Teilnehmer zu analysieren? Bewertungen von Cartoon-Inhalten, vergleichen Sie die Codierungsblätter zwischen den einzelnen Teilnehmern in den verschiedenen Episoden von Cartoons. Summieren Sie alle Antworten auf einem Masterblatt.

Zeige die Gesamtzahl der unangemessenen Verhaltensweisen für jeden Bewerter in verschiedenen Episoden und Cartoons an.

Beachten Sie, dass bei der Bewertung der beiden verschiedenen Zeichentrickfilme eine hohe Zuverlässigkeit beobachtet wurde, da SpongeBob durchweg höher bewertet wird als Caillou.

Eine stärkere Inter-Rater-Reliabilität wurde jedoch bei der Bewertung von unangemessenen Inhalten in Caillou im Vergleich zu SpongeBob festgestellt. Die verringerte Zuverlässigkeit zwischen den Bewertern wurde bei der Vertonung von Episode 2 von SpongeBob deutlicher.

Jetzt, da Sie mit der Zuverlässigkeit im Kontext der Inhaltsanalyse vertraut sind, können Sie diesen Ansatz auf andere Forschungsbereiche übertragen.

Viele psychologische Experimente sammeln Informationen durch kognitive Bewertungen und Umfragen, bei denen die Zuverlässigkeit zwischen den einzelnen Elementen zwischen den Teilnehmern konsistent sein muss.

Die Zuverlässigkeit neurophysiologischer Messungen wie EEG oder Eye-Tracking ist für die Durchführung wiederholbarer Experimente unerlässlich. Diese Zuverlässigkeit ermöglicht es den Forschern, Assoziationen zwischen Gehirnfunktion und Krankheitszuständen bei mehreren Probanden herzustellen.

Darüber hinaus müssen die Forscher sicherstellen, dass bestimmte Messungen in einem Experiment über die Zeit konsistent sind. So werden beispielsweise zuverlässig Gewichtsmessungen durchgeführt, um Daten vor und nach dem Training zu vergleichen.

Sie haben gerade die Einführung von JoVE zur Bestimmung der Zuverlässigkeit in psychologischen Experimenten gesehen. Jetzt sollten Sie ein gutes Verständnis dafür haben, wie Sie ein psychologisches Konstrukt wie unangemessenes Verhalten quantifizieren, ein Experiment entwerfen und schließlich die Zuverlässigkeit anhand der Ergebnisse bewerten können.

Danke fürs Zuschauen!?