Frederik Funke - Dissertation

Funke, F. (2010).

Internet-Based Measurement With
Visual Analogue Scales: An Experimental Investigation

Dissertation
der Mathematisch-Naturwissenschaftlichen Fakultät der
Eberhard Karls Universität Tübingen zur Erlangung des Grades
eines Doktors der Naturwissenschaften (Dr. rer. nat.)

Betreuer · supervisor: Prof. Dr. U.-D. Reips

Volltext · full text

[PDF - 8,8 MB]

Zitierfähiger Link · quotable link: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-52821

Zusammenfassung top

Die Möglichkeiten psychologischer Forschung lassen sich durch die Nutzung des Internets beträchtlich erweitern, sowohl quantitativ - durch den weltweiten Zugriff auf potentielle Untersuchungsteilnehmer -, als auch qualitativ - durch die Erhöhung externer Validität als Folge größerer Varianz von Testsettings. Eine Besonderheit computergestützter Forschung ist, dass sich auch Antwortskalen nutzen lassen, deren Anwendung in gedruckten Fragebögen nicht oder nur unter großem Aufwand möglich ist. Ein Beispiel hierfür sind visuelle Analogskalen (VAS), graphische Messinstrumente in der Form einer horizontalen Linie, deren Enden mit meist verbalen Ankern (z. B. keine Zustimmung versus völlige Zustimmung) versehen sind. Dieser Skalentyp erlaubt Untersuchungsteilnehmern, Antworten auf einem Kontinuum abzugeben. Mit VAS erhobene Daten zeichnen sich neben der Möglichkeit, bereits geringste Unterschiede oder Veränderungen messen zu können, auch durch eine äußerst große Anzahl von Analysemöglichkeiten aus.

Trotz aller (mess-)theoretischen Vorteile von VAS gab es bisher kaum methodologische Untersuchungen dieser Antwortskala. Die im Rahmen dieser Dissertation durchgeführten Forschungsarbeiten tragen dazu bei, diese Lücke zu schließen. In mehreren unabhängigen Studien wurde der Einfluss von VAS auf Datenerhebungen im Internet untersucht. In fünf Kapiteln wird das Potenzial graphischer Antwortskalen - vor allem von VAS - untersucht. In Kapitel 1 (Funke & Reips, 2007) werden die Grundlagen und Möglichkeiten von Messungen im Web dargestellt. Anhand relevanter Befunde aus der umfragemethodologischen Literatur wird aufgezeigt, welchen Einfluss unterschiedliche Antwortskalen (u. a. Kategorialskalen, VAS und Sliderskalen) auf die gegebenen Antworten haben können. In Kapitel 2 wird der VAS Generator (http://vasgenerator.net) vorgestellt, mit dem sich online kostenfrei VAS erstellen lassen. In Übereinstimmung mit den theoretischen Annahmen ihrer Messeigenschaften wird gezeigt, dass mit VAS erhobene Daten als intervallskaliert behandelt werden können. In Kapitel 3 wird zunächst eine Simulationsstudie dargestellt, die den Einfluss der Anzahl der Antwortmöglichkeiten bei Kategorialskalen auf den Messfehler untersucht. In zwei empirischen Folgeuntersuchungen wird wie vorhergesagt beobachtet, dass VAS das Rauschen in den Daten verringern und einen praktisch bedeutsamen positiven Effekt auf die Datengüte haben. Kapitel 4 hat eine Untersuchung zum Thema, die zeigt, dass sich Messungen mit semantischen Differentiale durch die Nutzung von VAS optimieren lassen. Zum Abschluss werden in Kapitel 5 schwerpunktmäßig Sliderskalen untersucht. Dabei handelt es sich um einen Skalentyp, der VAS zwar äußerlich ähnelt (zur Abgrenzung siehe Kapitel 1), sich aber in wichtigen Charakteristika - wie Datenqualität und Art der Nutzung - substantiell von ihnen unterscheidet. Sliderskalen erwiesen sich in dem vorgestellten Webexperiment als ein problematisches Messinstrument, da vor allem Untersuchungsteilnehmer mit einer geringen formalen Bildung verstärkt Probleme mit deren Nutzung haben.

Die vorliegende Dissertation hat eine erkenntnistheoretische und eine ethische Dimension. Zum einen steht in allen Kapiteln mehr oder weniger explizit die Frage zur Disposition, welchen Einfluss die verwendete Antwortskala auf den Erkenntnisgewinn hat. Um kleine - trotz ihrer geringen absoluten Größe inhaltlich bedeutsame - Unterschiede messen zu können, muss das Fehlerrauschen in den Daten so weit wie möglich verringert werden. Die Untersuchungen zu VAS haben gezeigt, dass die Verringerung des Messfehlers nicht nur eine theoretische Eigenschaft der Skala ist, sondern auch eine empirische Entsprechung hat. Somit ist der Einsatz von VAS in der Onlineforschung dem Erkenntnisgewinn zuträglich.

Psychologische Forschung hängt zu einem großen Teil von der Kooperation der Untersuchungsteilnehmer ab. Es sollte nicht nur aus ökonomischem Kalkül Gewicht auf eine möglichst geringe Teilnehmerzahl gelegt werden. Ein Aspekt ethisch verantwortungsvollen Forschens besteht darin, der Antwortskala Vorzug zu geben, die die benötigte Teilnehmerzahl verringert. Wie die in Kapitel 3 beschriebene Reduzierung des Messfehlers zeigt, können VAS dazu einen Betrag leisten und sollten somit auch unter dem Gesichtspunkt guter wissenschaftlicher Praxis genutzt werden.

Insgesamt sind die hier vorgestellten methodologischen Untersuchungen außerordentlich vielversprechend. VAS können Messungen mental gut repräsentierter, kontinuierlicher latenter Variablen deutlich verbessern. Die kaum verbreitete Nutzung von VAS in der psychologischen Forschung entbehrt nach den hier gewonnenen Erkenntnissen zumindest bei Untersuchungen im Internet jeglicher Grundlage. An hoher Datenqualität interessierte Forscher sollten das Potenzial visueller Analogskalen für ihre webbasierten Studien ausschöpfen.

English Summary top

The primary concern of the dissertation at hand is to help fill the considerable gap of knowledge regarding Web-based visual analogue (or analog) scales (VASs). VASs are a particular type of rating scales that were described as early as the 1920's (Hayes & Patterson, 1921). Most studies presented here (see Chapters 2, 3, and 4) deal with the influence of VASs on data quality in Web surveys. With VASs, respondent indicate the extent of agreement to an item on a continuum - represented by a straight line - rather than using discrete response categories. The studies presented here were conducted to test if the general restraint in using VASs outside the medical sector - despite the theoretical advantages presented above - is justified or not. The results are meant to facilitate decision-making on the pros and cons of the use of VASs in computer-assisted studies. The potential of graphical response scales focusing on VASs is analyzed in five chapters.

Overall, the studies presented in this thesis provide further evidence that rating scales may have a major effect on Web-based data collection. It has to be said, however, that they affect only certain parts of the measurement process - especially question understanding and the formatting process (see Schwarz & Oyserman, 2001; Groves et al. 2009). Although an inappropriate rating scale can considerably harm the quality of a study carefully designed in all other respects, a matching rating scale cannot compensate for flaws in other areas (e.g., poor question wording or graphical design). To assure high-quality data, each and every factor of questionnaire design has to be considered. In practice, there is not one perfect rating scale for each and every questionnaire. The topic of the study, the characteristics of the respondent, the research question, as well as technology have to be taken into account. Especially the study on slider scales presented in Chapter 5 illustrates how the careless use of technology can have a highly negative impact on data collection. On the other hand, the studies on VASs presented in Chapters 2 to 4 serve as an example of how rating scales that differ from commonly used categorical rating scales may have beneficial effects. Overall, it has been demonstrated that VASs provide an important addition to established online research methods.

The dissertation at hand has an epistemological and an ethical dimension. All chapters revolve around the question of how rating scales influence knowledge acquisition. By influencing the amount of data noise, rating scales also affect the chance to observe small but important effects. The studies on VASs provide evidence that the reduction of measurement error is not only theoretical; there is also empirical evidence for this important quality of the rating scale. Thus, Web-based measurement with VASs contributes to a broadening of knowledge.

To a large extent, psychological research depends on the cooperation of participants. Research ethics imply that the number of participants should be as low as possible. Thus, rating scales are to be preferred that allow a reduction of the needed sample size. Chapter 3 states that the reduction of measurement error with VASs can help achieve statistically significant results with fewer respondents. The resulting reduction of study costs is a positive side effect. Following a paradigm of good scientific practice, the use of VASs should be considered (e.g., made with the free Web service http://vasgenerator, maintained by the author).

The methodological studies presented here contribute to a better understanding of how research can profit from VASs. Overall, VASs can significantly improve the measurement of mentally well-represented, continuous latent constructs. Takings the presented findings into account, the reluctance to use VASs in psychological research lacks empirical foundation, at least in Web-based studies. It is therefore recommended that researcher interested in high data quality take advantage of the considerable potential of visual analogue scales.