Web Content Mining, Probleme und Lösungen

 

Harald Klein

Institut für Soziologie

Friedrich Schiller Universität Jena

D-07740 Jena, Germany

Web content mining ist ein relativ vernachlässigter Forschungsbereich

in der Online-Forschung generell. Ein Grund dafür ist, dass entsprechende

Methoden zur Zeit nicht zur Verfügung stehen. Im Vortrag geht es um die

grundsätzliche Probleme von Internetseiten mit dem Schwerpunkt der

Analyse des Textes. Dieser steht zwar in digitaler Form bereit, muss aber

für eine Analyse aufbereitet werden. Die daraus resultierenden Arbeitsschritte,

Analysetechniken und die dafür benîtigte Software stehen dabei im

Mittelpunkt des Vortrags: TextGrab, das den Text kompletter Internetsites

herunterlädt, und TextQuest, das diese Texte mit dem Verfahren der

computerunterstützten Inhaltsanalyse auswertet.

 

KLEIN, H. (1998): INTEXT-Handbuch, Version 4.1. Jena: mimeo.

KLEIN, H. (1998): Text Analysis of data in the World Wide Web (WWW).

Vortrag auf der Tagung der International Sociological Association (ISA) in

Montreal.

KLEIN, H. (2000): Inhaltsanalyse. In Atteslander, Peter (Eds.):

Methoden der empirischen Sozialforschung, 8. Aufl., Berlin, 201-235.