Wenn Sie ein Projekt im Web publiziert haben, werden Sie sicher auch interessiert sein zu erfahren, wie häufig darauf zugegriffen wird. Um richtig einschätzen zu können, wie gut Ihr Projekt ankommt und was Sie daran verbessern sollten, reichen allerdings reine Zugriffszahlen nicht aus. Um aussagekräftige Ergebnisse über die Abrufe Ihrer Web-Seiten zu erhalten, sind Statistiken nötig, die Ihnen die Zugriffe nach bestimmten Kriterien aufschlüsseln. So gibt es Statistiken, die auflisten, welche Dateien am häufigsten abgerufen wurden, zu welchen Tageszeiten die meisten Besucher zu verzeichnen sind, oder welche Web-Browser am häufigsten verwendet werden.
Bei besseren Providern gehört es zum Service, dass Sie Zugriff auf Log-Dateien haben, die Ihren Speicherbereich betreffen. Die meisten Provider bieten auch Statistiken an, mit deren Hilfe Sie die Besucherzahlen nach verschiedenen Kriterien aufbereitet bekommen.
Wenn Sie Ihre Homepage bei Discount-Providern wie CompuServe, T-Online usw. oder bei Anbietern von kostenlosem Webspace haben, stehen Ihnen solche Dienste meist nicht zur Verfügung. Um in solchen Fällen an genaue Zugriffsstatistiken zu kommen, können Sie einen öffentlichen CGI-Service in Anspruch nehmen. Dort bekommen Sie für eine geringe Jahresgebühr einen Zugriffszähler sowie ordentlich aufbereitete Statistiken für Ihre Homepage, egal wie deren Adresse lautet. Ein Nachteil bei dieser Lösung ist allerdings, dass bei jedem Zugriff auf Ihre Homepage zusätzlich auf den fremden Server des Zähler-Anbieters zugegriffen werden muss.
Grundlage aller Zugriffsstatistiken sind Log-Dateien des Web-Servers. Jeder Web-Server führt solche Log-Dateien, in denen er alle Zugriffe protokolliert. Dazu gibt es ein allgemeines Modell, wie Einträge in einer Log-Datei auszusehen haben. Ein Eintrag nach diesem Modell hat folgendes Aussehen:
ad25-175.compuserve.com - - [02/Oct/2001:23:03:49 -0500] "GET /selfhtml/index.htm HTTP/1.1" 200 1788
Jede Zeile in der Log-Datei dokumentiert einen Zugriff auf eine Datei. Das Beispiel zeigt eine solche Zeile. Log-Dateien viel besuchter Projekte enthalten zigtausende solcher Zeilen und können sehr schnell sehr groß werden. Meistens sorgen regelmäßig automatisch startende Server-Prozesse, so genannte Cron-Jobs, dafür, dass die Log-Dateien regelmäßig archiviert und wieder geleert werden. Die Log-Dateien haben meistens Namen wie access.log. Wo diese Dateien abgelegt sind, hängt von der Server-Konfiguration ab. Fragen Sie Ihren Provider danach, sofern er Ihnen von sich aus keine Angaben dazu macht!
Am Beginn jeder Zeile steht, wer zugegriffen hat. Bei den meisten Zugangsprovidern erhalten die Anwender beim Einwählen ins Internet eine dynamische IP- und Namensadresse, unter der sie dann in den Log-Dateien der Web-Server auftauchen, die sie besucht haben. Im obigen Beispieleintrag ist erkennbar, dass sich der Anwender über CompuServe ins Internet eingewählt hat. Die Angabe ad25-175
ist eine dynamisch vergebene Adresse.
Anstelle der beiden Bindestriche im obigen Beispiel können von Fall zu Fall noch Daten stehen. Anstelle des ersten Bindestriches kann der Anwender-Logname stehen (entsprechend der Spezifikation RFC 931). Anstelle des zweiten Bindestriches kann ein Anwendername stehen, den der Anwender sich selbst gegeben hat.
Als nächstes zeigt der Eintrag, wann genau der Zugriff erfolgte. Im Beispiel ist das der 2. Oktober 2001 um 23.03 Uhr (und 49 Sekunden), und zwar minus 5 Stunden gerechnet gegenüber GMT (Greenwich Meridian Time) aus Sicht der Systemzeit des Server-Rechners.
Dahinter folgt ein Kurzprotokoll des HTTP-Headers, mit dem der WWW-Browser des Anwenders die Datei angefordert hat. GET
ist dabei die übliche Methode. Dahinter wird die Datei angegeben, auf die der Zugriff erfolgte. Im Beispiel ist das die Datei /selfhtml/index.htm
. Es wird der Pfadname relativ zur Domain-Adresse angezeigt. Schließlich zeigt die HTTP-Anforderung noch die verwendete HTTP-Protokollversion an. Das war zur Auswertungszeit die Version 1.1.
Dahinter folgt eine Codenummer, die darüber Aufschluss gibt, ob die Anforderung erfolgreich war, und wenn nicht, welches der Fehler war. Dabei sind folgende Nummern wichtig:
200
= Die Anforderung war erfolgreich
4xx
, 5xx
= Es traten Fehler auf. Zum Beispiel war die angeforderte Datei nicht vorhanden. Lesen Sie dazu auch die Übersicht der HTTP-Statusmeldungen
Die letzte Zahl in der Zeile schließlich gibt an, wie viele Bytes von der Datei an den aufrufenden WWW-Browser übertragen wurden. Wenn Sie die Bytezahl mit der tatsächlichen Dateigröße vergleichen, können Sie feststellen, ob die Datei vollständig übertragen wurde, oder ob die Übertragung vorzeitig abgebrochen wurde. So kommt es zum Beispiel oft vor, dass Grafiken nicht vollständig übertragen werden, weil der Anwender bereits vorher auf einen Verweis zu einer anderen Seite klickt.
Neben den reinen Zugriffs-Log-Dateien führen Web-Server auch Log-Dateien über aufgetretene Fehler. Solche Log-Dateien haben Namen wie error.log. Die Dateien sind ähnlich aufgebaut wie Zugriffs-Log-Dateien. Das folgende Beispiel zeigt eine typische Zeile aus der Error-Log-Datei des Web-Servers Apache:
[Tue Oct 02 23:04:34 2001] [error] [client ad25-175.compuserve.com] File does not exist: /selfhtml/tc.htm
Zu Beginn steht ein Zeitstempel im UTC-Format. Im Beispiel ist Dienstag (Tue = Tuesday = Dienstag), der 2. Oktober 2001, 23.04 Uhr und 34 Sekunden gemeint. Dahinter wird das Vorkommnis genannt (error
) und dahinter der verursachende Client (z.B. der Browser eines Seitenbesuchers). Die Fehlermeldung wird in englischem Klartext genannt. Im Beispiel hat der Anwender versucht, auf eine Datei zuzugreifen, die nicht existiert. Schuld daran kann beispielsweise ein Link von einer fremden Seite sein, der zu dieser Adresse führt, die aber nicht oder nicht mehr existiert.
Log-Dateien sind normalerweise sehr groß und etwa so spannend wie ein Telefonbuch. Um eine aussagekräftige Übersicht über die Zugriffe auf Ihre Seiten zu erhalten, sollte Ihr Provider Statistiken anbieten. Dazu bietet Ihnen der Provider bei Virtual Hosting in der Regel einen über Web-Browser aufrufbaren Service-Bereich an, zu dem Sie nur mittels eines Benutzernamens und Passworts Zugang haben. Bei Server Hosting oder Server Housing kann es auch sein, dass Sie sich selber um die Installation geeigneter Statistik-Software kümmern müssen.
Statistiken bestehen einerseits aus Software, die aus den Log-Dateien regelmäßig ihre eigene Datenbank pflegt, und einem oder mehreren CGI-Scripts, die Sie aufrufen können, um die Statistik im Browser in HTML-Form aufbereitet ansehen zu können. Es gibt rein text-orientierte Statistiken, die Daten in Listen oder Tabellen präsentieren, aber auch grafische Statistiken, bei denen die Daten in Form von Balken- und Tortendiagrammen präsentiert werden.
Statistiken stellen Ihnen die Zugriffe nach einem bestimmten Kriterium sortiert dar. Folgende Kriterien sind typisch:
Statistiken bleiben allerdings stets relativ genau. Absolute Genauigkeit ist deshalb nicht möglich, weil Statistiken letztlich nur auf den Log-Dateien des Web-Servers basieren, es aber viele andere Faktoren gibt, die das Abrufen von Web-Seiten mit beeinflussen. So zum Beispiel der Cache-Speicher eines jeden Web-Browsers. Je nachdem, was der Anwender dort eingestellt hat, wird die Web-Seite, obwohl vom Anwender aufgerufen, gar nicht vom Web-Server geholt, sondern aus dem Browser-Cache, ohne dass der Browser wenigstens noch mal beim Server nachfragt, ob es von der Web-Seite mittlerweile eine neuere Version gibt als die in seinem Cache. Der Web-Server bekommt folglich gar nichts davon mit. Ebenso ist es mit den zahlreichen Proxy-Servern im Netz. Viele Anwender haben im Browser freiwillig oder auf Anforderung ihres Providers hin Proxy-Server eingestellt. Proxy-Server sind für den Internet-Zugang des Anwenders besonders leicht und ohne viele Umwege erreichbar, und das Übertragen der Daten von dort aus zum Browser geht merklich schneller, als wenn die Daten vom Original-Server übertragen werden. Wenn Ihr Web-Projekt auf einem solchen Proxy-Server verfügbar ist (jawohl, Ihr Web-Projekt wird von solchen Proxy-Servern automatisch komplett "geklaut" und zur Verfügung gestellt - das ist ganz normal im Internet), ist der Effekt der gleiche wie beim Browser-Cache: der Web-Server Ihres Projekts bekommt gar nichts davon mit. Andererseits werden in der Log-Datei des Web-Servers aber auch viele Einträge erzeugt, die gar nicht von menschlichen Besuchern stammen. Such-Robots von Suchmaschinen, die Ihre Seiten indizieren, oder Software-Agenten von Proxy-Servern, die Ihre Seiten an den Proxy-Server übertragen - sie alle erzeugen "Traffic", also Verkehr auf Ihren Seiten, ohne dass ein Mensch daran beteiligt ist.
Die folgende Checkliste soll Ihnen helfen, Statistiken zu interpretieren und Schlüsse daraus zu ziehen:
Statistiken sind bekanntlich dehnbar. Es kommt immer darauf an, was eigentlich gezählt wird. Deshalb ist es wichtig, dass Konventionen darüber bestehen, welche typischen Begriffe welche Bedeutung haben. Denn wann ist ein Zugriff ein Zugriff? Sobald der Web-Server die GET-Anfrage des Clients erhalten hat? Oder nachdem die angeforderte Web-Seite vollständig an den aufrufenden Client, also beispielsweise den Browser des Anwenders, übertragen hat? Mit oder ohne referenzierte Dateien wie Grafiken, Sound usw.?
Jede Zeile im Access-Log des Web-Servers erzeugt einen so genannten Hit. Wenn eine Web-Seite also beispielsweise aus einer HTML-Datei und 10 darin referenzierten Grafiken besteht, dann erzeugt diese Web-Seite, wenn ein Anwender sie anfordert, 11 Hits. Dabei ist es egal, ob die Dateien vollständig übertragen wurden oder nicht. Sogar nicht gefundene Dateien (404-Errors) werden als Hits gezählt. Hits liefern also hohe, beeindruckende Zahlen, die sich aber schnell relativieren, wenn man sich klar macht, dass viele typische Web-Seiten etliche kleine, referenzierte Grafiken enthalten. Außerdem geht aus den Hits nicht hervor, ob der Besucher die Seite je zu Gesicht bekommen hat. Lassen Sie sich also nicht beeindrucken von Leuten, die mit ihren Hits prahlen. Für die Einschätzung des tatsächlichen Erfolgs einer Web-Seite sind Hits nicht geeignet. Interessant sind die Hits eigentlich nur im relativen Vergleich, z.B. um herauszufinden, wie sich der Gesamtverkehr auf den Web-Seiten über die Monate hinweg entwickelt.
Pageviews - neuerdings auch Page-Impressions, bei eingedeutschten Statistiken auch HTML-Seiten oder Seiten-Anfragen genannt - sind dagegen "Sichtkontakte eines Anwenders mit inhaltstragenden Dateien". Zugriffe von Anwendern, die in ihrem Browser die Anzeige von Grafiken abgeschaltet haben, sowie Zugriffe von Such-Robots und anderen Software-Agenten werden dabei, falls erkennbar, nicht mitgezählt. Bei Verwendung von Frames wird beim Erstaufruf nur die Datei als Pageview gezählt, in der die Frameset-Definitionen stehen. Danach wird davon ausgegangen, dass nur eines der Frame-Fenster den Inhalt beherbergt, während die übrigen zur Navigation oder für Werbung und Ähnliches dienen. Die so definierte statistische Messeinheit ist die Kenngröße der Informationsgemeinschaft zur Festlegung der Verbreitung von Werbeträgern e.V. (ivw - siehe http://www.ivw.de/). Pageviews oder Page-Impressions sind daher die Basis, wenn Sie z.B. Bannerwerbung auf Ihren Seiten anbieten und Geld dafür bekommen. Völlig unproblematisch ist diese Maßeinheit jedoch auch nicht. Denn zunächst mal ist variabel, welche Dateitypen als inhaltstragend deklariert werden. Das können je nach Einstellungen statische HTML-Dateien, PHP- oder ASP-Dateien, Textdateien, XML-Dateien oder auch CGI-Scripts sein. Eine HTML-Datei kann inhaltstragend sein, sie kann aber auch nicht inhaltstragend sein (z.B. weil sie nur Links zu Unterseiten enthält, nur eine Weiterleitung darstellt oder nur ein eingebettetes Flash-Intro enthält). HTML-Dateien mit Includes (SSI, PHP, ASP) können Inhalte aus mehreren Inhaltsquellen in einer Seite zusammenfassen. Andere Lösungen benötigen zur Anzeige des gleichen Inhalts mehrere HTML-Dateien oder Scripts.
Visits - auch Sessions oder in deutschsprachigen Statistiken Besuche oder Sitzungen genannt - zählen nicht aufgerufene Seiten, sondern die IP-Adressen aufrufender Clients. Ein Anwender, der sich eine Stunde lang munter durch das Angebot Ihrer Web-Seiten klickt und dabei ununterbrochen mit der gleichen Internet-Verbindung unterwegs ist, erzeugt demnach genau einen Visit. Ebenso aber auch ein Anwender, der nur mal die Startseite aufruft und dann gleich wieder verschwindet. Per Konvention der deutschen Werbeindustrie gilt ein Visit als beendet, wenn 30 Minuten lang kein neuer Zugriff erfolgt. Wenn der Anwender also während Ihre Seiten auf seinem Browser angezeigt werden eine längere Mittagspause einlegt oder einschläft und erst nach zwei Stunden auf den nächsten Verweis in Ihrem Angebot klickt, dann gilt das als neuer Visit.
Wie Ihre Web-Seiten bei den Besuchern ankommen, erfahren Sie nicht nur aus Statistiken, sondern beispielsweise auch aus E-Mails, die Sie von Anwendern erhalten, oder aus den Einträgen eines Gästebuchs, das Sie auf Ihren Web-Seiten anbieten. Es ist ratsam, alles erhaltene Feedback in irgendeiner Form zu sammeln und sinnvolle Verbesserungsvorschläge, Korrekturen usw. ins Angebot zu integrieren.
Wenig Anwender-Feedback trotz guter Zugriffszahlen muss nichts Negatives bedeuten. Ein ordentlich gestaltetes, den Anwendererwartungen entsprechendes Angebot wird dankbar genutzt, ohne dass die Anwender deswegen auf die Idee kommen, Ihnen begeisterte E-Mails zu schreiben. Explizites Feedback erhalten Sie eher, wenn Ihr Angebot in welcher Form auch immer aus dem Rahmen fällt: der Grund kann sein, dass Anwender enttäuscht sind, weil das Angebot nicht ihren Erwartungen entspricht, oder dass Anwender hin und weg sind, weil das Angebot ihre Erwartungen bei weitem übertrifft und ihnen ganz neue Perspektiven eröffnet.
Ein möglicher Grund für erhöhtes Anwender-Feedback sind technische Besonderheiten Ihrer Seiten. Wenn Ihre Navigation beispielsweise nur mit eingeschaltetem JavaScript und nur mit dem neuesten Internet Explorer funktioniert, dann werden Sie zu Recht einige erboste Reaktionen von Anwendern erhalten, bei denen diese Voraussetzungen nicht gegeben sind. Ebenso ist es mit Seiten, die bestimmte Bildschirmauflösungen erzwingen, den Anwender durch "Features" wie Sperren der rechten Maustaste nerven und dergleichen. Umgekehrt kann es aber auch passieren, dass Anwender sich melden, weil Ihr Seiten-Layout ungewöhnlich gut ist, oder weil bestimmte technische Features, die sie sonst noch nirgends gesehen haben, ihr Interesse geweckt hat. Negatives Feedback zur Technik Ihrer Seiten sollten Sie auf jeden Fall ernst nehmen, zumindest dann, wenn es von mehreren Seiten und immer wieder geäußert wird.
Wenn Sie echte Informationen vermitteln, werden Sie auch Fachfragen von Anwendern erhalten. Wie Sie damit umgehen, ist Ihre Sache. Jedenfalls können Sie solches Feedback als Indiz dafür betrachten, dass Ihr Angebot genutzt wird, dass die Informationen gelesen werden, und dass die Anwender Sie für fachkompetent halten.
Spätestens, wenn Sie regelmäßiges Feedback von den gleichen Anwendern erhalten, haben Sie "Fans". Wenn Sie bis dahin nur ein reines Informationsangebot auf Ihren Seiten haben, sollten Sie darüber nachdenken, ob das Angebot durch Anbieten von Kommunikationsmöglichkeiten wie Web-Forum oder Chat-Raum nicht noch viel attraktiver werden könnte. Mit etwas persönlichem Engagement können Sie es dann schaffen, dass über Ihr Web-Projekt eine richtige Online-Community entsteht - was wohl der Traum vieler Web-Anbieter ist.
Provider wechseln mit Web-Projekten | |
Web-Projekte bekannt machen | |
SELFHTML/Navigationshilfen Web-Projektverwaltung |
© 2005 Impressum