Cache Traffic fürs Blog: November 2022

Ich habe da mal was für Euch mitgebracht. Für den einen oder anderen Blogger dürfte das interessant sein.

Cache Traffic fürs Blog: November 2022

Ihr wißt ja, daß ich vor einigen Wochen mein Blog hinter ein ATS Cache gestellt habe, weil der Seitenaufbau schon langsam wurde. „WordPress“ und die Begriffe „Klein. Schnell. Effektiv“ gehen echt schon lange nicht mehr zusammen 🙁

Da das Cache von sich aus keine vernünftigen Statistiken produzieren kann, die länger als 24h Stunden sind, habe ich im Oktober selbst was gebaut, daß uns diese Daten erzeugt hat. Immer gegen 23:59 wird die tägliche Cache Statistik ausgewertet.

DatumDomainCachedUncached
2022-11-01marius.bloggt-in-braunschweig.de6.89111.800
2022-11-02marius.bloggt-in-braunschweig.de6.49712.632
2022-11-03marius.bloggt-in-braunschweig.de6.24320.164
2022-11-04marius.bloggt-in-braunschweig.de5.10121.138
2022-11-05marius.bloggt-in-braunschweig.de4.53021.964
2022-11-06marius.bloggt-in-braunschweig.de6.2293.870
2022-11-07marius.bloggt-in-braunschweig.de6.0067.245
2022-11-08marius.bloggt-in-braunschweig.de6.78315.956
2022-11-09marius.bloggt-in-braunschweig.de7.07217.213
2022-11-10marius.bloggt-in-braunschweig.de8.55518.834
2022-11-11marius.bloggt-in-braunschweig.de8.8569.707
2022-11-12marius.bloggt-in-braunschweig.de6.72212.182
2022-11-13marius.bloggt-in-braunschweig.de6.3075.880
2022-11-14marius.bloggt-in-braunschweig.de6.2139.338
2022-11-15marius.bloggt-in-braunschweig.de1.9881.233
2022-11-16marius.bloggt-in-braunschweig.de3.8144.008
2022-11-17marius.bloggt-in-braunschweig.de5.1633.015
2022-11-18marius.bloggt-in-braunschweig.de5.6136.415
2022-11-19marius.bloggt-in-braunschweig.de4.9324.733
2022-11-20marius.bloggt-in-braunschweig.de5.0375.112
2022-11-21marius.bloggt-in-braunschweig.de5.1949.478
2022-11-22marius.bloggt-in-braunschweig.de5.9418.449
2022-11-23marius.bloggt-in-braunschweig.de5.4864.567
2022-11-24marius.bloggt-in-braunschweig.de5.1548.515
2022-11-25marius.bloggt-in-braunschweig.de4.9974.073
2022-11-26marius.bloggt-in-braunschweig.de4.6604.586
2022-11-27marius.bloggt-in-braunschweig.de4.6737.226
2022-11-28marius.bloggt-in-braunschweig.de5.0616.082
2022-11-29marius.bloggt-in-braunschweig.de5.2858.368
2022-11-30marius.bloggt-in-braunschweig.de5.7578.426
Summe November452.969170.760282.209

Jetzt cached so ein Cache natürlich nicht nur PHP Seiten, sondern alles von CSS, JS über GIF bis TXT und HTML.

d.b. ich hatte keine 452.969 Seitenaufrüfe 🙂 Die genaue Zahl läßt sich nur Ahnen, bzw. dafür müßte man die Webserverlogs vom Blog analysieren.

Hauptproblem

es gibt über 1200 Seiten im Blog, die alle die gleichen CSS Dateien haben, und sich ggf. auch JS, PNGs etc. teilen. Diese 1200 Seiten werden auch regelmäßig aufgerufen, sei es durch Google oder weil Menschen da auf interessante Links geklickt haben, auf der Suche nach Lösungen.

Das liegt daran, daß statische Elemente für alle Seiten gleich sind und gecacht werden, was ja der Sinn der Übung war. Da die in allen Seiten drin sind, tauchen die natürlich auch bei ungecachten Webseitenaufrüfen als „gecacht“ auf. d.b. der Anteil der statischen Randelemente wie Css,JS,Png sind in der gecachten Zahl stark überrepräsentiert, in der Zahl der ungecachten aber praktisch nicht vorhanden.

Da nur stark frequentierte Seiten, wie z.B. die Startseite im Blog oder echt gut laufende Artikel, überhaupt gecacht werden, weil die Cachezeit z.Z. bei 30 Minuten liegt, tauchen die übermäßig in der gecachten Zahl auf und sind in der ungecachten Zahl und mit wenigen Aufrüfen enthalten. (Hinweis: die müssen da auftauchen, weil wenn es nicht im Cache ist, muß es ja einmal min. nachgeladen werden, was ein ungecachter Aufruf ist).

Das führt uns dazu, daß die ungecachte Zahl (in der Liste oben: rechts) hauptsächlich die alten Beiträge beinhaltet und die gecachte Zahl alle statischen Inhalte und hauptsächlich die Startseitenaufrufe beinhaltet.

Jetzt könnte man eine statistische Untersuchen machen und feststellen, daß 9/10 gecachten Aufrüfen auf Grafiken etc. gingen. Meint, ~ 17.000 Aufrufe auf die Startseite bleiben da übrig, der Rest steckt in der ungecachten Zahl.

Die setzt sich so zusammen

Für Euch stürze ich mich natürlich in alle Mühen und hab mal die Serverstatistiken bearbeitet. Da das Cache eine eindeutige IP benutzt um auf den Backendserver zuzugreifen, konnte ich alle Zugriffe für November ausfiltern.

Das waren OHNE CSS,javascript,Jpg,Gif,Png : 234.469

Wenn man sich das genauer ansieht, findet man da drin RSS Zugriffe, Suchen nach Tags und Kategorien. Filtern wir die mit aus, bleiben 114.919 reine Seitenaufrufe übrig OHNE die gecachten Startseitenaufrüfe, also fast alles außer „/“ . Wir dürfen annehmen, daß es ein insgesamt mauer November für das Blog war mit ca. 131.000 Abrufen. Da hat das Blog mit knapp 250.000 schon bessere Monate gesehen. Aber, Transparenz bedeutet ja, nicht nur die guten Monate zu zeigen, sondern auch mal weniger gute 😉

Ganz genau bekommt man die Zahlen wegen des Caches nicht mehr zusammen, außer man wertet dauerhaft die Zugrifflogs vom Cache aus, was für eine Statistik Anwendung recht anspruchsvoll sein wird. Vielleicht baue ich da mal was 😉 Ich gehe davon aus, daß der statische Anteil weniger als 9/10 ist, was mehr Seitenzugriffe auf „/“ zur Folge hätte.

ein paar Caching Stats

Ich habe ja vor einigen Tagen auf einen Apache Trafficserver als Cacheserver fürs Blog umgestellt. Eine Folge war u.a. daß WordPress selbst keine validen Stats mehr aufbauen kann, weil alle Anfragen über eine IP vom Cache kommen.

Origin Server                    Hits  Misses Errors
------------------------------------------------------------------------------
marius.bloggt-in-braunschweig.de 5,181 25,040 141

Während WP 25k Anfragen bekommen hat, gab es aber in Wirklichkeit 31k Anfragen in 23h.

Das bedeutet, daß je nach Zusammensetzung der Anfragen WP in den blogeigenen Stats deutlich zu wenig anzeigt. Das ist aber auch eine Erklärung, wieso diese Stats noch bei 140k in 30 Tagen liegen. Es sind halt nicht sooo viele, die die Startseite laden, sondern irgendwelche alten Artikel.

… immer noch in den Charts gern gesehen …

/2017/10/09/politische-kampagnen-aus-dem-tor-netz

ach ja.. schwelg.. der war toll 😀

Bots

Bei Bots sind auch die Alten Linux am Dienstag Programme interessant 😉

XXXXXXXXXXXXX – – [12/Sep/2022:22:47:10 +0200] „GET /2022/05/24/linux-am-dienstag-programm-fuer-den-24-5-2022/ HTTP/1.1“ 200 9140 „-“ „Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)“
XXXXXXXXXXXXX – – [12/Sep/2022:22:47:12 +0200] „GET /2022/05/24/linux-am-dienstag-programm-fuer-den-24-5-2022/?relatedposts=1 HTTP/1.1“ 200 870 „https://marius.bloggt-in-braunschweig.de/2022/05/24/linux-am-dienstag-programm-fuer-den-24-5-2022/“ „Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)“

DuckDuckGo dagegen ist clever:

XXXXXXXXXXX – – [12/Sep/2022:22:01:08 +0200] „GET /2020/12/ HTTP/1.1“ 200 14772 „-“ „‚DuckDuckBot-Https/1.1; (+https://duckduckgo.com/duckduckbot)'“
XXXXXXXXXXX – – [12/Sep/2022:22:03:23 +0200] „GET /2019/12/ HTTP/1.1“ 200 11851 „-“ „‚DuckDuckBot-Https/1.1; (+https://duckduckgo.com/duckduckbot)'“
XXXXXXXXXXX – – [12/Sep/2022:22:05:17 +0200] „GET /2021/12/ HTTP/1.1“ 200 11558 „-“ „‚DuckDuckBot-Https/1.1; (+https://duckduckgo.com/duckduckbot)'“
XXXXXXXXXXX – – [12/Sep/2022:22:08:21 +0200] „GET /2016/12/ HTTP/1.1“ 200 13652 „-“ „‚DuckDuckBot-Https/1.1; (+https://duckduckgo.com/duckduckbot)'“
XXXXXXXXXXX – – [12/Sep/2022:22:10:05 +0200] „GET /2018/12/ HTTP/1.1“ 200 12455 „-“ „‚DuckDuckBot-Https/1.1; (+https://duckduckgo.com/duckduckbot)'“
XXXXXXXXXXX – – [12/Sep/2022:22:11:40 +0200] „GET /2017/12/ HTTP/1.1“ 200 10715 „-“ „‚DuckDuckBot-Https/1.1; (+https://duckduckgo.com/duckduckbot)'“

die indizieren gleich Jahresweise, so ist das DEUTLICH performanter als Google 😀

Kleine Anmerkung zum Apache Trafficserver:

„Proven – Handling over 400TB a day at Yahoo! both as forward and reverse proxies, Apache Traffic Server is battle hardened.“

Jo, eine Hürde mehr zu nehmen, wenn man HTTP Headerfragmentationangriffe durchziehen will 🙂

Blog Statistiken

Heute morgen habe ich mal etwas meine WordPress App auf dem Handy geärgert und das ist dabei herausgekommen: Eine Animation der Zugriffszahlen des Blogs, gezählt durch WordPress.

Blog Statistiken

WordPress zählt das alles etwas anders als die Traffic Stats auf der Seite selbst, daher ist hier ein quantitativer Vergleich nicht möglich. Was man aber schön sehen kann, daß früher mehr Abfragen aus den USA kamen, heute dagegen mehr aus Portugal und wie sich die Zahlen im Laufe der Jahre ändern.

Eine Animation der Jahre 2013-2020Da sieht man mal das „gesteigerte“ Interesse der Leute an Linux 😉

Die Zahlen von 2020 sind natürlich kleiner als die von 2019, weil 2020 noch nicht rum ist 😉