Re: Hohe Load - wo kommt Sie her
Am Freitag, 15. Februar 2013 schrieb Daniel:
> Moin,
Moin,
> > Jup. Das ist der Anteil der Zeit, in der es nur noch Prozesse gibt, die
> > in ununterbrechbaren Schlaf auf System Calls (üblicherweise I/O)
> > warten.
>
>
> > vmstat 1
>
> procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
> r b swpd free buff cache si so bi bo in cs us sy id wa st
> 2 4 0 15396 22452 922000 0 0 50 2170 225 649 0 3 38 59 0
> 0 6 0 15592 22456 918992 0 0 0 4108 674 551 0 2 0 98 0
> 0 5 0 15492 22460 919220 0 0 0 8196 650 731 0 4 3 93 0
> 0 5 0 16228 22460 918784 0 0 0 8192 560 700 0 3 0 97 0
> 0 5 0 15664 22460 919040 0 0 0 4096 561 528 0 4 22 74 0
> 0 5 0 14148 22460 920244 0 0 0 8192 707 452 0 3 48 48 0
> 0 5 0 13136 22460 921944 0 0 0 8192 760 936 0 5 15 80 0
4-6 geblockte Prozesse. Wait ungewöhnlich hoch, bei einer selbst für ein
RAID-5 pathetischen Schreibgeschwindigkeit.
Die Interrupt-Belastung ist lächerlich gering. Ich bekomme hier Werte von
5000-20000 bei einem einfachen dd auf eine BTRFS-Partition auf eine Intel
SSD 320. Und auch für Festplatten oder gar ein RAID ist das IMHO viel zu
wenig.
Es scheint mir, als ob die Abarbeitung eines einzelnen Interrupts für
*viel zu lange* dauert. Das deutet für mich auf ein Problem nahe der
Hardware hin. Auch die System CPU% scheint mir arg niedrig.
Mir scheint, als wartet der komplette Linux Kernel nur, dass die Hardware
endlich in die Pötte kommt.
Die Speichersituation mit gut 900 MB im Cache scheint mir bei 1 GB RAM
ausgesprochen entspannt zu sein. Ich gehe nicht davon aus, dass die Menge
des Hauptspeichers hier einen Flaschenhals darstellt.
> > iostat -x 1
>
> avg-cpu: %user %nice %system %iowait %steal %idle
> 0,00 0,00 0,50 99,50 0,00 0,00
>
> Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
[…]
> sdb 0,00 992,00 0,00 55,00 0,00 13824,00 251,35 147,51 3612,69 18,18 100,00
[…]
> dm-2 0,00 0,00 0,00 1024,00 0,00 8192,00 8,00 4711,45 6107,57 0,98 100,00
Ist sdb das RAID-5?
Mit 55 Schreibrequests pro Sekunde, die das Gerät gerade fertig gestellt
hat (w/s), ist es vollständig ausgelastet. Selbst eine einzelne SATA-
Platte kommt mit NCQ und einer I/O-Tiefe von 32 da hin oder sogar drüber
hinaus.
Zusätzliche weiteren 992 Requests, die über den Device Mapper kommen gerade
noch in der Warteschlange stehen: Das System ist in dieser aktuellen
Situation um ca. den Faktor 20 überlastet.
Dementsprechend warten sich NFS, Journal Block Device vom Ext4 und der Flush
Daemon für das Device
> > ps aux | grep " D" | grep -v "grep"
>
> root 1609 0.2 0.0 0 0 ? D 18:36 0:26 [jbd2/dm-2-8]
> root 1721 0.4 0.0 0 0 ? D 18:39 0:46 [nfsd]
> root 1902 0.7 0.0 0 0 ? D 19:14 0:54 [flush-253:2]
auch den Wolf.
Was mir nun fehlt ist die Information, inwiefern das Ext4 an das
Hardware RAID ausgerichtet ist. Bei RAID-5 kann das meinen Informationen
zur Folge schon mal 30-40% Unterschied machen. Allerdings weiß ich bis
heute nicht, bei welchem Workload genau (das Stand da nämlich nicht dabei,
wo ich es las).
tune2fs -l wie ich sagte. UUIDs und andere ggf. sensible Information kannst
Du ja vorher rauslöschen.
Weiterhin würde mich der Füllstand des Dateisystems interessieren. Ich
nehme mal an, fast leer?
Zu den Hardware-Geschichten kann Dir Sven glaub besser weiterhelfen. Ich
kenne mich mit 3ware-Controller nicht aus. Weiß nur, dass wir da immer
einen großen Bogen drum gemacht haben und eher Adaptec / ICP Vortex
(MPT Fusion) einsetzten.
> Ich kann ja verstehen das das System "etwas" unter lässt wäre aber
> beim blöden kopieren von Datein solch eine IO Load ist doch total
> komisch.
Ja, dem stimme ich Dir voll und ganz zu.
> Ich befürchte das die Backplan oder so ggf. kaputt ist.
> Kabel lose oder sonst was.. Normal kann das nicht sein.
Da habe ich keine Meinung zu. Aber ich tippe auf Probleme, die relativ
nahe bei der Hardware liegen.
Ciao,
--
Martin 'Helios' Steigerwald - http://www.Lichtvoll.de
GPG: 03B0 0D6C 0040 0710 4AFA B82F 991B EAAC A599 84C7
Reply to: