[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Hohe Load - wo kommt Sie her



Am Freitag, 15. Februar 2013 schrieb Daniel:

> Moin,

Moin,
 
> > Jup. Das ist der Anteil der Zeit, in der es nur noch Prozesse gibt, die
> > in ununterbrechbaren Schlaf auf System Calls (üblicherweise I/O)
> > warten.
> 
> 
> > vmstat 1
> 
> procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
>  r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
>  2  4      0  15396  22452 922000    0    0    50  2170  225  649  0  3 38 59  0
>  0  6      0  15592  22456 918992    0    0     0  4108  674  551  0  2  0 98  0
>  0  5      0  15492  22460 919220    0    0     0  8196  650  731  0  4  3 93  0
>  0  5      0  16228  22460 918784    0    0     0  8192  560  700  0  3  0 97  0
>  0  5      0  15664  22460 919040    0    0     0  4096  561  528  0  4 22 74  0
>  0  5      0  14148  22460 920244    0    0     0  8192  707  452  0  3 48 48  0
>  0  5      0  13136  22460 921944    0    0     0  8192  760  936  0  5 15 80  0

4-6 geblockte Prozesse. Wait ungewöhnlich hoch, bei einer selbst für ein
RAID-5 pathetischen Schreibgeschwindigkeit.

Die Interrupt-Belastung ist lächerlich gering. Ich bekomme hier Werte von
5000-20000 bei einem einfachen dd auf eine BTRFS-Partition auf eine Intel
SSD 320. Und auch für Festplatten oder gar ein RAID ist das IMHO viel zu
wenig.

Es scheint mir, als ob die Abarbeitung eines einzelnen Interrupts für
*viel zu lange* dauert. Das deutet für mich auf ein Problem nahe der
Hardware hin. Auch die System CPU% scheint mir arg niedrig.

Mir scheint, als wartet der komplette Linux Kernel nur, dass die Hardware
endlich in die Pötte kommt.

Die Speichersituation mit gut 900 MB im Cache scheint mir bei 1 GB RAM
ausgesprochen entspannt zu sein. Ich gehe nicht davon aus, dass die Menge
des Hauptspeichers hier einen Flaschenhals darstellt.

> > iostat -x 1
> 
> avg-cpu:  %user   %nice %system %iowait  %steal   %idle
>            0,00    0,00    0,50   99,50    0,00    0,00
> 
> Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
[…]
> sdb               0,00   992,00    0,00   55,00     0,00 13824,00   251,35   147,51 3612,69  18,18 100,00
[…]
> dm-2              0,00     0,00    0,00 1024,00     0,00  8192,00     8,00  4711,45 6107,57   0,98 100,00

Ist sdb das RAID-5?

Mit 55 Schreibrequests pro Sekunde, die das Gerät gerade fertig gestellt
hat (w/s), ist es vollständig ausgelastet. Selbst eine einzelne SATA-
Platte kommt mit NCQ und einer I/O-Tiefe von 32 da hin oder sogar drüber
hinaus.

Zusätzliche weiteren 992 Requests, die über den Device Mapper kommen gerade
noch in der Warteschlange stehen: Das System ist in dieser aktuellen
Situation um ca. den Faktor 20 überlastet.

Dementsprechend warten sich NFS, Journal Block Device vom Ext4 und der Flush
Daemon für das Device

> > ps aux | grep " D" | grep -v "grep"
> 
> root      1609  0.2  0.0      0     0 ?        D    18:36   0:26 [jbd2/dm-2-8]
> root      1721  0.4  0.0      0     0 ?        D    18:39   0:46 [nfsd]
> root      1902  0.7  0.0      0     0 ?        D    19:14   0:54 [flush-253:2]

auch den Wolf.

Was mir nun fehlt ist die Information, inwiefern das Ext4 an das
Hardware RAID ausgerichtet ist. Bei RAID-5 kann das meinen Informationen
zur Folge schon mal 30-40% Unterschied machen. Allerdings weiß ich bis
heute nicht, bei welchem Workload genau (das Stand da nämlich nicht dabei,
wo ich es las).

tune2fs -l wie ich sagte. UUIDs und andere ggf. sensible Information kannst
Du ja vorher rauslöschen.

Weiterhin würde mich der Füllstand des Dateisystems interessieren. Ich
nehme mal an, fast leer?

Zu den Hardware-Geschichten kann Dir Sven glaub besser weiterhelfen. Ich
kenne mich mit 3ware-Controller nicht aus. Weiß nur, dass wir da immer
einen großen Bogen drum gemacht haben und eher Adaptec / ICP Vortex
(MPT Fusion) einsetzten.

> Ich  kann  ja  verstehen  das das System "etwas" unter lässt wäre aber
> beim  blöden  kopieren  von  Datein  solch eine IO Load ist doch total
> komisch.

Ja, dem stimme ich Dir voll und ganz zu.

> Ich befürchte das die Backplan oder so ggf. kaputt ist.
> Kabel lose oder sonst was.. Normal kann das nicht sein.

Da habe ich keine Meinung zu. Aber ich tippe auf Probleme, die relativ
nahe bei der Hardware liegen.

Ciao,
-- 
Martin 'Helios' Steigerwald - http://www.Lichtvoll.de
GPG: 03B0 0D6C 0040 0710 4AFA  B82F 991B EAAC A599 84C7


Reply to: