On Wed, Feb 22, 2023 at 01:29:07PM +0100, listemessaggi@coplast.eu
wrote:
Restando valido tutto quanto discusso nello scambio di mail
precedente, ma
non è che il problema sia ad un altro livello? Che sia l'approccio
sbagliato? Forse sto chiedendo troppo a questo server?
Questa macchina esporta via Tgt dei volumi gestiti da LVM che a
suo volta si
appoggia ad un raid5 software.
Si tratta di una ventina di volumi, ognuno ha 3 snapshot (backup
1 giorno
prima, 2 giorni prima, ecc.), quindi l'IO su disco è
effettivamente elevato.
I volumi esportati via iscsi (tgt) passano per due reti in fibra
10Gb verso
i server hypervisor che fanno girare le macchine virtuali.
Di tutte le macchine virtuali si pianta solo una dove c'è un database.
Effetivamente i database usano molti i dischi.
Questa macchina che funge da NAS/SAN ha una macchina fisica secondaria
configurata in modo simile, ogni giorno i volumi vengono
replicati sulla
secondaria. Ho già provato ad eliminare questo passaggio per
alleggerire il
lavoro, ma non cambia, ci sono comunque eventi di qualche disco che si
ferma, e a cascata fino a iscsi e si ferma per un istante. Poi riparte
subito e da solo, ma l'Hypervisor che usa i dischi via iscsi non
accetta
"pause" e la macchina virtuale del database si blocca.
Vedete qualcosa di sbagliato?
Il problema secondo me non è il RAID software ma il fatto di usare tanto
IO su 4 dischi senza casche, neanche SAS ma soprattutto non SSD...
Qualche idea?
Puoi provare ad aggiungere un disco SSD come cache LVM e vedere se
risolvi...
https://blog.jenningsga.com/lvm-caching-with-ssds/
https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/8/html/configuring_and_managing_logical_volumes/enabling-caching-to-improve-logical-volume-performance_configuring-and-managing-logical-volumes
https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/6/html/logical_volume_manager_administration/lvm_cache_volume_creation
altrimenti fai tutto SSD...