E minha alegria realmente chegou ao fim nos 110 dias de uptime. Dessa vez o culpado foi o filesystem, XFS, que começou a cuspir vários erros como esses:
XFS (sda1): xlog_space_left: head behind tail
tail_cycle = 252, tail_bytes = 8731136
GH cycle = 252, GH bytes = 8731128
XFS (sda1): xlog_space_left: head behind tail
tail_cycle = 252, tail_bytes = 8731136
GH cycle = 252, GH bytes = 8731128
XFS (sda8): xlog_space_left: head behind tail
tail_cycle = 1212, tail_bytes = 8328704
GH cycle = 1212, GH bytes = 8328696
XFS (sda8): xlog_space_left: head behind tail
tail_cycle = 1212, tail_bytes = 8328704
GH cycle = 1212, GH bytes = 8328696
XFS (sda8): xlog_space_left: head behind tail
tail_cycle = 1212, tail_bytes = 8356864
GH cycle = 1212, GH bytes = 8356856
XFS (sda8): xlog_space_left: head behind tail
tail_cycle = 1212, tail_bytes = 8356864
GH cycle = 1212, GH bytes = 8356856
XFS (dm-0): xlog_space_left: head behind tail
tail_cycle = 350, tail_bytes = 158558208
GH cycle = 350, GH bytes = 158558200
XFS (dm-0): xlog_space_left: head behind tail
tail_cycle = 350, tail_bytes = 158558208
GH cycle = 350, GH bytes = 158558200
XFS (sda1): xlog_space_left: head behind tail
tail_cycle = 252, tail_bytes = 8787968
GH cycle = 252, GH bytes = 8787960
Isso em todas as partições. Tentei forçar um "init 1" pra single mode e "desmontar/montar" as partições, mas as mesmas não permitiam isso. Como encontrei referências bem ruins sobre esse comportamente, dizendo que poderia levar à perda de dados, eu preferi fazer o reboot do sistema.
A lista da SGI, criadora do XFS, foi essencial pra decidir o que fazer. Só espero que o problema não se repita nos meus próximos 100 dias de uptime.