Bueno, haciendo unas pruebas en casa he encontrado un problema puntual en un pequeño cluster VMWare que tengo montado. Os adjunto el procedimiento de resolución:
Síntomas:
- Algunos ESX quedan en estado de "Not Responding" y en color gris.
- Se observa el error "Host is not responding".
- Si intentamos conectarnos al host mediante el CIV observamos el mensaje "The server took too long to respond."
- Las VMs siguen funcionando (de hecho el Virtual Center es una de ellas!)
- No podemos migrar las VMs a otros hosts.
- Los Hosts "caídos" responden a ping y podemos conectarnos por SSH.
- Desde la Service Console podemos hacer ping al Virtual Center y desde el Virtual Center podemos hacer ping a los Host "caídos".
Diagnósticos y curas:
- "La cosa no funciona", inicialmente podemos pensar en un problema con el servicio del Virtual Center. Si lo reiniciamos los ESX siguen en su estado de desconexión.
- Pensamos en algún problema con los servicios de los hosts Intentamos reiniciar los servicios vmware-vpxa y mgmt-vmware desde la Service Console. El primero reinicia bien pero el segundo no se puede parar.
- Ya que el agente hostd (servicio mgmt-vmware) no se puede reiniciar, pensamos que el proceso tiene algún problema y decidimos asesinarlo para ello probamos de nuevo a reiniciar el servicio mediante el comando "service mgmt-vmware restart" y en caso de no poder reiniciarlo procederemos a su asesinato ejecutando primero la sentencia "ps -e | grep vmware-hostd" para obtener su PID (identificador de proceso) y una vez conozcamos su identificador numérico de proceso, ejecutaremos la sentencia "kill <número de proceso>". Finalmente veremos en qué estado se encuentra el servicio ejecutando "service mgmt-vmware status", en caso de ver que el servicio está arrancado ejecutaremos "service mgmt-vmware restart" y en caso de estar parado ejecutaremos "service mgmt-vmware start".
Nota: Las VMs han seguido funcionando sin problemas.
Para saber más...
vmware-vpxa: Agente de Service Console que se encarga de comunicarse con las VMs, con el Virtual Center y mantener los datos de estado de los hosts para poder decidir qué hacer en caso de caída de otro host, en caso de tener HA. Su log está en /var/log/vmware/vpx y utiliza los puertos 902 y 903 por defecto. Suele ser el segundo proceso que consume más CPU.
mgmt-vmware (hostd): Se encarga de que el VIC se entere de los cambios realizados en los ESX. Su log está en /var/log/vmware/hostd.log
. Suele ser el tercer proceso que consume más CPU en un host.








