电子技术论坛

 找回密码
 快速注册

QQ登录

只需一步,快速开始

搜索
下载方法|用单线程|避免多扣帖子规范|求助必读|发帖建议积分策略|勋章介绍|新人必读获取金币|推广论坛|出售帖子基本礼节|致会员信|版规总则
禁涉政治|反对低俗|举报专帖征集相片|留下足迹|推荐精华上传附件|制作分卷|使用网盘禁发qq群|恶意灌水|纯表情帖加入团队|监督机制|安全上网
查看: 1330|回复: 0

ESX的NFS存储Failover机制Q&A

[复制链接]
发表于 2012-4-24 02:14:31 | 显示全部楼层 |阅读模式

注册家电维修技术论坛,与同行畅聊维修技术,享更多技术论坛功能。

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
ESX的NFS存储通常都会配置备份链路。当主链路出现故障时自动切换到备份链路上,这叫做Failover。

问:什么时候发起failover?答:当发现存储链路失败时。

问:如何判断一条存储链路中断了?答:找不到心跳了呗。

问:心跳是怎么回事?怎样才算找不到心跳?
答:通常ESX Host会每隔一定的间隔(HeartbeatFrequency)发起一次到存储的心跳检测,每次心跳检测必须在一定的时间内(HeartbeatTimeout)收到回复,否则就算是一次心跳检测失败(HeartbeatFailure),连续失败到一定的次数(HeartbeatMaxFailure)就算链路失败。

这些参数应该修改为以下推荐的值 (无论是NetApp还是EMC的NAS设备)
NFS.HeartbeatDelta (NFS.HeartbeatFrequency in ESX 3.x)   12
NFS.HeartbeatTimeout         5
NFS.HeartbeatMaxFailures   10
上面这些推荐参数值的含义是:NFS.HeartbeatFrequency=12说明每12秒会发起一次心跳检测。5秒没有响应就算Timeout,一直累计到10次没有响应才算NFS存储丢失,才发起failover的动作。这中间其实经过了12s*10+5s=125秒时间。也就是说,真正要发起一次failover事件,ESX Host要等上125秒。

问:那么,在这125秒内,从VM的角度看,发生了什么状况呢?
答:VM会发现其vSCSI控制器上连接的磁盘停止响应,这取决于Guest OS会忍受多长时间的磁盘不响应才认为是一个error (delayed write error),当这个IO error发生在Guest OS的系统盘时,就会导致OS崩溃。Windows操作系统默认的disk Timeout是60秒。也就是说,当ESX Host还在125秒的等待时间内而不去执行Failover动作时,Guest OS就已经崩溃了。在Guest级别HA启用的情况下,Guest OS会在NFS Storage恢复的时候重启。但是重新配置Guest OS的参数以使其也能够等待125秒不是更好吗?如何做到?用Regedit,修改HKLM\System\CurrentControlSet\Services\Disk下的TimeOutValue值为125即可。(修改注册表有风险,请一定先备份后修改)
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

手机版|家电维修技术论坛 ( 鄂ICP备09003585号-2 )

GMT+8, 2025-3-14 17:59 , Processed in 0.041728 second(s), 5 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

CopyRight © 电子技术论坛
电子邮箱:8794149@qq.com | 联系 QQ:3081868839 | 官方网址:www.dzdu.com

Qiji. All Rights Reserved


服务条款 | 站长声明

Wuhan Qiji Technology Co., Ltd.武汉奇迹科技有限公司版权所有


鄂ICP备09003585号-2鄂公网安备42010602000420号

快速回复 返回顶部 返回列表