运维技术干货：不仅是 Linux 运维最佳实践

运维 · 公众号 · 运维 · 2016-12-01 10:03

正文

请到「今天看啥」查看全文

这个取决于应用的类型，在实际的业务场景下，需要关注 LVS 等负载均衡器本身的连接数、PPS 数据以及延迟。如果后端吞吐量比较大，可以考虑 LVS 的 DR 模式。一般情况下，负载均衡器不太会成为瓶颈。

负载均衡器本身的连接数、PPS 数据以及延迟如何进行计算和统计？

通过开源的 Zabbix 模板或者自定义模板，这些都不难实现。

有没有相关的命令集进行统计，或者详细的统计实例？

针对 HAProxy 建议参考咱们书中 P76 页最佳实践 29 HAProxy 监控的内容。Zabbix 模板技术，建议参考下咱们书中第 12 章的内容。可以使用的命令包括 ipvsadm，netstat 等。

2、对于涉及多个平台（Unix, Linux, Windows）的统一管理（认证，配置，服务）有什么好的解决方案或者思路么？

先说下认证这一块吧。Unix、Linux 都支持 OpenLDAP 认证，可以考虑，这个和 Windows 下的 AD 是兼容的。配置和服务可以考虑下开源的通用产品，比如 Ansible 或者 Salt。目前我们用的自研系统，思路和 Ansible 类似。

3、如何监控服务，业务运行状态监控你是怎么做的？

我们的监控系统是自研的，对游戏来说，很重要的一个业务指标是在线人数，它是通过监控系统周期性轮询游戏服务器来进行收集和绘制图表的。

4、你们是如何批量管理各个业务模块的机器系统及配置的。我们目录使用 Ansible 使用批量命令和脚本，业务上使用上线平台 SVN 管理业务程序及配置。是否开发了 CMDB 平台？

我们批量管理服务器的方式是 ssh，思路和 Ansible 类似。CMDB 提供基础数据的管理，是自研的。

5、请问有使用过流量镜像吗？就是把线上的流量镜像一份，引到测试环境，用真实的用户数据测试，想了解下从 0 开始实施的过程。

关于流量镜像的原理，可以参考《Linux 运维最佳实践》第 15 章中网卡混杂模式和 RawSocket 技术。看了这一部分后，你应该可以自己写一套。我没有亲自实践过，你可以自己关注下 tcpcopy 这个项目。

6、CentOS 6 要如何做系统和网络优化？/etc/sysctl.conf 中的这个参数

net.ipv4.tcp_max_tw_buckets = 6000

要如何设置，是越多越好吗？设置成 16000？

net.ipv4.tcp_max_tw_buckets = 16000

对于系统优化来说，要有针对性。 tcp_max_tw_buckets 针对的是 time wait bucket ，如系统中 timewait 状态较多，可以考虑 net.ipv4.tcp_tw_reuse 和 net.ipv4.tcp_tw_recycle 这 2 个值调整。另外，如果使用长连接对于减少该状态的连接数有效。

7、如果有 100 多台服务器，大部分都是在提供业务的服务器，如何升级呢？除了停机维护，现在有什么比较好的解决方案吗？

如果本身业务切分比较好，例如采用无状态的微服务等架构，可以通过前端负载均衡器进行灰度升级。如果应用做的不好，只有单台的这种，或者集中数据库，就比较麻烦了。

8、LVS 和 HAPROXY 分别能支持多少类似 FARM 的概念？

你说的 FARM 应该是某硬件负载均衡设备的专有名词，应该是负载均衡组的概念。在 LVS 和 HAProxy 里面，负载均衡组的数量上没有硬限制，但实践中一般不会配置太多，因为这涉及到维护成本以及 HA 环境下主备切换时的开销。

9、系统是 CentOS release 6.5 (Final)，系统没有自动回收内存，16G，我自己写了个 Shell 脚本，每次执行判断小于 1G 的时候回收内存