AWS Lightsail 生产服务器频繁断网如何排查？

vps网友提供 03-06 讨论归档 22

个人项目，规模大了一个月前迁移到 AWS Lightsail，用了 2 台 VPS，8c32g 跑业务，4c16g 跑数据库，都是 Ubuntu 20.04 LTS，都跑在 Docker 容器里。最近发现每隔 5 天左右 8c32g 那台机器就会断网，SSH 和业务都连接不上，必须重启才能恢复正常。现在想到的应急解决方案是用 4c16g 那台监控 8c32g 那台，发现掉线就调 API 重启。请问可能是什么问题，有没有更好的解决方案？机器都是自己账号正价买的，没用过任何码。

本文由 vps网友提供，转载请注明出处

本文链接： https://www.vpsvsvps.com/discuss/a/1676472064736759808.html

标签:

bullfrog

03-06

对，我能想到比较笨的排查方法就是把 cpu 和内存占用每几秒钟就写到 log 里，死机之后查看

huson

03-06

开一台 EC2 同配置的一台 lightsail 同时跑看看 ec2 挂不挂如果 ec2 挂那就是 lightsail 的问题不需要折腾了直接换 ec2

如果 2 个都挂那说明是你程序问题直接查 bug 或者环境配置问题你先把问题大类给分了

bullfrog

03-06

@naoh1000 40%不多，正常应该一直是 100%，除非偶尔执行个 cronjob 可能会降下来点

wangxn

03-06

假如 CPU 不超，那就是内存超了吧。内存超了，也会导致完全卡死，只能重启。我也踩过这个坑。

whitehack

03-06

查监控记录,查各项指标. 然后针对性的去排查.
另外逻辑上应该也有日志的吧.这种问题只能一个一个慢慢排查

另外大佬这项目可不小

isCyan

03-06

SSH 连不上的话很难排查啊，先 ping 确认一下到底是断网还是程序问题？

chenqh

03-06

个人项目，14C48G,估计挣了钱了，什么时候我能有副业呀

iamv2er

03-06

不好用买了退了

Kinnice

03-06

感觉是内存泄露，检查一下程序吧，开个监测，看一下出问题的时候，各项系统占用

jadec0der

03-06

@naoh1000 40% 不算高了，把时间拉到 2 weeks 最低的时候有多少？

kerro1990

03-06

@naoh1000 那就是 ubuntu 的问题，换成 centos 试试

naoh1000

03-06

感谢回复，刚才看了下 `Remaining CPU burst capacity` 还有 40%，应该不是 CPU 的问题。跑的是普通 Web 服务，端对端加密是在客户端实现的，应该不需要太高服务器 CPU 性能。

@sampeng
@wancaibida
@kerro1990
@celeron533
@aec4d
@jadec0der

jadec0der

03-06

你看一下 lightsail Manage - Metrics 里的 CPU，如果 Remaining CPU burst capacity 没有了，那 CPU 性能就只能维持在 sustainable zone 区间

jadec0der

03-06

lightsail 背后是低成本，可以应付突发性能的 T 实例，平时 CPU 用的很少的时候给你加积分，CPU 高的时候扣积分，如果积分用完了就要卡死了。如果需要持续使用 CPU，建议换成 EC2 的 M 实例或者 C 实例

aec4d

03-06

lightsail 适合开发，或者低占用场景，长时间高负载就会无响应 https://forums.aws.amazon.com/thread.jspa?threadID=269360

celeron533

03-06

我记得 lightsail 虽然便宜，但是对于 CPU 使用有一定限制

kerro1990

03-06

估计是 cpu 积分用完了吧

wancaibida

03-06

CPU 用超了吧

sampeng

03-06

aws 没这么脆弱。带宽是 5G…你能跑满？
大概率是 cpu 跑满了。所以 ssh 都回不去了

msg7086

03-06

固定 IP 还是 DHCP ？换一下试试。
另外连接数大不大？ 1:1 NAT 可能会炸。

VPS主机对比评测网

AWS Lightsail 生产服务器频繁断网如何排查？

Copyright VPS主机对比评测网 vpsvsvps.com Rights Reserved.蒙ICP备17004952号-7