AWS Lightsail 生产服务器频繁断网如何排查?

vps网友提供 03-06 讨论归档 22
个人项目,规模大了一个月前迁移到 AWS Lightsail,用了 2 台 VPS,8c32g 跑业务,4c16g 跑数据库,都是 Ubuntu 20.04 LTS,都跑在 Docker 容器里。最近发现每隔 5 天左右 8c32g 那台机器就会断网,SSH 和业务都连接不上,必须重启才能恢复正常。现在想到的应急解决方案是用 4c16g 那台监控 8c32g 那台,发现掉线就调 API 重启。请问可能是什么问题,有没有更好的解决方案?机器都是自己账号正价买的,没用过任何码。

本文由 vps网友提供,转载请注明出处

本文链接: https://www.vpsvsvps.com/discuss/a/1676472064736759808.html

标签:
bullfrog
03-06

对,我能想到比较笨的排查方法就是把 cpu 和内存占用每几秒钟就写到 log 里,死机之后查看

huson
03-06

开一台 EC2 同配置的 一台 lightsail 同时跑 看看 ec2 挂不挂 如果 ec2 挂那就是 lightsail 的问题 不需要折腾了 直接换 ec2

如果 2 个都挂 那说明是你程序问题 直接查 bug 或者环境配置问题 你先把问题大类给分了

bullfrog
03-06

@naoh1000 40%不多,正常应该一直是 100%,除非偶尔执行个 cronjob 可能会降下来点

wangxn
03-06

假如 CPU 不超,那就是内存超了吧。内存超了,也会导致完全卡死,只能重启。我也踩过这个坑。

whitehack
03-06

查监控记录,查各项指标. 然后针对性的去排查.
另外逻辑上应该也有日志的吧.这种问题只能一个一个慢慢排查


另外大佬这项目可不小

isCyan
03-06

SSH 连不上的话很难排查啊,先 ping 确认一下到底是断网还是程序问题?

chenqh
03-06

个人项目,14C48G,估计挣了钱了,什么时候我能有副业呀

iamv2er
03-06

不好用 买了退了

Kinnice
03-06

感觉是内存泄露,检查一下程序吧,开个监测,看一下出问题的时候,各项系统占用

jadec0der
03-06

@naoh1000 40% 不算高了,把时间拉到 2 weeks 最低的时候有多少?

kerro1990
03-06

@naoh1000 那就是 ubuntu 的问题,换成 centos 试试

naoh1000
03-06

感谢回复,刚才看了下 `Remaining CPU burst capacity` 还有 40%,应该不是 CPU 的问题。跑的是普通 Web 服务,端对端加密是在客户端实现的,应该不需要太高服务器 CPU 性能。

@sampeng
@wancaibida
@kerro1990
@celeron533
@aec4d
@jadec0der

jadec0der
03-06

你看一下 lightsail Manage - Metrics 里的 CPU,如果 Remaining CPU burst capacity 没有了,那 CPU 性能就只能维持在 sustainable zone 区间

jadec0der
03-06

lightsail 背后是低成本,可以应付突发性能的 T 实例,平时 CPU 用的很少的时候给你加积分,CPU 高的时候扣积分,如果积分用完了就要卡死了。如果需要持续使用 CPU,建议换成 EC2 的 M 实例或者 C 实例

aec4d
03-06

lightsail 适合开发,或者低占用场景,长时间高负载就会无响应 https://forums.aws.amazon.com/thread.jspa?threadID=269360

celeron533
03-06

我记得 lightsail 虽然便宜,但是对于 CPU 使用有一定限制

kerro1990
03-06

估计是 cpu 积分用完了吧

wancaibida
03-06

CPU 用超了吧

sampeng
03-06

aws 没这么脆弱。带宽是 5G…你能跑满?
大概率是 cpu 跑满了。所以 ssh 都回不去了

msg7086
03-06

固定 IP 还是 DHCP ?换一下试试。
另外连接数大不大? 1:1 NAT 可能会炸。