微博在大规模、高负载系统中的典型问题
2016-07-26 16:21:36 0 举报
AI智能生成
微博在大规模、高负载系统中的典型问题包括:1. 数据量大,需要高效的存储和查询方案;2. 用户并发访问量大,需要保证系统的稳定性和可用性;3. 微博内容涉及敏感信息,需要保证信息安全;4. 微博内容实时性强,需要保证快速响应和推送。为解决这些问题,可以采用分布式数据库、缓存技术、负载均衡等手段来提高系统的性能和稳定性。同时,还需要加强安全防护措施,保障用户信息安全。总之,微博在大规模、高负载系统中面临着诸多挑战,需要不断地进行技术创新和优化升级。
作者其他创作
大纲/内容
监控
系统状态展示 graphite
请求调用链路展示 分析节点异常(平均值、历史数据)
日志
信息完整
业务日志:包含关键路径与异常
性能日志:性能统计与分步耗时
容器日志、系统日志(gc.log /var/log)
分维度过滤
时间:出问题的时间点
请求:uid,requestId
级别:WARN/ERROR
集中检索
ELK记录关键信息(如链路信息和异常信息)
查看现场
快照分析
功能:观察程序当前状态
场景:程序当前处于整体异常状态
距离:gdb,Xmap,mat,jstack
调用分析
功能:观察调用和调用栈
场景:请求出错、请求慢、偶发错误
距离:btrace(java),Xtrace
聚合分析
功能:按某些维度采样、聚合和对比数据
场景:查找性能问题
距离:perf,Xstat,Xtop
问题观察、复现、分析、解决
tcp copy引流线上实际流量
使用perf查看系统调用
jstack查看java线程
strace查看系统调用处理时间
结果 内核低版本close问题
预防问题
高可用架构设计
服务隔离
按部署隔离
分机房部署
核心服务独立部署
服务独立化部署
按调用隔离
异步队列
快速失败
缩短超时时间
当某资源出现大量不可用时,进行自动降级
可靠的系统实现
耦合方式:同步/异步/丢弃(异步的堆积和崩溃问题)
异常处理的异常处理:不要让事情变得更糟
压测与演练
真实流量压测
模拟实际请求模型:TCPCopy
模拟后端资源异常:TouchStone(tc)
0 条评论
下一页