日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52003
  • 待審:43
  • 小程序:12
  • 文章:1047590
  • 會(huì)員:762

使用消息隊(duì)列可以幫助我們實(shí)現(xiàn)系統(tǒng)解耦、流量管控等功能。但使用過程中可能會(huì)遇到各種各樣的問題,比如系統(tǒng)資源使用率高、集群節(jié)點(diǎn)宕機(jī)等,進(jìn)而影響我們生產(chǎn)業(yè)務(wù)正常開展。為了不讓消息隊(duì)列失控,增加監(jiān)控是非常必要的。今天來聊一聊 Kafka 有哪些重要的監(jiān)控指標(biāo)。

1 基礎(chǔ)指標(biāo)

基礎(chǔ)指標(biāo)是監(jiān)控系統(tǒng)常見的監(jiān)控指標(biāo),這里介紹 4 個(gè)方面:

  • CPU、內(nèi)存、硬盤、網(wǎng)絡(luò) I/O 等資源使用情況,Kafka 提供了 BytesIn/BytesOut 指標(biāo)來監(jiān)控帶寬使用率;
  • TCP 連接數(shù)、文件描述符使用情況;
  • JVM 監(jiān)控指標(biāo),Kafka 也是一個(gè) JVM 進(jìn)程,需要監(jiān)控堆內(nèi)存使用情況、FULL GC 頻率和時(shí)長、JVM 線程數(shù)等;
  • 網(wǎng)絡(luò)延遲。

2 Broker 指標(biāo)

2.1 UnderReplicatedPartitions

Kafka 分區(qū) Leader 節(jié)點(diǎn)收到消息后,會(huì)同步給 Follower 節(jié)點(diǎn)。集群健康的情況下,UnderReplicatedPartitions 值等于 0,這時(shí)同步正常的 Follower 節(jié)點(diǎn)數(shù)量(也就是 ISR)等于總的 Follower 節(jié)點(diǎn)數(shù)量。如果這個(gè)指標(biāo)值大于0,比如等于 1,說明有一個(gè) Follower 同步異常,如下圖:

圖片圖片

2.2 ISRShrink/ISRExpand

這個(gè)指標(biāo)表示 ISR 收縮和擴(kuò)容的頻率。如果這個(gè)指標(biāo)的值很高,那集群中必定有 Follower 節(jié)點(diǎn)頻繁地進(jìn)入或退出 ISR。這個(gè)時(shí)候就需要定位有 Follower 頻繁進(jìn)出 ISR 的原因。

2.3 ActiveControllerCount

Kafka Broker 集群中有一個(gè)節(jié)點(diǎn)是 Controller 節(jié)點(diǎn),這個(gè)節(jié)點(diǎn)非常重要,負(fù)責(zé)監(jiān)聽 Partition、Topic 和 Broker 的變化,以及元數(shù)據(jù)管理。

ActiveControllerCount 指標(biāo)表示當(dāng)前 Broker 節(jié)點(diǎn)是否是 Controller 節(jié)點(diǎn),集群健康的情況下,有且僅有一個(gè) Broker 節(jié)點(diǎn)這個(gè)指標(biāo)值是 1。如果有多個(gè) Broker 這個(gè)指標(biāo)值是 1,或者所有 Broker 指標(biāo)值都是 0,就需要進(jìn)行故障排查。

圖片圖片

2.4 offlinePartitionCount

這個(gè)指標(biāo)只有 Controller 節(jié)點(diǎn)有。表示處于不可用狀態(tài)的 Partition 的數(shù)量,也就是 Partition 沒有活躍的 Leader 節(jié)點(diǎn)的數(shù)量。健康的集群,這個(gè)值是 0,如果這個(gè)值不是 0,就得盡快排查原因,防止影響業(yè)務(wù)。

2.5 LeaderElectionRateAndTimeMs

當(dāng)分區(qū) Leader 節(jié)點(diǎn)掛了之后,就會(huì)觸發(fā)選舉新的 Leader。這個(gè)指標(biāo)值表示選舉新 Leader 的頻率(每秒多少次)和集群中無 Leader 節(jié)點(diǎn)的時(shí)長。觸發(fā) Leader 選舉,肯定是舊的 Leader 下線,所以需要定位分析原因。

2.6 UncleanLeaderElectionsPerSec

當(dāng) Broker 集群找不到分區(qū) Leader 時(shí),需要從 ISR 集合中選出新的 Leader 節(jié)點(diǎn)。而如果 ISR 集合沒有節(jié)點(diǎn),那就得從未同步的 Follower 中選出 Leader 節(jié)點(diǎn),讓集群處于可用狀態(tài),但這個(gè)時(shí)候因?yàn)橄⑽赐剑瑫?huì)有消息丟失。所以這個(gè)指標(biāo)有數(shù)據(jù)時(shí),代表可能有消息丟失。

2.7 TotalTimeMs

Broker 處理一筆請(qǐng)求的總時(shí)間。比如處理 Producer 發(fā)送請(qǐng)求、Consumer 拉取請(qǐng)求、Follower 拉取請(qǐng)求。這個(gè)時(shí)間如果出現(xiàn)了比較大的波動(dòng),需要查看 Broker 的資源情況并考慮應(yīng)對(duì)方案。

3 Producer

生產(chǎn)者也可以加一些指標(biāo)來監(jiān)控發(fā)送消息的情況。

3.1 request-latency-avg

平均請(qǐng)求時(shí)間,這個(gè)指標(biāo)包括生產(chǎn)者發(fā)送消息到收到響應(yīng)的延遲,這個(gè)指標(biāo)會(huì)影響 Producer 端的吞吐量。

3.2 wAIting-threads

發(fā)送緩存區(qū)中阻塞的用戶線程數(shù),如果這個(gè)指標(biāo)變高,意味著生產(chǎn)者被阻塞的線程數(shù)變高,需要排查原因。

4 Consumer

4.1 records-lag

消費(fèi)者在當(dāng)前分區(qū)上落后于生產(chǎn)者的數(shù)量,如果這個(gè)值變大,有可能當(dāng)前這個(gè)分區(qū)的消息量突增,也可能消費(fèi)者消費(fèi)能力下降,需要關(guān)注。

5 總結(jié)

Kafka 的監(jiān)控指標(biāo)非常多,關(guān)鍵指標(biāo)是必須要監(jiān)控的,其他指標(biāo)可以根據(jù)需要添加,同時(shí)也可以加入日志相關(guān)的監(jiān)控。希望本文能對(duì)你理解 Kafka 有所幫助。

分享到:
標(biāo)簽:Kafka
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 52003

    網(wǎng)站

  • 12

    小程序

  • 1047590

    文章

  • 762

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績?cè)u(píng)定