針對阿里云 11.12 的重大服務(wù)故障, 該公司發(fā)給客戶的一份「官方故障報告」昨天在網(wǎng)上被廣泛流傳。
事件回顧:阿里云嚴(yán)重故障,全線產(chǎn)品受影響(已恢復(fù))
影響范圍
1、OSS、OTS、SLS、MNS 等產(chǎn)品的部分服務(wù)受到影響,大部分產(chǎn)品如 ECS、RDS、網(wǎng)絡(luò)等運(yùn)行不受影響。
2、云產(chǎn)品控制臺、管控 API 等功能受到影響。
時間
2023 年 11 月 12 日 17:39~19.20,故障時間為 1 小時 41 分。
問題概況
2023 年 11 月 12 日 17:39 起,阿里云云產(chǎn)品控制臺訪問及管控 API 調(diào)用出現(xiàn)異常、部分云產(chǎn)品服務(wù)訪問異常,工程師排查故障原因與訪問密鑰服務(wù) (AK) 異常有關(guān)。工程師修訂白名單版本后,采取分批重啟 AK 服務(wù)的措施,于 18:35 開始陸續(xù)恢復(fù),19:20 絕大部分 Region 產(chǎn)品控制臺和管控 API 恢復(fù)。
處理過程
17:39:阿里云云產(chǎn)品控制臺訪問及管控 API 調(diào)用出現(xiàn)異常。
17:50:工程師確認(rèn)故障是 AK 服務(wù)異常導(dǎo)致,影響云產(chǎn)品控制臺、管控 API 調(diào)用異常,以及依賴 AK 服務(wù)的云產(chǎn)品服務(wù)運(yùn)行異常。
18:01:工程師定位到根因。
18:07:開始執(zhí)行恢復(fù)措施,包括修訂白名單版本、重啟 AK 服務(wù)。
18:35:杭州等 Region 開始恢復(fù)正常。
19:20:絕大部分 Region 的云產(chǎn)品控制臺和管控 API 調(diào)用恢復(fù)正常。
原因
訪問密鑰服務(wù) (AK)在讀取白名單數(shù)據(jù)時出現(xiàn)讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整白名單,導(dǎo)致不在此白名單中的有效請求失敗,影響云產(chǎn)品控制臺及管控 API 服務(wù)出現(xiàn)異常,同時部分依賴 AK 服務(wù)的產(chǎn)品因不完整的白名單出現(xiàn)部分服務(wù)運(yùn)行異常。
改進(jìn)措施
1、增加 AK 服務(wù)白名單生成結(jié)果的校驗(yàn)及告警攔截能力。
2、增加 AK 服務(wù)白名單更新的灰度驗(yàn)證邏輯,提前發(fā)現(xiàn)異常。
3、增加 AK 服務(wù)白名單的快速恢復(fù)能力。
4、加強(qiáng)云產(chǎn)品側(cè)的聯(lián)動恢復(fù)能力。
END