11/07/2023 斷線事件 解析說明

關於 11/7 的突然斷線,iCHEF 真的很抱歉。對不起我們辜負了您的期待,當晚系統未能擔任好稱職的夥伴,反而讓店裡慌亂。而為了避免再發生,iCHEF 也對事件進行了詳細的調查,確認了原因是網路設定異常,而這種設定異常可以透過自動化管理來降低。

關於 11/7 的突然斷線,iCHEF 真的很抱歉。對不起我們辜負了您的期待,當晚系統未能擔任好稱職的夥伴,反而讓店裡慌亂。

而為了避免再發生,iCHEF 也對事件進行了詳細的調查,確認了原因是網路設定異常,而這種設定異常可以透過自動化管理來降低。

因此 iCHEF 將投資提升自動化與災難復原的部署,來降低發生機率與縮短恢復時間,讓 iCHEF 成為更可靠的系統。關於進一步事件解析,請參考以下說明。

11/7(二)下午四點到六點半,發生了無法登入 iCHEF 後台、無法套用新設定檔、且無法使用線上整合功能的系統異常,同時部分客戶亦反應 iCHEF App 無法啟動。最終在晚上七點前,公告系統異常已恢復。事後客服團隊也持續以專人專案的方式,協助店家儘速恢復正常運營,最後在晚上十點半時完成所有進線店家的協助。


在 iCHEF 串接產品資料庫的作業中,由於 Amazon Web Service(AWS)公有雲平台設定操作異常,導致網路規則發生非預期變動,進而讓 iCHEF 系統與 AWS 雲端服務連結斷線,導致餐廳無法使用 iCHEF 系統中的網路服務。

iCHEF 為維持系統穩定有一系列既定防護措施,除了嚴格管理人員權限外,也有系統正式更新前的多次測試,以及開始透過工具自動化管理雲端服務。但此次事件發生的範疇與方式落在自動化工具的覆蓋範圍以外。

小知識:什麼是 AWS
AWS 為亞馬遜公司旗下的子公司,為全球公有雲端服務領導品牌,服務涵蓋雲端運算、儲存、資料庫等。讓各式雲端應用(如 iCHEF )可以部署並取用其服務,同時也提供完整先進的資訊安全機制,以保護企業與用戶資料。


由於並非所有設定變更都有變更記錄,所以我們馬上投入全體工程團隊,一方面梳理所有變更,要找出所有因事件受到變動的設定,一方面與 AWS 平台團隊密切聯繫,確認現況。

找到關鍵設定後,即刻進行問題修復。然而由於相關設定涉及到的環節數量眾多,且需一一與 AWS 反覆確認原設定所有細節,在工程團隊全員出動的情況,仍花費不少時間才恢復原有設定。

約在六點時完成主要修復、店家端可登入與操作後,系統仍需時間消化斷線期間所累積、以及實時新增的服務需求。在恢復第三方與雲端服務的穩定度,七點才正式公告恢復正常。


為了避免同樣的事件再次發生,我們將會 (1) 更進一步擴大雲端服務自動化管理的範疇,降低變更頻率,也能詳實追蹤紀錄設定的變更,以及 (2) 將在今年持續盤點,預期能在明年再進一步提升「災難復原」計畫的部署。

小知識:什麼是災難復原
災難復原(disaster recovery)是組織預測與解決資訊系統技術方面之災難的程序。任何公司的系統都有可能因為不可預見的情況,發生預期或非預期的故障。所以災難復原的程序會包含預防災難發生、針對預期可能發生的災難做對應的準備和演練、以及災難如果發生怎麼快速處理的程序和政策。


在那三個小時中,有數千家餐廳聯繫 iCHEF 尋求協助。我們十二萬分地感謝老闆耐心地等待 iCHEF 修復異常,而這也再次提醒了我們,有多少間餐廳是這樣地信賴著 iCHEF,將我們當作一起作戰的夥伴。

因此,我們真的深感抱歉,沒能在餐廳最忙碌的時候提供支持,擔任好一個稱職的夥伴。為此,iCHEF 承諾將持續投資提升雲端服務自動化管理與災難復原部署的開發,讓未來這種情況發生的機率變得更低,以及恢復的速度更快。

作為一間軟體公司,我們會在持續投資開發新功能的同時,也變得更加可靠。再次對此造成的困擾致歉,也深深感謝所有餐廳對 iCHEF 的支持,以及給我們的機會。我們會變得更好。

感謝大家。

iCHEF CLUB
iCHEF CLUB
文章: 32

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *