2012-03-06

Windows Azure Service Disruption due to date: 2012-02-29

שלום לכולם

כפי שחלקכם שמעתם או מי שלא שמע מוזמן לשמוע על התקלה בענן של מיקרוסופט בתאריך 2012-02-29. כידוע זהו תאריך שונה במעט מאחר והוא קיים רק אחת ל 4 שנים. מה שנקרא – שנה מעוברת.

למיקרוסופט יש מערכת התרעות יחסית טובה – גם סטאטוסים בטוויטר – גם התרעות במיילים וגם עמוד דש בורד יפה וברור.

בבוקרו של אותו היום החלו לצוץ התרעות מכל מיני סוגים, בכל האתרים, דבר שהוא מאד יוצא דופן, כיוון שגם כשיש תקלות הם מאד מקומיות ולא קריטיות, להלן כמה דוגמאות להתרעות שהוקפצו בכל מדיה אפשרית:

SQL Azure Data Sync - North Europe
[SQL Azure Data Sync] [North Europe] [Red] Service Unavailable
Feb 29 2012 8:00AM We are troubleshooting this issue. Further updates will be p...
3/1/2012 4:27:32 AM

Service Bus, Access Control & Caching Portal - Worldwide
[Service Bus, Access Control & Caching Portal] [Worldwide] [Red] Service Unavailable
Feb 29 2012 11:15AM Further updates will be published to keep you apprised of th...
3/1/2012 4:02:33 AM

Service Bus - South Central US
[Service Bus] [South Central US] [Red] Service Unavailable
Feb 29 2012 11:15AM Further updates will be published to keep you apprised of th...
3/1/2012 2:34:29 AM

Windows Azure Marketplace - DataMarket - South Central US
[Windows Azure Marketplace - DataMarket] [South Central US] [Red] Windows Azure Marketplace Incident
Feb 29 2012 10:55AM We are currently experiencing an issue with ACS in the South...
3/1/2012 1:35:45 AM

Access Control 2.0 - South Central US
[Access Control 2.0] [South Central US] [Red] Service Outage
Feb 29 2012 11:15AM We are experiencing an issue with Access Control 2.0 in the ...
3/1/2012 1:31:53 AM

Windows Azure Compute - North Central US
[Windows Azure Compute] [North Central US] [Yellow] Windows Azure Compute Availability
Feb 29 2012 10:55AM We are experiencing an issue with Windows Azure Compute in t...
2/29/2012 11:44:21 PM

Windows Azure Compute - South Central US
[Windows Azure Compute] [South Central US] [Yellow] Windows Azure Compute Availability
Feb 29 2012 10:55AM We are experiencing an issue with Windows Azure Compute in t...
2/29/2012 11:43:08 PM

Windows Azure Compute - North Europe
[Windows Azure Compute] [North Europe] [Yellow] Windows Azure Compute Availability
Feb 29 2012 10:55AM We are experiencing an issue with Windows Azure Compute in t...
2/29/2012 11:43:05 PM

Windows Azure Compute - South Central US
[Windows Azure Compute] [South Central US] [Yellow] Windows Azure Compute Availability
Feb 29 2012 10:55AM We are experiencing an issue with Windows Azure Compute in t...
2/29/2012 10:57:43 PM

 

רואים תקלות מאיזורים שונים וברכיבים שונים.

גם סגן נשיא מיקרוסופט לעניני שרתים הוציא הודעה ובה התנצלות על התקלה:

Windows Azure Service Disruption Update

לאנשי ה SQL Azure מבינינו – שימו לב שהוא עצמו לא נפגע – מה שכן זה הגישה אליו מהפורטל.

הסיבה לתקלה כפי שאני מבין עדיין נחקרת, וכולם מחכים למסקנות ולתובנות.

רציתי להביא 2 מאמרים בנושא:

מאמר אחד המציג את העובדה שגם בענן ייתכנו תקלות – הוא מזכיר את המקרה באפריל אצל אמזון ואת התקלות ב Gmail ועוד ועוד. לדעתו הדבר לא יעצור את התהליכים שמעבירים פעילויות לענן. אולם המקרה הזה מזכיר לנו את הצורך ב DRP מסודר, כמה זמן אתה מוכן לא להיות באויר, כמה עלות אתה מוכן להשקיע בניתוב האתר למקום אחר מחוץ לענן או בתוכו.

תקלות קורות וייקרו השאלה היא מה לומדים מהם. אני באופן אישי מאד מסכים עם הנאמר במאמר זה.:

On the Recent Windows Azure Leap Day Outage מאת David Pallmann @davidpallmann

מאמר שני נכתב באתר zdnet ובו צעד אחר צעד מציג Jack Clark @mappingbabel  את האירועים לפי לוח הזמנים בהם ארעו. הוא מנסה כמו כן לנסות ולהבין מה היה.

בכתבה זו הוא מציין די בפרוטרוט את לוח הזמנים של התקלה… הוא אינו מציין את סיומה.

Microsoft grapples with Windows Azure outage

לדעת כולם אכן מדובר בהשפעה של התאריך יוצא הדופן של פברואר אולם כרגע לא פורסם רישמית התחקיר.

אני תיקווה שהלקחים יילמדו על ידי שני הצדדים – צד הספק ילמד מהטעויות וכיצד ניתן להתגבר על תקלות ביתר מהירות וצד הלקוח ילמד לכלכל את צעדיו בתבונה על מנת למזער נזקים בעת משבר.

במידה ויהיו ממצאים רישמיים אעדכן אותכם

חג פורים שמח