דילוג לתוכן הראשי

Windows Azure Service Disruption due to date: 2012-02-29

שלום לכולם

כפי שחלקכם שמעתם או מי שלא שמע מוזמן לשמוע על התקלה בענן של מיקרוסופט בתאריך 2012-02-29. כידוע זהו תאריך שונה במעט מאחר והוא קיים רק אחת ל 4 שנים. מה שנקרא – שנה מעוברת.

למיקרוסופט יש מערכת התרעות יחסית טובה – גם סטאטוסים בטוויטר – גם התרעות במיילים וגם עמוד דש בורד יפה וברור.

בבוקרו של אותו היום החלו לצוץ התרעות מכל מיני סוגים, בכל האתרים, דבר שהוא מאד יוצא דופן, כיוון שגם כשיש תקלות הם מאד מקומיות ולא קריטיות, להלן כמה דוגמאות להתרעות שהוקפצו בכל מדיה אפשרית:

SQL Azure Data Sync - North Europe
[SQL Azure Data Sync] [North Europe] [Red] Service Unavailable
Feb 29 2012 8:00AM We are troubleshooting this issue. Further updates will be p...
3/1/2012 4:27:32 AM

Service Bus, Access Control & Caching Portal - Worldwide
[Service Bus, Access Control & Caching Portal] [Worldwide] [Red] Service Unavailable
Feb 29 2012 11:15AM Further updates will be published to keep you apprised of th...
3/1/2012 4:02:33 AM

Service Bus - South Central US
[Service Bus] [South Central US] [Red] Service Unavailable
Feb 29 2012 11:15AM Further updates will be published to keep you apprised of th...
3/1/2012 2:34:29 AM

Windows Azure Marketplace - DataMarket - South Central US
[Windows Azure Marketplace - DataMarket] [South Central US] [Red] Windows Azure Marketplace Incident
Feb 29 2012 10:55AM We are currently experiencing an issue with ACS in the South...
3/1/2012 1:35:45 AM

Access Control 2.0 - South Central US
[Access Control 2.0] [South Central US] [Red] Service Outage
Feb 29 2012 11:15AM We are experiencing an issue with Access Control 2.0 in the ...
3/1/2012 1:31:53 AM

Windows Azure Compute - North Central US
[Windows Azure Compute] [North Central US] [Yellow] Windows Azure Compute Availability
Feb 29 2012 10:55AM We are experiencing an issue with Windows Azure Compute in t...
2/29/2012 11:44:21 PM

Windows Azure Compute - South Central US
[Windows Azure Compute] [South Central US] [Yellow] Windows Azure Compute Availability
Feb 29 2012 10:55AM We are experiencing an issue with Windows Azure Compute in t...
2/29/2012 11:43:08 PM

Windows Azure Compute - North Europe
[Windows Azure Compute] [North Europe] [Yellow] Windows Azure Compute Availability
Feb 29 2012 10:55AM We are experiencing an issue with Windows Azure Compute in t...
2/29/2012 11:43:05 PM

Windows Azure Compute - South Central US
[Windows Azure Compute] [South Central US] [Yellow] Windows Azure Compute Availability
Feb 29 2012 10:55AM We are experiencing an issue with Windows Azure Compute in t...
2/29/2012 10:57:43 PM

 

רואים תקלות מאיזורים שונים וברכיבים שונים.

גם סגן נשיא מיקרוסופט לעניני שרתים הוציא הודעה ובה התנצלות על התקלה:

Windows Azure Service Disruption Update

לאנשי ה SQL Azure מבינינו – שימו לב שהוא עצמו לא נפגע – מה שכן זה הגישה אליו מהפורטל.

הסיבה לתקלה כפי שאני מבין עדיין נחקרת, וכולם מחכים למסקנות ולתובנות.

רציתי להביא 2 מאמרים בנושא:

מאמר אחד המציג את העובדה שגם בענן ייתכנו תקלות – הוא מזכיר את המקרה באפריל אצל אמזון ואת התקלות ב Gmail ועוד ועוד. לדעתו הדבר לא יעצור את התהליכים שמעבירים פעילויות לענן. אולם המקרה הזה מזכיר לנו את הצורך ב DRP מסודר, כמה זמן אתה מוכן לא להיות באויר, כמה עלות אתה מוכן להשקיע בניתוב האתר למקום אחר מחוץ לענן או בתוכו.

תקלות קורות וייקרו השאלה היא מה לומדים מהם. אני באופן אישי מאד מסכים עם הנאמר במאמר זה.:

On the Recent Windows Azure Leap Day Outage מאת David Pallmann @davidpallmann

מאמר שני נכתב באתר zdnet ובו צעד אחר צעד מציג Jack Clark @mappingbabel  את האירועים לפי לוח הזמנים בהם ארעו. הוא מנסה כמו כן לנסות ולהבין מה היה.

בכתבה זו הוא מציין די בפרוטרוט את לוח הזמנים של התקלה… הוא אינו מציין את סיומה.

Microsoft grapples with Windows Azure outage

לדעת כולם אכן מדובר בהשפעה של התאריך יוצא הדופן של פברואר אולם כרגע לא פורסם רישמית התחקיר.

אני תיקווה שהלקחים יילמדו על ידי שני הצדדים – צד הספק ילמד מהטעויות וכיצד ניתן להתגבר על תקלות ביתר מהירות וצד הלקוח ילמד לכלכל את צעדיו בתבונה על מנת למזער נזקים בעת משבר.

במידה ויהיו ממצאים רישמיים אעדכן אותכם

חג פורים שמח

תגובות

פוסטים פופולריים מהבלוג הזה

על בעיות של ניהול פיתוח לענן

על ניהול סביבת פיתוח מול הענן:   הבעיה המרכזית בניהול פיתוח לענן שייכת לתחום הבדיקות  - שום ענן מקומי ושם אימולטור אינו מדמה במאה אחוזים את מה שקורה בענן עצמו. בכל רכיבי הבדיקות, על בעיה זו ניתן להתגבר בשיטת עבודה טובה והקמת מערכת בדיקות בענן עצמו. על ניהול גרסאות מול הענן:    במידה ואתם עובדים מול לקוחות רגילים ומול לקוחות הרוצים מוצרים בענן  - מהי הדרך הטובה ביותר לנהל את הפיתוח כך שאפשר יהיה לתחזק את שתי המערכות ואת שתי סביבות הבדיקות? אפשר לומר כי מטרת מנהל הפיתוח היא להקים סביבת פיתוח אחת - אם הדבר לא אפשרי צריך למצוא את הפתרון לסינכרון 2 הסביבות. Check List -   למנהל המבולבל - מה הצוות צריך לבצע לפני העלאה לענן: על הפרוייקט להיות מקומפל בסביבת VS2010 - רצוי 64 Bits ולא 32. יש להריץ בענן מקומי (אימולטור) ולראות שהכול עובד כהלכה במידה ואתה משתמש ב Registery או ב Event Log עליך ליצור קובץ StartUp command שבעצם ירוץ בעליית ה Role וייצור את מה שצריך במחשב המיועד לך בענן. יש ליצור חבילה להעלאה - רצוי לשמור חבילה זו עם מספר ותיאור כללי. יש להעלות את החבילה ולבדוק שהכול רץ ועו

ועוד קצת על ניהול פיתוח לענן

היום עקב תקלה קטנה מול מיקרוסופט בוצע disable לחשבון. הדבר גרם לאתר לא לעבוד וכמובן 3 רולים נוטרלו. כשחזרו לחיים נדרשנו לעשות מחדש deploy ל 3 הרולים. (רוצים הסבר קטן לעבודה על הענן? ובכן תמצית הדבר הוא שכשאנו עוקפים נהלים שאנו יצרנו בשרתים שלנו מיקרוסופט - לא מרשים לעקוף וכך הכל חייב להתנהל לפי הספר... מה שתעלה לענן זה מה שירוץ ואם תשנה - השינויים יימחקו...) הבעיה החלה כאשר הסתבר שלא כל קבצי ה deploy נשמרו על מכונת הגירסה וכי אחד הקבצים שודרג לגירסא חדשה שטרם עלתה לענן.... הדבר גזל 4 שעות בנסיון להחזיר את הגירסה... מסקנתי היא כי חייב להיות נוהל שמירת קבצי deploy מיד אחרי העלתם לענן - ובכך לשמור גיבוי לעת צרה - נכון - אל תצעקו עליי - בוצע לייבל ב TFS - ואפשר למשוך ולקמפל - אבל תראו לי עובד אחד שעשה את זה תוך חמש דקות....? יש לציין לטובה את ה SQL Azure - שלו - לא קרה כלום כל העת... כל הכבוד ל SQL... ובנימה יותצר רצינית - אל תשכחו לגבות כל מה שעולה ... - במיוחד אצלך . אגב בענן עצמו - זה כבר יגובה אל דאגה... ערב טוב

Azure SQL DB tiers comparison

Hi All In the last few month Brent Ozar gae us 2 masterpiece blogs related to Azure SQL DB:   How fast can a $21,468/mo Azure SQL DB load data?     In this blog Brent compared the abilities of Azure SQL DBs to load Data - he compared all combinations of vCors tiers. (When I asked him about comparing the Standard\Premium tiers, he told me to do it.... :-) )   There’s a bottleneck in Azure SQL DB storage throughput.   In this blog Brent showed us that in the vCors world the storage throughput has limit and there is not need to pay so much money when you need to upload lots of data.   So I took have taken up his challenge and done a comparison in Azure SQL DB in Standard\Premium tiers. I have created a new DB with 1 Table. I have generated 7 GB of DATA, and created the file in my local on premise drive (Yes, do not kill me, I did not had the time to put it on azure), and uploaded it via BCP command.   bcp "TableName" in "T:\MyTable.bcp"