סקירת פתיתי שלג: מחסן נתונים שהשתפר בענן

מחסני נתונים, הנקראים גם מחסני נתונים ארגוניים (EDW), הם מאגרי SQL מקבילים מאוד או NoSQL המיועדים לניתוח. הם מאפשרים לך לייבא נתונים ממספר מקורות וליצור דוחות מסובכים במהירות מפטבטים של נתונים.

ההבדל בין מחסן נתונים לבין נתונים נתונים הוא, שבדרך כלל, נתונים נתונים מוגבל לנושא יחיד ולמחלקה אחת. ההבדל בין מחסן נתונים לאגם נתונים הוא שאגם נתונים שומר נתונים בפורמט הטבעי שלהם, לעתים קרובות כתמים או קבצים, בעוד שמחסן נתונים שומר נתונים כמאגר נתונים.

בקיצור פתית שלג

Snowflake הוא מחסן נתונים ANSI SQL יחסי מלא שנבנה מהיסוד לענן. הארכיטקטורה שלו מפרידה בין חישוב לאחסון, כך שתוכלו להתרחב מעלה ומטה תוך כדי תנועה, ללא דיחוי או הפרעה, גם בזמן שאילתות פועלות. אתה מקבל את הביצועים שאתה צריך בדיוק כשאתה זקוק לו, ואתה משלם רק עבור המחשוב שאתה משתמש בו. Snowflake פועל כעת ב- Amazon Web Services וב- Microsoft Azure.

     Snowflake הוא מאגר עמודים מלא עם ביצוע וקטורי, מה שמאפשר לו לטפל אפילו בעומסי הניתוח התובעניים ביותר. אופטימיזציה אדפטיבית של Snowflake מבטיחה שאילתות יקבלו באופן אוטומטי את הביצועים הטובים ביותר האפשריים, ללא אינדקסים, מפתחות הפצה או פרמטרים לכוונון לניהול.

     פתית שלג יכולה לתמוך במקביל ללא הגבלה עם ארכיטקטורת הנתונים המשותפת הרב-אשכולית הייחודית שלה. זה מאפשר לאשכולות חישוב מרובים לפעול בו זמנית על אותם נתונים מבלי לבצע ביצועים משפילים. פתית שלג יכולה אפילו לשנות את קנה המידה האוטומטי כדי להתמודד עם דרישות המקבילות המשתנות בעזרת תכונת המחסן הווירטואלי מרובה האשכולות, ולהוסיף בשקיפות משאבי חישוב בתקופות עומס שיא ולהצטמצם כאשר העומסים שוככים.

מתחרים בפתיתי שלג

המתחרים ל- Snowflake בענן כוללים את Amazon Redshift, Google BigQuery ו- Microsoft Azure SQL Data Warehouse. מתחרים גדולים אחרים, כמו Teradata, Oracle Exadata, MarkLogic ו- SAP BW / 4HANA, עשויים להיות מותקנים בענן, במקום ובמכשירים.

אמזון רדשיפט

אמזון Redshift הוא מחסן נתונים מהיר וניתן להרחבה המאפשר לך לנתח את כל הנתונים שלך ברחבי מחסן הנתונים שלך ואגם הנתונים S3 של אמזון. אתה שואל שאילתות על Redshift באמצעות SQL. מחסן נתונים של Redshift הוא אשכול שיכול לפרוס ולהסיר קיבולת באופן אוטומטי עם עומס שאילתות במקביל. עם זאת, כל צמתי האשכול מסופקים באותו אזור זמינות.

מחסן נתונים של Azure Azure של מיקרוסופט

Microsoft Azure SQL Data Warehouse הוא מחסן נתונים מבוסס ענן המשתמש במנוע ה- SQL של ​​Microsoft ו- MPP (עיבוד מקבילי מאסיבי) כדי להריץ במהירות שאילתות מורכבות על פני פטא-בתים של נתונים. אתה יכול להשתמש ב- SQL SQL Data Warehouse כמרכיב מרכזי בפתרון נתונים גדולים על ידי ייבוא ​​נתונים גדולים ל- SQL Data Warehouse עם שאילתות T-SQL פשוטות של PolyBase ואז להשתמש בכוח של MPP להפעלת ניתוחים בעלי ביצועים גבוהים.

Azure SQL Data Warehouse זמין ב -40 אזורי Azure ברחבי העולם, אך שרת מחסן נתון קיים רק באזור אחד. אתה יכול לשנות את ביצועי מחסן הנתונים לפי דרישה, אך כל שאילתות פועלות יבוטלו ויוחזרו לאחור.

BigQuery של גוגל

Google BigQuery הוא מחסן נתוני ענן חסר שרתים, מדרגי ביותר וחסכוני עם שאילתות GIS, מנוע BI בזיכרון מובנה ולמידת מכונה מובנה. BigQuery מריץ שאילתות SQL מהירות על ג'יגה-בתים לפטא-בתים של נתונים והופך אותה לפשוטה להצטרף לציבור. או מערכי נתונים מסחריים עם הנתונים שלך.

ניתן להגדיר את המיקום הגיאוגרפי של קבוצת נתונים של BigQuery בזמן היצירה בלבד. יש לאחסן את כל הטבלאות שאליהן מפנה בשאילתה בערכות נתונים באותו מיקום. זה חל גם על ערכות נתונים חיצוניות ודלי אחסון. ישנן מגבלות נוספות על מיקום נתונים חיצוניים של Google Cloud Bigtable. כברירת מחדל, שאילתות פועלות באותו אזור כמו הנתונים.

מיקומים עשויים להיות מקומות ספציפיים, כגון צפון וירג'יניה, או אזורים גיאוגרפיים גדולים, כגון האיחוד האירופי או ארה"ב. כדי להעביר מערך נתונים של BigQuery מאזור אחד לאחר, עליך לייצא אותו לדלי אחסון של Google Cloud באותו מיקום כמו מערך הנתונים שלך, להעתיק את הדלי למיקום החדש ולהעמיס אותו ל- BigQuery במיקום החדש.

ארכיטקטורת פתיתי שלג

Snowflake משתמשת במופעי חישוב וירטואליים לצרכי המחשוב שלה ובשירות אחסון לאחסון נתונים מתמשך. לא ניתן להריץ פתית שלג בתשתיות ענן פרטיות (מקומי או מתארח).

אין התקנה לביצוע ואין תצורה. כל התחזוקה והכוונון מטופלים על ידי Snowflake.

Snowflake משתמש במאגר נתונים מרכזי לנתונים קבועים הנגישים מכל צמתי המחשוב במחסן הנתונים. במקביל, Snowflake מעבד שאילתות באמצעות אשכולות חישוב MPP (עיבוד מקבילי מאסיבי) כאשר כל צומת באשכול מאחסן חלק מכל מערך הנתונים באופן מקומי.

כאשר נתונים נטענים לתוך Snowflake, Snowflake מארגן מחדש את הנתונים הללו לפורמט הפנימי העמוס והעמודי שלהם. אובייקטי הנתונים הפנימיים נגישים רק באמצעות שאילתות SQL. ניתן להתחבר ל- Snowflake דרך ממשק המשתמש האינטרנטי שלה, דרך CLI (SnowSQL), דרך מנהלי התקנים של ODBC ו- JDBC מיישומים כמו Tableau, דרך מחברים מקוריים לשפות תכנות, ודרך מחברים של צד שלישי לכלי BI ו- ETL.

פְּתִית שֶׁלֶג

תכונות פתיתי שלג

אבטחה והגנה על נתונים. מאפייני האבטחה המוצעים ב- Snowflake משתנים לפי מהדורה. אפילו המהדורה הסטנדרטית מציעה הצפנה אוטומטית של כל הנתונים ותמיכה באימות רב גורמים וכניסה יחידה. התוספת הארגונית מוסיפה מפתח מחדש תקופתי של נתונים מוצפנים, ומהדורת Enterprise for Sensitive Data מוסיפה תמיכה ב- HIPAA ו- PCI DSS. אתה יכול לבחור היכן מאוחסנים הנתונים שלך, מה שמסייע בהתאמה לתקנות ה- GDPR של האיחוד האירופי.

תמיכה רגילה ומורחבת ב- SQL. Snowflake תומך ברוב ה- DDL ו- DML המוגדרים ב- SQL: 1999, בתוספת עסקאות, כמה מאפייני SQL מתקדמים, וחלקים מהסיומות האנליטיות של SQL: 2003 (פונקציות חלונות וערכות קיבוץ). הוא תומך גם בתצוגות רוחביות ומתממשות, פונקציות מצטברות, נהלים מאוחסנים ופונקציות מוגדרות על ידי המשתמש.

כלים וממשקים. יש לציין כי Snowflake מאפשר לך לשלוט במחסנים הווירטואליים שלך ממשק המשתמש או משורת הפקודה. זה כולל יצירה, שינוי גודל (ללא אפס זמן השבתה), השעיה ושחרור מחסנים. שינוי גודל המחסן בזמן שאילתה פועלת הוא מאוד נוח, במיוחד כאשר אתה צריך להאיץ שאילתה שלוקחת יותר מדי זמן. למיטב ידיעתי שאינו מיושם בשום תוכנת EDW אחרת.

קישוריות ל- Snowflake יש מחברים ו / או מנהלי התקנים עבור Python, Spark, Node.js, Go, .Net, JDBC, ODBC ו- dplyr-snowflakedb, סיומת חבילת קוד פתוח dplyr המתוחזקת ב- GitHub.

ייבוא ​​וייצוא נתונים. פתית שלג יכול לטעון מגוון רחב של נתונים ופורמטים של קבצים. זה כולל קבצים דחוסים; קבצי נתונים מופרדים; פורמטים JSON, Avro, ORC, Parquet ו- XML; מקורות נתונים של אמזון S3; ותיקים מקומיים. הוא יכול לבצע טעינה ופריקה בכמות גדולה לטבלאות ומחוצה להן, כמו גם טעינה רציפה של קבצים בקבצים.

שיתוף מידע. ל- Snowflake תמיכה בשיתוף מאובטח של נתונים עם חשבונות Snowflake אחרים. זה מתייעל באמצעות שיבוטים בטבלה ללא עותק.

פְּתִית שֶׁלֶג

מדריכי פתיתי שלג

Snowflake מציע לא מעט הדרכות וסרטונים. חלקם עוזרים לכם להתחיל, חלקם חוקרים נושאים ספציפיים וחלקם מדגימים תכונות.

אני ממליץ לעבוד בסקירה המעשית המתוארת במדריך המעבדות הידיים לניסיון חינם בפתיתי שלג. זה לקח לי פחות משעה ועלותו פחות מחמש נקודות זכות. זה הותיר עוד 195 זיכויים בתקופת הניסיון בחינם, שאמורה להספיק לייבא נתונים אמיתיים ולבדוק כמה שאילתות.

ההדרכה עושה שימוש רב בגליונות העבודה של Snowflake, דרך נוחה להפעלת פקודות ו- SQL בממשק המשתמש באינטרנט. הוא מכסה בין היתר טעינת נתונים; שאילתות, שמירת תוצאות ושיבוט; נתונים מובנים למחצה; ונסיעה בזמן לשחזור אובייקטים של מסדי נתונים.

בסך הכל, אני מוצא את Snowflake מרשים למדי. ציפיתי שזה יהיה מגושם, אבל זה לא המקרה בכלל. למעשה, רבות מפעולות מחסן הנתונים שלה הולכות הרבה יותר מהר ממה שציפיתי, וכאשר יש כזה שנראה כאילו הוא זוחל, אני יכול להתערב ולהגדיל את מחסן הנתונים מבלי להפריע למה שקורה.

ניתן לבצע אוטומציה רבה מהגודל. בעת יצירת מחסן נתונים (ראה צילום מסך לעיל) יש אפשרות לאפשר אשכולות מרובים, אפשרות להגדרת מדיניות קנה המידה, אפשרות להשעה אוטומטית ואפשרות לחידוש אוטומטי. תקופת ההשעיה האוטומטית המוגדרת כברירת מחדל היא 10 דקות, מה שמונע מהמחסן לצרוך משאבים כשהוא לא פעיל יותר מזה. חידוש אוטומטי כמעט מיידי ומתרחש בכל פעם שיש שאילתה נגד המחסן.

בהתחשב בכך ש Snowflake מציעה תקופת ניסיון בחינם למשך 30 יום עם זיכוי של 400 $, ואין צורך להתקין דבר, אתה אמור להיות מסוגל לקבוע אם Snowflake יתאים למטרותיך ללא הוצאה כספית. אני ממליץ לתת לזה סיבוב.

-

עלות: $ 2 / אשראי בתוספת $ 23 / TB לאחסון חודש, תוכנית סטנדרטית, אחסון מראש. אשראי אחד שווה צומת * שעה אחת, המחויב על ידי השנייה. תוכניות ברמה גבוהה יותר יקרות יותר.

פלטפורמות: שירותי האינטרנט של אמזון, התכלת של מיקרוסופט