ביג דאטה ו-NoSQL

היסטוריית הביג דאטה - מה זה ביג דאטה?

פלטפורמות BigData הגיעו לעולם כאשר כמויות הנתונים הקיימות החלו לגדול באופן דרמטי בעקבות השימוש באפליקציות אינטרנט ומובייל. בעקבות הנתונים הרבים של משתמשים שנאספו, היה צורך בפלטפורמות עם יכולות אחסון גדולות ומהירות, ומשאבי מחשוב נוספים כדי לעבד את כמות הנתונים העצומה הזו. פלטפורמות אלו צריכות להיות בנויות להתרחבות בקלות (scalable) וללא downtime למקרה שכמות הנתונים תגדל, ולתת זמן תגובה טוב למשתמשים ולעיבוד שאילתות. פלטפורמות ביג דאטה משתמשות באשכולות (clusters) כדי לפצל את כמות הנתונים העצומה בין שרתים רבים, כשכל שרת מאחסן חלק מהנתונים באחסון הדיסק המקומי שלו, מה שנקרא Sharding(פיצול). כל פיצול משוכפל לnodes אחרים בכדי לאפשר זמינות גבוהה במקרה שnode אחד מושבת.

כאשר השאילתה מבוצעת כל השרתים מתחילים לעבד אותה במקביל ומהר ככל האפשר – כשכל שרת מעבד אותה על הנתונים המקומיים שלו ותוך שימוש בכוח של כל ה-Nodes. 

 איך פלטפורמות ביג דאטה עובדות

פלטפורמות ביג דאטה משתמשות גם בפתרונות הארכיטקטורה הנפוצים הבאים:

  1. אחסון עמודות – במקום לאחסן עמודות רבות בשורה אחת, כל עמודה מאוחסנת בקטע אחסון ייעודי. כך, כשמריצים שאילתה על מספר קטן יותר של עמודות, רק העמודות האלו נשלפות מהדיסק, ולא מהרשומה כולה.
  2. דחיסה – בעקבות ערכים כפולים של רשומות רבות, גם נתוני העמודה נדחסים ובכך מאחסנים נתונים קטנים יותר שמאיצים שאילתות אשר קוראות פחות נתונים מהדיסק.
  3. Cluster – יכולת להפיץ עומס ונתונים בין שרתים רבים ולהרחיב במידה ויש צורך במשאבים נוספים.
  4. פיצול או מחיצות – דאטה מופץ בין שרתים רבים, כשכל שרת מאחסן ומעבד חלק מכל הנתונים בארכיטקטורת “Shared nothing“.
  5. מקביליות – כמות עצומה של נתונים מעובדת במהירות מכיוון שרתי אשכולות רבים מעבדים את הנתונים באותו זמן

מסדי נתונים מסורתיים המשתמשים באחסון ראשי (Shared everything architecture) לא יכולים לאחסן כמויות אדירות כאלו של נתונים, בעיקר בגלל העלות הגבוהה, ומכיוון ועיבוד והרצת שאילתות ייקח הרבה זמן.

SeaData מומחית בעולם ה-BigData ומספקת שירותי ייעוץ Data Architecture, DataOps ופרויקטים של Data Engineering לחברות מובילות בארץ ובעולם.

אנחנו משתמשים בסביבות קיימות וענן – תלוי ב-use case של הלקוח.

טכנולוגיות בהם אנחנו מומחים:

Hadoop

hadoop

Apache Hadoop היא תוכנת קוד פתוח חינמית עבור חישוב מופץ באופן מאסיבי ואחסון Big Data. זה יכול לאחסן PetaBytes של נתונים ולעבד אותם מהר מאוד. הוא עושה זאת באמצעות אשכול של שרתי סחורות (צמתים) רבים שבהם כל צומת נתונים מאחסן חלק מהנתונים ומשמש כצומת מחשוב לעיבוד הנתונים המקומיים שלו.



קראו עוד על Hadoop

Google BigQuery

Google BigQuery הוא מחסן נתונים מהיר, רב עוצמה, גמיש וחסכוני, המשולב באופן הדוק עם השירותים האחרים בפלטפורמת הענן של Google.

Big Query תוכנן כדי לעזור למשתמשים לקבל החלטות מושכלות במהירות, כאשר המחסן ופלטפורמת הניתוח מבוססי-הענן משתמשים במנוע שאילתות מובנה, מודל מחשוב נטול שרתים , כדי לעבד טרה-בייט של נתונים בשניות, ופטה-בייט בתוך דקות.

קראו עוד על Google Big Query

Amazon Athena

Amazon Athena הוא שירות שאילתות אינטראקטיבי המקל על ניתוח נתונים באמזון S3 (שירות אחסון פשוט), באמצעות SQL סטנדרטי. מכיוון שAthena היא חסרת שרת, אין תשתית לניהול, ומשתמשים משלמים רק עבור השאילתות שאותן הם מריצים.

קראו עוד על Amazon Athena

Presto

Presto הוא מנוע שאילתות SQL Open Source שפועל על Hadoop. המנוע משתמש בארכיטקטורה הדומה למערכת ניהול מסד נתונים קלאסית של עיבוד מקבילי מאסיבי (MPP) ותוכננה עבור שאילתות אנליטיות מהירות כנגד נתונים בכל גודל.

קראו עוד על Presto 

Exasol

Exasol היא מערכת ניהול מסדי נתונים יחסיים מקבילים עם ביצועים גבוהים (RDBMS) הפועלת על cluster שרתי חומרת מחשב סטנדרטיים.

מסד נתונים זה נועד לפעול בזיכרון, למרות שהנתונים מאוחסנים באופן קבוע בדיסק, בהתאם לכללי ACID.

קראו עוד על Exasol

Vertica

Vertica הוא בסיס נתונים מתקדם לניתוח SQL הניתן להרחבה בצורה אלסטית, שנבנה לניהול ביג דאטה תוך מיקסום סביבת הענן. זאת עבור יוזמות ניתוח ביג דאטה אשר קריטיות למשימה.

קראו עוד על Vertica 

Amazon Redshift

Amazon Redshift הוא שירות big data warehouse מבוסס ענן בניהול מלא המוצע על ידי אמזון.

הפלטפורמה מספקת מערכת אחסון המאחסנת פטה-בייט של נתונים בקלאסטרים קלים לגישה וניתנים לתשאול במקביל. משתמשים ויישומים יכולים לגשת לכל אחד מה-nodes הללו נגיש באופן עצמאי.

קראו עוד על Amazon redshift  

שיתוף

מאמרים נוספים בנושא

אנחנו כאן בשבילך

או מלא את פרטיך ואנו ניצור איתך קשר בהקדם: