פלטפורמות BigData הגיעו לעולם כאשר כמויות הנתונים הקיימות החלו לגדול באופן דרמטי בעקבות השימוש באפליקציות אינטרנט ומובייל. בעקבות הנתונים הרבים של משתמשים שנאספו, היה צורך בפלטפורמות עם יכולות אחסון גדולות ומהירות, ומשאבי מחשוב נוספים כדי לעבד את כמות הנתונים העצומה הזו. פלטפורמות אלו צריכות להיות בנויות להתרחבות בקלות (scalable) וללא downtime למקרה שכמות הנתונים תגדל, ולתת זמן תגובה טוב למשתמשים ולעיבוד שאילתות. פלטפורמות ביג דאטה משתמשות באשכולות (clusters) כדי לפצל את כמות הנתונים העצומה בין שרתים רבים, כשכל שרת מאחסן חלק מהנתונים באחסון הדיסק המקומי שלו, מה שנקרא Sharding(פיצול). כל פיצול משוכפל לnodes אחרים בכדי לאפשר זמינות גבוהה במקרה שnode אחד מושבת.
כאשר השאילתה מבוצעת כל השרתים מתחילים לעבד אותה במקביל ומהר ככל האפשר – כשכל שרת מעבד אותה על הנתונים המקומיים שלו ותוך שימוש בכוח של כל ה-Nodes.
פלטפורמות ביג דאטה משתמשות גם בפתרונות הארכיטקטורה הנפוצים הבאים:
מסדי נתונים מסורתיים המשתמשים באחסון ראשי (Shared everything architecture) לא יכולים לאחסן כמויות אדירות כאלו של נתונים, בעיקר בגלל העלות הגבוהה, ומכיוון ועיבוד והרצת שאילתות ייקח הרבה זמן.
SeaData מומחית בעולם ה-BigData ומספקת שירותי ייעוץ Data Architecture, DataOps ופרויקטים של Data Engineering לחברות מובילות בארץ ובעולם.
אנחנו משתמשים בסביבות קיימות וענן – תלוי ב-use case של הלקוח.
טכנולוגיות בהם אנחנו מומחים:
Apache Hadoop היא תוכנת קוד פתוח חינמית עבור חישוב מופץ באופן מאסיבי ואחסון Big Data. זה יכול לאחסן PetaBytes של נתונים ולעבד אותם מהר מאוד. הוא עושה זאת באמצעות אשכול של שרתי סחורות (צמתים) רבים שבהם כל צומת נתונים מאחסן חלק מהנתונים ומשמש כצומת מחשוב לעיבוד הנתונים המקומיים שלו.
קראו עוד על Hadoop
Google BigQuery הוא מחסן נתונים מהיר, רב עוצמה, גמיש וחסכוני, המשולב באופן הדוק עם השירותים האחרים בפלטפורמת הענן של Google.
Big Query תוכנן כדי לעזור למשתמשים לקבל החלטות מושכלות במהירות, כאשר המחסן ופלטפורמת הניתוח מבוססי-הענן משתמשים במנוע שאילתות מובנה, מודל מחשוב נטול שרתים , כדי לעבד טרה-בייט של נתונים בשניות, ופטה-בייט בתוך דקות.
קראו עוד על Google Big Query
Amazon Athena הוא שירות שאילתות אינטראקטיבי המקל על ניתוח נתונים באמזון S3 (שירות אחסון פשוט), באמצעות SQL סטנדרטי. מכיוון שAthena היא חסרת שרת, אין תשתית לניהול, ומשתמשים משלמים רק עבור השאילתות שאותן הם מריצים.
קראו עוד על Amazon Athena
Presto הוא מנוע שאילתות SQL Open Source שפועל על Hadoop. המנוע משתמש בארכיטקטורה הדומה למערכת ניהול מסד נתונים קלאסית של עיבוד מקבילי מאסיבי (MPP) ותוכננה עבור שאילתות אנליטיות מהירות כנגד נתונים בכל גודל.
קראו עוד על Presto
Exasol היא מערכת ניהול מסדי נתונים יחסיים מקבילים עם ביצועים גבוהים (RDBMS) הפועלת על cluster שרתי חומרת מחשב סטנדרטיים.
מסד נתונים זה נועד לפעול בזיכרון, למרות שהנתונים מאוחסנים באופן קבוע בדיסק, בהתאם לכללי ACID.
קראו עוד על Exasol
Vertica הוא בסיס נתונים מתקדם לניתוח SQL הניתן להרחבה בצורה אלסטית, שנבנה לניהול ביג דאטה תוך מיקסום סביבת הענן. זאת עבור יוזמות ניתוח ביג דאטה אשר קריטיות למשימה.
קראו עוד על Vertica
Amazon Redshift הוא שירות big data warehouse מבוסס ענן בניהול מלא המוצע על ידי אמזון.
הפלטפורמה מספקת מערכת אחסון המאחסנת פטה-בייט של נתונים בקלאסטרים קלים לגישה וניתנים לתשאול במקביל. משתמשים ויישומים יכולים לגשת לכל אחד מה-nodes הללו נגיש באופן עצמאי.
קראו עוד על Amazon redshift