Spark ist ein fester Bestandteil von CDH und wird mit Cloudera Enterprise unterstützt. Als offener Standard für flexible In-Memory-Datenverarbeitung ermöglicht Spark Batch, Realtime und moderne Analysen auf der Apache-Hadoop-Plattform.
„Apache Spark hat sich sehr schnell zu einem der führenden Open-Source-Projekte im Bereich Big Data entwickelt”, sagt Mike Matchett, Senior Analyst und Consultant bei der Taneja Group. „Wir fanden heraus, dass über alle Branchen, Unternehmensgrößen und Reifegrade der Big-Data-Anwendungen hinweg, Spark von mehr als der Hälfte aller Befragten bereits aktiv eingesetzt wird. Und es erweist sich als äußerst wertvoll: 64 Prozent der gegenwärtigen Spark-Nutzer planen bereits eine deutliche Erweiterung in den nächsten zwölf Monaten. Die Zahl der Workloads, die Echtzeit-Datenstreaming für Analysen benötigen, nimmt zu. Hinzu kommen Anwendungen im Machine-Learning und Data-Science-Anwendungsszenarien. Vor diesem Hintergrund hat sich Spark ganz eindeutig fest etabliert.”
Cloudera führender Spark-Anbieter
Als sich Spark Anfang 2014 schnell zum Framework der Wahl für schnellere Batch-Verarbeitung entwickelte, wurde Cloudera zum ersten Hadoop-Anbieter, der Spark ausliefert und unterstützt. Cloudera hat früh in die Entwicklung von Spark investiert. Heute haben viele Cloudera-Anwender die Datenverarbeitungs-Workloads in ihren Produktionssystemen von MapReduce auf Spark überführt und damit die Zeitfenster für die Datenverarbeitung drastisch verkleinert.
Die Kunden von Cloudera benötigen Spark als einsatzbereites System für den Enterprise-Einsatz, unterstützt von Experten, die schon früh in die Entwicklung von Spark hin zur defacto-Datenverarbeitungs-Engine für Hadoop involviert waren. Über die One Platform Initiative setzt Cloudera die weitere Entwicklung von Spark-Funktionalitäten rund um die Themen Steuerung, Sicherheit, Skalierung, Streaming und Cloud gezielt weiter fort. Mit der Initiative will Cloudera dabei helfen, dass Spark als Standard-Data-Execution-Engine für analytische Workloads akzeptiert wird.
Gemeinsam mit Partnern arbeitet Cloudera an der Zertifizierung neuartiger Lösungen auf Basis von Spark und stellt die nötigen Ressourcen sowie den erforderlichen Support bereit. Ziel ist es, diese unterschiedlichen Lösungen schnell auf den Markt zu bringen und so sicher zu stellen, dass die Kunden neue und herausfordernde Anwendungsfälle bewältigen können.
Die wichtigsten Ergebnisse der Taneja-Studie
Zu den wichtigsten Ergebnissen der „Apache Spark Market Research Study” zählen ein hohes Maß an Wachstum und Dynamik beim Einsatz von Spark, der über erwartete ETL-Workloads für Datenverarbeitung/ -engineering hinausgeht, sowie ein künftiger Übergang auf Cloud-Deployments. Auch andere Erkenntnisse der Studie sind bemerkenswert:
- Etwa die Hälfte aller Befragten (54 Prozent) setzt Spark bereits aktiv ein. 64 Prozent der gegenwärtigen Anwender sprechen Spark einen unschätzbaren Wert zu und wollen die Nutzung innerhalb der nächsten zwölf Monate deutlich erweitern.
- Wachsende Akzeptanz: Vier von zehn Befragten, die mit dem Big-Data-Projekt vertraut sind, wollen Spark in nächster Zeit erstmals einsetzen.
- 57 Prozent aller Befragten vertrauen bei den wichtigsten Anwendungsfällen auf Spark in der von Cloudera bereitgestellten Form – mehr als doppelt so viele, wie bei den darauf folgenden drei Apache-Hadoop-Anbietern zusammengenommen. Kunden, die vorzugsweise auf Cloudera setzen, heben als wichtigste Leistungsmerkmale das damit verbundene Modell zur Sicherheits- und Regelkonformität, die Stabilität und Leistung, die Übertragbarkeit auf die Cloud, die Einbindung eines umfangreichen Software-Paketes zur Verarbeitung, Abfrage und Analyse von Daten sowie Dienste zum Machine Learning hervor.
- Neben den erwarteten ETL-Workloads aus den Bereichen Datenverarbeitung/ -engineering – die momentan über 55 Prozent der benannten Spark-Einsätze darstellen – geht es bei den aktivsten Spark-Initiativen vor allem um die Verarbeitung von Realtime-Streams, um Data-Science-Forschung und um den aufkommenden Spark-Einsatz für Machine Learning. All dies sind Bereiche, in die Cloudera weiter investiert.
- Unverändert stellen Lücken in der Big-Data-Kompetenz und fehlende Möglichkeiten zur Teilnahme an entsprechenden Schulungen unterschiedlicher Art (Online, individuelles Training, Konferenzen oder Messen) die größten Hürden und Herausforderungen des Spark-Einsatzes dar. Über professionelle Dienstleistungen, hochwertige Beratung und eine große Bandbreite an Partnern bildet Cloudera mehr Apache Spark-Profis aus als jeder andere Hadoop-Anbieter.
Die Studie beschreibt auch genau die hervorgehobene Rolle der Public Cloud in Verbindung mit Spark: „Obwohl On-Premise-Installationen von Spark heute überwiegen, besteht ein großes Interesse daran, viele davon in die Cloud zu übertragen“, stellt Mike Matchett von der Taneja Group fest. „Insgesamt werden Spark-Deployments in der Public-/ Private-Cloud (IaaS oder PaaS) zukünftig deutlich zunehmen, von heute 23 Prozent auf 36 Prozent.“