Apache Spark-Studie zeigt Wachstum bei Anwendern und neuen Workloads wie Data Science und Machine Learning

Für 57% der Befragten ist Cloudera bei sehr wichtigen Anwendungsfällen die Spark-Plattform ihrer Wahl

(PresseBox) (München, Palo Alto (Kalifornien), 11/15/2016)

Zum besseren Verständnis der zunehmenden Bedeutung von Spark bei Big Data hat die Taneja Group ein großes Marktforschungsprojekt durchgeführt und rund 7.000 Teilnehmer befragt. In die weltweit angelegte Analyse wurden Führungskräfte aus Technik und Verwaltung einbezogen, die unmittelbar mit dem Thema Big Data zu tun haben. Die mit überwältigender Resonanz abgeschlossene Studie gibt Aufschluss die Erfahrungen mit und Beweggründe für die Einführung von Spark, die aktuelle Wahrnehmung, favorisierte Anbieter und die Zukunft von Spark selbst. Die Studie steht hier kostenlos zum Download bereit, Einzelheiten der Studienergebnisse hat Cloudera in einer Infografik aufbereitet.

Spark ist ein fester Bestandteil von CDH und wird mit Cloudera Enterprise unterstützt. Als offener Standard für flexible In-Memory-Datenverarbeitung ermöglicht Spark Batch, Realtime und moderne Analysen auf der Apache-Hadoop-Plattform.

„Apache Spark hat sich sehr schnell zu einem der führenden Open-Source-Projekte im Bereich Big Data entwickelt”, sagt Mike Matchett, Senior Analyst und Consultant bei der Taneja Group. „Wir fanden heraus, dass über alle Branchen, Unternehmensgrößen und Reifegrade der Big-Data-Anwendungen hinweg, Spark von mehr als der Hälfte aller Befragten bereits aktiv eingesetzt wird. Und es erweist sich als äußerst wertvoll: 64 Prozent der gegenwärtigen Spark-Nutzer planen bereits eine deutliche Erweiterung in den nächsten zwölf Monaten. Die Zahl der Workloads, die Echtzeit-Datenstreaming für Analysen benötigen, nimmt zu. Hinzu kommen Anwendungen im Machine-Learning und Data-Science-Anwendungsszenarien. Vor diesem Hintergrund hat sich Spark ganz eindeutig fest etabliert.”

Cloudera führender Spark-Anbieter

Als sich Spark Anfang 2014 schnell zum Framework der Wahl für schnellere Batch-Verarbeitung entwickelte, wurde Cloudera zum ersten Hadoop-Anbieter, der Spark ausliefert und unterstützt. Cloudera hat früh in die Entwicklung von Spark investiert. Heute haben viele Cloudera-Anwender die Datenverarbeitungs-Workloads in ihren Produktionssystemen von MapReduce auf Spark überführt und damit die Zeitfenster für die Datenverarbeitung drastisch verkleinert.

Die Kunden von Cloudera benötigen Spark als einsatzbereites System für den Enterprise-Einsatz, unterstützt von Experten, die schon früh in die Entwicklung von Spark hin zur defacto-Datenverarbeitungs-Engine für Hadoop involviert waren. Über die One Platform Initiative setzt Cloudera die weitere Entwicklung von Spark-Funktionalitäten rund um die Themen Steuerung, Sicherheit, Skalierung, Streaming und Cloud gezielt weiter fort. Mit der Initiative will Cloudera dabei helfen, dass Spark als Standard-Data-Execution-Engine für analytische Workloads akzeptiert wird.

Gemeinsam mit Partnern arbeitet Cloudera an der Zertifizierung neuartiger Lösungen auf Basis von Spark und stellt die nötigen Ressourcen sowie den erforderlichen Support bereit. Ziel ist es, diese unterschiedlichen Lösungen schnell auf den Markt zu bringen und so sicher zu stellen, dass die Kunden neue und herausfordernde Anwendungsfälle bewältigen können.

Die wichtigsten Ergebnisse der Taneja-Studie

Zu den wichtigsten Ergebnissen der „Apache Spark Market Research Study” zählen ein hohes Maß an Wachstum und Dynamik beim Einsatz von Spark, der über erwartete ETL-Workloads für Datenverarbeitung/ -engineering hinausgeht, sowie ein künftiger Übergang auf Cloud-Deployments. Auch andere Erkenntnisse der Studie sind bemerkenswert:

Etwa die Hälfte aller Befragten (54 Prozent) setzt Spark bereits aktiv ein. 64 Prozent der gegenwärtigen Anwender sprechen Spark einen unschätzbaren Wert zu und wollen die Nutzung innerhalb der nächsten zwölf Monate deutlich erweitern.
Wachsende Akzeptanz: Vier von zehn Befragten, die mit dem Big-Data-Projekt vertraut sind, wollen Spark in nächster Zeit erstmals einsetzen.
57 Prozent aller Befragten vertrauen bei den wichtigsten Anwendungsfällen auf Spark in der von Cloudera bereitgestellten Form – mehr als doppelt so viele, wie bei den darauf folgenden drei Apache-Hadoop-Anbietern zusammengenommen. Kunden, die vorzugsweise auf Cloudera setzen, heben als wichtigste Leistungsmerkmale das damit verbundene Modell zur Sicherheits- und Regelkonformität, die Stabilität und Leistung, die Übertragbarkeit auf die Cloud, die Einbindung eines umfangreichen Software-Paketes zur Verarbeitung, Abfrage und Analyse von Daten sowie Dienste zum Machine Learning hervor.
Neben den erwarteten ETL-Workloads aus den Bereichen Datenverarbeitung/ -engineering – die momentan über 55 Prozent der benannten Spark-Einsätze darstellen – geht es bei den aktivsten Spark-Initiativen vor allem um die Verarbeitung von Realtime-Streams, um Data-Science-Forschung und um den aufkommenden Spark-Einsatz für Machine Learning. All dies sind Bereiche, in die Cloudera weiter investiert.
Unverändert stellen Lücken in der Big-Data-Kompetenz und fehlende Möglichkeiten zur Teilnahme an entsprechenden Schulungen unterschiedlicher Art (Online, individuelles Training, Konferenzen oder Messen) die größten Hürden und Herausforderungen des Spark-Einsatzes dar. Über professionelle Dienstleistungen, hochwertige Beratung und eine große Bandbreite an Partnern bildet Cloudera mehr Apache Spark-Profis aus als jeder andere Hadoop-Anbieter.

„Bei Cloudera konzentrieren wir uns auf die Führung im Unternehmenssektor und bieten vor allem die Sicherheit, Datensteuerung und Compliance, die unsere Kunden benötigen”, sagt Mike Olson, Gründer und Chief Strategy Officer von Cloudera. „Die Studienergebnisse unterstreichen, wie wichtig es einerseits ist ‘Enterprise ready’ zu sein und andererseits auch gut vorbereitet auf zukünftige Einsatzgebiete von Spark. Genau das ist der Grund, wieso eine überwältigende Zahl an Kunden Spark lieber von Cloudera als von anderen kommerziellen Anbietern bezieht.”

Die Studie beschreibt auch genau die hervorgehobene Rolle der Public Cloud in Verbindung mit Spark: „Obwohl On-Premise-Installationen von Spark heute überwiegen, besteht ein großes Interesse daran, viele davon in die Cloud zu übertragen“, stellt Mike Matchett von der Taneja Group fest. „Insgesamt werden Spark-Deployments in der Public-/ Private-Cloud (IaaS oder PaaS) zukünftig deutlich zunehmen, von heute 23 Prozent auf 36 Prozent.“

Attachments

cloudera_infographic_taneja-spark.svg

Apache Spark-Studie zeigt Wachstum bei Anwendern und neuen Workloads wie Data Science und Machine Learning

Für 57% der Befragten ist Cloudera bei sehr wichtigen Anwendungsfällen die Spark-Plattform ihrer Wahl

Attachments

Website Promotion

Cloudera

Subscribe to PresseMail