Cloudera hat Impala in der Cloud laufen lassen (sowohl Cloud-nativ über S3 als auch über lokalen EBS-Speicher) und mit Amazon RedShift verglichen (das nur auf eigenem Storage auf dedizierten AWS-Instanzen lauffähig ist). Die Abfragen wurden dem Standard-Benchmark der Branche, dem TPC-DS, entnommen. Die Ergebnisse des Benchmarks zeigen:
- Impala ist auf S3 mehr als 200% günstiger und mehr als zehnmal schneller als RedShift mit Standardeinstellungen.
- Impala ist immer noch 8% günstiger und 90% schneller im Vergleich zu einem RedShift, das vorher speziell für fixe Berichtsabfragen optimiert wurde.
- Impala ist zwischen 28 und 275% günstiger und zwischen 42 und 400% schneller auf EBS-Storage, je nachdem, ob RedShift optimiert oder mit Standardeinstellungen verwendet wurde.
Unternehmen suchen nach Wegen, mehr Daten aus neuen Quellen für sich zu nutzen. Um ihre Modelle an wechselnde Anforderungen anpassen und für eine Vielzahl an Anwendungsfällen schrittweise weiterentwickeln zu können, benötigen sie eine moderne Analysedatenbank, die speziell für diese Anforderungen gebaut wurde und die Produktivität nicht lähmt. Das rigide Design und die fehlende Elastizität bei der Skalierung macht traditionell aufgebaute, monolithische Systeme – egal ob On-Premise oder in der Cloud – ungeeignet für die sich ständig ändernden geschäftlichen Anforderungen der heutigen Zeit. Clouderas analytische Datenbank, angetrieben von Impala als interaktiver SQL-Engine, ist speziell für den Zweck gebaut, Hochleistungs-SQL-Analysen für Big Data durchzuführen, mit elastischer Skalierbarkeit für Cloud- und On-Premise-Installationen, wann immer sie benötigt werden.
Impala arbeitet nativ mit Daten, die auf einer Reihe von Storage-Engines gespeichert sind, darunter Amazon S3 Objektspeicher. Dadurch müssen Daten nicht in spezielle Impala-Cluster verschoben oder geladen werden. Insbesondere in Cloud-Umgebungen ist dies gleichbedeutend mit Kosteneinsparungen und Effizienz. Je nach Bedarf können temporäre Cluster für BI- und Reporting-Workloads hochgefahren werden, mit günstigem Storage von S3. Dadurch stehen mehr Daten schnell für Analysen zur Verfügung.
Die Weiterentwicklung der Performance, Parallelität und Skalierbarkeit von Impala ist ein Schwerpunkt bei Cloudera. Das Unternehmen hat den Leistungsvorsprung von Impalas analytischer Datenbankarchitektur gegenüber anderen Alternativen sowohl für einzelne als auch für Multi-User-Workloads ausgebaut. Die letzte Version liefert eine zwölfmal höhere Leistung bei sicheren Workloads als die beiden Vorgängerversionen. Cloudera plant, den Nutzwert und den Preisvorteil von Impala weiter auszubauen, indem zukünftig auch andere Objektspeicher in der Public Cloud unterstützt werden.