Hadoop
Was ist Apache Hadoop?
Apache Hadoop bietet einen Open Source-Rahmen, der die verteilte Verarbeitung großer Datenbestände in Clustern von Computing-Ressourcen ermöglicht. Das System ist so ausgelegt, dass eine Skalierung von wenigen Servern bis hin zu Tausenden kein Problem ist – und alle bieten lokale Computing- und Datenspeicher-Möglichkeiten.
Warum ist Hadoop hilfreich?
Die rasante Zunahmen von Big Data und Datenerfassungsgeräten innerhalb des Geschäftsbetriebs bietet Unternehmen erhebliche Innovations- und Erfolgsmöglichkeiten. Da Hadoop Fehler eher auf der Anwendungsebene erkennt und handhabt, statt auf der Hardware-Ebene, bietet es zusätzlich zum Computer-Cluster eine hohe Verfügbarkeit, selbst wenn einzelne Server fehleranfällig sein können.
Wie wurde Hadoop entwickelt?
Hadoop wurde entwickelt, um zunehmend größere Datenmengen zu verarbeiten und ist an Google MapReduce angelehnt, ein Programmiermodell, das eine Anwendung in kleinere Komponenten unterteilt, die auf unterschiedlichen Server-Nodes ausgeführt werden. Im Gegensatz zu proprietären Data Warehouse-Lösungen, die zum Zeitpunkt der Einführung von Hadoop vorherrschend waren, ermöglicht Hadoop Unternehmen skalierbare Analysen und Abfragen großer Datenbestände mithilfe freier Open Source-Software und Standard-Hardware. Unternehmen können ihre Big Data-Bestände mit geringeren Kosten, besserer Skalierbarkeit und gesteigerter Computing-Leistung, Fehlertoleranz und Flexibilität speichern und verarbeiten. Hadoop ebnete ebenfalls den Weg für weitere Entwicklungen im Bereich der Big Data-Analysen, wie z. B. Apache Spark.
Welche Vorteile bietet Hadoop?
Hadoop bietet fünf klare Vorteile, durch die es besonders für Big Data-Projekte geeignet ist. Hadoop ist:
1. Skalierbar
Da es große Datenbestände auf Hunderten kostengünstiger parallel arbeitender Server speichern und verteilen kann, ist Hadoop hochgradig skalierbar. Anders als relationale Datenbanksysteme (RDBMS) ermöglicht Hadoop eine Erweiterung, so dass Anwendungen auf Tausenden von Nodes ausgeführt werden können, die Tausende von Terabyte an Daten umfassen.
2. Flexibel
Hadoop kann strukturierte und unstrukturierte Daten nutzen um eine Wertschöpfung zu erzielen. So können Unternehmen relevante Einblicke aus einer Vielzahl von Datenquellen gewinnen, z. B. aus Social Media-Kanälen, Website-Daten und E-Mail-Konversationen. Darüber hinaus kann Hadoop für zahlreiche Zwecke genutzt werden, die von Empfehlungssystemen über Protokollverarbeitung und Data Warehousing bis hin zu Marketing-Kampagnen und Betrugserkennung reichen.
3. Kostengünstig
Die Skalierung herkömmlicher RDBMS zur Verarbeitung großer Datenmengen ist sehr kostspielig. Unternehmen, die solche Systeme einsetzen, mussten bisher große Mengen Rohdaten löschen, da die Speicherung sämtlicher Daten zu teuer war. Dagegen ermöglicht die erweiterbare Hadoop-Architektur Unternehmen eine kostengünstigere Speicherung sämtlicher anfallenden Daten zur späteren Verwendung.
4. Schnell
Hadoop nutzt eine einzigartige Speichermethode, die auf einem verteilten Dateisystem basiert, das Daten innerhalb des gesamten Clusters verwaltet. Darüber hinaus befinden sich die Tools zur Datenverarbeitung häufig auf denselben Servern, auf denen auch die Daten gespeichert sind, so dass diese erheblich schneller verarbeitet werden können. Dadurch kann Hadoop Terabytes an unstrukturierten Daten innerhalb von Minuten und Petabytes innerhalb weniger Stunden effizient verarbeiten.
5. Fehlertolerant
Daten, die auf einem beliebigen Node oder Hadoop-Cluster gespeicherten sind, werden auf anderen Nodes des Clusters repliziert, um auf mögliche Hardware- oder Software-Ausfälle vorbereitet zu sein. Das absichtlich redundante Design sorgt für eine höhere Fehlertoleranz. Wenn ein Node ausfällt, ist stets ein Backup der Daten innerhalb des Clusters verfügbar.
Mit Hadoop ist die Handhabung großer Datenbestände sicher, kosteneffektiv und erheblich einfacher als bei relationalen Datenbank-Management-Systemen. Außerdem wird die Wertschöpfung für das Unternehmen erhöht, wenn die Menge unstrukturierter Daten weiter wächst. Hadoop ist gut für Suchfunktionen, Protokollverarbeitung, Data Warehousing sowie Video- und Bildanalysen geeignet.
Wie funktioniert Hadoop?
HDFS
Das Hadoop Distributed File System (HDFS) ermöglicht die Speicherung enormer Datenmengen in verschiedenen Formaten und deren Verteilung innerhalb eines Hadoop-Clusters. Es bietet einen Zugriff auf Anwendungsdaten mit hohem Durchsatz und ist für Anwendungen mit großen Datenbeständen geeignet. Anders als andere verteilte Systeme ist HDFS hochgradig fehlertolerant und für preisgünstige Hardware und Standard-Hardware geeignet.
MapReduce
Das MapReduce Modul ist ein Programmiermodel und eine Verarbeitungs-Engine für Big Data, die zur parallelen Verarbeitung großer Datenbestände verwendet wird. Mit MapReduce wird die Verarbeitungslogik an verschiedene Slave-Nodes gesendet, und die Daten werden parallel auf diesen Nodes verarbeitet. Die Verarbeitungsergebnisse werden anschließend an den Master-Node gesendet, wo sie zusammengeführt werden. Diese Antwort wird zurück an den Client gesendet. Ursprünglich war MapReduce die einzige in Hadoop verfügbare Ausführungs-Engine, später jedoch wurde die Unterstützung für weitere hinzugefügt, wie z. B. Apache Tez und Apache Spark.
YARN
Der Yet Another Resource Negotiator (YARN) von Hadoop ist eine weitere Kernkomponente des Hadoop-Frameworks. Er wird zur Verwaltung von Cluster-Ressourcen, zur Aufgaben- und Zeitplanung von Aufträgen verwendet, die auf Hadoop ausgeführt werden. Er ermöglicht die parallele Verarbeitung der mit HDFS gespeicherten Daten. YARN ermöglicht dem Hadoop-System die effiziente Nutzung verfügbarer Ressourcen. Dies ist unverzichtbar für die Verarbeitung großer Datenmengen.
Wie wird Hadoop eingesetzt?
Unternehmen verschiedener Branchen profitieren von den Vorteilen, die Hadoop für Big Data-Analysen bietet.
Finanzdienstleistungen
Finanzorganisationen nutzen Hadoop für wichtige Investitionsentscheidungen und zur Risikominderung. Finanzunternehmen nutzen Big Data-Analysen zur Bewilligung und Ablehnung von Darlehens- und Kreditkartenanträgen mit besserer Genauigkeit. Diese Analyse wird auch eingesetzt, um potenziell verdächtige Kontoaktivitäten auf Basis des zurückliegenden Kaufverhaltens zu erkennen. Versicherungsunternehmen nutzen Hadoop ebenfalls zur Erkennung und Verhinderung betrügerischer Schadenmeldungen. Krankenversicherungen können Big Data nutzen, um Policen für besondere Patientengruppen zu entwickeln. Hadoop wird ebenfalls genutzt, um Erkenntnisse aus Online-Chats mit Kunden zu gewinnen und so die Service-Qualität zu verbessern und ein personalisiertes Kundenerlebnis zu ermöglichen.
Telekommunikation
Telekommunikationsanbieter generieren regelmäßig große Datenmengen in extremer Geschwindigkeit und speichern Milliarden Gesprächsdaten. Big Data wird verwendet, um genaue Abrechnungsinformationen für Millionen von Kunden zu generieren und zukünftigen Bandbreitenbedarf sowie Kunden-Kommunikationstrends zu ermitteln. Diese Informationen werden anschließend für die zukünftige Infrastrukturplanung und zur Entwicklung neuer Produkte und Services für Kunden genutzt.
Gesundheitssektor
Das Gesundheitswesen hat Zugriff auf enorme Datenmengen aus Patientenakten, Forschungs- und Versuchsdaten, elektronischen Gesundheitsgeräten und mehr. Hadoop ermöglicht eine uneingeschränkte parallele Verarbeitung, Fehlertoleranz und Speichermöglichkeiten für Milliarden medizinischer Datensätze. Die Plattform wird außerdem zur Analyse medizinischer Daten genutzt, anhand derer anschließend allgemeine Gesundheitstrends für Milliarden Menschen und bedarfsgerechte Behandlungsoptionen für einzelne Patienten abgeleitet werden können.
Einzelhandel
Die enormen Datenmengen, die heute von Einzelhändlern generiert werden, erfordern eine moderne Form der Verarbeitung. Transaktions-Verlaufsdaten können in einen Hadoop-Cluster geladen werden, um Analyse-Anwendungen für Bedarfsprognosen, Lagerbestandsprognosen, zielgerichtete Werbeaktionen und Kundenpräferenz-Prognosen zu entwickeln.
HPE Lösungen für Hadoop
Die HPE Elastic Platform for Big Data Analytics (EPA) wurde als modulare Infrastruktur-Grundlage entwickelt, um den Bedarf an einer skalierbaren, mandantenfähigen Plattform zu erfüllen. Dies geschieht mithilfe einer unabhängigen Skalierung von Computing und Datenspeicher durch Dichte- und Workload-optimierte Infrastruktur-Bausteine. Zwei unterschiedliche Bereitstellungsmodelle sind verfügbar:
- HPE Balanced and Density Optimized (BDO) System: Unterstützt konventionelle Hadoop-Implementierungen, die Computing und Datenspeicher gemeinsam skalieren und eine gewisse Flexibilität bei der Wahl der Arbeitsspeicher-, Prozessor- und Datenspeicherkapazität bieten.
- HPE Workload and Density Optimized (WDO) System: Nutzt die Leistungsstärke schnellerer Ethernet-Netzwerke und ermöglicht ein Bausteinkonzept zur unabhängigen Skalierung von Computing und Datenspeicher, wobei Ihre Daten und Workloads mit unterschiedlicher Geschwindigkeit wachsen können.
HPE bietet auch eine skalierbare Lösung, die Ihre Erfahrung mit Hadoop radikal vereinfacht. So werden Sie von einem Großteil der Komplexität und Kosten Ihrer Hadoop-Umgebung entlastet und können sich darauf konzentrieren, Informationen aus Ihren Hadoop-Clustern zu gewinnen. Mit seiner Unterstützung für symmetrische und asymmetrische Umgebungen bietet HPE GreenLake eine vollständige End-to-End-Lösung für Big Data, die Hardware, Software und Services umfasst. Die HPE Experten unterstützen Sie bei der Einrichtung und Inbetriebnahme und helfen Ihnen bei der Verwaltung und Wartung Ihrer Cluster. Sie werden auch die Rechnungsstellung vereinfachen und an die Business-KPIs anpassen. Mit der einzigartigen Preis- und Abrechnungsmethode von HPE ist es viel einfacher, Ihre bestehenden Hadoop-Kosten zu verstehen und zukünftige Kosten im Zusammenhang mit Ihrer Lösung besser vorherzusagen.