Cover von Big Data wird in neuem Tab geöffnet

Big Data

Entwicklung und Programmierung von Systemen für große Datenmengen und Einsatz der Lambda-Architektur
Verfasser*in: Suche nach Verfasser*in Marz, Nathan; Warren, James
Verfasser*innenangabe: Nathan Marz, James Warren ; Übersetzung aus dem Amerikanischen von Knut Lorenzen
Jahr: 2016
Verlag: Frechen, mitp
Mediengruppe: Buch
verfügbar

Exemplare

AktionZweigstelleStandorteStatusFristVorbestellungen
Vorbestellen Zweigstelle: 07., Urban-Loritz-Pl. 2a Standorte: NT.EIT Marz / College 6c - Informatik & Computer Status: Verfügbar Frist: Vorbestellungen: 0

Inhalt

* Einführung in Big-Data-Systeme / * Echtzeitverarbeitung sehr großer Datenmengen / * Tools wie Hadoop, Cassandra und Storm / Bei Anwendungen in der Größenordnung von sozialen Netzwerken, der Datenverkehrsanalyse in Echtzeit oder E-Commerce-Websites entstehen sehr schnell so große Datenmengen, dass herkömmliche Datenbanksysteme ihnen nicht mehr gewachsen sind Solche Anwendungen erfordern Architekturen, die dafür ausgelegt sind, Datenmengen nahezu beliebigen Umfangs zu speichern und zu verarbeiten / / Dieses Buch erklärt die Einrichtung solcher Datenhaltungssysteme anhand einer speziell für große Datenmengen ausgelegten Architektur Der Autor erläutert die Theorie von Big-Data-Systemen und zeigt, wie der Leser dies in die Praxis umsetzen kann Darüber hinaus werden Technologien wie Hadoop, Storm und NoSQL-Datenbanken eingeführt Quelle: Verlagstext
Inhaltsverzeichnis:
Vorwort 9 / D ank sag u n g en 11 / Ü ber dieses B u ch 15 / 1 Ein neues Paradigma für Big D a ta 17 / 11 Aufbau des Buches 18 / 12 Skalierung mit einer herkömmlichen Datenbank 19 / 121 Skalierung mit einer Warteschlange 19 / 122 Skalierung durch Sharding 20 / 123 Erste Probleme mit der Fehlertoleranz 21 / 124 Probleme mit fehlerhaften D aten 21 / 125 Was ist schiefgegangen? 21 / 126 Inwiefern sind Big-Data-Verfahren hilfreich? 22 / 13 NoSQL ist kein Allheilmittel 22 / 14 Grundlagen 23 / 15 Erwünschte Eigenschaften eines Big-Data-Systems 24 / 151 Belastbarkeit und Fehlertoleranz 24 / 152 Lesen und Aktualisieren mit geringen Latenzzeiten 25 / 153 Skalierbarkeit 25 / 154 Allgemeingültigkeit 25 / 155 Erweiterbarkeit 25 / 156 Ad-hoc-Abfragen 25 / 157 Minimaler Wartungsaufwand 26 / 158 Fehlerbehebung 26 / 16 Schwierigkeiten vollständig inkrementeller Architekturen 26 / 161 Komplexität im Betrieb 27 / 162 Extreme Komplexität, um letztendliche Konsistenz zu erzielen 28 / 163 Keine Fehlertoleranz gegenüber menschlichem Versagen 30 / 164 Vollständig inkrementeile Lösung kontra Lambda-Architektur___ 31 / 17 Lambda-Architektur 32 / 171 Batch-Layer 33 / 172 Serving-Layer 35 / 173 Batch- und Serving-Layer erfüllen fast alle Anforderungen 35 / 174 Speed-Layer 36 / 18 Die neuesten T re n d s 39 / 181 Prozessoren werden kaum noch schneller 39 / 182 Elastic C louds 39 / 183 Ein lebhaftes Open-Source-Ökosystem für Big D ata 40 / 19 Beispielanwendung: SuperWebAnalyticscom 41 / 110 Zusammenfassung 41 / 2 Das Datenmodell fur Big D a ta 45 / 21 Die Eigenschaften von D aten 46 / 211 Daten sind ursprünglich 49 / 212 Daten sind unveränderlich 52 / 213 Daten sind beständig korrekt 54 / 22 Das faktenbasierte Modell zur Repräsentierung von Daten 55 / 221 Faktenbeispiele und ihre Eigenschaften 56 / 222 Vorteile des faktenbasierten M odells 58 / 23 Graphenschem ata 62 / 231 Elemente eines Graphenschemas 62 / 232 Die Notwendigkeit, dem Schema zu gehorchen 63 / 24 Ein vollständiges Datenmodell für SuperWebAnalyticscom 64 / 25 Zusam m enfassung 65 / 3 Das Datenmodell für Big Data: Praxis 67 / 31 Wozu ein Serialisierungs-Framework? 67 / 32 Apache T hrift 68 / 321 Knoten 69 / 322 Kanten 69 / 323 Eigenschaften 70 / 324 Alles in Datenobjekten zusammenfassen 71 / 325 Weiterentwicklung des Schemas 71 / 33 Für Serialisierungs-Frameworks geltende Beschränkungen 72 / 34 Zusam m enfassung 73 / 4 Datenspeicherung im Batch-Layer 75 / 41 Speicheranforderungen des Stammdatensatzes 76 / 42 Auswahl einer Speicherlösung für den Batch-Layer 77 / 421 Schlüssel-Werte-Datenbank zum Speichern des / Stammdatensatzes verwenden 77 / 422 Verteilte Dateisysteme 78 / 43 Funktionsweise verteilter Dateisysteme 79 / 44 Speichern des Stammdatensatzes mit einem verteilten Dateisystem 81 / 45 Vertikale Partitionierung 83 / 46 Verteilte Dateisysteme sind maschinennah 84 / 47 Speichern des SuperWebAnalyticscom-Stammdatensatzes in einem / verteiltem Dateisystem 85 / 48 Zusam m enfassung 86 / 5 Datenspeicherung im Batch-Layer: Praxis 87 / 51 Verwendung des Hadoop Distributed File Systems 87 / 511 Das Problem mit kleinen Dateien 89 / 512 Eine allgemeinere Abstrahierung 89 / 52 Datenspeicherung im Batch-Layer mit Pail 91 / 521 Grundlegende Pail-Operationen 91 / 522 Objekte serialisieren und in Pails speichern 93 / 523 Pail-Operationen 95 / 524 Vertikale Partitionierung mit P ail 96 / 525 Pail-Dateiformat und Komprimierung 97 / 526 Vorteile von Pail zusammengefasst 98 / 53 Speichern des Stammdatensatzes für SuperWebAnalyticscom 99 / 531 Ein strukturiertes Pail für Thrift-Objekte 101 / 532 Ein einfaches Pail für SuperWebAnalyticscom 102 / 533 Ein geteiltes Pail zur vertikalen Partitionierung des Datensatzes 103 / 54 Zusammenfassung 107 / 6 Batch-Layer 109 / 61 Beispiele 110 / 611 Anzahl der Pageviews innerhalb eines bestimmten Zeitraums 110 / 612 Vorhersage des Geschlechts 110 / 613 Einflussreiche Tweets Ill / 62 Berechnungen im Batch-Layer 112 / 63 Neuberechnungsalgorithmen kontra inkrementeile Algorithmen 114 / 631 Performance 115 / 632 Fehlertoleranz gegenüber menschlichem Versagen 116 / 633 Allgemeine Anwendbarkeit des Algorithmus 117 / 634 Auswahl eines Algorithmustyps 118 / 64 Skalierbarkeit im Batch-Layer 118 / 65 MapReduce: Ein Paradigma für Big-Data-Berechnungen 120 / 651 Skalierbarkeit 121 / 652 Fehlertoleranz 123 / 653 Allgemeine Anwendbarkeit von MapReduce 123 / 66 M aschinennähe 126 / 661 Berechnungen in mehreren Schritten sind nicht intuitiv 126 / 662 Die manuelle Implementierung von Joins ist sehr kompliziert 126 / 663 Enge Kopplung der logischen und physischen Ausführung 128 / 67 Pipe-Diagramme: Eine allgemeinere Auffassung von / Stapelverarbeitungsberechnungen 129 / 671 Konzepte der Pipe-Diagramme 130 / 672 Ausführen von Pipe-Diagrammen via MapReduce 134 / 673 Combiner-Aggregator 135 / 674 Beispiele für Pipe-Diagramme 136 / 68 Zusammenfassung 138 / 7 Batch-Layer: Praxis 139 / 71 Ein Beispiel zur Veranschaulichung 140 / 72 Typische Schwierigkeiten Daten verarbeitender Tools 142 / 721 Proprietäre Sprachen 142 / 722 Mangelhaft einbindungsfahige Abstraktionen 143 / 73 Einführung in JCascalog 144 / 731 Das JCascalog-Datenmodell 144 / 732 Aufbau einer JCascalog-Abfrage 146 / 733 Abfragen mehrerer Datensätze 147 / 734 Gruppierung und Aggregatoren 150 / 735 Schrittweise Abarbeitung einer Abfrage 151 / 736 Benutzerdefinierte Prädikate 154 / 74 Einbindung 159 / 741 Subqueries kombinieren 160 / 742 Dynamisch erzeugte Subqueries 161 / 743 Prädikatmakros 164 / 744 Dynamisch erzeugte Prädikatmakros 167 / 75 Zusam m enfassung 170 / 8 Beispiel eines Batch-Layers: Architektur und Algorithm en 171 / 81 Design des Batch-Layers fur SuperWebAnalyticscom 172 / 811 Unterstützte Abfragen 172 / 812 Batch-Views 173 / 82 Überblick über den Workflow 176 / 83 Aufnahme neuer Daten 177 / 84 URL-Normalisierung 178 / 85 User-I D- N ormalisierung 179 / 86 Deduplizierung der Pageviews 184 / 87 Berechnung der Batch-Views 184 / 871 Zeitlicher Verlauf der Pageviews 185 / 872 Zeitlicher Verlauf der eindeutig unterschiedlichen Besucher 186 / 873 Analyse der Bounce-Rate 187 / 88 Zusam m enfassung 188 / 9 Beispiel eines Batch-Layers: Implementierung 189 / 91 Ausgangspunkt 189 / 92 Vorbereitung des Workflows 190 / 93 Aufnahme neuer Daten 191 / 94 URL-Normalisierung 195 / 95 User-ID-Normalisierung 197 / 96 Deduplizierung der Pageviews 204 / 97 Berechnung der Batch-Views 204 / 971 Zeitlicher Verlauf der Pageviews 204 / 972 Zeitlicher Verlauf der eindeutig unterschiedlichen Besucher 207 / 973 Berechnung der Bounce-Rate 209 / 98 Zusam m enfassung 212 / Teil II Serving-Layer 213 / 10 Serving-Layer 215 / 101 Performancekennzahlen des Serving-Layers 216 / 102 Lösung des Problems "Normalisierung kontra Denormalisierung" / durch den Serving-Layer 219 / 103 Anforderungen an eine Datenbank für den Serving-Layer 221 / 104 Gestaltung eines Serving-Layers fur SuperWeb Analytics com 222 / 1041 Zeitlicher Verlauf der Pageviews 223 / 1042 Zeitlicher Verlauf eindeutig unterschiedlicher Besucher 223 / 1043 Berechnung der Bounce-Rate 224 / 105 Vergleich mit einer vollständig inkrementeilen Lösung 225 / 1051 Vollständig inkrementelle Lösung 225 / 1052 Vergleich mit einer auf der Lambda-Architektur beruhenden / Lösung 231 / 106 Zusammenfassung 232 / 11 Serving-Layer: P raxis 233 / 111 ElephantDB: Grundlagen 233 / 1111 Views in ElephantDB erzeugen 234 / 1112 Views in ElephantDB deployen 234 / 1113 ElephantDB verwenden 235 / 112 Einrichtung des Serving-Layers fur SuperWebAnalyticscom 237 / 1121 Zeitlicher Verlauf der Pageviews 237 / 1122 Zeitlicher Verlauf eindeutig unterschiedlicher Besucher 240 / 1123 Berechnung der Bounce-Rate 241 / 113 Zusammenfassung 242 / Teil III Speed-Layer 243 / 12 Echtzeit-Views 245 / 121 Berechnung von Echtzeit-Views 246 / 122 Speichern der Echtzeit-Views 248 / 1221 Letztendliche Genauigkeit 249 / 1222 Im Speed-Layer gespeicherter Zustand 249 / 123 Schwierigkeiten bei inkrementeller Berechnung 250 / 1231 Gültigkeit des CAP-Theorems 251 / 1232 Das komplexe Zusammenwirken von CAP-Theorem und / inkrementeilen Algorithmen 253 / 124 Asynchrone kontra synchrone Aktualisierungen 254 / 125 Echtzeit-Views verwerfen 256 / 126 Zusammenfassung 258 / 13 Echtzeit-Views: Praxis 259 / 131 Gassandras Datenmodell 259 / 132 Cassandra verwenden 261 / 1321 Cassandra fur Fortgeschrittene 263 / 133 Zusammenfassung 264 / 14 Warteschlangen und Streamverarbeitung 265 / 141 W arteschlangen 265 / 1411 Warteschlangen mit nur einem Abnehmer 266 / 1412 Warteschlangen mit mehreren Abnehmern 268 / 142 Streamverarbeitung 269 / 1421 Warteschlangen und Worker 270 / 1422 Fallstricke beim Warteschlangen-Worker-Ansatz 271 / 143 Streamverarbeitung one-at-a-time auf höherer E b en e 272 / 1431 Storm-Modeü 272 / 1432 Gewährleistung der Nachrichtenverarbeitung 277 / 144 SuperWebAnalyticscom: Speed-Layer 279 / 1441 Aufbau der Topologie 281 / 145 Zusam m enfassung 282 / 15 Warteschlangen und Streamverarbeitung: Praxis 283 / 151 Definition einer Topologie mit Apache Storm 283 / 152 Apache Storm-Cluster und Bereitstellung 286 / 153 Gewährleistung der Nachrichtenverarbeitung 288 / 154 Implementierung des Speed-Layers 291 / 155 Zusam m enfassung 296 / 16 Streamverarbeitung kleiner Stapel 297 / 161 Genau einmalige Verarbeitung 297 / 1611 Verarbeitung in streng festgelegter Reihenfolge 298 / 1612 Streamverarbeitung kleiner Stapel 299 / 1613 Topologien zur Verarbeitung kleiner Stapel 300 / 162 Grundlegende Konzepte der Streamverarbeitung kleiner Stapel 302 / 163 Erweiterte Pipe-Diagramme zur Beschreibung der Streamverarbeitung / kleiner Stapel 304 / 164 Fertigstellung des Speed-Layers fur SuperWebAnalyticscom 305 / 1641 Zeitlicher Verlauf der Pageviews 305 / 1642 Berechnung der Bounce-R ate 306 / 165 Eine weitere Methode zur Berechnung der Bounce-Rate 311 / 166 Zusam m enfassung 312 / 17 Streamverarbeitung kleiner Stapel: Praxis 313 / 171 Trident verwenden 313 / 172 Fertigstellung des Speed-Layers für SuperWebAnalyticscom 317 / 1721 Zeitlicher Verlauf der Pageviews 317 / 1722 Berechnung der Bounce-Rate 320 / 173 Fehlertolerante Verarbeitung kleiner Stapel im Arbeitsspeicher 326 / 174 Zusam m enfassung 328 / 18 Die Lambda-Architektur im Detail 329 / 181 Definition von Datenhaltungssystemen 329 / 182 Batch- und Serving-Layer 331 / 1821 Inkrementelle Stapelverarbeitung 331 / 1822 Ressourcennutzung des Batch-Layers messen und optimieren___ 338 / 183 Speed-Layer 343 / 184 Query-Layer 343 / 185 Zusammenfassung 345 / Stichwortverzeichnis 347
 
 

Details

Verfasser*in: Suche nach Verfasser*in Marz, Nathan; Warren, James
Verfasser*innenangabe: Nathan Marz, James Warren ; Übersetzung aus dem Amerikanischen von Knut Lorenzen
Jahr: 2016
Verlag: Frechen, mitp
opens in new tab
Systematik: Suche nach dieser Systematik NT.EIT
Suche nach diesem Interessenskreis
ISBN: 3-95845-175-6
2. ISBN: 978-3-95845-175-9
Beschreibung: 1. Auflage, 351 Seiten : Illustrationen
Schlagwörter: Big Data, Unternehmen, Betriebswirtschaft <Unternehmen>, Mass Data, Massendaten, Unternehmung, Wirtschaftsunternehmen
Beteiligte Personen: Suche nach dieser Beteiligten Person Warren, James; Lorenzen, Knut
Sprache: Deutsch
Originaltitel: Big Data
Mediengruppe: Buch