Nutzung von Cloud Ressourcen für genannte Anwendungsfälle
Operations Research
Mathematische Optimierung
Internet der Dinge (IoT)
Einbeziehung der Daten von Hardware Sensoren
Angebot
Falls Sie sich jetzt dafür interessieren, wie sie speziell mit ihrem Unternehmen von den Entwicklungen im Internet und dabei insbesondere vom Themenkomplex Big Data profitieren können, dann vereinbaren sie einfach einen Termin mit mir.
Dabei wird auch auf keinen Fall der betriebswirtschaftliche Aspekt zu kurz kommen, denn nicht immer ist alles für jeden auch wirtschaftlich und oft werden mit frei verfügbarer Software vergleichbare Ergebnisse erzielt wie mit kommerzieller Software.
Kontakt
Schreiben sie mir an Ingenieurbüro Stephan Linsmeier Siegenburger Str. 41 81373 München
bzw. rufen an unter +49 89 578998
oder schreiben eine Mail an info (at) linsmeier (punkt) eu
Im Falle der Nutzung von Mail würde ich eine verschlüsselte Kommunikation mittels GPG ausdrücklich begrüßen. In diesem Falle fordern sie bitte meinen GPG Key per Mail an und verwenden keinen von Schlüsselservern, da dort gefälschte Schlüssel vorhanden sind, mit denen ich die Mails nicht entschlüsseln kann.
Bei Business Intelligence oder kurz BI geht es um die Auswertung von Daten, um letztlich Erkenntnisse zu gewinnen und einen Mehrwert zu generieren. Bei den Daten, die hier zur Auswertung kommen handelt es sich eher um klassische Unternehmensdaten wie z.B. Umsatzzahlen von Produkten in Regionen oder der Stundenzettelauswertung von Mitarbeitern. Es handelt sich dabei eher um Reporting, wo Zahlen der Vergangenheit verarbeitet, analysiert und visualisiert werden.
Big Data
Zu dem Thema Big Data findet sich unzählige Literatur im Internet und in Buchform. Leider versteht fast jeder Autor etwas anderes darunter, verwendet andere Begriffe etc. Im Grundsatz unterscheiden die Definitionen aber gar nicht mal so sehr voneinander. Nachfolgend definiere ich mein Verständnis von Big Data, was wichtig ist, um mein Angebotsspektrum um das Thema einordnen zu können. Die Gartner Group definiert Big Data durch die drei V’s volume, velocity und variety. Big Data zeichnet sich also durch eine oder mehrere dieser Eigenschaften aus, wodurch neue Formen der Verarbeitung notwendig werden, um aus den Daten einen Mehrwert zu erzeugen. Dieser Mehrwert kann sich in Informationen zur Entscheidungsfindung widerspiegeln, es können neue Einsichten gewonnen oder Prozesse optimiert werden. Was sind nun Beispiele für Daten, die als Big Data klassifiziert werden? Bei der Gensequenzierung oder an der Europäischen Organisation für
Kernforschung (CERN) werden zum Beispiel riesige Datenmengen erzeugt, die schon alleine technisch erst mal verarbeitet werden müssen. Daten, die in sehr schneller Folge anfallen, sind Daten, die bei der Benutzung des Internets entstehen, z.B. Logdaten. Bei der Nutzung von sozialen Netzwerken fallen ebenfalls riesige Datenmengen sehr schnell an, die aber auch noch unstrukturiert bzw. heterogen sind, wie Texte, Bilder und Videos. Um diese Art von Daten in angemessener Zeit verarbeiten und auswerten zu können sind eine Reihe neuer Tools entstanden, wie z.B. der MapReduce Ansatz mit Hadoop, verschiedene NoSQL Datenbanken oder die In-Memory Technik für Datenbanken. Die Methodik, um Big Data auszuwerten wird auch als Data Science oder Analytics bezeichnet und wird gesondert beschrieben. Was sind aber nun die neuen Möglichkeiten, die sich auch für kleinere Unternehmen ergeben, deren Geschäftsmodell nicht rein datengetrieben ist? Zum einen
können sich durch Anwendung der Data Science Methoden neue Erkenntnisse gewinnen lassen, z.B. über das Kaufverhalten von Kunden oder zur Optimierung der eigenen Prozesse. Zum anderen können zu den bereits vorhandenen Auswertungen interner Daten zusätzlich Daten aus dem Internet hinzugezogen werden, z.B. was in den sozialen Netzwerken über die eigenen Produkte geschrieben wird oder offene Daten, die in Folge von OpenData Initiativen immer mehr verfügbar werden. Um Data Science bzw. Analytics von Business Intelligence (BI) abzugrenzen, würde ich neben der erwähnten Einbeziehung zusätzlicher externer Daten den Zeithorizont ansehen. BI ist allgemein Reporting der Vergangenheit bis zur Gegenwart, Data Science bzw. Analytics bezieht sich hingegen eher auf die Zukunft.
Data Science
Unter Data Science versteht man ganz allgemein die Methodik, Erkenntnisse aus Daten zu gewinnen. Hierbei kommen Verfahren aus ganz verschiedenen Fachrichtungen ins Spiel, je nach Anwendungsfall. Zu erwähnen wären vor allem Statistik und maschinelles Lernen. Vor einiger Zeit war auch der Begriff Data Mining gebräuchlich. Nach meiner Definition (und andere Autoren mögen das auch anders sehen) sind die Methoden des Data Mining nach wie vor gültig, sie müssen unter Umständen in der Implementierung nur an die Gegebenheiten von Big Data angepasst werden. Was heißt das nun konkret? Ganz grob kann man die Erkenntnisse, die man potentiell aus den Daten gewinnen will, unterteilen in Vorhersagen und Erkennen von Strukturen. Beispiele für Vorhersagen wären zum Beispiel das Wetter, aber auch Börsenkurse, die zukünftige Geschäftsentwicklung oder auch die Wahrscheinlichkeit, ob ein Kunde seine Rechnung bezahlt. Das sind Beispiele für das sogenannte
überwachte Lernen (supervised learning), bei dem Datensätze mit den betrachteten Merkmalen vorhanden sein müssen. Daraus wird dann ein Modell erstellt und mit dem Modell Prognosen für neue Datensätze erstellt. Neben dem überwachten Lernen gibt es auch das nicht überwachte Lernen (unsupervised learning), bei dem nicht direkt Vorhersagen abgegeben werden, sondern bei dem eine Struktur in den vorhandenen Datensätzen gesucht wird. Beispiele sind Kaufempfehlungen nach dem Motto “Kunden, die X gekauft haben, kauften auch Y”. Dazu wird die komplette Transaktionshistorie nach Häufigkeiten durchsucht und Produkte die häufiger miteinander gekauft werden identifiziert. Ein anderes Beispiel wäre die Segmentierung des eigenen Kundenstamms, um herauszufinden, bei welchen Kunden sich Marketingaktionen auch lohnen, um nicht unnötig Geld nach dem Gießkannenprinzip dafür auszugeben. Unabdingbar ist bei jedem Modell aber eine solide statistische
Bewertung, denn jedes Modell und jede Prognose ist immer mit einem Fehler behaftet und dieser muss auch quantifiziert werden können. Das Ganze führt dann zu einem Prozess, bei dem zuerst die Rohdaten gesammelt und dann aufbereitet werden. Diese Datenaufbereitung ist enorm wichtig, denn Fehler in den Rohdaten wirken sich direkt auf die Qualität des Modells aus. Darauf folgt die Datenanalyse mit geeigneten Methoden, die dann in ein Modell münden, das statistisch bewertet wird. Je nach Anforderungen an die Qualität des Modells muss das Modell entweder noch verbessert werden oder es kann in den Produktivbetrieb übergeben werden. Dazu muss es dann geeignet in eine Big Data Umgebung integriert werden, d.h. z.B. als In-Database Modell oder in einer Hadoop Umgebung.
Cloud Computing
Das Thema Cloud Computing ist für sich genommen schon ein sehr komplexes Thema, so dass ich mich auf die Nutzung von Cloud Diensten im Hinblick auf Data Science und Big Data Analytics beschränke, das heisst konkret Amazon Elastic Map Reduce (EMR), Microsoft Azure Machine Learning und OpenStack Sahara. Durch die Nutzung von genannten Cloud Diensten können komplexe Auswertungen durchgeführt werden, ohne dass in eigenen Hardware investiert werden muss. Das Ganze muss natürlich ggf. unter Berücksichtigung des Datenschutzes geschehen, wenn die Daten auf Servern von amerikanischen Unternehmen kopiert werden. Wenn dies problematisch ist, dass ist unter Umständen eine eigene (private) Cloud Lösung mit OpenStack eine Überlegung wert.
Operations Research
Unter Operations Research versteht man mathematische Optimierung, d.h. ein bestmögliches Resultat für eine Problemstellung zu erzielen. Beispiele hierfür sind die Portfoliooptimierung, wo Wertpapiere aus dem Anlageuniversum ausgewählt werden müssen, um eine möglichst hohe Rendite bei möglichst niedrigen Schwankungen zu erreichen. Ein weiteres Beispiel ist die Personaleinsatzplanung bei Fluglinien, wo alle Flüge bedient werden müssen, bei möglichst geringen Kosten und unter Beachtung aller Arbeitszeitregeln der Mitarbeiter. Weitere Beispiele sind Probleme aus der Produktionsplanung oder das sog. Handlungsreisendenproblem, wo ein Vertreter verschiedene Städte besuchen muss und gleichzeitig der Weg minimiert werden soll. Bei kleinen Problemstellungen könnte man diese unter Umständen durch vollständiges Aufzählen durchaus von Hand lösen. Das ist aber bei realistischen Problemgrößen nicht mehr möglich, weswegen es je nach Anwendungsfall
verschiedene Verfahren gibt, um entweder wirklich das optimale Ergebnis zu erhalten oder zumindest ein gutes Ergebnis in endlicher Zeit.
Internet der Dinge (IoT)
Eine wichtige Quelle von Daten für Big Data Analytics sind Daten von Hardware Sensoren. Wenn solche Daten schon z.B. von Maschinen zur weiteren Auswertung zur Verfügung gestellt werden, dann ist es natürlich kein Problem, an diese Daten zu gelangen. Jedoch kann es nützlich oder notwendig sein, weitere Daten zur weiteren Verarbeitung aufzunehmen. Dies kann mit Microcontroller Modulen von diversen Herstellern wie z.B. Texas Instruments oder den PSoC Modulen von Cypress realisiert werden. Ebenso Arduino und ESP8266 und ESP32 von Espressif.