Saturday, January 28, 2017

The GoldFish Report

The GoldFish Report #73
The Ambassador of the Red Dragon Family
returns with a Chinese New Year Message.
The GoldFish Report #74
The GoldFish Report #75 January 28, 2017
Ralph Ellis & Michael Tsarion
:::: The Grail Cypher ::::
Bayesian Statistics

Bayesian Statistics continues to remain incomprehensible in the ignited minds of many analysts. Being amazed by the incredible power of machine learning, a lot of us have become unfaithful to statistics. Our focus has narrowed down to exploring machine learning. Isn’t it true?
We fail to understand that machine learning is only one way to solve real world problems. In several situations, it does not help us solve business problems, even though there is data involved in these problems. To say the least, knowledge of statistics will allow you to work on coplex analytical problems, irrespective of the size of data.
In 1770s, Thomas Bayes introduced ‘Bayes Theorem’. Even after centuries later, the importance of ‘Bayesian Statistics’ hasn’t faded away. In fact, today this topic is being taught in great depths in some of the world’s leading universities.
With this idea, I’ve created this beginner’s guide on Bayesian Statistics. I’ve tried to explain the concepts in a simplistic manner with examples. Prior knowledge of basic probability & statistics is desirable. By the end of this article, you will have a concrete understanding of Bayesian Statistics and its associated concepts. 

Read more @


Mathematical modelling

Developing competences for setting up, analysing and criticising mathematical models are normally seen as relevant only from and above upper secondary level. The general belief among teachers is that modelling activities presuppose conceptual understanding of the mathematics involved. Mathematical modelling, however, can be seen as a practice of teaching that place the relation between real life and mathematics into the centre of teaching and learning mathematics, and this is relevant at all levels. Modelling activities may motivate the learning process and help the learner to establish cognitive roots for the construction of important mathematical concepts. In addition competences for setting up, analysing and criticising modelling processes and the possible use of models is a formative aim in this own right for mathematics teaching in general education. The paper presents a theoretical framework, which has been used for designing modelling courses, analysing students’ modelling activities, identifying learning obstacles in the modelling process and to guide the teachers interaction with the students during their work. This will be illustrated with an example from a developmental project where 8. graders have worked with modelling real life phenomena related to their own experiences. In the chapter xx in part two of this book, two different ways of setting the scene for mathematical modelling activities at lower secondary level are presented. Read more @
Statistics and Data Mining M.Sc.
Linköping University
There is a rapidly increasing demand for specialists who are able to exploit the new wealth of information in large and complex datasets to improve analysis, prediction and decision‑making. The programme focusses on modern developments at the intersection of statistics, artificial intelligence and database management, providing students with unique skills that are attractive on the labour market. With the growth of computer capabilities, databases are becoming larger and more complex, making traditional statistical methods less effective, and in some cases unsuitable. Data from economic transactions, individual health records, internet searches, and environmental data are just a few examples of the content of enormous databases that challenge professional analysts. In these data-rich environments methods from data mining, machine learning, statistical visualisation, computational statistics and other computer-intensive statistical methods included in the programme have become increasingly popular with both governmental agencies and the private sector. 

First year of studies

Introductory courses

Compulsory courses

  • Advanced Data Mining, 6 credits
  • Introduction to Python, 3 credits

Profile courses

Complementary courses

Second year of studies

Profile courses

Complementary courses

Master's thesis, 30 credits

Read more @

Data Science vs Data Engineering

A data scientist is asking the right questions on any given dataset. After finding interesting questions, the data scientist must be able to answer them! Finding these answers may require a knowledge of statistics, machine learning, and data mining tools. If data mining tools are unavailable, then the data scientist might be better prepared by having the skills to learn these tools quickly. This is why it is essential to know CS fundamentals and programming, including experience with languages and database technologies such as Python and MySQL. Importantly, any analysis should be effectively communicated to interested audiences. This includes being able to visualize the data or results. The data scientist should be well-versed in creating charts and graphs, and using visualization tools ... Read more @

Data mining is an interdisciplinary subfield of computer science and the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems. The goal is the extraction of patterns and knowledge from large amounts of data, not the extraction (mining) of data itself. Read more @

Joel Grus

Einführung in Data Science

Grundprinzipien der Datenanalyse mit Python
Übersetzung von Kristian Rother
März 2016, 352 Seiten
ISBN Print: 978-3-96009-0021-2
Wes McKinney

Datenanalyse mit Python

Auswertung von Daten mit Pandas, NumPy und IPython
Oktober 2015, 478 Seiten, gebunden 
ISBN Print: 978-3-96009-000-7

Data Science ist noch immer eine junge Disziplin. Aber die Zahl der Unternehmen, die den Wert von Big Data & Analytics für sich erschließen wollen, steigt derzeit rapide an. Data Science spielt dabei eine Schlüsselrolle. 

Top 10 der Python Bibliotheken für Data Science 

Python gilt unter Data Scientists als Alternative zu R Statistics. Ich bevorzuge Python auf Grund seiner Syntax und Einfachheit gegenüber R, komme hinsichtlich der vielen Module jedoch häufig etwas durcheinander. Aus diesem Grund liste ich hier die – meiner Einschätzung nach – zehn nützlichsten Bibliotheken für Python, um einfache Datenanalysen, aber auch semantische Textanalysen, Predictive Analytics und Machine Learning in die Tat umzusetzen.

NumPy – Numerische Analyse
NumPy ist eine Open Source Erweiterung für Python. Das Modul stellt vorkompilierte Funktionen für die numerische Analyse zur Verfügung. Insbesondere ermöglicht es den einfachen Umgang mit sehr großen, multidimensionalen Arrays (Listen) und Matrizen, bietet jedoch auch viele weitere grundlegende Features (z. B. Funktionen der Zufallszahlenbildung, Fourier Transformation, linearen Algebra). Ferner stellt das NumPy sehr viele Funktionen mathematische Funktionen für das Arbeiten mit den Arrays und Matrizen bereit.
matplotlib – 2D/3D Datenvisualisierung
Die matplotlib erweitert NumPy um grafische Darstellungsmöglichkeiten in 2D und 3D. Das Modul ist in Kombination mit NumPy wohl die am häufigsten eingesetzte Visualisierungsbibliothek für Python.
Die matplotlib bietet eine objektorientierte API, um die dynamischen Grafiken in Pyhton GUI-Toolkits einbinden zu können (z. B. GTL+ oder wxPython).
NumPy und matplotlib werden auch mit den nachfolgenden Bibliotheken kombiniert.
Bokeh – Interaktive Datenvisualisierung
Während die Plot-Funktionen von matplotlib statisch angezeigt werden, kann in den Visualsierungsplots von Bokeh der Anwender interaktiv im Chart klicken und es verändern. Bokeh ist besonders dann geeignet, wenn die Datenvisualisierung als Dashboard im Webbrowser erfolgen soll.
Das Bild über diesen Artikel zeigt Visualiserungen mit dem Python Package Bokeh.
Pandas – Komplexe Datenanalyse
Pandas ist eine Bibliothek für die Datenverarbeitung und Datenanalyse mit Python. Es erweitert Python um Datenstrukturen und Funktionen zur Verarbeitung von Datentabellen. Eine besondere Stärke von Pandas ist die Zeitreihenanalyse. Pandas ist freie Software (BSD License).
Statsmodels – Statistische Datenanalyse
Statsmodels is a Python module that allows users to explore data, estimate statistical models, and perform statistical tests. An extensive list of descriptive statistics, statistical tests, plotting functions, and result statistics are available for different types of data and each estimator.
Die explorative Datenanalyse, statistische Modellierung und statistische Tests ermöglicht das Modul Statsmodels. Das Modul bringt neben vielen statistischen Funktionen auch eigene Plots (Visualisierungen) mit. Mit dem Modul wird Predictive Analytics möglich. Statsmodels wird häufig mit NumPy, matplotlib und Pandas kombiniert.
SciPy – Lineare Optimierung
SciPy ist ein sehr verbreitetes Mathematik-Modul für Python, welches den Schwerpunkt auf die mathematische Optimierung legt. Funktionen der linearen Algebra, Differenzialrechnung, Interpolation, Signal- und Bildverarbeitung sind in SciPy enthalten.
scikit-learn – Machine Learning
scikit-learn ist eine Framework für Python, das auf NumPy, matplotlob und SciPy aufsetzt, dieses jedoch um Funktionen für das maschinelle Lernen (Machine Learning) erweitert. Das Modul umfasst für das maschinelle Lernen notwendige Algorithmen für Klassifikationen, Regressionen, Clustering und Dimensionsreduktion.
Mlpy – Machine Learning
Alternativ zu scikit-learn, bietet auch Mlpy eine mächtige Bibliothek an Funktionen für Machine Learning. Mlpy setzt ebenfalls auf NumPy und SciPy, auf, erweitert den Funktionsumfang jedoch um Methoden des überwachten und unüberwachten maschinellen Lernens.
NLTK – Text Mining
NLTK steht für Natural Language Toolkit und ermöglicht den effektiven Einstieg ins Text Mining mit Python. Das Modul beinhaltet eigene (eher einfache) Visualisierungsmöglichkeiten zur Darstellung von Textmuster-Zusammenhängen, z. B. in Baumstrukturen. Für Text Mining und semantische Textanalysen mit Python gibt es wohl nichts besseres als NLTK.
Theano – Multidimensionale Berechnungen & GPU-Processing
Theano is a Python library that allows you to define, optimize, and evaluate mathematical expressions involving multi-dimensional arrays efficiently
Für multidimensionale Datenanalysen bzw. die Verarbeitung und Auswertung von multidimensionalen Arrays gibt es wohl nichts schnelleres als die Bibliothek Theano. Theano ist dabei eng mit NumPy verbunden.
Theano ermöglicht die Auslagerung der Berechnung auf die GPU (Grafikprozessor), was bis zu 140 mal schneller als auf der CPU sein soll. Getestet habe ich es zwar nicht, aber grundsätzlich ist es wahr, dass die GPU multidimensionale Arrays schneller verarbeiten kann, als die CPU. Zwar ist die CPU universeller (kann quasi alles berechnen), die GPU ist aber auf die Berechnung von 3D-Grafiken optimiert, die ebenfalls über multidimensionalen Vektoren verarbeitet werden.
ist ein schwedischer Hersteller 
von elektronischen Musikinstrumenten, insbesondere SynthesizernDrumcomputern
Samplern sowie Grooveboxen.

Computer Science M.Sc. Programme

About the programme

We offer a broad Computer Science Master’s programme that is closely connected to high quality research.
Computer Science is a full-spectrum Master’s programme that offers great freedom in choosing among courses in a wide range of areas including: Algorithms, Interaction Design, Computer Graphics, Computer Architecture, Data Communication, Dependability, Digital Systems, Distributed Computing, Hardware Verification, Logical Methods, Machine Learning, Networks, Real Time Systems, Parallel Computing, Program Analysis, Programming Languages, the Science of Programming, Security, and Software Engineering. These are areas where we have strong, internationally recognised research groups which are the driving force behind the education.

For whom? 
The Master's programme in Computer Science is an international full-time programme open to both Swedish and international applicants. The programme is taught in English and comprises 2 years. Admitted applicants typically hold a Bachelor's degree in computer science or equivalent, and have a solid academic record.
You will be equipped with the knowledge, skills, and attitudes required for a successful professional career in a large variety of information technology areas, both in industry and in academia. In particular, the programme enables you as a future IT professional to conceive, design, and implement systems which work correctly, are maintainable, and reliable.
After graduation, you will be highly qualified in advanced software engineering, where you can work as a programmer, system architect, system developer, and project leader. Our emphasis on modelling, design, and on conceptual abilities will provide you with a great flexibility, such that you can adjust to emerging job markets in a wide range of IT related areas.

No comments:

Post a Comment

Note: Only a member of this blog may post a comment.