- comprendre les réels enjeux des données massives (big data)
- démystifier le "cloud" et le "big data" : beaucoup de problèmes sont juste mal posés et ne nécessitent pas de traitement particulier
- utiliser de la ligne de commande
- utiliser des infrastructures de calcul distantes
- utiliser des infrastructures de calcul distribué
- utiliser des infrastructures de calcul en flux
à compléter
- lk
- d
à préciser
Proposition de @katossky:
- des Kahoots en début de cours et à la rentrée de la pause
- des QCM post TP sur Moodle
- un examen supplémentaire à définir (compte-rendu de TP? examen sur table? mini-projet ex: lecture d'un article?)
- Karau, H., Konwinski, A., Wendell, P. and Zaharia, M. (2019). LEARNING SPARK: O'REILLY MEDIA.
- Documentation officielle amazon EMR : https://docs.aws.amazon.com/fr_fr/emr/latest/ReleaseGuide/emr-release-components.html
- Doc Rstudio pour EMR : https://spark.rstudio.com/examples/yarn-cluster-emr/#set-up-the-cluster
-
CM3
must have
nice to have
to do next
- re-read Shadi's course and include relevent topics
-
[ ]
After course has ended:
- clean up directory
- update readme
Before next session of the course
- Romaric's read
- Read books:
- Principles of Distributed Databases
- Distributed Computing for Big Data Analytics
- https://hadoop.apache.org/docs/stable
Possible improvements
- include more statiscal algorithms
- in course computing, add ref to pay-as-you-go
- add more cloud providers, such as IBM, OpenStack, Digital Ocean...
- dif.. scale-in scale-out dans le premier cours
- uniformize titles
- add colors (if possible by CSS) and images
- read "Brewer's conjecture and the feasibility of consistent, available, partition-tolerant web services"
- add the distinction between single pass, double pass, etc.
- mention the concept of single-point-of-failure in introduction of the distributed system part