Resumen del Taller: Introducción al Desarrollo de Aplicaciones para Big Data
Durante el mes de Agosto, Juan Pampliega y yo recibimos la invitación para armar un taller de Big Data en el Espacio Fundación Telefonica como un complemento a la exposición “Big Bang Data”. Este post es un resumen del evento y las referencias de lectura para los que no tuvieran la oportunidad de participar.
##
Lista de Discusión
Durante el taller creamos una lista de discusión que vaya más allá del programa y quedemos en contacto para aprender en conjunto. Si tenés interes en la tematica, inscribite acá
##
Resultados
Tomando los resultados de la encuesta hecha con los participantes, es muy placentero saber que 60% definió como Excelente la calidad del taller y 40% como Muy Bueno - correcto, no hubo calificaciones inferiores a estas :) - también quedó muy marcado el pedido de más horas de taller para que puedan tener más horas de practica, así que nos inspira a buscar este objetivo en futuros talleres.
##
Referencias
El material abajo es contiene las principales referencias que usamos para armar el material del curso. No debe ser considerado un listado exhaustivo.
##
Clase I y II: Introducción a Big Data y Hadoop
#
Libros y referencias (en papel)
##
Hadoop
- Tom White, Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, March 2015
- Alex Holmes, Hadoop in Practice, Second Edition, Manning Publications, September 2014
- Mark Grover, Ted Malaska, Jonathan Seidman, Gwen Shapira, Hadoop Application Architectures, O’Reilly Media, Final version not released
##
Big Data / Apache Spark
- Nathan Marz and James Warren, Big Data, Manning Publications, April 2015
- Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia, Learning Spark, O’Reilly Media, January 2015
- Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills, Advanced Analytics with Spark, O’Reilly Media, Inc., March 2015
- Martin Kleppmann, Designing Data Intensive Applications, O’Reilly Media, Final version not released
##
Sitios y Newsletters:
- The Hortonworks Blog - http://hortonworks.com/blog/
- Cloudera Engineering Blog - http://blog.cloudera.com/blog/
- Databricks Developer Blog - http://databricks.com/blog
- Confluent Blog - http://blog.confluent.io/
- Noticias semanales del ecosistema de Big Data (no es exclusivo de Hadoop) - http://www.hadoopweekly.com/
- Martin Kleppmann Blog - http://martin.kleppmann.com/
- NoSQL Weekly - http://www.nosqlweekly.com/
##
Clase III: NoSQL databases y más
#
NoSQL
- http://en.wikipedia.org/wiki/NoSQL
- http://blog.cloudera.com/blog/2014/11/nosql-in-a-hadoop-world-2/
- http://www.slideshare.net/thobe/nosql-for-dummies
- http://martinfowler.com/bliki/NosqlDefinition.html
- http://nathanmarz.com/blog/how-to-beat-the-cap-theorem.html
- http://ivoroshilin.com/2012/12/13/brewers-cap-theorem-explained-base-versus-acid/
#
NewSQL
#
Search
- https://www.found.no/foundation/elasticsearch-as-nosql/
- http://searchbusinessanalytics.techtarget.com/feature/Why-logical-data-warehouse-is-no-longer-a-logical-term
##
Clase IV: Stream Processing
#
Conceptos Generales:
- http://radar.oreilly.com/2015/08/the-world-beyond-batch-streaming-101.html
- http://blog.confluent.io/2015/01/29/making-sense-of-stream-processing/
- https://engineering.linkedin.com/distributed-systems/log-what-every-software-engineer-should-know-about-real-time-datas-unifying
- http://radar.oreilly.com/2014/07/questioning-the-lambda-architecture.html
- http://blog.confluent.io/2015/03/04/turning-the-database-inside-out-with-apache-samza/
- http://radar.oreilly.com/2014/07/why-local-state-is-a-fundamental-primitive-in-stream-processing.html
#
Kafka:
- http://blog.cloudera.com/blog/2014/09/apache-kafka-for-beginners/
- http://www.michael-noll.com/blog/2014/08/18/apache-kafka-training-deck-and-tutorial/
- http://www.slideshare.net/gwenshap/kafka-for-dbas
#
Frameworks de Procesamiento
- http://samza.apache.org/learn/documentation/latest/comparisons/introduction.html
- https://storm.apache.org/documentation/Tutorial.html
##
Clase V: Apache Spark y Spark Streaming
- https://spark.apache.org/docs/latest/quick-start.html
- https://databricks.com/blog/
- https://spark-summit.org/
- http://zeppelin-project.org/docs/tutorial/tutorial.html
- http://es.slideshare.net/frodriguezolivera/apache-spark-streaming
- http://arjon.es/2014/11/28/wisit2014-clasificando-tweets-en-realtime-con-apache-spark/
#
Spark Summit 2014
- http://training.databricks.com/workshop/itas_workshop.pdf
- https://spark-summit.org/2014/wp-content/uploads/2014/07/A-Deeper-Understanding-of-Spark-Internals-Aaron-Davidson.pdf
#
Spark Summit 2015
- https://spark-summit.org/2015-east/wp-content/uploads/2015/03/SSE15-1-Matei-Zaharia.pdf
- https://www.youtube.com/watch?v=EuWDz2Vb1Io&index=1&list=PL-x35fyliRwhrzM1Hq62WX4UeIIEqw3SU
- http://training.databricks.com/workshop/sparkcamp.pdf
- https://databricks-training.s3.amazonaws.com/slides/advanced-spark-training.pdf
#
Laboratorio Hands-On
La VM y los ejemplos están documentados en este post (en inglés)