Seja bem-vindo ao Big Data e Eu serei seu guia — Parte 1 - Cursos

Um guia pra começar bem na sua carreira de Engenheiro de Dados/Especialista Big Data, sem gastar rios de dinheiro.

por Allan Sene 24/07/2017 Comentários

Bastante gente, seja na faculdade, redes sociais ou em meetups, sempre pede indicações de cursos e recursos para começar a aprender sobre Big Data/Machine Learning e suas ferramentas. Eu já tinha escrito parte deste guia lá no grupo Big Data Brasil no Facebook, mas eu sempre quis oficializar e estender mais um pouco essa fonte.

Você deve saber que, em língua portuguesa, há uma grande lacuna a ser preenchida de fontes confiáveis e de fácil acesso de informação e referências de aprendizado em Computação, principalmente sub-áreas mais recentemente em voga, como Sistemas Distribuídos, de Processamento de Dados Massivos e de Aprendizado de Máquina.

Este então é o principal motivo deste post e até mesmo deste blog: dar o mínimo de contribuição para a disseminação do conhecimento, com o que estiver ao meu alcance. E seria muito bom se você também contribuísse, para que essa lista fique cada vez mais completa e útil para futuros padawans no mundo dos dados :).

Este post vai ser dividido em 2 partes: esta com **referências de cursos pra quem está começando e outra com conceitos essenciais **explicados de uma maneira bem didática, que todo Engenheiro de Dados/Especialista em Big Data deve dominar, sendo agnóstico à ferramentas e tecnologias novas e legais, que como você já sabe, mudam muito rapidamente na nossa área.

Assim sendo, vou postar aqui alguns cursos que já fiz e que, na minha opinião, valem mais do que muita pós-graduação de R$ 60.000 que a gente vê por aí.

Machine Learning

Coursera — Especialização em Machine Learning da UofW
https://pt.coursera.org/specializations/machine-learning

Melhor curso de Machine Learning Online que já vi! Todos os outros pecam, ou em exigir conhecimento muito profundo de estatística/cálculo/álgebra linear, ou em dar pouca realidade prática e de mundo real para os alunos.

Esse curso foi construído pelo nosso conterrâneo Dr. Carlos Guestrin, formado na USP, professor na Universidade de Washington e dono da Turi, que foi comprada pela Apple há pouco tempo. Inclusive, um dos destaques desse curso é o próprio Prof. Carlos, que é muito divertido e usa vários exemplos e intuições que facilitam demais o aprendizado, até em conceitos complexos como LDA. Óbvio: futebol tá presente em vários deles haha!

A especialização passa por todos os grandes tópicos de ML: Regressão, Classificação, Clustering e Recuperação de Informação, cuminando, para quem pagar a especialização, em um projeto muito bacana usando Deep Learning. Além de falar de técnicas de otimização como Cross-Validation, Feature Engineering e Regularização.

Para quem quiser ter só um overview sobre ML e seus métodos mais comuns e suas aplicações, como Analistas de Produto ou Gerentes de Projeto ou até mesmo você Cientista de Dados, o primeiro curso da série já basta.

Big Data

EDx — Especialização em Engenharia e Ciência de Dados com Apache Spark da UC Berkeley
https://www.edx.org/xseries/data-science-engineering-apacher-sparktm

Se quer aprender sobre a ferramenta big data que mais cresce hoje no mercado, por quê não começar aprendendo com gente que ajudou a criá-la no Amplab da UC Berkeley e que está no Databricks -marca comercial por traz do Spark- hoje? Esta série explica todo o fundamento da tecnologia, desde o fundamental RDD até como o Spark distribui as tasks entre os workers no modo cluster. As aulas não são tão divertidas como as do Prof. Carlos, mas os labs são incríveis! São todos casos reais de recuperação da informação, limpeza de dados e aprendizado de máquina. Um deles, de ML, você usa de PCA para mapear a atividade do cérebro dum peixe. É sensacional!

Udemy — Cursos do Frank Kane

https://www.udemy.com/user/frankkane/

Frank Kane é um dos melhores instrutores sobre Big Data da internet. Com passagens por gigantes como IMDb e Amazon, ele têm diversos videos no Youtube ensinando sobre as ferramentas mais utilizadas no mercado, como Kafka e Spark. O seu diferencial é o olhar prático de seus cursos. São todos guiados por hands-on em simulações de casos reais enquanto ele explica o core das ferramentas.

Recomendo especialmente o de Scala + Spark Streaming, porque os cursos do EDx que citei anteriomente deixam a desejar nesses 2 assuntos muito importantes da plataforma. Spark Streaming inclusive é uma implementação dos paradigmas mais importantes pra data pipelines, assunto que irei abordar no próximo post dessa série.

Kane também tem um curso bem abrangente e bem avaliado sobre Machine Learning com Python, porém como eu não fiz, não tenho como opinar sobre sua qualidade. Se você já fez, comenta aí embaixo o que você achou :)

Cloud Computing

Udemy — Preparação para Certificação AWS do CloudGuru
https://www.udemy.com/aws-certified-developer-associate/…
https://www.udemy.com/aws-certified-solutions-architect-a…/…

CloudGuru é o maior produtor de conteúdo sobre cloud computing do mundo. Seus cursos são best-sellers e têm o maior número de altos ratings no Udemy. Ambos os cursos dão um ótimo overview sobre como funciona a AWS, com demonstrações, conceitos e simulados, mais que o suficiente para você passar no exame e continuar seus estudos por conta própria.

**Mas e se eu não quero fazer Certificação AWS? ***Ainda assim recomendo este curso. Por quê? Porque, mesmo com Google Cloud e Azure no páreo, a AWS continua e deve continuar por anos na frente deste mercado da nuvem. Já não bastasse isso, grande parte das ferramentas das concorrentes têm semelhantes na Amazon e, provavelmente, num custo menor ou igual.*

Como já disse em posts anteriores, criar e manter uma cloud privada com ferramentas distribuídas é caro e dispendioso, então é muito provável que você vá utilizar no mundo real serviços que abstraem o monitoramento, provisionamento e construção das arquiteturas para que você se foque realmente no que precisa: seu objetivo final. Este curso passa por todas as ferramentas da AWS, sendo que maioria delas vão te ajudar e muito para ser pragmático rumo as soluções que você vai montar na sua carreira como Engenheiro de Dados.


*Os cursos do Udemy são pagos, porém *sempre há cupons de desconto** **de até 90% off na internet.


Se também tiverem boas recomendações, mandem aí nos comentários pra gente! Se achou bacana o guia, clique no ❤ e compartilhe com seus colegas :).

Não deixe de me seguir para não perder os próximos artigos! \o/

Para ler mais sobre esse assunto:

Um lugar para ler e discutir sobre desenvolvimento, design, web semântica, back-end e outros assuntos relacionados a web. Se você quiser publicar artigos conosco, envie um email: medium[at]tableless.com.br ou clique no link http://bit.ly/escreva-tableless-medium