Blog: Carreira na Área de Dados

 

Fala, galera! Nesse blog irei contar um pouco sobre minha trajetória: dificuldades, cursos, parte técnica, soft skills, experiências no mercado de trabalho e muito mais!

Crie um portfólio de projetos

Aug 28, 2024
Portfólio

Se você quer aumentar suas chances no mercado de trabalho (tanto para adquirir conhecimento de forma rápida quanto para conseguir uma vaga de emprego), eu recomendo que você tenha uma vitrine de projetos/notebooks para a área de dados.

Eu gosto muito do Kaggle: lá tem competições, datasets, notebooks. Dá pra aprender a beça! Eu mesmo criei vários notebooks e estudei muita coisa por lá no "começo" da minha carreira.

Veja alguns exemplos:

 

1. Titanic - Machine Learning from Disaster

O Titanic é um dos datasets mais clássicos do Kaggle, perfeito para quem está começando. Ele contém informações sobre os passageiros do navio Titanic, como idade, classe social e tarifa paga, e o desafio é prever se um passageiro sobreviveu ou não ao desastre. O diferencial desse dataset é que ele permite aplicar várias técnicas de machine learning, desde as mais simples, como regressão logística, até modelos mais complexos, como Random Forest e Gradient Boosting. Além disso, o Titanic é um ótimo exemplo de como lidar com dados faltantes e fazer feature engineering.

Por que é bom para o portfólio? Ele mostra sua capacidade de entender um problema, lidar com dados reais e construir modelos preditivos.

Link para o dataset: https://www.kaggle.com/competitions/titanic/data

 

2. House Prices - Advanced Regression Techniques

Se você quer demonstrar habilidades em modelos de regressão, o dataset de House Prices é uma excelente escolha. Ele contém dados de vendas de casas em Ames, Iowa, e o objetivo é prever o preço final de uma casa baseado em várias características, como tamanho do lote, número de quartos e ano de construção. Esse dataset é mais desafiador que o Titanic e permite explorar técnicas como regularização, seleção de features e até modelos mais avançados como XGBoost.

Por que é bom para o portfólio? Ele permite mostrar sua habilidade em modelos de regressão, além de técnicas de feature engineering e manipulação de dados.

Link para o dataset: https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/data

 

3. RetailHero - Forecasting Store Sales

Para quem quer trabalhar com séries temporais, o dataset RetailHero oferece dados de vendas diárias de diversas lojas da rede Walmart. O desafio é prever as vendas futuras para cada loja. Esse dataset é ótimo para praticar análise de séries temporais, aplicar modelos como ARIMA, Prophet, ou até mesmo LSTM para previsão de vendas. Além disso, você pode demonstrar como lidar com dados sazonais e tendências.

Por que é bom para o portfólio? Ele destaca suas habilidades em análise de séries temporais e previsão, que são muito valorizadas em áreas como e-commerce e planejamento de estoque.

Link para o dataset: https://www.kaggle.com/competitions/walmart-recruiting-store-sales-forecasting/data

 

4. Customer Segmentation - Credit Card Data

Se o seu foco é análise de dados e clustering, o dataset de Customer Segmentation com dados de cartões de crédito é uma excelente opção. Ele contém transações de clientes, e o objetivo é segmentar esses clientes em grupos com comportamentos semelhantes. Esse tipo de análise é muito comum em marketing e gestão de relacionamento com clientes. Aplicar técnicas como K-Means, PCA (Análise de Componentes Principais) e DBSCAN pode ser um diferencial.

Por que é bom para o portfólio? Ele mostra sua capacidade de segmentar clientes, uma habilidade muito útil em marketing e análise de negócios.

Link para o dataset: https://www.kaggle.com/datasets/arjunbhasin2013/ccdata

 

5. Netflix Shows - Recomendação de Filmes

O dataset de Netflix Shows é ideal para quem quer demonstrar habilidades em sistemas de recomendação, uma área muito procurada em diversas indústrias, especialmente no entretenimento. Esse dataset contém informações sobre uma vasta gama de shows e filmes disponíveis na Netflix, como gênero, data de lançamento e classificação. O desafio aqui pode ser construir um sistema de recomendação que sugira filmes ou séries para os usuários com base em seus interesses e no histórico de visualizações.

Por que é bom para o portfólio? Ele permite que você mostre habilidades em sistemas de recomendação, que são essenciais para criar experiências personalizadas para os usuários, além de demonstrar conhecimentos em manipulação de dados e machine learning.

Link para o dataset: https://www.kaggle.com/datasets/shivamb/netflix-shows/data

Quer aprender mais sobre como criar seus modelos de Machine Learning?

Temos 3 opções de cursos:

  1. Clusterização com Linguagem Python
  2. Classificação com Linguagem Python
  3. Regressão com Linguagem Python
NEWSLETTER

Quer ficar por dentro de novidades, dicas e conteúdos da área de dados?

Inscreva-se, então, em nossa newsletter e não perca as novidades do blog.

Você está seguro. Nunca te mandaremos spams ou venderemos seu contato.