Silvio Lima

Cientista de Dados / Engenheiro de Dados / Engenheiro Cloud

Nome: Silvio César De Lima

Profile:
Cientista de Dados
Engenheiro de Dados
Engenheiro Cloud

Email: silviolima07@gmail.com

Fone: (+55)1299646-2527

Habilidades

Python 90%
EDA - Análise Exploratória 90%
Visualização de Dados 85%
Deploy 90%
WebScrap 85%
About me

Me chamo Silvio César De Lima, pós graduado em Business Intelligence pela universidade de Taubaté e Tecnólogo em Banco de Dados pela FATEC – SJC.
Atuei por mais de 20 anos com suporte e treinamento Unix (Solaris).

Experiência com Unix e Linux.
Linguagens:
Python, R e SQL.
Experiência em análise de dados com:
Jupyter Notebook, RStudio e Google Colab.
Visualização de dados com:
Tableau e Power BI.
Deploy de Web apps com:
R / Shiny e Python / Streamlit / Flask.
Algoritmos de Machine Learning com:
R e Python.
Serviços AWS:
EC2, S3, Athena, Sagemaker e outros.

Busco uma oportunidade para iniciar carreira em Data Science e Cloud.

Conclui em Janeiro de 2020 a Formação Cientista de Dados na Data Sciency Academy - DSA.
Conclui em Junho de 2022, a Formação Inteligência Artificial aplicada a Medicina.

Treinamentos:
Bootcamp de Engenharia de Dados
- pela HowEdu - 08/2022 a 10/2022

Bootcamp MultiCloud (AWS | Azure | GCP)
- pela TheCloudBootcamp - cursando


Certificações AWS:
- Cloud Practitioner
- Solutions Architect Associate

Portfolio de Projetos de Cloud

Serviços de cloud utilizados
EC2
S3
IAM
Ansible
Auto Scaling
Bean Stalk
Redshift
Terraform
Load Balancer
SNS
RDS
System Manager
Metabase
Power BI

Criar tabelas no Redshift Serverless e gerar um dashboard com Metabase

AWS / 21/06/2023

Ler 5 arquivos csv a partir de um bucket.
Copiar as tabelas dentro do Redshift Serverless.
Gerar um dashboard com Metabase.
Serviços: S3, Iam, Redshift Serverless e Metabase.

Gerar Dados de Vendas e Dashboard no Power BI

AWS / 19/06/2023

Usando a lib Faker criar dados sintéticos de vendas.
Salvar os dados num bucket da AWS.
Gerar um dashboard e atualizar sob demanda ou agendamento.
Serviços: Git Actions, S3, Iam e Power BI.

MVP de um E-commerce

AWS / 18/02/2023

Construção de um MVP de um site de e-commerce.
O Terraform e o Ansible foi usado nesse projeto.
O Magento foi a base de construção do site.
Serviços: EC2, IAM, Terraform, Ansible e Magento.

Execução de comandos em servidores na cloud

AWS / 08/02/2023

Dois servidores precisavam ser atualizados com agentes de segurança.
O Terraform foi configurado para criação da infraestrutura e o System Manager aplicou a atualização em cada instância criada.
Serviços: EC2, IAM, System Manager, SNS e Terraform.

Migração de aplicação on premise para cloud

AWS / 25/01/2023

Uma aplicação, Wiki, rodando localmente foi migrada para execução na AWS.
Foi feito o planejamento do projeto, os recursos foram provisionados e a migração concluida com sucesso.
Serviços: EC2, RDS, VPN, Subnet e Internet Gateway.

Criar contas de usuários via script na AWS

AWS / 20/12/2022

Foram criados 5 grupos para administrar as permissões dos usuários.
Dentro do CloudShell na AWS, foi executado o script bash que cria o usuário no seu respectivo grupo.
Tools: Bash, CloudShell, IAM.

Caged - dados de empregos formais no Brasil

AWS / 20/10/2022

Web scrap de dados do site do Caged usando Python.
Dados são salvos num bucket e posteriormente copiados para um cluster do Redshift. As tabelas geradas são lidas pelo Metabase, que gera um dashboard apresentando os dados.
Tools: Python, GitHub Action, S3, Redshift e Metabase.

AWS CI/CD - Continous Integration / Continous Delivery

AWS / 25/04/2021

Implementação do CI/CD, usando CodeDeploy, CodeBuild e CodePipeline.
Uma aplicação é recompilada, o código atualizado e a versão nova é levada para um bucket no S3 que hospeda um site estático.

Hands on AWS - Load Balancing

AWS / 21/03/2021

Implementação do serviço de Load Balancing, simulando dois ambientes.
Dois grupos de instâncias distintas, onde uma aplicação HTTP rodando em cada instância do grupo é acessada, de acordo com um filtro implementado na url do DNS do load balancer.

Portfolio de Data Science

Linguagens: Python e R
Web Scrap
Análise Exploratória
Treinamento de modelos
Deploy de modelos
Dashboard
MLFlow
Pycaret
Ngrok
PySpark
Git Actions

Estudo das Transações com Pix no Brasil

Data Science / 14/09/2023

Análise das transações via Pix realizadas em 2022 e 2023.
Total de transações feitas por cidade.
Ao longo do dia.
Transações feitas até o momento em 2023.

-->

Campeonato Brasileiro Serie A 2023

Data Science / 15/08/2023

Extrair Dados de Page Web e Criar Aplicação Web para Visualização
Uma planilha CSV foi extraida através do Git Actions que executou um script Python para ler uma página web.
Os dados coletados foram tratados e utilizados como dataset para criação de uma aplicação web com Streamlit.

-->

Análise de Viagens de Ônibus em 2019

Data Science / 27/07/2023

Identificar insights a partir do serviço prestado.
Foram lidos 6GB de dados usando pyspark, foram feitos agrupamentos criando assim diferentes conjuntos para análise.
Foram gerados diversos gráficos e por um modelo usando Prophet, prevendo a quantidade de viagens para a cidade de São Paulo.

Fake Data

Data Science / 11/06/2023

Criação de dados para testes de modelos e análises.
Existem templates de dados prontos, tais como nomes, endereços e sexo.
Novos dados podem ser criados de acordo com a necessidade e objetivo.

Stocks & Prophet

Machine Learning / 10/05/2023

Previsão do valor de uma ação nos próximos 365 dias.
yfinance - lib para extração de dados da bovespa.
prophet - previsão dos preços de fechamento das ações.

Colab, MLFlow, Ngrok e Pycaret

Machine Learning / 02/05/2023

Exemplo de integração de ferramentas para análise de Churn.
Colab - ambiente de desenvolvimento.
MLFlow - salvar os artefatos (parametros, graficos, etc...) gerados.
Ngrok - compartilhar o desenvolvimento do app.
Pycaret - tratar, treinar os dados e avaliar os modelos.

Github Action: Atualizando um dashboard

Automação / 10/03/2021

Veja-> Dashboard Vagas em Data Science
Atualização e publicação de dashboard criado com Datapane.
A execução dos passos é administrada pelo Github Action.
Que permite gerenciar o ambiente de execução, a sequência dos passos e também acessar Tokens/Keys como variáveis de ambiente, mantidas criptografadas em Github/Settings/secrets.
Github: https://github.com/silviolima07/datapane-vagas

Integrando: PDI, S3 e Power BI

Manipulação de dados / 06/10/2020

Levando dados via Pentaho PDI até o serviço de repositório AWS, Bucket S3.
Buscando os dados no S3 através de scripts Python no Power BI.

Chatbot B3

Time Series / Heroku / 09/08/2020

Chatbot que traz a cotação de 3 ações.
Faz a previsão usando a lib Prophet.

AUTOENCODER
- Detecção de Anomalias / Fraude
- Remoção de Ruido / Redução de Dimensão

Machine Learning / Redes Neurais / 24/04/2022

A arquitetura do autoencoder se baseia no aprendizado de caracteristicas de entrada, que devem estar presentes na saida.

Previsão de Preço

Machine Learning / Streamlit / 08/07/2020

Projeto que iniciou com a coleta de dados, via scrap em sites de venda de apartamentos.
Seguido pelo tratamento dos dados, treinamento do modelo e deploy na nuvem.
Veja em Artigos e Raio-X

Kaggle & Colab

Análises / Github / 13/03/2020

Análise exploratória, treinamento e avaliação de modelos.
- Comparecimento as Consultas no Sus
- Classificação da Pressão Sanguinea
- Segmentação de Clientes

Previsão da Ação Petr4

Regressão / Shinyapps / 04/12/2019

Exemplo de aplicação do algoritmo Arima numa série temporal.

Tableau Public

Dashboards / Tableau / 04/09/2019

Diversos dashboards construidos com dados públicos.

Controle de Peso

Alg. Genéticos / Shinyapps / 29/07/2019

Modelo configurado para descoberta dos itens que respeitem critérios.
O peso total <= 10kg.

Análise de Acidentes de Transito

Apriori / Shinyapps / 07/07/2019

Descoberta dos elementos que compõem um acidente de trânsito.

Rpubs

Gráficos / Rpub / 15/04/2019

Estudos de aplicação de R para criação de gráficos.
Rpbus repositório público.

R - Modelo Titanic

Classificação / Shinyapps / 18/06/2019

Modelo construido usando R.

Raio-X

Detalhes - Frameworks - Github

Etapas do Processo

Definição

A partir do entendimento pleno de um problema enfrentado no dia-dia pelo cliente, definir as possíveis fontes de dados que compõem a solução.
Uma vez coletados, iniciam-se as etapas de tratamentos e limpeza dos dados, bem como a análise exploratória.
De acordo com o problema, algoritmos são treinados e avaliados até atingir um valor de precisão acordado. Todas etapas, podem se repetir, dependendo das decisões que serão tomadas.
Com o modelo concluído, temos a entrega, onde um relatório de testes e documentação são entregues. Podendo a solução ser acessada por exemplo na forma de uma aplicação web na nuvem.

Web Scrap

Coleta de Dados

Empresas precisam tomar decisões diariamente, a partir de dados históricos acumulados, essa tomada de decisão pode ter maior probabilidade de acerto, quando suportada por dados.
Porém, nem sempre dados internos bastam e outras fontes precisam ser consultadas e mais dados incluidos.
Web Scrap, permite exatamente essa operação. A partir de bibliotecas Python ou R, páginas da internet podem ser lidas e as informações desejadas serem extraidas e assim gerar uma base de dados nova.
No modelo que faz Previsão do Preço Venda de Apartamento, fiz o scrap em 200 páginas e extrai 4000 anúncios.

Código:
Github-Regression_Apartment

Deploy

Deploy do modelo

A conclusão de um projeto de machine learning, pode se constituir da entrega dos relatórios de teste, a documentaçao gerada e de uma aplicação web, onde o cliente possa testar e avaliar a eficácia da solução.
A empresa pode verificar junto do pessoal de TI interno, a melhor forma de tornar a solução disponível aos interessados.
Em meus trabalhos com R usei a infraestrutura da RShinyApps para hospedar minhas aplicações usando a biblioteca Shiny.
Para aplicações Python, construidas usando as bibliotecas Streamlit e Flask, fiz a hospedagem no Heroku.
Basta acessar a url e utilizar.

Código:
Github-Web_App_Apartment

Artigos

Relatórios descrevendo:
coleta, limpeza e tratamento dos dados,
treinamento, avaliação e deploy dos modelos
Telegram - bot

Medium:
Chatbot B3

Coleta dos Dados

Medium:
Web Scrap

Tratamentos dos Dados

Medium:
Prevendo o Preço de Apartamentos

Deploy do Modelo

Medium:
Web-Apps: Deploy

Canvas

Medium:
Machine Learning Canvas