Nome: Silvio César De Lima
Profile:
Cientista de Dados
Engenheiro de Dados
Engenheiro Cloud
Email: silviolima07@gmail.com
Fone: (+55)1299646-2527
Habilidades
Python 90%About me
Me chamo Silvio César De Lima, pós graduado em Business Intelligence pela universidade de Taubaté e Tecnólogo em Banco de Dados pela FATEC – SJC.
Atuei por mais de 20 anos com suporte e treinamento Unix (Solaris).
Experiência com Unix e Linux.
Linguagens:
Python, R e SQL.
Experiência em análise de dados com:
Jupyter Notebook, RStudio e Google Colab.
Visualização de dados com:
Tableau e Power BI.
Deploy de Web apps com:
R / Shiny e Python / Streamlit / Flask.
Algoritmos de Machine Learning com:
R e Python.
Serviços AWS:
EC2, S3, Athena, Sagemaker e outros.
Busco uma oportunidade para iniciar carreira em Data Science e Cloud.
Conclui em Janeiro de 2020 a Formação Cientista de Dados na Data Sciency Academy - DSA.
Conclui em Junho de 2022, a Formação Inteligência Artificial aplicada a Medicina.
Treinamentos:
Bootcamp de Engenharia de Dados - pela HowEdu - 08/2022 a 10/2022
Bootcamp MultiCloud (AWS | Azure | GCP)- pela TheCloudBootcamp - cursando
Certificações AWS:
- Cloud Practitioner
- Solutions Architect Associate
Portfolio de Projetos de Cloud
Serviços de cloud utilizados EC2S3 IAMAnsible Auto ScalingBean Stalk RedshiftTerraform Load BalancerSNS RDSSystem Manager Metabase Power BI
Criar tabelas no Redshift Serverless e gerar um dashboard com Metabase
Ler 5 arquivos csv a partir de um bucket.
Copiar as tabelas dentro do Redshift Serverless.
Gerar um dashboard com Metabase.
Serviços: S3, Iam, Redshift Serverless e Metabase.
Gerar Dados de Vendas e Dashboard no Power BI
Usando a lib Faker criar dados sintéticos de vendas.
Salvar os dados num bucket da AWS.
Gerar um dashboard e atualizar sob demanda ou agendamento.
Serviços: Git Actions, S3, Iam e Power BI.
MVP de um E-commerce
Construção de um MVP de um site de e-commerce.
O Terraform e o Ansible foi usado nesse projeto.
O Magento foi a base de construção do site.
Serviços: EC2, IAM, Terraform, Ansible e Magento.
Execução de comandos em servidores na cloud
Dois servidores precisavam ser atualizados com agentes de segurança.
O Terraform foi configurado para criação da infraestrutura e o System Manager aplicou a atualização em cada instância criada.
Serviços: EC2, IAM, System Manager, SNS e Terraform.
Migração de aplicação on premise para cloud
Uma aplicação, Wiki, rodando localmente foi migrada para execução na AWS.
Foi feito o planejamento do projeto, os recursos foram provisionados e a migração concluida com sucesso.
Serviços: EC2, RDS, VPN, Subnet e Internet Gateway.
Criar contas de usuários via script na AWS
Foram criados 5 grupos para administrar as permissões dos usuários.
Dentro do CloudShell na AWS, foi executado o script bash que cria o usuário no seu respectivo grupo.
Tools: Bash, CloudShell, IAM.
Caged - dados de empregos formais no Brasil
Web scrap de dados do site do Caged usando Python.
Dados são salvos num bucket e posteriormente copiados para um cluster do Redshift.
As tabelas geradas são lidas pelo Metabase, que gera um dashboard apresentando os dados.
Tools: Python, GitHub Action, S3, Redshift e Metabase.
AWS CI/CD - Continous Integration / Continous Delivery
Implementação do CI/CD, usando CodeDeploy, CodeBuild e CodePipeline.
Uma aplicação é recompilada, o código atualizado e a versão nova é levada para um bucket no S3 que hospeda um site estático.
Hands on AWS - Load Balancing
Implementação do serviço de Load Balancing, simulando dois ambientes.
Dois grupos de instâncias distintas, onde uma aplicação HTTP rodando em cada instância do grupo é acessada, de acordo com um filtro implementado na url do DNS do load balancer.
Portfolio de Data Science
CrewAI Linguagens: Python e R Web Scrap Análise Exploratória Treinamento de modelos Deploy de modelos Dashboard MLFlow Pycaret Ngrok PySpark Git Actions
Gerador de Gráficos
Este aplicativo faz uma recomendação de gráficos a partir de um conjunto de dados fornecidos. Um agente do CrewAI no papel de Especialista em Visualização análisa os dados, explica as colunas e propõe gráficos para entender o contexto a partir dos dados.
Análise de Viagens de Ônibus em 2019
Identificar insights a partir do serviço prestado. Foram lidos 6GB de dados usando pyspark, foram feitos agrupamentos criando assim diferentes conjuntos para análise. Foram gerados diversos gráficos e por um modelo usando Prophet, prevendo a quantidade de viagens para a cidade de São Paulo.
Colab, MLFlow, Ngrok e Pycaret
Exemplo de integração de ferramentas para análise de Churn.
Colab - ambiente de desenvolvimento.
MLFlow - salvar os artefatos (parametros, graficos, etc...) gerados.
Ngrok - compartilhar o desenvolvimento do app.
Pycaret - tratar, treinar os dados e avaliar os modelos.
Github Action: Atualizando um dashboard
Veja-> Dashboard Vagas em Data Science
Atualização e publicação de dashboard criado com Datapane.
A execução dos passos é administrada pelo Github Action.
Que permite gerenciar o ambiente de execução, a sequência dos passos e também acessar Tokens/Keys como variáveis de ambiente, mantidas criptografadas em Github/Settings/secrets.
Github: https://github.com/silviolima07/datapane-vagas
Integrando: PDI, S3 e Power BI
Levando dados via Pentaho PDI até o serviço de repositório AWS, Bucket S3.
Buscando os dados no S3 através de scripts Python no Power BI.
Chatbot B3
Chatbot que traz a cotação de 3 ações.
Faz a previsão usando a lib Prophet.
Raio-X
Detalhes - Frameworks - Github
Etapas do Processo
Definição
A partir do entendimento pleno de um problema enfrentado no dia-dia pelo cliente, definir as possíveis fontes de dados que compõem a solução.
Uma vez coletados, iniciam-se as etapas de tratamentos e limpeza dos dados, bem como a análise exploratória.
De acordo com o problema, algoritmos são treinados e avaliados até atingir um valor de precisão acordado. Todas etapas, podem se repetir, dependendo das decisões que serão tomadas.
Com o modelo concluído, temos a entrega, onde um relatório de testes e documentação são entregues. Podendo a solução ser acessada por exemplo na forma de uma aplicação web na nuvem.
Web Scrap
Coleta de Dados
Empresas precisam tomar decisões diariamente, a partir de dados históricos acumulados, essa tomada de decisão pode ter maior probabilidade de acerto, quando suportada por dados.
Porém, nem sempre dados internos bastam e outras fontes precisam ser consultadas e mais dados incluidos.
Web Scrap, permite exatamente essa operação. A partir de bibliotecas Python ou R, páginas da internet podem ser lidas e as informações desejadas serem extraidas e assim gerar uma base de dados nova.
No modelo que faz Previsão do Preço Venda de Apartamento, fiz o scrap em 200 páginas e extrai 4000 anúncios.
Código:
Github-Regression_Apartment
Deploy
Deploy do modelo
A conclusão de um projeto de machine learning, pode se constituir da entrega dos relatórios de teste, a documentaçao gerada e de uma aplicação web, onde o cliente possa testar e avaliar a eficácia da solução.
A empresa pode verificar junto do pessoal de TI interno, a melhor forma de tornar a solução disponível aos interessados.
Em meus trabalhos com R usei a infraestrutura da RShinyApps para hospedar minhas aplicações usando a biblioteca Shiny.
Para aplicações Python, construidas usando as bibliotecas Streamlit e Flask, fiz a hospedagem no Heroku.
Basta acessar a url e utilizar.