Blog do Eduardo

Tecnologia, Inovação, Negócios e muito mais...

Processo de um Projeto de Data Science

Neste artigo iremos abordar um caminho para atingir os objetivos de negócio com Data Science

  • 3 de Maio de 2018 às 12:00
Capa Post
Processo de um Projeto de Data Science

Esse artigo irá cobrir os seguintes assuntos:

  • Qual abordagem definir perfis de um Projeto de Data Science
  • Entendendo os estágios de um Projeto de Data Science
  • Definingo objetivos para um Projeto de Data Science

 O Cientista de Dados é responsável por conduzir um projeto de Data Science do começo ao fim. A garantia de sucesso em projeto de Data Science, não vem do uso de ferramentas sofisticadas, mas sim, a adoção de uma boa metodologia e seguindo boas práticas já consolidadas.

Este artigo irá tratar as problemas e situações típicas de um Projeto de Data Science, os tipos de objetivos para atingir os resultados esperados.

Os Perfis de um Projeto de Data Science

Um projeto de Data Science é o resultado de um esforço em conjunto de uma série de perfis, habilidades e as ferramentas certas. As técnicas de Gerenciamento de Projetos, combinadas com uma metodologia certa de Engenharia de Software irá garantir que tudo ocorra no tempo e budget esperados. Mas essa engrenagem só irá funcionar de maneira correta com a gestão das pessoas certas. Vamos conferir qual o caminho de maior sucesso para montar o seu time de projeto na tabela abaixo:

Perfil Responsabilidade

Sponsor do Projeto

Representa o interessado que tem um objetivo negócio a alcançar, normalmente o representado um perfil de administrador da área de negócio

Cliente

Representa um expert da área que será o usuário final

Cientista de Dados

Define e executa uma analise estratégica para atingir os objetivos de negócio do projeto; tem o papel de comunicar o Sponsor e Cliente

Arquiteto de Dados

Gerencia o armazenamento dos dados;

Operação

Gerencia a estrutura; Implanta a solução de Data Science

 

Algumas vezes é comum que esses perfis se sobreponham, em alguma fase do projeto, principalmente no caso dos papéis de Cliente, Arquiteto de Dados e Operações, com frequência são ocupados “especialista” em ciência de dados, mas sim por colaboradores da própria empresa.

Sponsor: é simplesmente o perfil mais importante do projeto. É a pessoa mais interessado que o projeto de Data Science alcance os objetivos de negócio. Tem a autoridade total pelo rumo do projeto, conduzindo ao sucesso ou fracasso. O Cientista de Dados pode preencher o papel de Sponsor no próprio projeto, caso seja necessário e pode representar as necessidades de negócios, mas esse não é a melhor prática. O Sponsor ideal atende à seguinte condição:

"Se estiver satisfeito com o resultado do projeto, então o projeto é um sucesso."

A obtenção da aprovação do Sponsor é o objetivo central de um projeto de ciência de dados.

Para o Cientista de Dados, é fundamental manter o Sponsor informados e envolvidos. Mostre a ele planos, progresso e progressos no projeto ou falhas que forma que seja compreensível a linguagem de negócios. Uma boa maneira de garantir o sucesso do projeto é justamente, não manter o Sponsor informado.

Clientetem a função de apresentar a visão do usuário final. Não é raro encontrar uma única pessoa realizando os dois papéis, porém esse “não  é  melhor prática”, pois é  difícil abstrair as duas funções, o que pode acarretar que o projeto não atinja o seu objetivo. Uma opção também é o Cientista de Dados representar o papel do Cliente, mas isso deve ser realizado com cautela e sempre que um modelo é proposto o ideal é que seja validado com situações reais, a fim de garantir a aderência. 

O Cliente deve ter o expertise de realizar o “meio de campo” entre o área de negócio e as áreas mais técnicas. Não é necessário que o Cliente seja um “mago dos dados”, mas que possua uma visão sistemática dos processos de negócio e uma certa familiaridade com Tecnologia da Informação. 

Cientista de Dados: responsável por conduzir o projeto, definindo a estratégia a ser implementada. Tem a função de manter o Sponsor informado e ativo com o desenrolar do projeto. Toda a abordagem no que se refere ao dados, devem ser concebidos pelo Cientista de Dados, como a manipulação, ferramentas e técnicas que serão usadas. Deve ter um amplo conhecimento das ferramentas de Data Science e também das técnicas, como estatísticas e Machine Learning. 

Arquiteto de Dados: O arquiteto de dados é responsável por todos os dados e seu armazenamento. Muitas vezes esse papel é preenchido por alguém fora do grupo de ciência de dados, como um administrador de banco de dados ou arquiteto de software. Os arquitetos de dados geralmente gerenciam o Data Warehouses para muitos projetos diferentes.

Operação: A função de operações é crítica tanto na aquisição de dados quanto na entrega dos resultados finais. O profissional que preenche essa função geralmente tem responsabilidades operacionais fora do grupo de projetos de Data Science.  Normalmente é quem controla as tarefas do dia-a-dia da empresa e conhece bem o processo. É importante se adequar ao seu modo de trabalho pois isso pode afetar a adoção da soluação, o que pode no final do dia não trazer nenhum valor agregado ao cliente.

Estágios de uma Projeto de Ciência de Dados 

O ambiente de um projeto de ciência de dados ideal é aquele que estimula o feedback e a interação entre o cientista de dados e todos os outros interessados. Isso se reflete no ciclo de vida de um projeto de ciência de dados. Frequentemente, você vai e volta entre dois ou mais estágios antes de avançar no processo geral. Isso é mostrado na figura abaixo. Mesmo depois de concluir um projeto e implantar um modelo, novos problemas e questões podem surgir ao ver esse modelo em ação. O final de um projeto pode levar a um projeto posterior. 

 

 Estágios de um Projeto de Data Scince

 

Como um exemplo do mundo real, suponha que você presta serviço para um banco. O banco acredita que está perdendo dinheiro demais para empréstimos ruins e quer reduzir suas perdas. É aqui que entra a o papel do time de Data de Science. 

Conclusão 

Dentre a enorme complexidade e desafio que pode se tornar uma projeto de Data Science é importante antes mesmo de dar o "ponta pé" inicial, definr bem os papeis que irão compor um time de Data Scince, pois isso evitara conflitos é irá máximizar a suas chances de sucesso. Um outro Aspecto é entender exatamente em qual estágio você se encontra, pois em uma infinidade de dados e problemas cada veis mais abstratos não é difícil de perder no projeto.

Referencias:

Partical Data Science with R
Practical Data Science with R
 
Autores: Nina Zumel and John Mount
Foreword by Jim Porzak
  • Lançamento: Março 2014 
  •  ISBN: 9781617291562 
  •  416 páginas
Data Science
  • COMENTÁRIOS: 0 Seja o primeiro a comentar!

Você tem o permissão de:

Compartilhar: copiar e redistribuir o material em qualquer suporte ou formato.

Adaptar: remixar, transformar, e criar a partir do material para qualquer fim, mesmo que comercial.

Esta licença é aceitável para Trabalhos Culturais Livres. O licenciante não pode revogar estes direitos desde que você respeite os termos da licença.


Blog do Eduardo - Todos os direitos reservados © 2020 Licença Creative Commons