Entende-se por data science o conjunto de métodos e processos aplicados a um problema complexo e concreto, com o intuito de o resolver. Pode ser utilizada a inferência de dados, o desenvolvimento de algoritmos e a tecnologia para analisar os dados recolhidos e entender alguns fenómenos, identificando padrões. É necessário que os data scientists tenham conhecimentos matemáticos e tecnológicos, e que tenham o mindset certo para atingir os resultados esperados.
O objetivo, no fundo, é que, através da unificação de conceitos como a estatística, a análise de dados e o machine learning, se possam desvendar comportamentos, tendências ou inferências em determinados dados, que não seriam possíveis identificar mediante uma análise simples. É a descoberta de valiosos insights que permitirá às empresas tomar melhores decisões de negócio e potenciar investimentos importantes.
Neste blog post desvendamos 7 passos importantes para que um projeto de data science possa ser implementado de forma a alcançar o sucesso.
1. Definir o tópico de interesse /pain-points da empresa
Para dar início a um projeto de data science é necessário perceber o que se estará a tentar descobrir. Que problema apresenta a empresa ou que objetivos se pretende atingir? De que tempo a empresa dispõe para trabalhar neste projeto? Como irá ser medido o sucesso?
Por exemplo, a Netflix utiliza técnicas avançadas de análise de dados para descobrir padrões de visualização por parte dos seus clientes, de forma a tomar decisões mais acertadas sobre as séries que produzirá de seguida; já a Google utiliza algoritmos de data science para aprimorar a colocação e demonstração de banners em display, seja publicidade ou re-targetting
2. Obter os dados necessários
Depois de definido o tópico de interesse, o foco passa a estar na recolha dos dados fundamentais para elaborar o projeto, provenientes das bases de dados disponíveis. Existem inúmeras fontes de dados, sendo que as mais comuns são bases de dados relacionais, sendo que existem também fontes de dados semi-estruturadas. Outra forma de recolher os dados necessários é efetuar as ligações adequadas a web APIs ou retirar diretamente dos websites que se pretendam eventualmente analisar (web scraping).
3. “Polir” os dados recolhidos
Este é o passo seguinte – e o que se revela mais natural – já que depois de extraídos os dados das suas bases originais, é necessário filtrá-los. Este processo é indispensável, uma vez que ao analisar dados sem relevância os resultados poderão ser desvirtuados.
Em alguns casos, será necessário alterar dados e colunas, para verificar se não existem variáveis em falta. Por isso, um dos passos a ter em conta é a junção de informação proveniente de diversas fontes, para que, no final, se possa trabalhar com uma boa base, criando um workflow eficiente.
É, também, conveniente que os data scientists tenham conhecimento acerca de algumas ferramentas, como Python ou R, que lhes permitam realizar a tarefa de “polir” os dados da forma mais eficiente.
4. Explorar os dados
Quando os dados extraídos estiverem prontos e “polidos”, é necessário proceder a uma análise. Cada tipo de fonte de dados tem características diferentes, o que implica que tenham um tratamento também diferente. Neste ponto, o fundamental é que se criem estatísticas descritivas e que se testem hipóteses – variáveis significantes.
Depois de testadas algumas variáveis, o próximo passo é colocar os dados obtidos num software de data visualisation, para que se consiga encontrar algum padrão ou tendência. E, agora sim, podemos passar para a inclusão da inteligência artificial e do machine learning.
5. Criar modelos analíticos avançados
Esta é a parte em que se modelam os dados recolhidos, tratados e analisados. É o momento de criar modelos para que se possam, por exemplo, predizer resultados futuros. No fundo, é nesta fase que os data scientists utilizam fórmulas de regressão e algoritmos para que se possam criar modelos preditivos e prever valores e padrões futuros, de forma a generalizar ocorrências e a tornar mais eficientes as decisões.
6. Interpretar os dados / recolher insights
Encontramo-nos praticamente no último nível de implementação de um projeto de data science. É a fase em que é necessário interpretar os modelos definidos e descobrir insights importantes para o negócio – encontrar generalizações para aplicar em dados futuros – e responder ou endereçar as questões que foram colocadas no início do projeto.
O objetivo de um projeto deste género é, precisamente, encontrar padrões que ajudem a empresas a tomar decisões: caso se deva evitar um comportamento ou repetir ações que tenham resultados manifestamente positivos.
7. Comunicar os resultados
A apresentação é também bastante importante, já que tem de ser claro para os stakeholders (muitas vezes, pessoal não técnico) quais os resultados do projeto. O data scientist tem de ter o “dom” de contar uma história, para que todo o processo faça sentido e para que encaixe na resolução do problema da empresa.
Se pretende saber mais sobre projetos de data science ou se procura aconselhamento, não hesite em contactar-nos.
Content and Digital Coordinator