Tiago Monteiro

taam

Data Scientist - Xpand IT

Assessment de Data Science: como analisar a viabilidade de um projeto

ESTE ARTIGO EM 5 SEGUNDOS:
  • Data Science é uma área que aplica novas técnicas, métodos e tecnologias que desbloqueiam todo o potencial dos dados para a sua empresa;
  • Antes de implementar um projeto de Data Science no seu negócio, precisa primeiro de fazer o ponto de situação sobre a sua viabilidade. Descubra como realizar um assessment de Data Science e como analisar a viabilidade de um projeto neste blogpost.

O valor dos dados é reconhecido em todos os setores, sendo a sua exploração um fator diferenciador que pode representar uma vantagem competitiva ou mesmo alterar a natureza do negócio. Data Science é uma área em voga, uma vez que aplica novas técnicas, métodos e tecnologias a problemas antigos que desbloqueiam todo o potencial dos dados e descobrem padrões ocultos nos dados.

Para assegurar o sucesso dos projetos de Data Science, é necessário realizar uma análise prévia de viabilidade. Cada empresa tem os seus requisitos específicos, prazos, métodos de acesso aos dados, especificações de dados, etc. Por essa razão, não é possível iniciar um projeto sem compreender o estado atual da organização e qual a direção que pretende seguir. Isto implica um alinhamento com o estado atual da plataforma dos nossos clientes, assim como as necessidades, expectativas e requisitos, mantendo como foco principal a resolução de problemas.

Assessment de Data Science

Por essa razão, será necessário avaliar (i) o grau de maturidade da recolha e processamento de dados, (ii) necessidades de volume e escala dos dados, (iii) tecnologias usadas na organização:

Maturidade da recolha e processamento de dados – Consiste em compreender se a organização tem capacidades bem desenvolvidas na recolha e armazenamento de dados para gerar o conhecimento pretendido através dos mesmos. De um modo geral, podem ser identificados três níveis: (i) nível introdutório, onde será necessário melhorar a recolha e processamento de dados para que as ferramentas de Data Science possam ser desenvolvidas; (ii) nível intermédio, quando o cliente já tem mecanismos de recolha, armazenamento e processamento de dados que permitem desenvolvimentos na área de Data Science; e (iii) nível avançado, no qual a organização já tem algum processo Data Science na respetiva área de negócio.

Necessidades de volume e escala – No capítulo da escala, será necessário compreender onde os dados são armazenados e qual é a sua escalabilidade (por exemplo, o trabalho será executado em computação distribuída ou localmente?).

Tecnologias utilizadas na organização – É importante compreender o contexto tecnológico de cada organização, para que possamos decidir com os nossos clientes a melhor solução para cada situação, aproveitando os benefícios de cada tecnologia enquanto minimizamos as suas limitações, de acordo com a situação.

Para além da componente tecnológica, a componente empresarial será também um aspeto fundamental para o sucesso. É tipicamente o elo de ligação entre o estado atual (AS-IS) e a visão futura (TO-BE). A compreensão do contexto de negócio será da maior importância em diferentes fases deste processo. Numa fase inicial, compreender o desafio, assim como os elementos que direta ou indiretamente têm impacto nos resultados, dependendo do tipo de projeto, podem ser fatores de contexto legal, fluxos de processo, especificidades do setor, linguagem técnica, etc. Numa fase de análise de dados, o contexto de negócio pode facilitar a identificação das relações entre varíaveis ou a avaliar a existência de padrões. O alinhamento das áreas tecnológica e empresarial é primordial, não só pelas razões acima referidas, mas também para facilitar a compreensão das fases seguintes.

Para compreender melhor a jornada “que caminho seguir”, é importante compreender algumas características como, por exemplo:

Qualidade e quantidade de dados – Os dados disponíveis serão críticos para definir não só o conjunto de problemas que podem ser resolvidos, mas também o processo e o esforço necessários para os desenvolvimentos necessários para cada cliente. Além disso, existe a possibilidade de recolher/armazenar/processar dados adicionais aos atualmente recolhidos/armazenados/processados?

Como será o modelo “alimentado” – Compreender a origem dos dados necessários para a o processo de treino, assim como os triggers e consultas feitas ao modelo (por exemplo, essas consultas são feitas a partir do front-end, back-end ou ambos?).

Contexto de utilização do modelo – A forma como o modelo será posteriormente utilizado será de grande importância para a definição do projeto (por exemplo, qual é a frequência dos pedidos, as consultas são feitas em tempo real ou em bloco? É aceitável um tempo de espera de cinco minutos para obter o resultado ou terá de ser entregue em tempo real?).

Natureza do problema – Os desafios solicitados podem exigir o desenvolvimento de um modelo, a preparação de um processo de monitorização e manutenção ou a extração de informação relevante, como data mining, com relações entre variáveis ou padrões nos dados.

Todas estas especificidades, em particular a estrutura e o respetivo conteúdo dos dados, tornam cada desafio único. Por esta razão, a incerteza é um fator constante em todos os projetos, especialmente na fase inicial em que as características dos dados e a realidade existente na organização são desconhecidas, em profundidade.

Perante tudo isto, a nossa equipa está pronta para ajudar a resolver qualquer desafio complexo. Definimos um processo para mitigar a incerteza natural dos projetos de Data Science ao mesmo tempo que garantimos que avançamos no âmbito do projeto e acrescentamos valor à empresa com a qual colaboramos, apoiados nestas metodologias ágeis.

  1. Analisamos a viabilidade do projeto a partir de perspectivas comerciais e técnicas e definimos os critérios de sucesso.
  2. Construímos e comparamos diferentes modelos, encontrando aquele que melhor satisfaz os critérios
  3. Utilizamos todos os conhecimentos adquiridos para planear e realizar a implementação e monitorização da nossa solução em produção, sabendo que uma solução de DS necessita de monitorização e acompanhamento constantes.

Este constante progresso levou a Xpand IT a receber o “Microsoft Partner of the Year Award” pelo segundo ano consecutivo em 2022, o que nos posiciona como especialistas em ferramentas Microsoft.

O nosso processo de Data Science

Perante tudo isto, a nossa equipa está pronta para ajudar a resolver qualquer desafio complexo. Definimos um processo para mitigar a incerteza natural dos projetos de Data Science ao mesmo tempo que garantimos que avançamos no âmbito do projeto e acrescentamos valor à empresa com a qual colaboramos, apoiados nestas metodologias ágeis.

  1. Analisamos a viabilidade do projeto a partir de perspectivas comerciais e técnicas e definimos os critérios de sucesso.
  2. Construímos e comparamos diferentes modelos, encontrando aquele que melhor satisfaz os critérios
  3. Utilizamos todos os conhecimentos adquiridos para planear e realizar a implementação e monitorização da nossa solução em produção, sabendo que uma solução de DS necessita de monitorização e acompanhamento constantes.

Este constante progresso levou a Xpand IT a receber o “Microsoft Partner of the Year Award” pelo segundo ano consecutivo em 2022, o que nos posiciona como especialistas em ferramentas Microsoft.

Tiago MonteiroAssessment de Data Science: como analisar a viabilidade de um projeto
read more