Tecnicas de implementação do processo de etl

Categories: Trabalhos

0

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLÓGIA DO RIO DE JANEIRO – IFRJ PRÓ-REITORIA DE pós GRADUAÇÃO, PESQUISA E INOVAÇÃO COORDE-NADORIA DE CURSOS DE PÓS-GRADUAÇÃO LATO SENSU orq to view nut*ge GUSTAVO BORBA Pl MONOGRAFIA APRESENTADA AO INSTITUTO DE DESENVOLVIMENTO HUMANO E GESTÃO EMPRESARIAL COMO REQUISITO PARCIAL À OBTENÇÃO DO CERTIFICADO DE MBA EXECUTIVO EM (ANÁLISE E PROJETO DE DATA WAREHOUSE) seguir em frente. A FUNCEFET e seus professores no qual lecionaram neste período.

A minha família, por sempre acreditar em mim e não deixasse que eu desanimasse durante este período. RESUMO O desenvolvimento de um ro•eto de gl requer muita cautela em todo seu plan através deste, PAGF 51 I CRM I DBA I ERP Isco I Customer Relationship Management IAdministrador de Banco de Dados IData mart Data Warehouse IEnterprise Resource Planning Extract, Transform and Load ISIowIy Changing Dimension SUMÁRIO CAPÍTULO II 1. Introdução 1 1. 1. que ? 1 1. 2. Data Warehouse 1 1. 3. Data Marts 2 1. 4. MetodoIogias Utilizadas 2 1. 5. Objetivo do Trabalho Proposto 4 CAPÍTULO II 5 2. Entendendo o processo de ETI_5 2. 1. ETL S 2. 2. 1ntegraçào de Dad O PROBLEMA Introdução 1. 0 queéBl? Nos dias de hoje, o sucesso de uma empresa depende da apacidade de seus diretores tomarem decisões adequadas, tendo em vista uma série de fatores tais como clientes, fornecedores, mercado, localidades dentre outros.

Este processo de tomada de decisão vem dando um maior significado ao termo Bl que do inglês significa Business Intelligence, ao traduzirmos teremos a expressão inteligência do negócio. O interesse pelo 31 vem crescendo consideravelmente, pois esta tecnologia permite às empresas transformar os dados contidos em seus sistemas, em informações qualitativa, possibilitando uma série de análises e projeções de forma a auxiliar e agilizar o processo relacionado a omada de decisão. 2.

Data Warehouse O crescimento do volume de dados nas empresas, faz com que se torne cada vez mais difícil analisá-los em seus sistemas de origem, pois muitas vezes estes dados não estão tratados de forma adequada para uma análise mais detalhada. A estruturação e consolidação dos mesmos deve ocorrer em um local diferente dos sistemas transacionais, na grande maioria das vezes esta consolidação ocorrem em um Data Warehouse(DW), que segundo a definição de William Bill Inmon, considerado pai do DW, é um repositório de dados orientados por assuntos, não volátil (os ados nao sofrem modificações) e integrados.

Neste repositório, apenas ocorrem às operações de carga e consultas dos dados, não ndo a atualização dos PAGF 1 externas, A meta de um DW é basicamente fornecer informações a quem necessitar, para que possam ser analisadas as tendências históricas de um determinado assunto. 3. Data Marts A criação de um DW pode ser muito complexo, demorado e requer um investimento muito alto, por estes motivos muitas empresas optam por começar pelos departamentos individualmente, gerando assim os Data Marts departamentais, para depois integra-los e gerar o Data Warehouse.

Os Data Marts são bancos de dados modelados multidmensionalmente, orientados aos departamentos de uma empresa, diferenciando-se de um DW pelo fato de que estes tratam das questões departamentais (um departamento especifico) ou de assuntos delimitados (um assunto especifico), já o DW envolve as necessidades de toda a empresa, atuando em todos os níveis organizacionais. 4. Metodologias Utilizadas Para que um DW possa responder as consultas análiticas de maneira rápida, mostrando todos os detalhes em sua resposta ele deve possuir uma arquitetura capaz de coletar e manipular os dados de forma correta e agil.

A esolha da arquitetura é uma decisão gerencial, no qual a implementação depende de vários fatores a serem analisados. Dois gurus desta tecnologia, Ralph Kimbal e Bill Inmon, adotam metodologias totalmente diferentes, onde Kimbal defende que as empresas devem desenvolver data marts departamentais para posteriormente integrá-los e, assim, chegar- se ao DW, já Inmon tem um pensamento diferente, ele propõe exatamente ao contrário de Kimbal.

Na sua análise primeiro as empresas devem desenvolver um Data Warehouse, envolvendo todas as áreas da empres um único modelo 51 único modelo corporativo, para que posteriormente seja esenvolvido os Data Marts orientados por assuntos ou departamentos. Figura 1 – Metodologia proposta por Kimball Fonte: O Próprio O maior problema com relação a metodologia adotada por Inmon, é o tempo que se leva para vê algum resultado do projeto, com isso as empresas que estão adotando esta metodologia houve um grande começam a questionar o dos dados.

DESENVOLVIMENTO Entendendo o processo de ETL Sigla que no inglês significa Extract Transform Load (Extração Transformação Carga). É um processo que permitem mover dados de vanas fontes, tratá-los e formatá-los de acordo com a ecessidade, deixando-os uniformes para que em seguida, estes sejam carregados em uma ou várias fontes distintas tais como em outros bancos de dados, data mart, data warehouse ou até mesmo em flat — files, de forma a apoiar o processo de tomada de decisão. Durante esse processo a Limpeza dos dados pode ocorrer para remover duplicidade e garantir a consistência.

Esta etapa é considerado uma das fases mais críticas de um Data Warehouse, já que se uma informação for carregada de forma erroneamente, pode trazer conseqüências imprevisíveis nas fases posteriores, além de uma análise errada na informação fazendo com que seja omada uma decisão equivocada. Muitas empresas vêm adotando este processo para o simples fato de remover dados de ara outro, como por PAGF 7 51 mesmos. O desafio principal na integração dos dados é fazer com que todos estes sistemas contidos na empresa trabalhem juntos de forma consolidada, sem que haja divergências entre os dados.

A essência da integração de dados é identificar e integrar objetos semanticamente relacionados em bases diversas. A semântica é o estudo cientifico das relações entre símbolos e sinais e o que eles representam ou significam. Esta questão pode ser observada entre departamentos dentro da mesma mpresa onde um determinado atributo pode possuir o mesmo significado, no entanto, com nomes diferente, ou um atributo pode possuir o mesmo nome com significado diferente.

Existem outros problemas ocasionados pela semântica, tais como conflitos de representação de dados, o mesmo atributo com tipo diferente; conflito de unidade monetária, precisão, dentre outras. Para sanar este problema devemos ter um repositório de Metadados bem definido, englobando todas as áreas da empresa. 3. A equipe Como já podemos observar anteriormente, uma forma rápida e sucinta de descrever a responsabilidade de uma equipe de

ETL, seria extrair os dados dos sistemas de origem, tratá-los e transformá-los para que depois possamos carregá-los em um destino, que normalmente é um Data Warehouse, porém está é uma responsabilidade básica da equipe, existem tarefas de extrema importância por trás deste processo, como : • Definir o escopo do processo de ETL; • Analisar os sistemas de origem; • Definir uma estratégia para aplicar a qualidade dos dados; • Levantar e Documentar as re • Desenvolver e im PAGF 8 1 ras de negócio ; rotinas de ETL; Desenvolver e implementar as rotinas de ETI_; • Criar planos de teste; ?? Implementar o processo em produção; • Realizar a manutenção do processo; Além dessas tarefas, a equipe de ETL pode realizar descobertas significativas, que afetam as necessidades dos usuários, tais descobertas nas fontes de dados ampliam a capacidade dos usuarios na tomada de decisão. Com essas tarefas fica fácil de enxergar como uma equipe de ETL poderia ser composta : • um gerente de ETL; • Uma ou mais pessoas responsáveis pela arquitetura do projeto; • Desenvolvedores; • Analistas de Sistemas; • Uma ou mais pessoas responsáveis pela qualidade dos • DBA(S) • Uma ou mais pessoas responsáveis pelos testes; De acordo com Kimball, a missão da equipe de ETC pode ser resumida em três funções básicas: • Entregar os dados de forma eficaz ao usuário final; • Adicionar valor aos dados, limpá-los e validá-los; • Proteger e documentar o mapeamento dos dados. 4.

Ferramentas de ETC aprendizado e outras são mais complexas, contudo ao utilizar uma ferramenta de ETL, ganha-se tempo, muitas vezes performance e flexibilidade. As ferramentas de ETL são de grande valia, pois são bastante poderosas a ponto de trabalhar com várias fontes de dados dos sistemas transacionais, além de a maioria servir como uma xcelente fonte de geração de metadados, contribuindo com a equipe, no entanto, devemos tomar cuidado ao escolher que ferramenta iremos utilizar, pois como já foi dito, cada uma tem sua particularidade, além do custo muito elevado, por isso é necessário um estudo detalhado para verificar se esta vai lhe atender de acordo com sua necessidade.

Apesar das ferramentas serem de grande valia não se descarta a hipótese de termos que criar rotinas de carga para atender determinas situações que poderão ocorrer, contudo os benefícios com a aquisição de uma ferramenta será de bastante valia e a produtividade aumentará consideravelmente. Comprar ou Desenvolver ? Antes de iniciarmos o desenvolvimento do processo de ETL, nos deparamos com uma questão delicada de se resolver, que é a de comprar uma ferramenta que realizará o processo ou utilizaremos os recursos existentes para desenvolvê-lo ? Depende. A resposta pode até parecer num primeiro momento uma resposta padrão, no entanto para termos certeza do que é melhor em um determinado momento é preciso analisar as duas opções cautelosamente. A um tempo atrás as empresas que estavam realizando projetos de Data Warehouse utilizavam códigos escritos pela própria empresa para apo de ETL, pois não

Resenha do filme desmundo

0

Resenha. Filme: “Desmundo”. O filme começa com o fundo cronologico de 1570, contando a história de Oribela uma jovem portuguesa,

Read More

Filosofia do curriculo

0

Em relação aos programas do 10 Ciclo do Ensino Básico destaque em cada disciplina aqueles conteúdo, actividades e competências que

Read More