No mundo da análise de dados, o problema persistente de copiar e mover dados através de múltiplas ferramentas é um obstáculo significativo. No âmbito do Power BI Serviço, o lugar mais distante do consumo possível para a chegada de dados externos envolve o uso de um Dataflow (fluxo de dados) para copiar dados da fonte, para então copiá-los novamente para o conjunto de dados (ou outros dataflows) antes de estarem prontos para consumo. Antes disso, os dados podem ter sido fornecidos ao usuário do Power BI através de um DW (Data WareHouse) que potencialmente lê esses dados de um Data Lake. Vocês pegaram a idéia… Existem múltiplas cópias do mesmo dado pelo simples fato de que cada ferramenta exige isso.
Este processo não apenas adiciona camadas de complexidade, mas também levanta preocupações sobre a integridade, consistência e desempenho dos dados. A máxima de Roche, amplamente conhecida no campo, diz:
“Os dados devem ser transformados o mais a montante possível e o mais a jusante quanto necessário”
Aqui “montante” seria mais próximo da origem possível e “jusante” mais próximo do consumo possível.
Uma possível interpretação que pode resumir a máxima é: “Se você tem que processar seus dados mais de uma vez, você não deveria fazer isso.”
Aqui está uma versão modificada do excelente post de Paul Turkey explicando as múltiplas cópias de dados e os diversos locais onde os analistas podem processar e aplicar as diferentes lógicas de negócios.
Microsoft Fabric: Uma Mudança Revolucionária
A introdução do Microsoft Fabric marca uma mudança significativa no mundo de manipulação de dados, especialmente com a introdução de sua camada fundamental: OneLake. Atualmente em “public preview”, o Fabric está prestes a revolucionar a maneira como lidamos com cópias de dados. Projetado para desacoplar armazenamento e processamento dos diversos motores analíticos, Fabric facilita o uso da mesma versão de dados em vários fluxos de trabalho distintos, incluindo análise, ciência de dados e operações em tempo real. Essa reestruturação exigiu uma reformulação completa dos motores da Microsoft, com o Analysis Services e SQL agora lendo e escrevendo tabelas delta no formato parquet, informalmente conhecido como “delta parquet”.
Essa evolução leva a uma redução significativa nos silos de dados, tornando o Fabric uma solução verdadeiramente integrada para analytics. A tecnologia proprietária de compressão da Microsoft, VORDER (creio que signifique VertiPaq Order), originou-se nos modelos Analysis Services Tabular existentes em PowerPivot, Power BI e modelos AS (Analysis Services) que otimizam todo o sistema oferecendo desempenho de última geração que vem junto com extrema compressão para operações sobre esses arquivos parquet (armazenados coluna por coluna). Ou seja, todo motor de cálculo do Fabric já escreve os arquivos com essa otimização. A grande notícia é que esses arquivos são de código aberto e podem ser facilmente lidos por qualquer ferramenta de sua preferência, eliminando o bloqueio de fornecedor sobre os dados.
OneLake: A Solução para Múltiplas Cópias de Dados
OneLake, o verdadeiro alicerce que serve de fundação da solução Fabric, aborda a questão de múltiplas cópias de dados por meio de sua abordagem inovadora de criação de ‘atalhos’. Esses atalhos permitem a criação de produtos de dados virtualizados, eliminando a necessidade de múltiplas cópias de dados e movimentação de dados. O conceito é simples: você cria um atalho para os dados que deseja acessar, e ele aparece imediatamente em seu Lakehouse (um item no Fabric que permite organizar dados para um propósito específico).
Assim, todos os motores leem e escrevem o mesmo formato de arquivo no mesmo local. É a verdadeira democratização de como você pode fazer as coisas. Por exemplo, você não está mais limitado a usar a linguagem M do Power Query para fazer transformações. Você pode perfeitamente usar SQL ou Python para realizar a mesma tarefa. Isso é ENORME! E como um SaaS (Software as a Service), ele armazena em cache seus dados estrategicamente para obter desempenhos incrivelmente rápidos, enquanto os dados reais permanecem intactos em sua fonte.
O Futuro da Gestão de Dados: OneSecurity
Para mim, o verdadeiro recurso matador ainda está para ser lançado: OneSecurity. Este recurso levará a proposta de valor do OneLake para o próximo nível. Atualmente, precisamos configurar a segurança e as permissões no nível de armazenamento e/ou motor. OneSecurity visa trazer segurança aprimorada para a camada de armazenamento, isso significa que todo e qualquer motor vai estar sujeito ao mesmo nível de segurança.
Por “aprimorada”, quero dizer não apenas Segurança a nível de Workspace, mas também segurança mais granular como OLS (segurança a nível de objeto – selecionar tabelas), RLS (segurança a nível de linha – esconder linhas dentro de uma tabela), CLS (segurança a nível de coluna – esconder colunas dentro de uma tabela), e mais.
Esta mudança de paradigma tem o potencial de mitigar substancialmente ou até eliminar uma infinidade de problemas de governança de dados. Uma vez totalmente implementado, o OneSecurity abrirá o caminho para a verdadeira democratização governada de cargas de trabalho analíticas de dados. Isso nos aproxima mais do que nunca de alcançar uma única fonte de verdade confiável em nossos dados. Enquanto isso, quando uma segurança mais específica é necessária, continuamos a depender das soluções de segurança impostas por cada motor individual, como o RLS dinâmico nos datasets do Power BI.
Para finalizar, já é um fato que o Microsoft Fabric através do OneLake deu início a uma revolução na forma como gerenciamos dados, não apenas no Power BI, oferecendo soluções potenciais para o problema de longa data ao reduzir ou eliminar a existência de múltiplas cópias dos mesmos dados. Como mencionei em meu último artigo, também temos uma melhoria substancial para os usuários mais avançados do Power BI que requerem mais alternativas para atingir seus objetivos de transformação de dados no seu próprio ritmo.
Recent Comments