O que é Big Data - Artigo completo
Resumo
Este Artigo tem como finalidade mostrar uma visão geral do que é o Big Data, sua definição bem como sua importância nos dias atuais, onde é praticamente imprescindível para as corporações fazer uma análise rápida e efetiva de uma grande quantidade de informação proveniente dos mais diversos meios de interação que a internet consegue nos prover. Veremos também algumas soluções atuais para utilização do Big Data e considerações finais.
Introdução
Você já parou pra pensar na quantidade de dados que é criado todo dia na internet? Sejam através das redes sociais, operadoras de telefonia, transações de empresas do sistema bancário, companhias aéreas dentre outras que lidam com um grande volume de informação, agora imagine outro cenário, onde várias empresas como as citadas acima precisem ter um sistema de tomada de decisão confiável e se veja diante de tanta informação e não saiba o que fazer com ela. É neste cenário que entra o Big Data.
No decorrer do texto entenderemos porque este nome vem sendo cada vez mais utilizado no vocabulário das empresas e dos profissionais de Tecnologia da Informação, além dos motivos que faz sua contribuição ser tão bem vista por empresas, instituições governamentais, dentre outras.
“Big data e analytics prometem transformar a gestão de riscos e tomada de decisões, oferecendo mais informação e velocidade.” —Bill Sweeney
Conceito
O conceito de Big Data pode ser definido como um conjunto extremamente amplo de dados e que devido a este fato, necessite de ferramentas específicas para lidar com grande volumes, de forma que as informações contidas nestes meios possa ser encontrada, analisada e aproveitada em tempo hábil.
Abaixo temos algumas definições de autores importantes na área:
MCAFEE, A; et. al. (2012) (Harvard Business Review)
“Big Data é como uma forma essencial para melhorar a eficiência e a eficácia das organizações de vendas e marketing. Ao colocar Big Data no coração de vendas e marketing, os insights podem ser aproveitados para melhorar a tomada de decisão e inovar no modelo de vendas da empresa, o que pode envolver a utilização de dados para orientar ações em tempo real.”
DEMIRKAN, et. al. (2012) (Decision Support Systems)
“Há o desafio de gerenciar grande quantidade de dados(Big Data), que esta ficando cada vez maior por causa do armazenamento mais barato e evolução dos dados digitais e dispositivos de coleta de informações, como telefones celulares, laptops e sensores.”
INTERNATIONAL DATA CORPORATION
“As tecnologias de Big Data descrevem uma nova geração de tecnologias e arquiteturas projetadas para extrair economicamente o valor de volumes muito grandes e de uma grande variedade de dados, permitindo alta velocidade de captura, descoberta e/ou análise.”
Após estes esclarecimentos fica fácil perceber o cenário em que o Big Data é aplicado. Trocamos milhões de e-mails por dia, transações bancárias acontecem no mundo todo a cada segundo, soluções sofisticadas gerenciam a cadeia de suprimentos ou sistemas de informação transacionais de várias fábricas nesse exato momento, tráfego de dados de operadoras, sistemas de ERP de inúmeras companhias, dentre outros e outros exemplos que nos vem prontamente à cabeça.
“Data is the new Oil” - Richard D. Titus, CEO
Desta forma, se uma empresa souber como utilizar os dados que tem em mãos, poderá entender como melhorar um produto, como cortar gastos, como criar uma estratégia de marketing mais eficiente, como evita o desperdício de recursos, como superar um concorrente, como disponibilizar serviços para um cliente especial de maneira satisfatória e assim por diante.
Importância do Big Data
A humanidade sempre lidou com dados desde o seu princípio, porém, nos tempos atuais, os avanços da computação nos permitem guardar, organizar e analisar dados de forma mais fácil e de forma bem mais frequente. Cenário este que muito dificilmente deixará de ser crescente, é só pensar na computação ubíqua ou na internet das coisas (IoT – Internet of Things) onde vários dispositivos estarão conectados, geladeiras, lavadoras de roupa, TV’s, cafeteiras, dentre outros.
Olhando a era atual já vemos uma mudança brusca em relação à décadas anteriores, as tecnologias atuais nos permitem aumentar exponencialmente a quantidade de informações no mundo e, agora, governos empresas e outras instituições precisam saber lidar com esta “explosão de dados”. O Big Data se propõe a ajudar nesta tarefa.
“Todos os dias, nós criamos 2,5 quintilhões de bytes de dados - tanto que 90% dos dados no mundo atual foram criados nos últimos dois anos. Estes dados vêm de toda parte: sensores usados para recolher informação sobre o clima, as mensagens para sites de rede social, fotos digitais e vídeos, registros de compra de transação, e os sinais de telefone celular GPS para citar alguns. Essas informações é Big Data.” (IBM)
Um estudo desenvolvido pelo SAS, em parceria com o Instituto Internacional de Analytics (IIA), mostrou a importância do Big Data para as companhias. O relatório, que contou com a participação de 20 empresas e apontou histórias de sucesso e depoimentos de grandes empresas do mercado, é o maior estudo sobre Big Data em múltiplas indústrias já publicado.
Iniciativas de big data permitem que empresas possam analisar dados estruturados e não estruturados como, por exemplo, registros de call center, blogs e textos de mídias sociais, a partir de fontes internas e externas, e descobrir oportunidades até então escondidas. Executivos de empresas pioneiras no modelo ressaltaram que obtiveram elevado retorno de investimento, criando novas possibilidades de negócios e ajudando suas organizações na condução de processos mais baratos, rápidos e eficazes.
Os executivos entrevistados para a elaboração do estudo confirmaram o valor da combinação de relatórios, análise, pesquisa, proteção e recuperação em uma única plataforma de big data. Ao invés de substituir, ambientes de big data podem coexistir com as infraestruturas de armazenamento dados e de inteligência de negócios existentes.
O relatório constatou que a transformação das organizações por meio do analytics exige novas habilidades, lideranças, estruturas organizacionais, tecnologias e arquiteturas. A maioria das organizações pesquisadas está aumentando suas equipes de análise existentes, acrescentando posições como cientistas de dados para melhor manipularem tecnologias de big data. Qualidade, profundo conhecimento em arquitetura de dados e centros de gerenciamento de dados são apenas o começo para as empresas que procuram no big data um diferencial de longo prazo.
Aspectos de influência no Big Data
Com o passar do tempo e com o intuito de tornar mais clara a ideia de Big Data, alguns especialistas começaram a resumir o tema em aspectos que possam descrever um sistema funcional, foram então criados os 5 V’s (Volume, Velocidade, Variedade, Veracidade e Valor)
O aspecto Volume que já pode ser imaginado instantaneamente, trata da quantidade de dados bastante grande e como vimos anteriormente, tende a crescer exponencialmente e que na maioria das vezes são subutilizados por estarem nessas condições.
A Velocidade é outro ponto de fácil assimilação, pois o tratamento de dados (que envolvem obtenção, gravação, atualização.. etc.) deve ser feito o mais rápido possível, ou em tempo hábil para a atividade em questão, basta imaginar um sistema de transações online de cartão de crédito por exemplo, que realiza uma confirmação de dados rápida através da rede e em escala global e com a segurança necessária para se certificar que uma fraude não esta ocorrendo.
A Variedade também é de grande importância, já que o grande volume de dados existentes provém da diversidade dos tipos de informações, o que temos atualmente são dados estruturados, ou seja, armazenado em banco de dados e também dados não estruturados oriundos de outras fontes, assim como as imagens, áudio e vídeo, portanto saber tratar e associar essa variedade é um ponto crucial e pode inutilizar a atividade se não forem assimilados corretamente.
A Veracidade também deve ser levada em conta, pois, não adianta ter os aspectos citados acima, se os dados não forem confiáveis ou inconsistentes. Faz se necessário o uso de processos que garantam o máximo de consistência dos dados, imaginemos se no exemplo da transação do cartão de crédito citada antes, a operadora bloqueasse uma operação genuína por achar que seria uma fraude.
E por ultimo e não menos importante o Valor, afinal informação é um patrimônio e a combinação dos fatores acima de nada valeria se a utilização dos mesmos se tornasse inviável ou não trouxesse um beneficio significativo.
Soluções de Big Data
Além de lidar com grandes volumes de dados dos tipos mais variados, as soluções de Big Data precisam trabalhar com processamento distribuído e serem flexíveis, ou seja, devem suportar aplicações com volumes de dados que crescem substancialmente em pouco tempo. O problema é que os bancos de dados tradicionais (os que trabalham com o modelo relacional, como MySQL e Oracle) não se encaixam nesses requisitos, justamente por não serem tão flexíveis, já que algumas propriedades desses sistemas são restritivas para o uso como uma solução Big Data.
É neste ponto que entra o conceito de NoSQL, denominação atribuída à expressão inglês “Not Only SQL” (Não apena SQL). O NoSQL se refere a soluções de banco de dados que possibilitam o armazenamento de diversas formas, não se limitando apenas ao modelo relacional tradicional. E no geral, quando se tem em mente uma ampliação, trabalhar com um banco de dados NoSQL é mais fácil e menos custoso, isso devido ao fato de suas propriedades de flexibilidade, pois, esses bancos já são otimizados para trabalhar com processamento paralelo, distribuição global (vários Data centers) ou aumento imediato de sua capacidade.
Aliado a isso podemos acrescentar o fato de que há mais de uma categoria de banco de dados NoSQL, fazendo com que as soluções do tipo possam atender à grande variedade de dados existentes, sejam eles estruturados ou não, como os banco de dados orientados a documentos, bancos de dados chave/valor, banco de dados de grafos, etc.
Com relação aos bancos de dados NoSQL podemos citar como exemplo o Cassandra, o MongoDB, o HBase, o Redis e o CouchDB. Porém, quando o assunto é Big Data, só um banco de dados do tipo não basta. Faz se necessário o uso de ferramentas para o tratamento de volumes, e Neste ponto o Hadoop é a principal referência.
logomarcas do MongoDB, HBase, Cassandra, Redis e CouchDB
O Hadoop é uma plataforma open source desenvolvida especialmente para processamento e análise de grandes volumes de dados, sejam eles estruturados ou não estruturados. O projeto é mantido pela Apache Foundation, mas conta com a colaboração de várias empresas, como Yahoo!, Facebook, Google e IBM.
Logomarca Hadoop
O Hadoop é tido como principal solução para Big data por alguns motivos que podem ser citados abaixo:
· Além de Open source, fato que permite sua modificação para fins de customização e permitir melhorias constantes graças as redes de colaboração.
· Vantagem econômica, devido ao fato de não haver pagamento de licenças e suportar hardware convencional, permitindo assim criar projetos com máquinas consideravelmente mais baratas.
· O Hadoop tem por default, recursos de tolerância a falhas, como replicação de dados por exemplo.
· O Hadoop é escalável, caso haja a necessidade de processamento para suportar maior quantidade de dados, é possível acrescentar computadores sem necessidades de realizar complexas configurações no sistema.
· O Hadoop pode ser utilizado em conjunto com outros bancos de dados NoSQL. A própria Apache Foundation, mantém uma solução do tipo e que é uma espécie de subprojeto do Hadoop, o já citado HBase.
Vale frisar que esta é a opção de maior destaque, mas não a única. É possível encontrar diversas soluções compatíveis com NoSQL e que são baseadas em PPM (Processamento Paralelo Massivo) por exemplo.
Considerações finais
Com o que foi visto, pudemos ter uma abordagem teórica sobre o Big Data e sua necessidade no cenário atual, é um fator bastante relevante no estudo dos Sistemas de Informação e Tecnologias, pois, esta atrelado a diversos temas da área como o Business Intelligence e a Tomada de Decisão, elementos cruciais nas grandes corporações hoje em dia. Porém, não podemos considerar as soluções de Big Data como um arsenal computacional perfeito. Sistemas deste tipo são complexos, ainda desconhecidos por muitos gestores e profissionais de TI e a sua própria definição ainda é passível de discussão.