Big, very big, Data e não é tanto pelo tamanho e sim pelo volume

It is a very sad thing that nowadays there is so little useless information

Oscar Wilde (1854-1900)

Hoje se fala bastante sobre Big Data, segue o capitulo do meu TCC sobre a conceitualização. Mais informações e referências podem ser vistas no documento parcial disponível no Slideshare.

Big data

Um estudo de 2010 aponta que as empresas americanas com mais de mil funcionários armazenavam em média 200 terabytes de dados, chegando a um petabyte em alguns setores. Outra pesquisa de 2008  apontou que as famílias americanas receberam 34 gigabytes de informação por pessoa a cada dia.

O International Data Corporation calculou o tamanho do universo digital em 2007 como sendo de 281 exabytes e estimou 1,800 exabytes em 2011. A empresa Cisco estima que em 2013  o tráfego anual da internet será de 667 exabytes. Dessa realidade surge o termo Big Data que foi criado para denominar “o crescimento exponencial dos dados que as empresas precisam ou podem tratar para extrair informação útil”.

A Computerworld descreve Big Data como “a mineração de enormes volumes de dados estruturados e não estruturados de informações úteis, usando ferramentas não-tradicionais”. Para o Gartner, o termo está envolvido com os fatores: Volume, Variedade e Velocidade:

  • Volume: a quantidade de dados corporativos cresce devido ao aumento na quantidade de transações e no tipo de dados armazenados.
  • Variedade: para auxiliar as decisões, os dados úteis são originários de dados tabulados, hierárquicos, documentos, e-mails, vídeo, imagens, transações financeiras, etc.
  • Velocidade: envolve a velocidade que os dados são produzidos e a necessidade de processá-los de acordo com a demanda.

Collett (2011) complementa, afirmando que não são necessários os três fatores para uma solução ser considerada Big Data, dependendo do caso alguns terabytes de dados que necessitam ser processados instantaneamente já a caracterizam. Segundo Taurion, o conceito de Big Data é juntar grandes volumes de informações estruturadas e não estruturadas para que as empresas tomem decisões baseadas em fatos.

Para Jacobs, o que tem tornado os dados realmente grandes é a repetição de informações simples através do tempo e/ou espaço como, por exemplo, operadoras de celular armazenando a posição dos seus celulares a cada 15 segundos. Segundo Sevilla, Big Data é necessário quando o volume de dados cresceu tanto que a área de Tecnologia da Informação (TI) não consegue retornar informações básicas em menos de um minuto.

Além do processamento usual dos dados, novas formas de visualização também estão sendo utilizadas, entre elas: nuvem de tags, clustergramas e history flow.

Para Xavier, os desafios para utilizar Big Data estão em otimizar os recursos tanto no hardware quanto no software. Para o hardware, a utilização de computadores baratos para o processamento paralelo ao invés de um único servidor dedicado tem se mostrado melhor na relação custo/benefício. Para o software, novas maneiras de armazenar os dados com menos restrições e regras do modelo relacional começaram a ser utilizadas. Algumas dessas soluções receberam o nome de NoSQL e assemelham-se aos sistemas de gerenciamento de arquivo.

O termo Big Data é um grande conceito, cabe a nós especialistas em TI, utiliza-los da melhor maneira. Como eu já comentei, o documento completo (junto com as referências) está disponível no Slideshare.

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s