Vamos combinar que o nome Big Data traz uma ideia muito vaga do que realmente trata este fenômeno. Afinal, o que são “Grandes Dados”? Num HD de 500GB eu já tenho um “big data”?
Na verdade, o nome Big Data surgiu para se referir a um conjunto de tecnologias que lidam com dados de uma forma que as tecnologias mais tradicionais não conseguem. As grandes diferenças (e o que define o Big Data) são:
1) Volume: estamos falando de um muitos TeraBytes (TB) (1 terabyte equivale a 1000 Gigabytes). Para se ter uma ideia, em média, uma empresas de grande porte armazena 870 TB de informações sobre sua operação. Outro exemplo: num único vôo de um Boieng 787 os sensores do seu motor geram 500 GB de dados sobre seu funcionamento. Ou seja, estamos falando de um grande volume de dados, cujo custo e capacidade de armazenamento e processamento com tecnologias tradicionais é muito alto ou inviável.
2) Velocidade: as tecnologias de Big Data são capazes de cruzar estes imensos volumes de dados de diversas formas e entregar resultados em pouco tempo. Em diversos casos, o acompanhamento pode ser feito em tempo real. Em outros, como numa análise de crédito, por exemplo, os cruzamentos de dados bancários, cartoriais, sociais e comportamentais, que poderiam levar dias, cai para minutos com o Big Data.
3) Variedade: O volume atual de dados é imenso (para se ter uma ideia, nos últimos 10, a humanidade gerou e armazenou mais dados que nos 10 mil anos anteriores) por que a quantidade de dispositivos que geram estes dados cresceu. Celulares, GPS, sensores de presença, sites de redes sociais, transações bancárias etc. A humanidade usa tudo isso cotidianamente, e a cada uso são deixados rastros digitais com os dados deste uso. Ou seja, ao invés de ser alimentado por uma fonte única ou prioritária, que envia os dados num formato específico, as tecnologias de Big Data podem ser alimentadas por uma variedade muito grande de fontes de dados.
Desta variedade surge uma outra característica do Big Data: poder trabalhar com os dados não-estruturados. Para entender o que são estes dados, um exemplo: este post está agendado para ser publicado num dia e horário. Este site usa a base de dados MySQL, que trabalha com dados estruturados. Por isso, para que o post seja publicado no dia e horário certos, eu tenho que colocar estes dados num campo específico e numa sintaxe específica. Se eu simplesmente escrever no corpo deste texto “Publicar às 15h30 do dia 16/05/2013”, nada acontecerá, pois este dado é não-estruturado. Pois então, as pessoas falam de suas rotinas, preferências, desejos e decepções nas redes sociais usando textos, imagens, animações, vídeos e documentos. No meio destes conteúdos estão dados sobre diferentes coisas. Por exemplo, num tweet “passei 40 minutos preso num engarrafamento em Salvador”, temos as informações sobre o tempo do congestionamento e a cidade em que isso ocorreu, mas estes dados devem ser prospectados do meio do texto. Estes dados são não-estruturados.
Enfim, a definição básica de Big Data é a que apresentei acima. Nos próximos posts, aprofundarei nestes elementos e trarei mais exemplos de aplicação. Para finalizar este post conceitual, trago um vídeo muito interessante da HP sobre o assunto:
1 Comment
Muito bom, eu li algumas coisas no bigdatabrasil.net e realmente estou muito interessado pelo assunto.
O big data realmente é uma tendencia, e cada dia que passa, vai influenciar mais a vida das pessoas..
Onde trabalho, no Road Solution, temos aplicado varias soluções de Big Data (Hadoop, MongoDB) em nossos softwares.
abs