Tive a oportunidade de ser apresentado ao armazenamento de Red Hat e Gluster em uma apresentação conjunta por Red Hat France e a empresa Startx. Aqui recompidei minhas anotações, pelo menos parcialmente. Concluirei com a integração entre o armazenamento do Red Hat e Hadoopespecialmente o que podemos esperar antes de conduzir um experimento na vida real.
Não há necessidade de apresentar Chapéu vermelho. A empresa Startxcriado em 2003, oficia na França e é especializado em produtos Red Hat. Tem uma parceria com a Red Hat e a Amazon.
Em 2012, a Red Hat anunciou a aquisição de Glusterfs no JBoss Summit 2012, a fim de melhorar o valor desse sistema de armazenamento distribuído dentro da oferta maior de armazenamento do Red Hat (a seguir chamado RH Storage). Anteriormente, a aquisição da Qumranet abriu a porta para o Red Hat para o mercado de virtualização, dando à luz a oferta de virtualização da Red Hat Enterprise. A mistura dessas duas ofertas com o mesmo cluster une o cálculo e o armazenamento em hardware comunitário. Observe também que em 2012, o Red Hat também adquiriu a Fusesource, especializada em integração e mensagens e polimita especializada em gerenciamento de processos de negócios (BPM).
Se você considerar as arquiteturas de unificar computação e armazenamento em uma plataforma unificada com hardware de commodities, estamos muito próximos do que é Hadoop. Além disso, desde a versão 3.3beta, Glusterfs é um armazenamento compatível dentro Hadoop para substituir HDFS.
A oferta de armazenamento de RH é estruturada em torno das seguintes áreas: Base de conhecimento, Portal e Fóruns de Clientes, Certificações Hard e Soft, Garantia de Software, Serviço de Suporte Global, Estabilidade e Escolo de Life até 10 anos, além de atualizações.
Nuvem
A nuvem está agora bem em andamento, aqui estão os principais eixos:
- virtualização48% dos aplicativos em máquinas virtuais – Gartner
- banalidadex86 servidores, redução de risco em torno dos mainframes, mas o armazenamento ainda é caro e proprietário – ESG
- Cloutificationuma tendência a olhar para + na nuvem, pensando nas vantagens / desvantagens de usar pelo menos parte da nuvem sem quebra tecnológica entre seu próprio datacenter e o que estaria na nuvem – idg
- explosão – Os volumes de dados processados são exponencialmente explosivos – Gartner
Rh Storage
Seu design é baseado em objetivos de alto desempenho e alta disponibilidade. Ele não tem um único ponto de falha, cada peça de dados é redundante em vários discos, e o próprio sistema é replicável em outro datacenter.
- Serviço de arquivo unificado com um ponto de montagem global (tradução para nome de nome global), independentemente do número de componentes
- Metadados distribuídos de acordo com um algoritmo de hash entre todos os componentes do cluster, por isso não tem um ponto único de falha
- Sistema de arquivos virtualizado, é possível formatar discos em diferentes formatos
- Escalibilidade horizontal adicionando nós (de 2 a 64)
- Escala para vários petabytes, mais esperados no futuro
- Interconexão 1GBE e Infinyband 10GBE (SDR, taxa de dados única) sendo validada
- Replicação de dados em tempo real e geo-replicação no modo assíncrono na LAN, WAN Internet, possibilidade de cascata em vários sites
Artchitecture
O RH Storage é uma camada de software que não adere ao kernel ou sistema no qual opera. Ele instala no Red Hat Enterprice Linux no hardware x86 que o cliente possui. Ele foi projetado de uma maneira totalmente distribuída e redundante. Além disso, Gluster do qual vem é um produto maduro.
O sistema pode ser configurado em uma nuvem como esta na Amazon ou em um cluster local. A oferta é incorporada em um sistema virtualizado na virtualização do Red Hat e em breve será suportado no VMware vSphere.
Ele foi projetado para lidar de 2 a 64 nós, sendo cada nó um servidor padrão disponível no mercado a um custo menor. Por exemplo, na data deste artigo, a recomendação apontaria para servidores de 2 soquetes com 4 a 6 núcleos e uma memória de cerca de 32 GB ou 48 GB para um HPC. Na oferta de armazenamento de RH, os discos devem ser formatados no XFS, mas outros sistemas de arquivos podem ser usados. No sentido, o sistema de arquivos é considerado virtualizado, ele está posicionado em um nível acima do sistema de arquivos que gerencia o disco.
Os casos de uso dessa infraestrutura podem, por exemplo, ser o arquivamento de dados enriquecidos por um ambiente de arquivo de objeto ou por um ambiente de computação de alto desempenho (HPC) capaz de atender às suas necessidades com a Band Band.
O sistema é gerenciado a partir de uma linha de comando ou através de uma interface da Web fácil de usar, mas implementando parcialmente todas as ferramentas.
A assinatura da oferta é feita por vários de 2 nós.
O armazenamento ou rasgo heterogêneos ainda não está presente (exceto adicionar / criar um “tradutor” manual), mas a idéia está fazendo seu caminho.
Roteiro
Os próximos desenvolvimentos são esperados por volta de março de 2013. Entre eles: Snapshotting de volume, suporte completo do RHS-C (console), nfsv4 Suporte, suporte SMB 2.1.
Conexão
O mais simples é o uso de um NFS montagem Mas isso envolve consultar o cluster para executar o algoritmo de hash que localizará os dados. Em termos de desempenho, é aconselhável usar o Gluster cliente, que é mais inteligente porque executa o hash local.
Palavras -chave
- tijolodiretório montado no nó no formato XFS (discos agrupados em RAID)
- clienteAssim, GlusterAssim, CifsAssim, NFS
- servidoranfitrião de tijolos
- Subvolumeconjunto de tijolos formatados para um volume
- volumejuntos apresentados como um único ponto de montagem
Estratégia
- Distribuídodistribuição homogênea e justa
- Replicadocontinuidade do serviço através de um endereço virtual se um nó cair ou folhas para manutenção
- listradopara poder usar tijolos diferentes de nós diferentes cortando os arquivos (para multiplicar os acessos simultâneos no mesmo arquivo amplo), semelhante à noção de * chunk * em Hadoop HDFS
- misturadistribuído listrado, distribuído replicado,…
Exemplo
Observe que as notas nesta seção ainda precisam ser limpas.
Na Amazon, o Red Hat forneceu uma imagem pronta para a Amazon, mas é claro que pode ser recriado manualmente 1 nó de console – Imagem M1 Médio – 4go Ram (JBoss Consome) – Red Hat Enterprise 6.3 4 nós Gluster – Imagem M1 Small – RAM 1,7 GB – Red Hat Enterprise 6.2 Use IP elástico no modo de produção e traga a resolução de nomes neste IP se a montagem [NFS](http://en.wikipedia.org/ Wiki / Network_file_system), use o mecanismo IP flutuante para evitar o ponto único de falha na abordagem.
system
-> clusters
-> Europe
-> servers
-> node1
-> node2
-> volumes
-> data1
-> US
-> servers
-> volumes
Os dados do volume1 são replicados em tijolos n1_b1
e n2_b1
respectivamente nos nós 1 e 2, o cluster US é arquiteturado da mesma maneira nfs -> node1.eu.glluster.toto.fr:/data1
sobre /var/data
tipo nfs
(rw, vers = 3, addr = 10.208.23.48) Este volume corresponde ao tamanho de cada tijolo (10 GB neste exemplo). A criação dos tijolos é feita manualmente com antecedência na linha de comando. A GUI ainda está na versão beta e não permite todas as visualizações e operações. Na Amazon, para cada instância, você deve entrar em volume, criar um novo volume (por exemplo, Tag 10TB ou 50 GB) e conectá -lo à instância criada, conectar -se ao nó e o disco foi adicionado e fabricamos um PV (volume físico) ou LV (volume lógico) e, finalmente, criamos um tijolo.
Objetivos -> Cloud, Virtualização (incluindo VMware) e o aspecto do big data cujo Hadoop
Gluster foi desenvolvido em sua versão atual para trabalhar em conjunto Hadoop. Mas o mais interessante não é sua capacidade de interagir com Hadoop mas a possibilidade de ser intercalada como um módulo de armazenamento em Hadoopsubstituindo o nativo HDFS. Além disso, mas aqui precisarei de mais esclarecimentos para tirar conclusões, disseram -me que o armazenamento de Rh enviado nativamente mapear / reduzir componentes.
O desempenho seria semelhante ao de HDFS. Observe que a limitação de HDFS não está no nível de seu desempenho. Que alternativa como Gluster pode trazer mais é conformidade com Posix (Interface do sistema operacional portátil), distribuição homogênea e justa de dados sem endereçamento centralizado, replicação geográfica e simplificação adicional do uso de Hadoop em um ambiente virtualizado.