HPE Simplivity Data Deduplication
Merhaba,
HPE Simplivity Data Deduplication özelliği oldukça dikkat çekici. Hatta HPE Simplivity ‘de enfazla konuşulan konulardan bir tanesi Deduplication. Bir diğeri ise Compression ancak onu ayrı bir makalede anlatacağım. Ben bu yazımda sizlere bu özellik hakkında detaylı bilgiler vereceğim.
Ben daha önce HPE Simplivity ‘de bulunan Deduplication ve Compression ile ilgili ufak bilgiler vermiştim. Bu yazılarıma aşağıdaki linkten ulaşabilirsiniz. Ben bu yazımda Deduplication ile ilgili bilgi vereceğim daha sonraki yazımda ise Compression ile ilgili bilgi vereceğim.
HPE Simplivity Data Deduplication
Öncelikle şunu belirtmem gerekiyor ki HPE Simplivity üzerinde deduplication oldukça önemli. Deduplication yani tekilleştirme adından da anlaşılacağı üzere yinelenen dataların ortadan kaldırılma işlemidir. Deduplication 2000 yılların başında backup to disk cihazları ile yaygınlaştı. Data Domain ve Diligent Technologies gibi bir çok vendor haftalarca veya aylarda verilerin diskte toplanmasına izin veren ürünleri pazara sundu.
Yedeklemedeki deduplication ‘in amacı kapasiteden tasarruf etmektir. Kapasitede yapılan tasarruflar performans kayıplarından bazı durumlarda daha önemlidir. Yani deduplication’da yedekleme verilerinde performansın önemli değildi.
Deduplication teknolojileri yeni verileri depolanan mevcut verilerle karşılaştırır ve gereksiz verileri ortadan kaldırır. Inline deduplication, gelen veriyi benzersiz olup olmadığını belirlemek için işlemden geçirmek için CPU kaynaklarını gerektirir. Eşsizse, depolama ortamına yazılır. Eğer bu bir kopya ise, veri bloğunun saklanması gerekmez. Bunun yerine, yalnızca bir meta veri güncellemesi gereklidir. Sonuç olarak daha az sayıda IOPS gerekir ve kapasite tüketimi azalır. Deduplication işleminin ek yükü, yazma işlemine latency olarak geri döner. Yani yazma işlemlerini yavaşlatır ve mevcut IOPS sayısı azalır.
Verileri storage ortamına yazmak ve daha sonra, verinin deduplication edilip kopyalanmayacağını belirlemek için verileri işlemek de mümkündür. Buna post-processing deduplication denir. CPU kaynakları hala gereklidir, ancak bu durumda deduplication ‘dan dolayı IOPS performansı da düşer. Bunun nedeni, yinelenen verilerin her zaman diske yazılmasıdır. Bu disk işlemleri, inline deduplication ile ortadan kaldırılmış olacaktı.
Post-processing deduplication ile ilgili daha az belirgin olan bir başka zorluk daha var. Birden fazla site’in bulunduğu bir ortamda maksimum verimlilik sağlamak çok daha zordur. Primary site’dan disaster site’a doğru ayarlanmış bir replikasyon varsa, replikasyon sonrası deduplication tamamlanmasını beklemesi veya yedek verileri remote site’a göndermesi gerekir. Gereksiz veriler remote site’a gönderilirse, ekstra bir trafik oluşacaktır.
HyperConverged bir altyapı ortamında, verimlilik önemlidir. Tüm altyapı uygulamaları ve iş uygulamaları aynı kaynak havuzunu paylaşıyor. Veriler her işlendiğinde, iş uygulamalarını çalıştırmak için kullanılamayan kaynakları kullanır. Örneğin, yukarıdaki resimde 27TB virtual machine verisi var iken, virtual machine’lerin backup’ı 400TB olarak gözükmektedir. Ayrıca remote backup bölümünde ise 155TB boyutunda bir veri bulunmaktadır. Böyle bir ortamda deduplication yapıldığında saving 577TB olarak sağlanmış. Aslında yukarıdaki örneğe baktığınızda Backup’ların hiçbiri storage üzerinde yer kaplamamış, buna ek olarak virtual machine datalarında yapılan deduplication ile kullanılan kapasite 5.8 TB boyutuna indirilmiş. Peki bu backup’lar ve virtual machine dataları nasıl yer kaplamıyor bunu inceleyelim.
HPE SimpliVity farklı bir yaklaşım benimsemiştir. Deduplication başlangıçta bir kez yapılır ve bu sonsuza kadar devam eder. SimpliVity’nin Data Virtualization Platformu , inline deduplication sağlar, ancak performans kesintisi olmadan. Bunun nedeni OmniStack Accelerator’dan kaynaklanmaktadır. Çünkü burada deduplication işlemleri Omnistack Accelerator isimli kart üzerinden yapılır. Ben daha önce Omnistack Accelerator Card ile ilgili aşağıdaki gibi bir makale yayınlamıştım.
Data Virtualization Platform diye bahsettiğim aslında tüm data’nın yönetiminin yapıldığı katman. Bu katman kendi içerisinde 2 bölümüne ayrılıyor. Presentation Layer ve Data Management Layer. Bu konu ile ilgili ayrı bir makale yazacağım orada detayları ayrıca görüyor olursunuz.
HPE OmniStack Accelerator Card
Deduplication işlemleri OmniStack Accelerator Card üzerinden gerçekleştiği için virtual machine’in kullanacağı CPU üzerine ek yük getirilmez. Deduplication işlemi; WAN optimizasyonu , backup, replication ve storage gibi birçok farklı veri merkezi hizmetinde veya altyapısında gerçekleştirilir . Simplivity üzerinde değişen datalar disk’e indirilir. Eğer aynı veriler var ise bu verilerin meta bilgileri node’lar üzerindeki disklere dağıtılır. HPE Simplivity’de hızlı bir şekilde clone alma, saniyeler içerisinde backup/restore operasyonları aslında iyi tasarlanmış bir deduplication’in sonuçlarından ortaya çıkmaktadır. HPE Simplivity üzerinde çalışan virtual machine’lerin meta verileri tüm node’lar üzerinde tutulur. Çünkü meta verilerin kopyalanması gerçek verilerin kopyalanmasına göre daha kolaydır. Bir virtual machine’in clone’unu veya backup’ını almak istediğinizde saniyeler içerisinde bundan dolayı oluşmaktadır.
Deduplication sırasında mimarisel faktörlerden dolayı CPU katmanında performans kaybı yaşanırken, Simplivity üzerinde bulunan OmniStack Accelerator Card sayesinde performans problemi yaşamıyoruz. Aynı zamanda write işlemlerinde ortaya çıkan latency’den de kurtulmuş oluyoruz. Hatta veritabanlarının bulunduğu bir ortamda yapılan testte node başına 100 adet virtual machine’in ortalama 10 ms altında uygulamaya cevap verdiği görülmüştür. Bundan dolayı deduplication’in performansa olumsuz bir etkisi olmadığı için kapatmayada gerek yoktur. Zaten default olarak deduplication açık geldiği için kapatmanında bir yolu bulunmamaktadır 🙂 HPE Simplivity’de bulunan Deduplication en büyük özelliğinden birtaneside inline deduplication işleminin write yani yazma işlemi gerçekleşmeden önce gerçekleşmesi ve böylece olası bir darboğaz problemininde önüne geçilmiş olunur.
Ayrıca, OmniStack Accelerator Card üzerinde bulunan NVRAM modülü bulunduğundan write latency neredeyse yok denecek kadar az olur. OmniCube hyperconverged altyapıda bulunan datastore’a yazılan tüm veriler ilk önce acclerator card üzerinden geçirir. Deduplication ve Compression işlemleri bir kez olur ve veri yaşam döngüsünün tüm aşamalarında veriler en iyi durumda kalır.
Aslında bu makale içerisinde Data Virtualization Platform’a da giriş yapmam gerekiyor biliyorum ama makale çok kompleks bir hal alır diye düşündüm. Bundan dolayı ayrı bir makalede bunu anlatacağım.
Deduplication ile ilgili ayrıca aşağıdaki dökümanı inceleyebilirsiniz.
https://h20195.www2.hpe.com/v2/getpdf.aspx/a00019351enw.pdf
Umarım faydalı olmuştur.
İyi çalışmalar.
Elinize sağlık hocam, güzel anlatmışssınız.
SimpliVity’nin data deduplication’i alışagelmiş HCI’lardan çok farklı çalışıyor. Beğenmenize sevindim.
Muhteşem gerçekten
Çok doğru 🙂
Yabancı döküman gerçekten çok sağlam, ancak bazı noktaları tam anlamakta zorluk çekmiştim. Sizin yazınız, dökümanın özeti gibi olmuş.
Çok teşekkür ederim Yakup bey:)