Data Lakehouse คือ อะไร ทำไมมีทั้ง Lake ทั้ง House?
ในปัจจุบันการจัดเก็บข้อมูลเพิ่มขึ้นอย่างรวดเร็ว ต่อเนื่อง และซับซ้อนมาก เทคโนโลยีในการจัดเก็บหลายๆประเภทก็ถูกออกแบบมาเพื่อให้ตอบโจทย์ลักษณะการเก็บข้อมูลให้เหมาะสม โดยแต่ละเทคโนโลยีก็มีข้อดีและข้อเสียที่แตกต่างกันไป ยกตัวอย่างเทคโนโลยีที่นิยมใช้ในการจัดเก็บข้อมูลในปัจจุบัน เช่น คลังข้อมูล (Data Warehouse) และ Data Lake ซึ่งก่อนจะทำความรู้จักว่า Data Lakehouse คือ อะไร เรามาทวนความจำกันหน่อยว่า คลังข้อมูล (Data Warehouse) และ Data Lake คืออะไร
Data Warehouse
- เหมาะกับการเก็บข้อมูลแบบมีโครงสร้าง (Structured Data) และเหมาะกับงานด้านวิเคราะห์ข้อมูล (Analytics) และใช้กับเครื่องมือธุรกิจอัจฉริยะ (BI Tool) เพื่อจัดทำ Dashboard เพื่อสรุปผลข้อมูล เนื่องจากข้อมูลที่จัดเก็บในระบบคลังข้อมูล ต้องผ่านกระบวนการจัดเตรียมข้อมูลเพื่อพร้อมนำไปใช้งานให้เรียบร้อยแล้ว
- ไม่เหมาะกับข้อมูลที่เป็น Realtime เนื่องจากต้องมีการจัดเตรียมข้อมูลก่อนนำเข้าทุกครั้งทำให้ต้องใช้เวลาพอสมควร
- ระบบคลังข้อมูลส่วนใหญ่จะยัง Coupling กันระหว่าง Storage และ Compute คือหากส่วนใดส่วนหนึ่งเต็มก็ต้องทำการขยายขนาด (Scale) เพิ่มทั้ง 2 ส่วนพร้อมกัน ไม่สามารถเลือกขยายขนาดอย่างใดอย่างหนึ่งได้
Data Lake
- สามารถเก็บข้อมูลได้ทั้งแบบมีโครงสร้างและไม่มีโครงสร้าง (Unstructured Data) โดยจะจัดเก็บอยู่ในลักษณะของไฟล์ โดยจัดเก็บในลักษณะของข้อมูลดิบ (Raw Data) คือรับข้อมูลจากต้นทางมาอย่างไรก็จัดเก็บอย่างนั้นไม่มีการจัดเตรียมข้อมูลก่อนนำเข้าจัดเก็บ
- ไม่เหมาะกับงานด้านวิเคราะห์ข้อมูลและสรุปผลข้อมูล เพราะเนื่องจากจัดเก็บเป็นไฟล์จะค้นหายาก ต้องทำให้เป็นข้อมูลที่มีโครงสร้างก่อน และนำไปจัดเก็บที่ระบบคลังข้อมูลก่อนอีกที ทำให้เกิดความซ้ำซ้อนในการจัดเก็บข้อมูล
ซึ่งบางครั้งในหนึ่งโปรเจ็คก็อาจจะจำเป็นที่จะต้องเลือกใช้เทคโนโลยีในการจัดเก็บข้อมูลมากกว่า 1 อย่างขึ้นไปเพื่อให้สามารถจัดเก็บข้อมูลได้อย่างมีประสิทธิภาพ เช่น อาจจะใช้ Data Lake จำนวน 1 ระบบเพื่อเป็นถังรวบรวมข้อมูลกลางจากหลายๆแหล่ง และใช้หลายๆ ระบบคลังข้อมูลแยกเก็บข้อมูลอีกเพื่อใช้วิเคราะห์ข้อมูลอีกที ซึ่งปัญหาสำคัญของการจัดเก็บหลายๆที่ คือจะต้องมีการย้ายหรือคัดลอกข้อมูลข้ามระบบ อาจทำให้เกิดความซ้ำซ้อนของข้อมูล เกิดข้อมูลผิดพลาด และกว่าจะได้ข้อมูลมาใช้งานก็ค่อนข้างจะใช้เวลานาน
Data Lakehouse คืออะไรกันแน่?
แล้ว “Data Lakehouse” คืออะไร ? พูดง่ายๆ ให้คิดว่ามันเป็นลูกผสม โดยผสมผสานพื้นที่จัดเก็บข้อมูลขนาดใหญ่ของ Data Lake เข้ากับคุณสมบัติการจัดการของคลังข้อมูล เหมือนกับการนำเอาข้อดีของทั้งระบบคลังข้อมูล และ Data Lake มารวมกันจากข้อจำกัดและปัญหาที่กล่าวมา
แล้วทำไมต้อง Data Lakehouse?
Data Lakehouse คือสิ่งที่เกิดขึ้นมา โดยทั้งหมดนี้เกี่ยวกับการใช้ประโยชน์จากข้อมูลให้มากขึ้น ด้วย Data Lakehouse การจัดการและการวิเคราะห์ข้อมูลกลายเป็นเรื่องง่าย โดยได้รับการออกแบบมาเพื่อจัดการกับข้อมูลจำนวนมหาศาล ทั้งแบบมีโครงสร้างและไม่มีโครงสร้าง ลองนึกภาพความสามารถในการจัดเก็บข้อมูลทั้งหมดไว้ในที่เดียวและยังสามารถทำความเข้าใจได้ทั้งหมด นั่นคือสิ่งที่ Data Lakehouse มอบให้กับเรา
มันเป็นเรื่องของความยืดหยุ่นและประสิทธิภาพ
ความสวยงามของ Data Lakehouse อยู่ที่ความยืดหยุ่นและประสิทธิภาพ สามารถจัดเก็บข้อมูลใดๆ ก็ได้ ไม่ว่าจะเป็นขนาดหรือประเภทใดก็ตาม และส่วนที่ดีที่สุดคือ เราสามารถเข้าถึงและวิเคราะห์ข้อมูลนี้ได้อย่างง่ายดาย
ซึ่ง Data Lakehouse สร้างขึ้นเพื่อปรับให้เข้ากับความต้องการของที่แตกต่างเหล่านี้ โดย Data Lakehouse มีคุณลักษณะดังนี้
- รองรับการจัดเก็บข้อมูลทั้งในรูปแบบข้อมูลที่มีโครงสร้าง และไม่มีโครงสร้าง ทำให้สามารถทำงานด้าน การวิเคราะห์ข้อมูล และงานด้านวิทยาศาสตร์ข้อมูล (Data science) ที่ต้องการใช้ข้อมูลดิบ โดยสามารถเรียกใช้ข้อมูลได้จากที่เดียวกัน
- สามารถทำการขยายขนาด แบบแยกจากกัน (Decoupling) คือสามารถเลือกเพิ่มขนาดระหว่าง Storage และ Compute อย่างใดอย่างหนึ่งได้ ทำให้ช่วยลดงบประมาณในการจัดหาทรัพยากร
- มี Metadata File ที่ใช้จัดเก็บ Audit log ว่ามีการเปลี่ยนแปลงอะไรในตารางบ้าง
- รองรับ ACID Transaction สามารถทำการ Insert, Update และ Delete ข้อมูลได้เหมือนกับ ฐานข้อมูล (Database)
อ่านบทความนี้สำหรับประโยชน์ของ Decoupling Storage
โดยสรุป Data Lakehouse คือ ?
จากคุณลักษณะของ Data Lakehouse คือ ตัวแก้ปัญหาในด้านการจัดเก็บข้อมูลที่เก็บหลายที่ทำให้เกิดการซ้ำซ้อน และช่วยลดต้นทุนในการจัดเก็บโดยสามารถจัดเก็บและเข้าถึงข้อมูลได้ในที่เดียวเลย
ถึงแม้ว่า Data Lakehouse จะมีการนำเอาข้อดีจากหลายเทคโนโลยีมารวมกันไว้ในที่เดียว แต่ก็ไม่ได้หมายความว่า Data Lakehouse จะมาแทนที่ระบบคลังข้อมูล และ Data Lake เลยซะทีเดียว ทั้งนี้ขึ้นอยู่กับการพิจารณาขององค์กรว่าหากจะเปลี่ยนจากการจัดเก็บรูปแบบเดิมมาใช้ Data Lakehouse นั้นจะต้องคำนึงถึงความคุ้มค่า ว่าการวางระบบใหม่ทั้งหมดบางครั้งอาจใช้งบประมาณสูงกว่าแบบที่ใช้อยู่ปัจจุบัน และความชำนาญในการใช้งาน และพัฒนาของบุคลากรที่เกี่ยวข้องอีกด้วย
อ่านบทความอ้างอิงเพิ่มเติมเกี่ยวกับ Data Lakehouse
by
Jaturon Pawasil
Data Engineer