Data Lake กับการจัดเก็บ ข้อมูลดิบ

Data Lake กับการจัดเก็บ ข้อมูลดิบ


Data Lake คือพื้นที่เก็บ ข้อมูลดิบ ส่วนกลางที่ช่วยให้ธุรกิจสามารถจัดเก็บข้อมูลไว้สำหรับการวิเคราะห์

ในโลกที่ขับเคลื่อนด้วยข้อมูล ธุรกิจต่าง ๆ สร้างข้อมูลและรวบรวมข้อมูลมากกว่าในอดีต ข้อมูลสามารถมาจากแหล่งที่มาที่หลากหลาย ทั้งข้อมูลการติดต่อกับลูกค้า โซเชียลมีเดีย และอุปกรณ์ IoT เพื่อให้เข้าใจถึงข้อมูลเหล่านี้ ธุรกิจต้องการวิธีการจัดเก็บ จัดการ และวิเคราะห์ข้อมูลให้มีประสิทธิภาพ ซึ่งการทำคลังข้อมูล (Data Warehousing) ก็ได้เข้ามามีบทบาทสำคัญในจัดเก็บ ข้อมูลดิบ เหล่านี้

ความสำคัญของข้อมูลดิบในการตัดสินใจ

เคยสงสัยหรือไม่ว่า ข้อมูลดิบ จะสามารถเป็นเหมือนวัตถุดิบอันมีค่าสำหรับการตัดสินใจได้อย่างไร? ข้อมูลดิบที่ไม่ได้ประมวลผลให้อยู่ในรูปแบบที่เหมาะสมมาใช้ ก็เหมือนกับการเอาวัตถุดิบที่ส่งตรงมาจากฟาร์ม เรารู้ว่าวัตถุดิบนี้สามารถทำอะไรได้ แต่ตอนนี้เราไม่สามารถที่จะรับประทานมันได้ทันที เพราะฉะนั้นแล้วข้อมูลดิบเหล่านี้จึงต้องถูกประมวลผล (ปรุง) เสียก่อนจึงจะก่อให้เกิดประโยชน์

แต่เมื่อเราประมวลผลข้อมูลเหล่านี้เสร็จแล้ว เรายังควรจะเก็บข้อมูลดิบเหล่านี้ไว้หรือไม่? แล้วทำไมเราต้องเก็บข้อมูลดิบเอาไว้ด้วย? ในโลกที่เต็มไปด้วยข้อมูล และข้อมูลดิบก็ถูกประมวลผลอยู่เสมอ การจัดเก็บข้อมูลดิบเหล่านี้ช่วยให้เราสามารถตรวจสอบข้อเท็จจริงของข้อมูลก่อนที่จะกลายเป็น ‘ข้อมูลเชิงลึก (Insight)’ ทำให้เราสามารถตรวจสอบย้อนหลังถึงข้อเท็จจริงเหล่านั้นตลอดจนกระบวนการต่างๆ ที่จะช่วยชี้ให้เห็นถึงถูกต้องอย่างแท้จริง

พูดอีกอย่างคือไม่เพียงแต่ยอมรับในรสชาติของอาหารที่เสิร์ฟเท่านั้น เรายังต้องมองถึงกระบวนการหรือการตรวจสอบสูตรอาหารนั่นเอง

ปริศนาสู่ความเป็นไปได้

ข้อมูลดิบเป็นเหมือนปริศนาที่รอการแก้ไข ในชุดข้อมูลดิบอาจจะเต็มไปด้วยข้อมูลเชิงลึกที่รอให้เราไปเปิดเผย ข้อมูลแต่ละชิ้นเปรียบเสมือนจิ๊กซอที่จะต่อภาพมุมมองที่จะมีขนาดใหญ่ขึ้นเรื่อยๆ

ดังนั้น เราจึงจำเป้นต้องกำหนดกลยุทธ์ที่มีประสิทธิภาพสำหรับเก็บและประมวลผลข้อมูลดิบเหล่านี้ เพื่อสร้างสภาพแวดล้อมด้านโครงสร้างและเพื่อให้การทำงานกับข้อมูลเป็นไปอย่างมีประสิทธิภาพสำหรับข้อมูลที่มีค่าเหล่านี้ องค์กรจำเป็นต้องรู้จักประเภทของที่จัดเก็บข้อมูลเพื่อให้สามารถเลือกใช้ได้อย่างเหมาะสม เพื่อให้ออกแบบการจัดเก็บข้อมูลโดยการวางสมดุลระหว่างงบประมาณในการเก็บข้อมูลมหาศาลกับการสร้างมูลค่าจากข้อมูลเชิงลึกที่จะได้มา

Data Lake แตกต่างอย่างไรกับ Data Warehouse

เดิมทีคลังข้อมูล (Data Warehouse) เป็นการจัดเก็บข้อมูลในรูปแบบที่มีโครงสร้าง (Structured Data) เช่น ฐานข้อมูลประเภท Relational Database ที่ข้อมูลจะถูกจะเก็บเป็นแถวและคอลัมน์ได้อย่างชัดเจน อย่างไรก็ตาม วิธีการนี้มีข้อจำกัดในการจัดการข้อมูล โดยจะไม่สามารถเก็บข้อมูลที่ไม่มีโครงสร้าง และปัญหานี้เองที่ Data Lake เข้ามาช่วยแก้ปัญหาสำหรับโลกข้อมูลในปัจจุบัน

Data Lake คือพื้นที่เก็บข้อมูลส่วนกลางที่ช่วยให้ธุรกิจสามารถจัดเก็บข้อมูลทั้งหมดได้ โดยไม่คำนึงถึงรูปแบบหรือแหล่งที่มา Data Lake แตกต่างจาก Data Warehouse แบบดั้งเดิมตรงที่ Data Lake ไม่จำเป็นต้องจัดโครงสร้างข้อมูลก่อนที่จะจัดเก็บ แต่ข้อมูลจะถูกจัดเก็บในรูปแบบดิบ (Raw Data) ทำให้ธุรกิจสามารถวิเคราะห์ข้อมูลได้หลายวิธี ซึ่งสิ่งนี้สามารถช่วยให้ธุรกิจได้รับข้อมูลเชิงลึกที่อาจไม่สามารถเปิดเผยได้โดยใช้วิธีการเก็บบน Data Warehouse แบบดั้งเดิม

การจะมี Data Lake ต้องเริ่มจากตรงไหนดี ?

เริ่มต้นด้วยวิสัยทัศน์ที่ชัดเจน

เริ่มต้นสร้าง Data Lake ต้องเริ่มด้วยจุดประสงค์ที่ชัดเจน แต่ละองค์กรมีภารกิจและจุดมุ่งหมายที่ต่างกันไปซึ่งภารกิจและจุดมุ่งหมายต่างๆเหล่านี้จะเป็นความต้องการในการสะท้อนมุมต่าง ๆ จากข้อมูลดิบ เริ่มจากการร่างสิ่งที่ Data Lake จะต้องจัดเก็บเพื่อให้ตอบสนองต่อจุดมุ่งหมาย ไม่ว่าจะเป็นความต้องการที่จะหาข้อมูลเชิงลึกทางธุรกิจหรือปรับปรุงประสิทธิภาพของการประมวลผลข้อมูล วิสัยทัศน์ที่ชัดเจนทำหน้าที่เหมือนเข็มทิศนำทางทุกขั้นตอนในการสร้าง Data Lake

การจัดระเบียบข้อมูลดิบ

เมื่อมีการกำหนดจุดมุ่งหมายที่ชัดเจนแล้วขั้นตอนต่อไปคือการจัดระเบียบข้อมูลดิบ ขั้นตอนนี้เป็นสิ่งสำคัญสำหรับการทำให้ข้อมูลดิบสามารถเข้าถึงได้และใช้งานได้ โดยเฉพาะการกำกับดูแลข้อมูลให้เข้าถึงได้จากบุคคลที่เกี่ยวข้องอย่างแท้จริง การจัดระเบียบข้อมูลเกี่ยวข้องกับการจัดหมวดหมู่ข้อมูล คล้ายกับการจัดหนังสือในห้องสมุด ไม่ว่าจะเป็นข้อมูลลูกค้าหรือบันทึกธุรกรรมข้อมูลแต่ละประเภทต้องมีการแยกที่จัดเก็บให้เป็นหมวดหมู่ เพื่อให้องค์กรหรือบุคลากรที่เกี่ยวข้องนั้นมั่นใจได้ว่าการค้นหาข้อมูลที่เป็นเฉพาะนั้นๆง่ายพอ ๆ กับการหาหนังสือบนชั้นวางหนังสือในห้องสมุด

ปรับขนาดได้และยืดหยุ่น

Data Lake จะต้องปรับขนาดได้และยืดหยุ่น ข้อมูลใหม่ๆเกิดขึ้นทุกวัน รวมถึงข้อมูลยังต้องมีการทำสำเนาเอาไว้อีกด้วย Data Lake ที่ดีต้องได้รับการวางแผนเตรียมพร้อมให้สามารถเติบโตและพัฒนาไปตามกาลเวลาได้ เมื่อปริมาณ ข้อมูลดิบ เพิ่มขึ้น Data Lake ควรขยายตัวได้อย่างง่ายดายเพื่อรองรับการเติบโตของปริมาณและความหลากหลายของข้อมูล ความยืดหยุ่นนี้ช่วยให้มั่นใจได้ว่า Data Lake ยังคงมีสำคัญและมีประโยชน์แม้ในขณะที่ความต้องการทางธุรกิจเปลี่ยนแปลงไป เป็นการสร้างสภาพแวดล้อมข้อมูลที่สามารถปรับและพัฒนาให้ทันสมัยอยู่ตลอดเวลา

โดยสรุปแล้ว Data Lake มีข้อดีอย่างไร

ข้อดีอย่างหนึ่งของ Data Lake คือความสามารถในการปรับขนาดได้ง่าย ธุรกิจสามารถจัดเก็บข้อมูลได้มากเท่าที่ต้องการโดยไม่ต้องกังวลว่าพื้นที่จัดเก็บจะเต็ม ซึ่งสิ่งนี้ทำให้ Data Lake เป็นโซลูชันที่เหมาะสำหรับธุรกิจที่สร้างและต้องการจัดเก็บข้อมูลเป็นจำนวนมาก

อย่างไรก็ตาม ประเด็นสำคัญก็คือ Data Lake ไม่ได้มาแทนที่ Data Warehouse แต่เป็นแนวทางเสริมที่สามารถช่วยให้ธุรกิจจัดการกับข้อมูลที่ไม่มีโครงสร้างจำนวนมากได้

โดยสรุป Data Lake เป็นอีกหนึ่งตัวเลือกสำหรับการทำ Data Warehousing ที่ช่วยให้ธุรกิจสามารถจัดเก็บ จัดการ และวิเคราะห์ข้อมูลที่ไม่มีโครงสร้างจำนวนมากด้วยความยืดหยุ่นและปรับขนาดได้ เมื่อมีการนำ Data Lake มาใช้ ธุรกิจสามารถรับข้อมูลเชิงลึกที่อาจไม่สามารถเปิดเผยได้ด้วยวิธีการสร้าง Data Warehouse แบบดั้งเดิมได้ ซึ่งสิ่งสำคัญสำหรับธุรกิจคือการเข้าใจถึงประโยชน์ของ Data Lake และพิจารณานำมาใช้เป็นส่วนหนึ่งของกลยุทธ์ในการจัดการข้อมูลของตัวเอง ซึ่งในระบบ Big Data Platform ที่ NT ให้บริการ นอกจากจะมี Data Warehouse และเครื่องมือสำหรับวิเคราะห์ข้อมูลแล้ว Big Data Platform ยังมี Data Lake รองรับการเก็บข้อมูลที่ไม่มีโครงสร้างในตัวอีกด้วย

ติดต่อเรา

by

Napat Saengthong
Product Manager