Data access layer เป็นส่วนต่อประสานระหว่าง Information access layer กับ operational layer 4. Metadata layer เพื่อให้เข้าใจถึงข้อมูลได้ง่ายขึ้น และเป็นการเพิ่มความเร็วในการเรียกและดึงข้อมูลของคลังข้อมูล 5. Process management layer ทำหน้าที่จัดการกระบวนการทำงานทั้งหมด 6. Application messaging layer เป็นมิดเดิลแวร์ (Middleware) ทำหน้าที่ในการส่งข้อมูลภายในองค์กรผ่านทางเครือข่าย 7. Data warehouse (physical) layer เป็นแหล่งเก็บข้อมูลของทาง information data และ external data ในรูปแบบที่ง่ายแก่การเข้าถึงและยืดหยุ่นได้ 8. Data staging layer เป็นกระบวนการการแก้ไข และดึงข้อมูลจาก external database ข้อเสียของคลังข้อมูล 1. ขั้นตอนการกลั่นกรองและโหลดข้อมูลเข้าสู่คลังข้อมูลใช้เวลานาน และต้องอาศัยผู้ที่มีความชำนาญ 2. แนวโน้มความต้องการข้อมูลมีมากขึ้นเรื่อย ๆ 3. ใช้เวลานานในการพัฒนาคลังข้อมูล 4. ระบบคลังข้อมูลมีความซับซ้อนสูง โมเดลข้อมูลของคลังข้อมูลของ Data Warehouse โมเดลข้อมูลของคลังข้อมูลของ Data Warehouse ซึ่งเปรียบเสมือนกับรูปลูกบาศก์ที่มีมุมมองหลากหลาย แต่ละมุมมองทำให้เกิดการคิวรีข้อมูลจาก Data Warehouse ได้หลากหลายแบบคิวบ์ ( Cube) ประกอบด้วยองค์ประกอบที่สำคัญคือ Dimention และ Measure การผสมผสานของ Dimention ต่างๆ ของคิวบ์ ( Cube) ในบทนี้ คิวบ์ ( Cube) มีโครงสร้างได้ 2 แบบคือ โครงสร้างแบบ Star Schema และ โครงสร้างแบบ Snowflake Schema ขอบคุณข้อมูลจาก: ระบบคลังข้อมูล (assignment).
Data warehouse (physical) layer เป็นแหล่งเก็บข้อมูลของทาง information data และ external data ในรูปแบบที่ง่ายแก่การเข้าถึงและยืดหยุ่นได้ 8. Data staging layer เป็นกระบวนการการแก้ไขและดึงข้อมูลจาก external database
ระบบคลังข้อมูล ( Data Warehouse) คืออะไร?
การเรียกข้อมูลจากฐานข้อมูลปฏิบัติการ ซึ่งมีขนาดใหญ่ ทำให้ประสิทธิภาพของระบบลดลง และทำงานได้ช้าลง 2. ข้อมูลที่นำเสนอมีรูปแบบเดียว ไม่สามารถเปลี่ยนแปลงได้ตามความต้องการของผู้บริหาร 3. ไม่สามารถหาคำตอบในเชิงพยากรณ์ได้ 4. ไม่ตอบสนองการทำคิวรีที่ซับซ้อนได้ดีเท่าที่ควร 5. ข้อมูลถูกจัดเก็บอยู่ ตามฐานข้อมูลของระบบงานต่างๆ ซึ่งยากแก่การเรียกใช้และขาดความสัมพันธ์ทางธุรกิจ 6. จากรูปจะเห็นได้ว่าการดึงข้อมูลจาก Database และ Data Warehouse ก็สามารถเชื่อมต่อ กับ Internet ได้ Data Mining สาเหตุที่ต้องใช้ เพราะ 6. 1 จำนวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและขยายตัวอย่างรวดเร็ว การสืบค้นความรู้จะมีความหมายก็ต่อเมื่อฐานข้อมูลที่ใช้มีขนาดใหญ่มาก ปัจจุบันมีจำนวนและขนาดข้อมูลขนาดใหญ่ที่ขยายตัวอย่างรวดเร็ว โดยผ่านทาง Internet ดาวเทียม และแหล่งผลิตข้อมูล อื่น ๆ เช่น เครื่องอ่านบาร์โค้ด เครดิตการ์ด อีคอมเมิร์ซ 6. 2 ข้อมูลถูกจัดเก็บเพื่อนำไปสร้างระบบการสนับสนุนการตัดสินใจ (Decision Support System) เพื่อเป็นการง่ายต่อการนำข้อมูลมาใช้ในการวิเคราะห์เพื่อการตัดสินใจ ส่วนมากข้อมูลจะถูกจัดเก็บแยกมาจากระบบปฏิบัติการ (Operational System) โดยจัดอยู่ในรูปของคลังหรือเหมืองข้อมูล ( Data Warehouse) ซึ่งเป็นการง่ายต่อการนำเอาไปใช้ในการสืบค้นความรู้ 6.
Timevariancy หรือความสัมพันธ์กับเวลา หมายถึงข้อมูลในคลังข้อมูล จะต้องจัดเก็บโดยกำหนดช่วงเวลาเอาไว้ ประมาณ 5 – 10 ปี เพื่อใช้เปรียบเทียบ หาแนวโน้มและทำนายผลลัพธ์ในอนาคต เพราะในการตัดสินด้านการบริหารจำเป็นต้องมีข้อมูลเปรียบเทียบในแต่ละช่วงเวลา nvolatile หรือความเสถียรของข้อมูล หมายถึงข้อมูลในคลังข้อมูลจะไม่เปลี่ยนแปลงบ่อย ไม่ว่าจะเป็นการเพิ่มเติมข้อมูลใหม่ หรือการปรับปรุงแก้ไขข้อมูลเดิมที่บรรจุอยู่แล้ว ผู้ใช้ทำได้เพียงการเข้าถึงข้อมูลเท่านั้น
Integration หรือการรวมเป็นหนึ่ง ซึ่งถือได้ว่าเป็นคุณลักษณะที่สำคัญที่สุดของคลังข้อมูล คือการรวบรวมข้อมูลจากหลายฐานข้อมูลปฏิบัติการเข้าด้วยกัน และทำให้ข้อมูลมีมาตราฐานเดียวกัน เช่นกำหนดให้มีค่าตัวแปรของข้อมูลในเนื่อหาเดียวกันให้เป็นแบบเดียวกันทั้งหมด 3. Time variancy หรือความสัมพันธ์กับเวลา หมายถึงข้อมูลในคลังข้อมูล จะต้องจัดเก็บโดยกำหนดช่วงเวลาเอาไว้ โดยจะสัมพันธ์กับการดำเนินธุรกิจของหน่วยธุรกิจนั้น เพราะในการตัดสินด้านการบริหารจำเป็นต้องมีข้อมูลเปรียบเทียบในแต่ละช่วงเวลา แต่ละจุดของข้อมูลจะเกี่ยวข้องกับจุดของเวลาและข้อมูลแต่ละจุดสามารถเปรียบเทียบกันได้ตามแกนของเวลา 4. Nonvolatile หรือความเสถียรของข้อมูล หมายถึงข้อมูลในคลังข้อมูลจะไม่เปลี่ยนแปลงบ่อย ไม่ว่าจะเป็นการเพิ่มเติมข้อมูลใหม่ หรือการปรับปรุงแก้ไขข้อมูลเดิมที่บรรจุอยู่แล้ว ผู้ใช้ทำได้เพียงการเข้าถึงข้อมูลเท่านั้น สถาปัตยกรรมของคลังข้อมูล 1. Operational database หรือ external database layer ทำหน้าที่จัดการกับข้อมูลในระบบงานปฏิบัติการหรือแหล่งข้อมูลภายนอกองค์กร 2. Information access layer เป็นส่วนที่ผู้ใช้ปลายทางติดต่อผ่านโดยตรง ประกอบด้วยฮาร์ดแวร์และซอฟต์แวร์ ที่ใช้ในการแสดงผลเพื่อวิเคราะห์ โดยมีเครื่องมือช่วย เป็นตัวกลางที่ผู้ใช้ใช้ติดต่อกับคลังข้อมูล 3.
Consolidated and Consistant Consolidated หมายถึง การรวบรวมข้อมูลที่เกิดขึ้นในระดับปฏิบัติการมาไว้ที่ศูนย์กลางเดียวกัน (คลังข้อมูล) Consistant หมายถึง ข้อมูลจากแหล่งต่างๆที่รวบรวมมาไว้ในคลังข้อมูล จะต้องมีคุณสมบัติที่เหมือนกัน รูปแบบเดียวกันและสอดคล้องกัน 2. Subject-Oriented Data หมายถึง เก็บข้อมูลในระดับปฏิบัติการเฉพาะส่วนที่นำมาใช้เชิงวิเคราะห์หรือ เชิงตัดสินใจมากกว่าการเก็บข้อมูลเพื่อตอบคำถาม 3. Historical Data หมายถึง จะเก็บย้อนหลังเป็นเวลาหลายๆปี เพื่อจะได้นำไปวิเคราะห์เปรียบเทียบหาแนวโน้มของข้อมูลเปรียบกับปีที่ผ่านมา 4. Read – Only Data หมายถึง ข้อมูลในฐานข้อมูลไม่ควรมีการแก้ไขหลังจากที่นำข้อมูลเข้าสู่ฐานข้อมูลของคลังข้อมูลแล้วไม่มีการ Insert update or delete ข้อมูลภายในคลังข้อมูลนอกจากการเพิ่มข้อมูลเข้าอย่างเดียว คุณลักษณะเฉพาะของคลังข้อมูล 1. Subject oriented หรือการแบ่งโครงสร้างตามเนื้อหา หมายถึง คลังข้อมูลถูกออกแบบมาเพื่อมุ่งเน้นไปในแต่ละเนื้อหาที่สนใจ ไม่ได้เน้นไปที่การทำงานหรือกระบวนการแต่ละอย่างโดยเฉพาะเหมือนอย่างฐานข้อมูลปฏิบัติการในส่วนของรายละเอียดข้อมูลที่จัดเก็บในระบบทั้งสองแบบก็จะแตกต่างกันไปตามความต้องการใช้งานด้วยเช่นกัน คลังข้อมูลจะไม่จำกัดเก็บข้อมูลที่ไม่มีส่วนเกี่ยวข้องกับการประมวลผลเพื่อสนับสนุนการตัดสินใจ ในขณะที่ข้อมูลนั้นจะถูกเก็บไว้ในฐานข้อมูลปฏิบัติการหากมีส่วนที่เกี่ยวข้องกับกระบวนการทำงาน 2.
ตัวอย่างของระบบ Data Warehouse ที่ประสบ ความสำเร็จ หนึ่งในระบบ Data Warehouse ที่ประสบความสำเร็จมากเป็นระบบที่นำมาประยุกต์ใช้กับ ธุรกิจค้าปลีก เพราะระบบ Data Warehouse ทำให้เจ้าของสามารถสร้างระบบรายงานที่ดึง เฉพาะข้อมูลที่ต้องการ ออกมาจากเครื่องเก็บเงินได้ ( Point-of-Sales) และนำข้อมูลนั้นมาสร้าง และทดสอบโปรโมชั่นต่าง ๆ ช่วยในการดูพฤติกรรมการซื้อ (เช่น ของบางอย่างลูกค้ามักจะซื้อคู่กัน เช่น เสื้อเชิ้ตกับเนคไทหรือรองเท้ากับกระเป๋าถือ) หรือสร้างบริการและ ผลิตภัณฑ์ใหม่ ๆ
ส่วนประกอบของ Data Warehouse ระบบ Data Warehouse ไม่ใช่ระบบสำเร็จรูปที่สามารถใช้งานได้ทันที แต่มันจำเป็นต้องมีการออกแบบ ขึ้นเพื่อทำการหาความต้องการที่แท้จริงขององค์กร โดยมีหลัก ดังนี้ 1. พิจารณาเครื่องมือที่เหมาะสมเพื่อช่วยออกแบบฐานข้อมูลของ Data Warehouse และโปรแกรมที่จะทำหน้าที่เก็บรวบรวมข้อมูลจากระบบปฏิบัติงานหรือแหล่งข้อมูลอื่น ๆ 2. ส่วนที่ทำหน้าที่เป็น Directory ของข้อมูล เพื่ออำนวยความสะดวกแก่ผู้ดูแลระบบหรือผู้ใช้ทั่วไป ให้เข้าใจถึงข้อมูลแต่ละตัวและความหมายของมัน 3. ตัวฐานข้อมูลของ Data Warehouse เอง 4. ส่วนที่ทำหน้าที่ Data Acquisition ซึ่งก็คือตัวที่ทำ หน้าที่ดับจับ เก็บรวบรวมข้อมูล รักษาความถูกต้อง โอนย้าย หรือแปลงข้อมูลจากแหล่งข้อมูลอื่นให้อยู่ ในรูปแบบที่เหมาะสมก่อนจะเก็บเข้าสู่ Data Warehouse ต่อไป 5. ส่วนที่ทำหน้าที่ Data Management สำหรับจัดการ และควบคุมการปฏิบัติงานของ Data 6. ส่วนที่ทำหน้าที่เข้าถึงข้อมูล จะเป็นส่วนที่ให้บริการแก่ผู้ใช้ที่มีพื้นมาทางธุรกิจ ให้สามารถใช้มันเป็นเครื่องมือช่วยการตัดสินใจได้ ซึ่งแน่นอนว่าต้องการเครื่องมือตัวนี้เพื่อช่วยเขาเข้าถึงและวิเคราะห์ข้อมูล 7.
3 ระบบ Computer สมรรถนะสูงมีราคาต่ำลง เทคนิค Data Mining ประกอบไปด้วย Algorithm ที่มีความซับซ้อนและความต้องการการคำนวณสูง จึงจำเป็นต้องใช้งานกับระบบ Computer สมรรถนะสูง ปัจจุบันระบบ Computer สมรรถนะสูงมีราคาต่ำลง พร้อมด้วยเริ่มมีเทคโนโลยีที่นำเครื่อง Micro Computer จำนวนมากมาเชื่อมต่อกันโดยเครือข่ายความเร็วสูง (PC Cluster) ทำให้ได้ระบบ Computer สมรรถนะสูงในราคาต่ำ 6.