วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

week9

Week9: Data management & Business Intelligence

           การที่เราจะได้มาซึ่ง Data warehouse จำเป็นที่จะต้องนำข้อมูลที่เรามีนั้นผ่านกระบวนการต่างๆ เพื่อตัดความผิดพลาดหรือความไม่สอดคล้องของข้อมูลออกก่อน ซึ่งกระบวนการต่างๆเป็นดังนี้

Data warehouse process

1.การจัดหาข้อมูลจาก Database ต่างๆ หรืออาจรวมถึงข้อมูลจากแหล่งภายด้วยได้
2.กระบวนการในการจัดทำให้พร้อมสู่การนำเข้าสู่ Data warehouse ดังนี้
                2.1Extract นำข้อมูลสู่ระบบ
                2.2Clean คือการทำให้ข้อมูลอยู่ในมาตรฐานเดียวกัน เช่นการบันทึกวันเดือนปีเกิดที่อาจอยู่ต่างรูปแบบกันเป็นต้น
                2.3Transform ทำให้ข้อมูลอยู่ในรูปแบบที่เหมาะสม
                2.4Load คือการอัพโหลดข้อมูลสู่ Data cube
3.ข้อมูลใน Data warehouse จะประกอบด้วยหลายๆ Data cube ซึ่งสามารถที่จะเรียกดูข้อมูลต่างๆผ่าน Dash board

Data Mart
                เปรียบเสมือนกับเป็น Data warehouse ขนาดเล็ก คือมีข้อมูลเฉพาะส่วนงานนั้นๆไม่ได้มีปริมาณมากเหมือนกับ Data warehouse แต่ก็สามารถที่จะใช้วิเคราะห์เป็นประเด็นย่อยๆได้ ซึ่งมีแนวทางการได้มา 2 แบบคือ
1.Replicated คือจะเกิดจากการที่บริษัทมี Enterprise Data warehouse แล้วนำส่วนย่อยๆไปสร้างเป็น Data mart
2. Stand-alone คือบริษัทไม่พร้อมจะทำ Enterprise Data warehouse จึงสร้าง Data mart เป็นแต่ละแผนกเช่น การเงิน การบัญชี การตลาดเป็นต้น

Business Intelligence (BI)

                เป็นเครื่องมือที่ใช้เพื่อการเรียกใช้ข้อมูลที่อยู่ใน Database มีไว้เพื่อให้สามารถเรียกดูข้อมูล รวมถึงช่วยในการแสดงผลข้อมูลให้อยู่ในรูปแบบที่ผู้ใช้งานต้องการได้ซึ่งปัจจุบันก็มีหลากหลายผู้ผลิตที่สร้าง BI ขึ้น และแต่ละโปรแกรมก็จะมีการแสดงผลที่แตกต่างกันอยู่บ้าง แต่โดยหลักแล้วจะมีฟังก์ชันการใช้งานพื้นฐานดังนี้
1.Dash boards เป็นการแสดงข้อมูลให้อยู่ในแบบที่ผู้บริหารสามารถเข้าใจได้ง่าย โดยส่วนมากจะเป็นกราฟเพื่อสะดวกในการดูแนวโน้มต่างๆโดยจะมีตัวชี้วัดต่างๆประกอบ ซึ่งตัวชี้วัดต่างๆนี้ก็จะถูกนำมาจาก Balance Scorecard จึงทำให้ดูเหมือนว่า Dash board เป็นการแสดง Balance Scorecard นั่นเอง
2.Business Performance Management เป็นการจัดการที่ใช้เปรียบเทียบผลการดำเนินงานกับเป้าหมาย วัตถุประสงค์และกลยุทธ์ ขึ้นอยู่กับ BI Analysis Reporting, dashboards & scorecards

Analytic
Data Mining
                เป็นการค้นหาความรู้ใหม่ๆ เพื่อให้เกิดความเข้าใจ และนำไปปฏิบัติได้ เป็นการทำให้ข้อมูลที่มีอยู่เป็นจำนวนมากใน Databases กลายเป็นข้อมูลที่มีประโยชน์ต่อการตัดสินใจผ่านการใช้เครื่องมือช่วยในการวิเคราะห์ ซึ่งประกอบด้วย 5 รูปแบบ ได้แก่
1.Clustering เป็นการจัดกลุ่มข้อมูล ทำโดยการนำข้อมูลมาแสดงเป็นกราฟ แล้วสังเกตถึงรูปแบบการกระจายตัวของข้อมูลซึ่งอาจจะพบรูปแบบต่างๆได้
2.Classification เป็นเหมือนกับ Clustering แต่มีการตั้งสมมติฐานไว้แล้ว
3.Association เป็นผลสืบเนื่องที่มีแนวโน้มจะเกิดขึ้นแบบเกี่ยวข้องกัน เช่นคนที่ซื้อขนมปัง มักจะซื้อแยมไปด้วยเป็นต้น
4.Sequence Discovery 
5.Prediction การคาดการณ์ล่วงหน้า (forecast)

Text mining เป็นแอพพลิเคชันที่จะช่วยในการวิเคราะห์ข้อมูลที่ไม่มีรูปแบบการจัดเก็บที่แน่นอน เช่นคำแนะนำของลูกค้า หรือสิ่งที่ลูกค้าไม่ชอบ เป็นต้น ซึ่งแอพพลิเคชันนี้มีความสามารถในการหาคำสำคัญในบทความต่างๆได้ มีการใช้ประโยชน์ในการป้องกัน Email Spam เป็นต้น



วันพุธที่ 12 มกราคม พ.ศ. 2554

week 8

Week8 : Data Management

                การที่จะสร้างระบบขึ้นมาจะต้องเกิดจากการมีวัตถุประสงค์ว่าต้องการอะไร หรือนั่นก็คือต้องทราบถึงผลลัพธ์ก่อนว่าในที่สุดแล้วเราต้องการอะไร จากนั้นผลลัพธ์จะเป็นตัวที่จะบอกว่า เราจะต้องมีอะไรในการเริ่มต้น(Input) และจะต้องมีกระบวนการประมวลผลหรือขึ้นตอนต่างๆ (process) ซึ่งเป็นองค์ประกอบหลักของการสร้างระบบ

                ระบบสารสนเทศเป็นระบบที่ให้ผลลัพธ์สุดท้าย (Output) คือ สารสนเทศ โดยมีข้อมูลต่างๆเป็นจุดเริ่มต้นของกระบวนการประมวลผลข้อมูล ให้เป็นรายงานที่สามารถนำไปใช้ประโยชน์ภายในองค์กร โดยสามารถที่จะแสดงรายงานออกมาให้เหมาะสมกับแผนกต่างๆในองค์กรได้ ซึ่งรายงานต่างๆนั้นเป็นข้อมูลที่ผ่านกระบวนการต่างๆมามากหากจะนำไปใช้ต่ออาจมีข้อมูลบางตัวหายไป หรือไม่สามารถจะตรวจสอบได้ ดังนั้นการจัดเก็บข้อมูลดิบก่อนการผ่านกระบวนการจึงมีความจำเป็นกับองค์กรในปัจจุบันเป็นอย่างมาก แต่ข้อมูลเหล่านั้นก็มีปริมาณที่มาก หากจะเก็บทั้งหมดก็อาจจะเป็นการเปลืองทรัพยากร จึงจำเป็นจะต้องมีการบริหารข้อมูลขึ้น
                การบริหารข้อมูลนั้นมีความยากเนื่องจากข้อมูลนั้นมีปริมาณมากขึ้นอย่างมาก นอกจากนี้ยังต้องคำนึงถึงความปลอดภัยของข้อมูล คุณภาพและแนวทางของข้อมูลด้วย

Data management       มีเป้าหมายอยู่ 4 อย่างคือ

-Data profiling คือการนำข้อมูลเข้าสู่ระบบ
-Data quality management คือต้องตรวจสอบคุณภาพของข้อมูล
-Data integration คือการจับกลุ่มของข้อมูลที่มีความคล้ายคลึงกันจากหลายๆแหล่งข้อมูล
-Data augmentation ตรวจสอบความถูกต้องของข้อมูล

Data life cycle process
1.เก็บรวบรวมข้อมูลใหม่
2.นำข้อมูลเข้าสู่ ฐานข้อมูล ปรับรูปแบบเพื่อจัดเก็บใน data warehouse
3.ผู้ใช้สามารถนำข้อมูลจาก data warehouse ไปใช้ในการวิเคราะห์ได้

Data Processing
·         Transactional: เป็น ระบบปฏิบัติการที่ใช้ในการบันทึกข้อมูลในงานทั่วไป งานประจำวันโดยจะจัดเก็บข้อมูลใน ฐานข้อมูล
·         Analytical: ข้อมูลส่วนใหญ่จะมีไว้เพื่อนำมาวิเคราะห์ต่อไป โดยจะ extract ข้อมูลมาจากฐานข้อมูล เฉพาะส่วนที่ต้องการใช้ โดยจะจัดเก็บข้อมูลใน data warehouse เพื่อไม่ให้การดำเนินงานปกติที่ใช้ข้อมูลจากฐานข้อมูลมูลหยุดชะงัก

Data Warehouse
องค์กรที่ตัดสินใจโดยอาศัยพื้นฐานในการวิเคราะห์ข้อมูลมักจะจำเป็นต้องมี Data warehouse โดย Data warehouse มีคุณสมบัติดังนี้
Organizational: นำเอาข้อมูลที่ต้องการมาจัดรูปแบบใหม่ ตามวัตถุประสงค์
Consistency: แก้ไขข้อมูลให้อยู่ในรูปแบบเดียวกันเช่น การบันทึกชื่อของลูกค้าเดียวกันใช้ชื่อแตกต่างกันตามแผนก
Time variant: ตัดสินใจว่าข้อมูลจะเก็บไว้นานเท่าไร
Non-volatile: ข้อมูลจะไม่มีการเปลี่ยนแปลงหรือ update อีกแล้ว มีแต่การ refreshข้อมูลให้ใหม่ขึ้น(ข้อมูลถูกเพิ่มส่วนใหม่                 เข้าไปแต่ไม่ได้แก้ไขที่มีอยู่เดิม แตกต่างจากการ update ที่ทำให้ข้อมูลที่มีอยู่เดิมเปลี่ยนแปลงไป)
Relational: มีโครงสร้างที่สัมพันธ์กัน
Client/server: ใช้ client/server เพื่อให้ผู้ใช้งานสุดท้ายสามารถเข้าถึงข้อมูลได้ง่าย