เทคโนโลยีดิจิทัลเพื่อการจัดการอาชีพ
30001-2003
โดย อ.สุธิดา ทะนันท์
ความรู้พื้นฐานเกี่ยวกับ
การจัดการข้อมูลขนาดใหญ่
หน่วยที่ 1
หน่วยที่ 1
1.1 ประวัติและความเป็นมาของข้อมูลขนาดใหญ่
1.2 ความหมายและความสำคัญของการจัดการข้อมูลขนาดใหญ่
1.3 ลักษณะพื้นฐานและหลักการทำงานของข้อมูลขนาดใหญ่
1.4 บทบาทของข้อมูลขนาดใหญ่ในงานด้านต่าง ๆ
1.5 ประโยชน์ในการนำข้อมูลขนาดใหญ่มาใช้ในงานธุรกิจและภาครัฐ
1.6 เครื่องมือที่ใช้ในการวิเคราะห์ข้อมูลขนาดใหญ่
หัวข้อเรื่อง
1.1
ประวัติและความเป็นมาของข้อมูลขนาดใหญ่
ต้นกำเนิดของชุดข้อมูลขนาดใหญ่ (Big Data) ได้มีการริเริ่มสร้างมาตั้งแต่ยุค 60 และในยุค 70 โลกของข้อมูลได้พัฒนาศูนย์ข้อมูลแห่งแรกขึ้นและทำการพัฒนาฐานข้อมูลเชิงสัมพันธ์ขึ้นมาประมาณปี ค.ศ. 2005 เริ่มมีการตระหนักถึงข้อมูลปริมาณมากที่ผู้คนได้สร้างขึ้นมาผ่านสื่อออนไลน์ เช่น เฟซบุ๊ก ยูทูบ และสื่อออนไลน์แบบอื่น ๆ
1.2.2 ความสำคัญของข้อมูลขนาดใหญ่
บิ๊กดาต้าช่วยให้สามารถใช้ข้อมูลจากทุกแหล่งที่เป็นไปได้บางองค์กรอาจสามารถใช้ประโยชน์จากข้อมูลที่ไม่ได้ใหญ่มาก มีความสำคัญในกานำมา
ใช้วิเคราะห์ เพื่อให้เกิดความเข้าใจเชิงลึก
1.2.1 ความหมายของข้อมูลขนาดใหญ่
บิ๊กดาต้าเป็นคำนิยามของข้อมูลที่มีขนาดใหญ่ทุกชนิดที่อยู่ในองค์กร
ไม่ว่าจะเป็น ข้อมูลบริษัทข้อมูลลูกค้า ข้อมูลผู้จัดหาสินค้าและวัตถุดิบ
1.2
ความหมายและความสำคัญของ
การจัดการข้อมูลขนาดใหญ่
คำว่า บิ๊กดาต้า มักจะสื่อถึงชุดข้อมูลที่มีขนาดใหญ่ ซึ่งอาจแบ่งย่อยออกเป็นข้อมูล 3 รูปแบบคือ
ข้อมูลที่ไม่มีโครงสร้างแน่นอน มักจะหมายถึงข้อความยาว ๆ ข้อความเสียงรูปภาพ และวิดีโอ
ข้อมูลเชิงโครงสร้าง คือ ตารางข้อมูล
ที่มีการจัดเรียงอย่างมีรูปแบบชัดเจนและเป็นระเบียบ
ข้อมูลกึ่งโครงสร้าง คือ ข้อมูลที่ถูกจัดเก็บอย่างมีรูปแบบในระดับหนึ่งและข้อมูลที่สามารถค้นหา หรือแท็ก ได้
ลักษณะพื้นฐาน
และหลักการทำงานของข้อมูลขนาดใหญ่
1.3
บิ๊กดาต้าที่มีประสิทธิภาพสูงควรมีลักษณะพื้นฐาน 6 ประการ ดังนี้
ลักษณะพื้นฐานของข้อมูลขนาดใหญ่
1.3.1
1. ปริมาณ หมายถึง ปริมาณของข้อมูลควรมีจำนวนมากพอ ทำให้เมื่อนำมาวิเคราะห์แล้วจะได้ข้อมูลเชิงลึก
2. ความหลากหลาย หมายถึง รูปแบบของข้อมูลควรหลากหลายแตกต่างกันไปทั้งแบบโครงสร้าง กึ่งโครงสร้าง ไม่มีโครงสร้าง
3. ความเร็ว หมายถึง ลักษณะข้อมูลที่ถูกสร้างขึ้นอย่างรวดเร็ว ต่อเนื่อง และทันเหตุการณ์
4. ความถูกต้อง หมายถึง มีความน่าเชื่อถือของแหล่งที่มาข้อมูลและความถูกต้องของชุดข้อมูล
5. คุณค่า หมายถึง ข้อมูลมีประโยชน์และมีความสัมพันธ์ในเชิงธุรกิจ
6. ความแปรผันได้ หมายถึง ข้อมูลสามารถเปลี่ยนแปลงรูปแบบไปตามการใช้งานหรือสามารถคิดวิเคราะห์ได้จากหลายแง่มุม
หลักการทำงานของบิ๊กดาต้า
1.3.2
ข้อมูลขนาดใหญ่ให้ข้อมูลเชิงลึกใหม่ ๆ เพื่อเปิดโอกาสและรูปแบบธุรกิจใหม่ ๆ การเริ่มต้น
ใช้งานประกอบด้วย 3 ขั้นตอนสำคัญ ดังนี้
1.การรวบรวมข้อมูลของบิ๊กดาต้า
เป็นการรวบรวมข้อมูลจากหลากหลายที่มาและการใช้งานที่แตกต่างกันอย่างมากมาย
2. การจัดการข้อมูล
ข้อมูลขนาดใหญ่มีความต้องการสถานที่จัดเก็บขนาดใหญ่ การจัดเก็บข้อมูลขนาดใหญ่จะเป็นชนิดใดก็ได้ไม่ว่าจะเป็นแบบจัดเก็บในเซิร์ฟเวอร์ที่อยู่ในสถานที่ทำงานหรือภายในองค์กร
3. การวิเคราะห์
การลงทุนสร้างข้อมูลขนาดใหญ่จะมีประโยชน์หรือคุ้มค่าก็ต่อเมื่อใช้และวิเคราะห์ข้อมูล
บทบาทของข้อมูลขนาดใหญ่
ในงานด้านต่าง ๆ
1.4
ในด้านของการตลาดบิ๊กดาต้ามีความสำคัญเป็นอย่างมากในการตลาดออนไลน์ เพราะการมีข้อมูลในเชิงลึกจะส่งผลต่อการเติบโตของธุรกิจได้เป็นอย่างดีทำให้เข้าใจสภาพการตลาด การมีข้อมูลจะช่วยวิเคราะห์พฤติกรรมการซื้อสินค้าของผู้บริโภค
ในการพยากรณ์สภาพอากาศล่วงหน้าให้ถูกต้องแม่นยำนั้น จำเป็นต้องใช้ข้อมูลด้านภูมิศาสตร์เป็น
จำนวนมาก อาทิ ภาพถ่ายดาวเทียม ข้อมูลชั้นบรรยากาศ ความชื้น เป็นต้น
1.4.1 บิ๊กดาต้ากับบทบาทสำคัญต่อการตลาดออนไลน์
1.4.2 บิ๊กดาต้ากับบทบาทการพยากรณ์สภาพภูมิอากาศ
การพิจารณาผลกระทบจากการตัดสินใจที่จะมีผลต่อต้นทุนทางด้านโลจิสติกส์โดยรวม โดยพิจารณา 3 สิ่งเบื้องต้น ที่สามารถเพิ่มประสิทธิภาพของเครือข่ายโลจิสติกส์ได้ ดังนี้ 1. วิธีการขนส่งและเส้นทางขนส่ง
2. คลังสินค้าและศูนย์กระจายสินค้า
3. การรวบรวมสินค้าเพื่อขนส่ง
บริการทางการแพทย์และการดูแลสุขภาพกับเทคโนโลยี ส่วนใหญ่คิดเพียงแต่เทคโนโลยีสำหรับการตรวจรักษาโรค จนกระทั่งมีบิ๊กดาต้าเข้ามา ซึ่งต่อไปนี้เทคโนโลยีจะเข้ามามีบทบาทในด้านสุขภาพมากยิ่งขึ้นแบบเท่าทวีคูณ โดยบิ๊กดาต้าเข้ามามีส่วนช่วยงานด้านการดูแลสุขภาพ ได้อย่างมาก
1.4.3 บิ๊กดาต้ากับบทบาทการ
บริหารจัดการด้านโลจิสติกส์
1.4.4 บิ๊กดาต้ากับบทบาทการบริการทางการแพทย์และสุขภาพ
1.ช่วยพัฒนาผลการศึกษาและพัฒนาการของผู้เรียน
2. ช่วยในการสร้างและจัดโปรแกรมการเรียน-การสอนที่มีประสิทธิภาพ
3. พัฒนาและเรียนรู้ผ่านประสบการณ์แบบเรียลไทม์
4. ลดการถอนและเพิ่มผลลัพธ์ จากการวิเคราะห์ในด้านต่างๆ
บิ๊กดาต้าทำให้เกิดความเปลี่ยนแปลงเกิดขึ้นค่อนข้างมากในแวดวงการศึกษาในช่วงหลายปีที่ผ่านมา สามารถแยกออกมาให้เห็นชัดเจนได้ ดังนี้
1.4.5 บิ๊กดาต้ากับบทบาทด้านการศึกษา
1.5
ประโยชน์ในการนำข้อมูลขนาดใหญ่มาใช้ในงานธุรกิจและภาครัฐ
1.5.1
ประโยชน์ของบิ๊กดาต้าในงานธุรกิจ
1. การพัฒนาผลิตภัณฑ์
2. การคาดการณ์เพื่อการบำรุงรักษาเครื่องจักร
3. สร้างประสบการณ์ที่ดีให้กับลูกค้า
4. การตรวจสอบการโกงและการปฏิบัติตามกฎระเบียบ
6. ประสิทธิภาพในการปฏิบัติงาน
7. การขับเคลื่อนในการสร้างสรรค์สิ่งใหม่ ๆ
5. การเรียนรู้ของเครื่องจักร เป็นที่ได้รับความนิยมในปัจจุบัน
1.5.2
ประโยชน์
ในการนำบิ๊กดาต้ามาใช้ในงานภาครัฐ
ภาครัฐมีการพัฒนาระบบบิ๊กดาต้าตามนโยบายลดใช้สำเนาบัตรประชาชน
โดยใช้บัตรประชาชนใบเดียวในการมาติดต่อราชการ
ข้อจำกัดของภาครัฐ คือ ขนาดองค์กร ระบบการทำงาน ขั้นตอน บุคลากร ระบบการจัดเก็บ ระบบค้นหา การเข้าถึงข้อมูลเอง ข้อมูลพื้นฐานที่ถูกต้อง ความน่าเชื่อถือ เว็บไซต์ที่ใช้งานได้ง่าย เข้าถึงได้จริง
เครื่องมือที่ใช้ในการวิเคราะห์
ข้อมูลขนาดใหญ่
1.6
เครื่องมือวิเคราะห์บิ๊กดาต้าและเครื่องมืออื่น ๆ ที่เกี่ยวข้อง
1.6.1
เครื่องมือวิเคราะห์บิ๊กดาต้าและเครื่องมืออื่น ๆ ที่เกี่ยวข้องเป็นเครื่องมือที่ทำ
งานภายใต้ซอฟต์แวร์แบบเปิดหรือโอนเพนซอร์ส ได้แก่
ฮาดูปเป็นซอฟต์แวร์เฟรมเวิร์ก ที่ถูกออกแบบมาเพื่อทำงานบนระบบคอมพิวเตอร์แบบกระจาย และสนับสนุนการทำงานแบบ
ขนาน
ข้อดีของฮาดูป
มีความยืดหยุ่นสูงทำให้เพิ่มหรือลดจำนวนคอมพิวเตอร์เมื่อใดก็ได้ตามที่ต้องการ
ติดตั้งบนคอมพิวเตอร์ชนิดใดก็ได้
รวมทั้งทำการติดตั้งระบบได้อย่างรวดเร็ว
เพิ่มหรือลดประสิทธิภาพได้ตาม
ความต้องการของแต่ละงาน
1.ฮาดูป
แมปรีดิวซ์เป็นเฟรมเวิร์กในการเขียนโปรแกรมแบบหนึ่งที่ช่วยในงานประมวลผลที่มีชุดของข้อมูลจำนวนมาก เป็นการทำงานแบบขนาน
การทำงานของแมปรีดิวซ์
(1) ในขั้นตอนการแบ่งงาน (Map) เครื่องที่ทำหน้าที่เป็นโนดหลัก (Master Node) นำอินพุต(Input) ที่ได้รับมาแบ่งเป็นปัญหาย่อย (Sub−Problem) หลาย ๆ ชิ้น และกระจายไปยังเครื่องที่ทำหน้าที่เป็นโนดปฏิบัติงาน (Worker Node)
(2) ขั้นตอนการรวบรวมงาน (Reduce) จะเกิดขึ้นที่โนดหลัก
กริดเกนเป็นทางเลือกหนึ่งในกรณีที่ไม่เลือกใช้แมปรีดิวซ์ของฮาดูป เนื่องจากมีการทำงานแบบเดียวกันกับระบบจัดเก็บข้อมูลหลักที่ใช้ในฮาดูป มีระบบการประมวลผลแบบในหน่วยความจำ
2. แมปรีดิวซ์
3. กริดเกน
ปัจจุบันอยู่ในความดูแลของทวิตเตอร์สตรอม (Twitter Storm) ให้ขีดความสามารถในการประมวลผลแบบกระจาย ที่สำคัญคือแบบเรียลไทม์ บางครั้งถูกเรียกว่า ฮาดูปออฟเรียลไทม์ (Hadoop of Real−Time)
4. เอชพีซีซี
5. สตรอม
ถูกพัฒนาขึ้นโดยบริษัทเลซิสเน็กซิส ริสก์ โซลูชัน ซึ่ง HPCC ย่อมาจาก
High Performance Computing Clusterผู้ผลิตประกาศว่ามีขีดความสามารถในการปฏิบัติการที่เหนือกว่า ฮาดูปมี 2 รุ่น ที่สามารถเลือกใช้ได้ ได้แก่ รุ่น Free Community ที่สามารถใช้งานได้ฟรี และรุ่น Enterpriseจะต้องสั่งซื้อ ส่วนระบบปฏิบัติการที่ให้การรองรับคือ Linux
เอชเบสเป็นโอเพนซอร์สฐานข้อมูลบนซอฟต์แวร์ฮาดูป ไม่ใช่ฐานข้อมูลเชิงสัมพันธ์ แต่เป็นฐานข้อมูลแบบกระจายซึ่งมาทีหลังบิ๊กเทเบิล ของกูเกิล เขียนขึ้นด้วยภาษาจาวา
แคสซานดราเดิมถูกพัฒนาขึ้นโดยเฟซบุ๊ก ฐานข้อมูลนี้เป็นฐานข้อมูลประเภทโนเอสคิวแอล ปัจจุบันถูกบริหารโดยมูลนิธิซอฟต์แวร์อาปาเช ถูกนำมาใช้งานกับหน่วยงานต่าง ๆ
มอนโกดีบี คือ โนเอสคิวแอลชนิดหนึ่ง เป็นระบบฐานข้อมูลแบบเอกสาร โดยลักษณะข้อมูลที่ทำการเก็บจะคล้ายกับเจซัน เป็นอย่างมาก สามารถบันทึก
ข้อมูลลงบนดิสก์ ได้เร็ว อีกทั้งยังใช้หน่วยความจำไม่มาก
เครื่องมือประเภทฐานข้อมูลหรือคลังข้อมูล
1.6.2
1. แคสซานดรา
2. เอชเบส
3. มอนโกดีบี
กระบวนการวิเคราะห์ข้อมูลขนาดใหญ่ (Big Data Analytics) และบทบาทในการรับมือวิกฤตการณ์
โรคติดเชื้อไวรัสโคโรนา (COVID-19): กรณีศึกษาจากไต้หวัน
จากสถานการณ์การระบาดของโรคทางเดินหายใจเฉียบพลันรุนแรงที่ไม่ทราบสาเหตุหรือที่รู้จักกันในชื่อโรคซาร์ส (SARS) ทั่วภูมิภาคเอเชียเมื่อ 17 ปีที่ผ่านมา ไต้หวันได้รับบทเรียนสำคัญผ่านการสูญเสียในอดีตอันนำไปสู่การเตรียมพร้อมรับมือกับโรคระบาดโควิด−19 ได้อย่างมืออาชีพ
ระหว่างช่วงการแพร่ระบาดของเชื้อไวรัสโคโรนา
สายพันธุ์ใหม่หรือโควิด-19ทำให้ชื่อออเดรย์ถังเป็นที่รู้จักกันมากขึ้น เธอคือรัฐมนตรีดิจิทัลของไต้หวัน ผู้มีบทบาทสำคัญในการใช้เทคโนโลยีกระบวนการวิเคราะห์ข้อมูลขนาดใหญ่ในการรับมือกับโควิด-19
คุณสมบัติเฉพาะตัวของเทคโนโลยีบิ๊กดาต้าทำให้ผู้ใช้สามารถจัดการและวิเคราะห์ข้อมูล
ได้แบบเวลาจริง ช่วยให้ใช้ทรัพยากรมนุษย์ได้อย่างไม่สิ้นเปลือง รวมทั้งลดระยะเวลาในการประมวลผล จัดทำรายงานข้อมูล การวิเคราะห์ และสังเคราะห์ข้อมูลได้อย่างมีประสิทธิภาพ
มีความแตกต่างจาก ข้อมูลทั่วไป(Data) ตรงที่ข้อมูลขนาดใหญ่เป็นการรวบ
รวมเอาข้อมูลที่หลั่งไหลจำนวนมหาศาลทั้งในรูปแบบที่เป็นทางการและไม่เป็นทางการมาวิเคราะห์ข้อมูลและนำไปใช้ประโยชน์ได้ โดยถูกขับเคลื่อนด้วย 4 ปัจจัยสำคัญ ได้แก่
ความหลากหลายของคุณภาพข้อมูล
ความสามารถในการเก็บข้อมูลขนาดใหญ่
ข้อมูลถูกรวบรวมด้วยความเร็วสูง
ความหลากหลายของประเภทข้อมูล
“ข้อมูลขนาดใหญ่”
บริษัทแอปเปิล ร่วมมือกับสถาบันการเงินโกลด์แมนแซคส์ และมาสเตอร์คาร์ด ในการที่สามารถใช้ร่วมกับโทรศัพท์ไอโฟน ไม่พัฒนาบัตรเครดิตแอปเปิล มีค่าธรรมเนียม
(1)การร่วมมือระหว่าง 4 ธุรกิจใหญ่
(2) ทรูมันนี่
หลังจากที่รัฐบาลดำเนินยุทธศาสตร์ระบบการชำระเงินอิเล็กทรอนิกส์แห่งชาติ ที่มีวัตถุประสงค์เพื่อพัฒนาระบบการชำระเงินทางอิเล็กทรอนิกส์ให้ทันสมัย ได้มาตรฐาน และมีต้นทุนต่ำ
กรณีศึกษาการใช้กระบวนการวิเคราะห์ข้อมูลขนาดใหญ่ในสถาบันการเงินในปัจจุบัน
1. กรณีศึกษาในธุรกิจธนาคาร
3. กรณีศึกษาการนำบิ๊กดาต้า
มาใช้ในธุรกิจเทคโนโลยีขนาดใหญ่
2. กรณีศึกษาในธุรกิจบริการทางการเงินแต่ไม่ใช่สถาบันการเงินหรือธนาคาร
5. การใช้การเรียนรู้ของเครื่องและปัญญาประดิษฐ์ในงานที่ใช้การคิดวิเคราะห์เป็นขั้นตอนด้วยเหตุและผลเพื่อลดต้นทุนด้านบุคลากร
มุมมองของศูนย์วิจัย
เศรษฐกิจต่อการวิเคราะห์ข้อมูล
บิ๊กดาต้าเป็นเทคโนโลยีในการจัดเก็บและประมวลผลข้อมูลขนาดใหญ่ที่ต้องลงทุนทั้งด้านเทคโนโลยีและบุคลากร รวมถึงยังมีต้นทุนในการบำรุงรักษา
1. การวิเคราะห์เชิงลึก และพฤติกรรมของลูกค้าเพื่อนำเสนอผลิตภัณฑ์และบริการที่มีนวัตกรรมตรงกับความต้องการของลูกค้าแต่ละราย
2. การวิเคราะห์พฤติกรรมของลูกค้า นำเสนอช่องทางที่สะดวกและเข้ากับรปูแบบของลูกค้าแต่ละช่วงวัย ทั้งออนไลน์ และออฟไลน์
3. ลดการทุจริต โดยนำเทคโนโลยีข้อมูลทางชีวมิติ เช่น ลายนิ้วมือ ใบหน้า มาใช้เพื่อเพิ่มประสิทธิภาพความแม่นยำในการพิสูจน์ตัวตนลูกค้าของธนาคาร
4. การนำเทคโนโลยีมาเพิ่มประสิทธิภาพในกระบวนการส่งมอบผลิตภัณฑ์และบริการที่รวด
เร็ว ปลอดภัยและลดต้นทุนมากยิ่งขึ้น
ข้อเสนอแนะเกี่ยวกับการวิเคราะห์ข้อมูล
จากเทคโนโลยีที่เข้ามาเปลี่ยนรูปแบบการดำเนินธุรกิจของธนาคาร ทำให้ธนาคารต้องปรับตัวท่ามกลางความเปลี่ยนแปลงเพื่อให้องค์กรสามารถเติบโตได้อย่างยั่งยืน จึงต้องมีการเตรียมความพร้อมในด้านต่าง ๆ ดังนี้
1. การจัดเตรียมข้อมูลที่จะใช้ในการวิเคราะห์
2. เทคโนโลยีที่สามารถรองรับและประมวลผลบิ๊กดาต้า
3. หน่วยงานที่รับผิดชอบและบุคลากร