เช็คความพร้อมก่อนเริ่มต้นไปกับเทคโนโลยี

กรุงเทพฯ--20 ก.ค.--คอร์แอนด์พีค 8 ข้อที่คุณต้องรู้ก่อนทำการวิเคราะห์ปริมาณข้อมูลมหาศาล (Big Data) ด้วย Hadoop ปัจจุบันองค์กรต่างๆเริ่มมีการแข่งขันกันด้านการวิเคราะห์ข้อมูล ขณะที่ปัจจัยทางด้านเทคโนโลยีหลายๆอย่างก็กำลังมากันในรูปแบบโครงสร้าง ecosystem สำหรับเทคโนโลยี Hadoop แน่นอนว่า ความชื่นชมต่อเทคโนโลยีใหม่ๆ นำไปสู่คำถามมากมายมาโดยตลอด คำถาม ณ วันนี้ ครอบคลุมถึง "เราจะรับมือกับการเตรียมข้อมูลบนเทคโนโลยี Hadoop ได้อย่างไร" "การใช้ประโยชน์จาก เทคโนโลยี Hadoop จะส่งผลต่อการแสดงข้อมูลด้วยภาพ (visualization) และการวิเคราะห์ข้อมูลเชิงลึกในรูปแบบอื่นๆ อย่างไรบ้าง" "มีเทคนิคการวิเคราะห์ประเภทใด ที่สามารถนำมาใช้กับการวิเคราะห์ข้อมูลที่บริหารจัดการโดยเทคโนโลยี Hadoop ได้บ้าง" "เราจะใช้เทคโนโลยีHadoop กับการประมวลผลในหน่วยความจำ (in-memory processing) ได้อย่างไร" โดยหัวข้อต่อไปนี้ จะมุ่งเน้นไปที่คำถามข้างต้น และให้ข้อมูลที่จำเป็นสำหรับคุณในการเริ่มสำรวจการวิเคราะห์Big Data ทั้งนี้มูลค่าทางธุรกิจ สามารถสร้างขึ้นได้จากการวิเคราะห์ Big Data และถ้าหากผลลัพธ์ของแบบจำลอง ถูกนำไปผสานรวมไว้กับกระบวนการทางธุรกิจเพื่อเป็นเครื่องมือที่ช่วยในการตัดสินใจ 1. เข้าใจเทคโนโลยี Hadoop ซึ่งมีองค์ประกอบ 2 ส่วน คือ ระบบที่มีราคาประหยัดสำหรับการจัดเก็บข้อมูล เรียกว่าHadoop distributed file system (HDFS) และระบบที่มีเครื่องมือประมวลผลที่กระจายข้อมูลไปยังส่วนต่างๆ ของการปฏิบัติงานเพื่อนำข้อมูลไปใช้งาน หรือการประมวลผล Big Dataที่ เรียกว่า MapReduce ทั้งนี้เทคโนโลยี Hadoop เป็นโซลูชั่นที่ราคาไม่แพงนัก สำหรับจัดเก็บและประมวลผล Big Data โดยเฉพาะอย่างยิ่ง ข้อมูลกึ่งมีโครงสร้าง(semistructured data) และข้อมูลแบบไม่มีโครงสร้าง (unstructured data) แต่อย่างไรก็ตามเทคโนโลยี Hadoop ก็ยังมีข้อจำกัดอยู่บ้าง โดยเฉพาะเมื่อเป็นการวิเคราะห์ขั้นสูง ดังนั้น ecosystem ขนาดใหญ่ของเครื่องมือที่มีความล้ำหน้า และซอฟต์แวร์ช่วยเชื่อมข้อมูล (connectors) จึงถูกสร้างขึ้นมารายรอบเทคโนโลยี Hadoop และเมื่ออ่านต่อไปแล้วคุณจะเกิดความเข้าใจที่ดียิ่งขึ้น ว่ามีอะไรให้มองหาใน ecosystemของเทคโนโลยี Hadoop บ้าง 2. พิจารณาถึง in-memory analytics (การวิเคราะห์ภายในหน่วยความจำ) ที่ถูกออกแบบมาเพื่อช่วยให้ผู้ใช้เรียกดูการแสดงผลข้อมูลได้ง่ายขึ้น และรวดเร็วแบบเรียลไทม์ได้ในทุกที่ ซึ่งจะทำการประมวลผลข้อมูลด้วยหลักการทางคณิตศาสตร์ ภายในหน่วยความจำหลัก (RAM) แทนการทำงานบนดิสก์ เพื่อหลีกเลี่ยงการใช้เวลาในการรับ/ส่งข้อมูลระหว่างการประมวลผล (I /O ) โดยเทคนิคการวิเคราะห์ขั้นสูง เช่น สถิติขั้นสูง, คลังข้อมูล, การเรียนรู้ของกลไกการทำงาน, คลังข้อความ (text mining) และระบบแนะนำข้อมูล (recommendation systems) สามารถได้รับประโยชน์จากการประมวลผลแบบ in-memory อีกด้วย คุณประโยชน์ที่เพิ่มขึ้นนี้ ยังรวมไปถึงการวิเคราะห์ และการโต้ตอบกับข้อมูล ที่รวดเร็วขึ้น อย่างไรก็ตาม MapReduce ไม่เหมาะอย่างยิ่ง สำหรับการวิเคราะห์โดยใช้การคำนวณซ้ำ (iterative analytics) เป็นผลให้ผู้ค้าเทคโนโลยีหลายรายในปัจจุบันให้ความสำคัญกับการนำเสนอการประมวลผลแบบ in-memory สำหรับเทคโนโลยีHadoop เพราะโดยส่วนใหญ่ความสามารถของการประมวลผลแบบ in-memoryนั้นจะอยู่ภายนอกเทคโนโลยีHadoop ดังนั้น ผู้ค้าบางรายจึงยกข้อมูลจากเทคโนโลยี Hadoop ไปไว้ในเครื่องมือภายในหน่วยความจำ (in-memory engine) เพื่อวิเคราะห์โดยใช้การคำนวณซ้ำ 3. เปลี่ยนแปลงกระบวนการเตรียมข้อมูล การวิเคราะห์Big Data ต้องมีการใช้เทคนิคการวิเคราะห์ที่ซับซ้อน ซึ่งในทางกลับกันนั้น ก็ยังต้องการการเตรียมการและการสำรวจข้อมูลที่มีประสิทธิภาพด้วย ทั้งนี้เพื่อหาตัวแปรที่ใช้ในการศึกษาสำหรับการประมาณการณ์ , การคาดการณ์ล่วงหน้า , ค่าของตัวแปรที่ไม่สมบูรณ์ ,ค่าผิดปกติ, การปรับเปลี่ยนรูปแบบข้อมูล และอื่นๆ ซึ่งในข้อนี้ต้องการวิธีคิดที่แตกต่างจากผู้ใช้ data warehouse สำหรับการจัดทำรายงาน ที่ข้อมูลได้ถูกกำหนดไว้แล้ว หลักสำคัญของการเตรียมและการรวมข้อมูลเข้าด้วยกัน เช่น คุณภาพของข้อมูล หรือ metadata นั่นก็คือ อย่าละทิ้งข้อมูลใดๆ 4. สำรวจข้อมูลเพื่อข้อมูลเชิงลึกใหม่ๆ คุณสามารถใช้ข้อนี้เป็นส่วนหนึ่งของการเตรียมข้อมูล (ดังที่ระบุไว้ก่อนหน้า) และยังเป็นการใช้เพื่อค้นพบข้อมูลเชิงลึกอีกด้วย ตัวอย่างเช่น คุณอาจต้องการแสดงข้อมูลภาพแบบง่ายๆ หรือใช้สถิติเชิงพรรณนา เพื่อตัดสินว่ามีอะไรอยู่ในข้อมูลนั้น หรือระบุค่าตัวแปรที่เกี่ยวข้อง สำหรับการวิเคราะห์ขั้นสูงยิ่งขึ้น ขณะเดียวกันก็มองหาผู้ค้าเทคโนโลยี ที่สามารถจัดหาคุณสมบัติการทำงานสำหรับคำถามที่ว่ามานี้ การแสดงข้อมูลด้วยภาพ (visualization) และสถิติเชิงพรรณนา 5. เข้าใจการวิเคราะห์ขั้นสูง ด้วย Big Data และการประมวลผลในหน่วยความจำ ซึ่งไม่ถูกจำกัดด้วยประเภทของการวิเคราะห์ คุณจึงสามารถทำงานกับข้อมูลที่มีอยู่ เพื่อให้ก้าวพ้นจากขอบเขตของการวิเคราะห์เชิงพรรณนาแบบทั่วไป ได้อย่างแท้จริง ต้องมีการพัฒนาโปรแกรมที่ครอบคลุมถึงคลังข้อมูล, คลังข้อความ (text mining) และการเรียนรู้ของกลไกแอพพลิเคชั่นที่ได้รับความนิยมมากที่สุด หากต้องใช้ในกรณีเหล่านี้ ซึ่งรวมถึง การตรวจจับรูปแบบ, การจำแนกประเภทข้อมูล, การประมาณการณ์ / การคาดการณ์ล่วงหน้า, ข้อเสนอแนะ และการหาค่าที่ดีที่สุด เป็นต้น 6. อย่าเมินเฉยต่อข้อมูลตัวอักษร (text data) ข้อมูลจำนวนมากในคลัสเตอร์เทคโนโลยี Hadoop ทั่วๆไป เป็นtext dataซึ่งก็มีเหตุผลเพราะว่า HDFS ก็คือ ระบบแฟ้มข้อมูล (file system) ดังนั้นจึงถูกใช้เพื่อจัดเก็บข้อมูลทั้งแบบข้อมูลกึ่งมีโครงสร้าง และแบบไม่มีโครงสร้าง (รวมถึงตัวอักษร) ดังนั้นคุณประโยชน์สำคัญ คือ การใช้ข้อมูลทั้งหมดเพื่อสร้างความได้เปรียบให้กับองค์กรของคุณ เพื่อให้ได้ภาพที่สมบูรณ์ยิ่งขึ้นว่ากำลังเกิดอะไรขึ้นกับลูกค้าของคุณ, การดำเนินงาน และอื่นๆ เนื่องจากบริษัทบางแห่งเขียน custom code เพื่อแยกข้อมูลสารสนเทศออกมาจากข้อมูลตัวอักษร และบางบริษัทใช้การวิเคราะห์ข้อความตัวอักษรเชิงพาณิชย์ (commercial text analytics) ตลอดจนการประมวลผลภาษาธรรมชาติ และเทคนิคทางสถิติ ในการแยกข้อมูลและจัดโครงสร้างข้อมูลตัวอักษร เพื่อให้สามารถนำมาผสานรวมกับข้อมูลแบบมีโครงสร้างที่มีอยู่ สำหรับเทคนิคการวิเคราะห์ขั้นสูง ได้แก่ การสร้างแบบจำลองเพื่อการพยากรณ์ (Predictive Modeling) หรือการคาดการณ์อนาคต ซึ่งบ่อยครั้งที่การแยกข้อมูล สารสนเทศออกจากตัวอักษร สามารถทำให้องค์กรของคุณได้ข้อมูลที่มีความสำคัญต่อแบบจำลองเหล่านี้ 7. การวิเคราะห์เชิงปฏิบัติการ มูลค่าทางธุรกิจจะสามารถสร้างขึ้นได้จากการวิเคราะห์ Big Data ก็ต่อเมื่อผลลัพธ์ที่ได้ออกมา ถูกนำไปรวมไว้ในกระบวนการทางธุรกิจ เพื่อช่วยในการตัดสินใจ ข้อนี้คือ ก้าวที่สำคัญอย่างมากในโครงการด้านการวิเคราะห์ แนวทางที่มีประสิทธิภาพที่สุดสำหรับการวิเคราะห์การคาดการณ์เชิงปฏิบัติการ นั่นคือ การหลอมรวมแบบจำลองไว้ในการจัดเก็บข้อมูลด้านการปฏิบัติงานโดยตรง ซึ่งเป็นที่รู้จักกันในชื่อ "in-Hadoop scoring" เมื่อมีข้อมูลใหม่เข้าไปในระบบของเทคโนโลยี Hadoop คุณสมบัติของระบบ stored-model scoring files ใน MapReduce ก็จะทำการรันตัวแบบให้คะแนน (scoring model) และทำงานให้ได้ผลลัพธ์ออกมาภายในเวลาอันรวดเร็ว 8. ประเมินทักษะการทำงาน นับว่ามีความสำคัญเท่าๆ กับเทคโนโลยีที่ได้รับการเลือกสรรมา เพราะการทำงานในระบบเทคโนโลยี Hadoop คุณจำเป็นต้องมีทักษะพิเศษสำหรับการวิเคราะห์ Big Data ซึ่งปัจจุบันจะเห็นว่า นักวิเคราะห์ข้อมูลขั้นสูง (Data Scientist) เริ่มมีบทบาทมากขึ้นในฐานะผู้ที่คอยผสานรวมทักษะที่แตกต่างในเรื่องของเทคโนโลยีใหม่ๆ ที่เข้ามา ซึ่งจำเป็นมากสำหรับองค์กรที่มีการวิเคราะห์ Big Data รวมทั้งการสื่อสารข้อมูลที่ซับซ้อน เพื่อการนำไปใช้ในทางปฏิบัติตามเป้าหมายที่วางไว้ ซึ่งต้องยอมรับว่า Data Scientist พวกเขามีส่วนผสมที่ลงตัวของทักษะด้านเทคนิค รวมไปถึงวิทยาศาสตร์คอมพิวเตอร์,การสร้างแบบจำลอง, การคิดเชิงสร้างสรรค์ และการสื่อสาร และหากในองค์กรของคุณยังไม่สามารถที่จะค้นพบคนที่มีทักษะหลายๆ อย่างในตัวคนเดียวได้ แนะนำให้พยายามหาผู้ที่มีทักษะนี้ที่กระจายกันอยู่ในสมาชิก 2-3 ในทีมของคุณ จะได้ทีมประเมินทักษะที่ครบถ้วน

แท็ก ข้อมูล

เช็คความพร้อมก่อนเริ่มต้นไปกับเทคโนโลยี Hadoop