สล็อตแตกง่าย คู่มือสำหรับวันของข้อมูลขนาดใหญ่

สล็อตแตกง่าย คู่มือสำหรับวันของข้อมูลขนาดใหญ่

Michael Nielsen สนุกกับคอลเล็กชันบท

ความที่น่าสนใจและเข้มข้นเกี่ยวกับวิธีที่สล็อตแตกง่ายพลังการประมวลผลมหาศาลกำลังเปลี่ยนแปลงวิทยาศาสตร์ ตั้งแต่ดาราศาสตร์ไปจนถึงสัตววิทยา

กระบวนทัศน์ที่สี่: การค้นพบทางวิทยาศาสตร์แบบเร่งรัดข้อมูล

แก้ไขโดย:

Tony Hey, Stewart Tansley & Kristin Tolle

เผยแพร่ที่ http://research.microsoft.com/en-us/collaboration/fourthparadigm

เมื่อมันออนไลน์ในปี 1946 ENIAC ยักษ์ของกองทัพสหรัฐฯ — Electronic Numerical Integrator and Computer — ได้รับการยกย่องว่าเป็น ‘สมองอิเล็กทรอนิกส์’ แห่งแรกของโลก ซึ่งเป็นก้าวสำคัญในความสามารถของเราในการประมวลผลข้อมูล มันถูกนำไปทำทุกอย่างตั้งแต่การสร้างแบบจำลองระเบิดไฮโดรเจนไปจนถึงการทำนายสภาพอากาศ ข้ามไปที่วันนี้ และ Large Hadron Collider ที่ CERN ห้องปฏิบัติการฟิสิกส์อนุภาคของยุโรปใกล้เจนีวา ประเทศสวิตเซอร์แลนด์ จะสร้างข้อมูลในวินาทีเดียวซึ่งจะใช้เวลาจัดเก็บ ENIAC โดยเฉลี่ยหกล้านเครื่อง Large Synoptic Survey Telescope ซึ่งวางแผนจะเริ่มดำเนินการในชิลีในปี 2558 จะสร้างข้อมูลในระดับใกล้เคียงกัน

สิ่งอำนวยความสะดวกในการจัดเก็บข้อมูลที่ CERN บ่งบอกถึงการปฏิวัติข้อมูลขนาดใหญ่ เครดิต: CERN

โครงการหลายร้อยโครงการในสาขาต่าง ๆ ตั้งแต่จีโนมไปจนถึงภาษาศาสตร์เชิงคำนวณ ไปจนถึงดาราศาสตร์ แสดงให้เห็นถึงการเปลี่ยนแปลงครั้งสำคัญในระดับที่นำข้อมูลทางวิทยาศาสตร์มาและวิธีการประมวลผล แบ่งปัน และสื่อสารไปยังโลก ที่สำคัญที่สุด มีการเปลี่ยนแปลงวิธีที่นักวิจัยค้นหาความหมายในข้อมูล โดยอัลกอริธึมที่ซับซ้อนและเทคนิคทางสถิติกลายเป็นส่วนหนึ่งของชุดเครื่องมือทางวิทยาศาสตร์มาตรฐาน กระบวนทัศน์ที่สี่เป็นเรื่องเกี่ยวกับการเปลี่ยนแปลงนี้ วิธีที่นักวิทยาศาสตร์จัดการกับมัน และผลที่ตามมาบางส่วน มี 30 บทซึ่งเขียนโดยผู้เขียนประมาณ 70 คน ครอบคลุมแง่มุมต่างๆ ของวิทยาศาสตร์ที่เน้นข้อมูลมาก

หนังสือเล่มนี้มีสี่ส่วน สองส่วนแรกเป็นภาพพา

โนรามาของวิธีการใหม่ในการรับข้อมูลผ่านเครื่องมือใหม่และเครือข่ายเซ็นเซอร์ขนาดใหญ่ สาขาวิชาครอบคลุมตั้งแต่จักรวาลวิทยาไปจนถึงสิ่งแวดล้อมและตั้งแต่การดูแลสุขภาพไปจนถึงชีววิทยา บทส่วนใหญ่ในส่วนเหล่านี้เป็นไปตามรูปแบบทั่วไป แต่ละคนแนะนำระบบที่ซับซ้อนของความสนใจทางวิทยาศาสตร์ — สมองของมนุษย์, มหาสมุทรของโลก, ระบบสุขภาพทั่วโลกและอื่น ๆ — ก่อนที่จะให้คำอธิบายว่าเราสร้างเครื่องมือหรือเครือข่ายเซ็นเซอร์อย่างไรเพื่อทำแผนที่ระบบนั้นอย่างครอบคลุมและใน ในบางกรณี เพื่อติดตามพฤติกรรมแบบเรียลไทม์

เราเรียนรู้ในบทหนึ่ง เช่น เกี่ยวกับขั้นตอนในการสร้างแผนที่ที่สมบูรณ์ของสมองมนุษย์ นั่นคือ ‘คอนเนกโตม’ อีกบทหนึ่งกล่าวถึงโครงการ Ocean Observatories Initiative ซึ่งเป็นความพยายามครั้งสำคัญที่ได้รับทุนสนับสนุนจากมูลนิธิวิทยาศาสตร์แห่งชาติสหรัฐ เพื่อสร้างเครือข่ายเซ็นเซอร์ใต้น้ำขนาดมหึมาในแปซิฟิกตะวันออกเฉียงเหนือ นอกชายฝั่งโอเรกอน วอชิงตัน และบริติชโคลัมเบีย เป็นต้น ตัวอย่างตามตัวอย่าง

การทำซ้ำนี้เป็นส่วนที่สนุกที่สุดของหนังสือสำหรับฉัน มันให้ความสว่างแก่คำถามทั่วไปที่ถูกถามในสาขาที่แตกต่างกันอย่างผิวเผิน: ใครเป็นเจ้าของข้อมูลที่รวบรวม? การปล่อยของพวกเขาควรได้รับการจัดการอย่างไร? พวกเขาควรได้รับการดูแลอย่างไร? เราจะอนุรักษ์ไว้เพื่อคนรุ่นหลังอย่างไร? ที่สำคัญที่สุด: เราจะเข้าใจข้อมูลได้อย่างไร

ในส่วนที่สามและสี่ของหนังสือ คำถามเดียวกันนี้กลับมาจากมุมมองที่กว้างขึ้นว่าคำตอบสามารถสะท้อนและควรสะท้อนในสถาบันทางวิทยาศาสตร์ได้อย่างไร ส่วนที่สามกล่าวถึงข้อกำหนดด้านโครงสร้างพื้นฐาน และส่วนที่สี่จะกล่าวถึงการสื่อสารทางวิชาการ หัวข้อรวมถึงความท้าทายทางเทคนิคในการวิเคราะห์ข้อมูลขนาดใหญ่ เช่น การคำนวณแบบมัลติคอร์และแบบขนาน เครื่องมือเวิร์กโฟลว์ที่ทำให้การวิเคราะห์ข้อมูลง่ายขึ้นและทำให้การทดลองและการวิเคราะห์สามารถทำซ้ำได้มากขึ้น และความท้าทายทางสังคมและทางเทคนิคที่ยากลำบากในการย้ายไปยังโลกที่มีการเผยแพร่ชุดข้อมูลขนาดใหญ่เป็นประจำโดยเป็นส่วนหนึ่งของกระบวนการทางวิทยาศาสตร์แล้วรวมเข้ากับแหล่งข้อมูลอื่น หัวข้อที่น่าสนใจที่สุดที่ปรากฎในที่นี้คือวิสัยทัศน์ของเว็บข้อมูลที่มีการเชื่อมโยงกันมากขึ้น: ความรู้ทางวิทยาศาสตร์ทั้งหมดของโลกเป็นฐานข้อมูลขนาดใหญ่เพียงฐานข้อมูลเดียว

หนังสือเล่มนี้มีข้อบกพร่องเล็กน้อย บางครั้ง อ่านมากเกินไปเหมือนโบรชัวร์ บางทีอาจหลีกเลี่ยงไม่ได้ เนื่องจากเกือบครึ่งหนึ่งของผู้เขียนที่มีส่วนร่วมมาจากไมโครซอฟต์ บทความจำนวนมากสันนิษฐานว่าความก้าวหน้าส่วนใหญ่มาจากทุนสนับสนุนขนาดใหญ่และโครงการขนาดใหญ่จากส่วนกลาง ซึ่งเป็นข้อสันนิษฐานที่ไม่สมเหตุสมผลจากประวัติศาสตร์ของนวัตกรรมเครือข่าย ลองนึกถึงอินเทอร์เน็ตหรือเซิร์ฟเวอร์พิมพ์ล่วงหน้า arXiv ที่โฮสต์โดย Cornell University ใน Ithaca, New York หรือฐานข้อมูลลำดับยีน GenBank ซึ่งแต่ละฐานข้อมูลเริ่มต้นโดยบุคคลที่ได้รับการสนับสนุนจากสถาบันอย่างจำกัด

ฉันยังพบว่าตัวเองต้องการให้ขอบเขตกว้างขึ้น วิทยาศาสตร์เป็นมากกว่าข้อมูล แต่เป็นเรื่องเกี่ยวกับความคิด คำอธิบาย และผู้คน เครื่องมือเดียวกันกับที่ขับเคลื่อนวิทยาศาสตร์ที่เน้นข้อมูลมากก็กำลังเปลี่ยนแปลงธรรมชาติของการทำงานร่วมกันทางวิทยาศาสตร์ด้วย และการเปลี่ยนแปลงทั้งสองนี้ก็มีความเกี่ยวข้องกันอย่างใกล้ชิด การเปลี่ยนแปลงในการทำงานร่วมกันของนักวิทยาศาสตร์เพื่อสร้างความหมายนี้ ได้กล่าวถึงในไม่กี่บทเท่านั้น

นี่เป็นการวิพากษ์วิจารณ์เล็กน้อย การเพิ่มขึ้นของ ‘ข้อมูลขนาดใหญ่’ เป็นหนึ่งในวิทยาศาสตร์ที่สำคัญสล็อตแตกง่าย