ผู้จัดพิมพ์พลิกเกม: บล็อกก่อน อนุญาตทีหลัง

สำนักข่าวชื่อดังได้เปลี่ยนกฎของเกมอินเทอร์เน็ตอย่างเงียบๆ: แทนที่จะปล่อยให้บอททุกตัวเข้ามาสำรวจได้อย่างอิสระ พวกเขากำลังปิดประตูและแจกบัตรผ่าน VIP เท่านั้น สองสำนักข่าวใหญ่ได้ดำเนินการบล็อกผู้รวบรวมข้อมูลที่ใช้ปัญญาประดิษฐ์ทั้งหมดโดยค่าเริ่มต้น และจะรักษาบัญชีขาวที่คัดสรรไว้สำหรับบอทที่ได้รับอนุญาตให้จัดทำดัชนีหน้าเว็บของพวกเขาไว้ คิดเสียว่ามันเป็นเหมือนเชือกกำมะหยี่สำหรับผู้รวบรวมข้อมูลเว็บ — ส่วนใหญ่จะถูกปฏิเสธหากไม่สามารถแสดงเหตุผลที่สมควร (และอาจต้องมีเอกสารรับรอง)

แนวทางนี้ไม่ใช่เรื่องใหม่ทั้งหมด; มีผู้จัดพิมพ์บางรายที่ลองใช้รูปแบบต่าง ๆ ของมันมาก่อนหน้านี้ในปีนี้ การเปลี่ยนแปลงล่าสุดเพียงแค่ทำให้กลยุทธ์นี้ชัดเจนขึ้น: ปฏิเสธเป็นค่าเริ่มต้น อนุญาตเฉพาะที่เลือก นั่นหมายความว่าเฉพาะบอทที่ให้คุณค่าที่ชัดเจนเท่านั้น — ไม่ว่าจะช่วยให้เว็บไซต์ทำงานได้หรือส่งทราฟฟิกที่มีประโยชน์จริง ๆ — จะผ่านเข้ามาได้ ทุกอย่างอื่นจะหยุดอย่างสุภาพแต่แน่วแน่

วิธีการทำงานของรายการอนุญาตและเหตุใดความขัดแย้งจึงมีความสำคัญ

เครื่องมือทางเทคนิคพื้นฐานที่ใช้คือไฟล์ robots.txt ที่เรียบง่าย ซึ่งทำหน้าที่แจ้งให้โปรแกรมรวบรวมข้อมูลทราบว่าสามารถเข้าชมหน้าใดได้บ้างและหน้าใดที่ไม่สามารถเข้าชมได้

มันไม่ใช่ประตูที่ล็อกไว้ — แต่มันเหมือนกับป้าย “ห้ามรบกวน” ที่ต้องอาศัยความร่วมมือมากกว่า หลายโปรแกรมรวบรวมข้อมูลปฏิบัติตามกฎนี้; บางโปรแกรมก็ไม่ทำ จุดประสงค์ของการเปลี่ยนไปใช้การบล็อกเป็นค่าเริ่มต้นนั้น ไม่ได้เน้นที่ความสมบูรณ์แบบ แต่เป็นการสร้างอุปสรรค: อุปสรรคที่เพิ่มขึ้นทุกครั้งจะเพิ่มต้นทุนและความพยายามให้กับผู้รวบรวมข้อมูลที่ไม่เลือกปฏิบัติ

เมื่อเว็บไซต์ปฏิเสธบอทที่ไม่ได้รับอนุญาตโดยอัตโนมัติ บริการที่ถูกต้องซึ่งมีคุณค่าสามารถถูกเพิ่มเข้าไปในรายการอนุญาตได้ บอทที่ได้รับการอนุมัติเหล่านี้รวมถึงเครื่องมือค้นหาขนาดใหญ่, ตัวรวบรวมข้อมูลการวิจัย AI บางประเภท, และเครื่องมือภายในที่ช่วยให้เทคโนโลยีโฆษณาและสุขภาพของเว็บไซต์ทำงานได้อย่างราบรื่น การอนุญาตให้ผู้เล่นที่รู้จักกันเพียงไม่กี่คนสามารถเข้าร่วมได้ ทำให้ง่ายต่อการสังเกตและหารือเกี่ยวกับการขูดข้อมูลโดยไม่ได้รับอนุญาตเมื่อเกิดขึ้น และมอบเส้นทางที่ชัดเจนขึ้นสำหรับการทำข้อตกลงทางการค้าหรือการหารือเกี่ยวกับการให้สิทธิ์ใช้งานสำหรับผู้ที่มีความต้องการในเนื้อหาอย่างแท้จริง

แรงเสียดทานนั้นสามารถเกิดขึ้นได้หลายรูปแบบ: การบล็อกด้วย robots.txt, กฎที่ฝั่งเซิร์ฟเวอร์, ซอฟต์แวร์ตรวจสอบบอท, หรือการตอบสนองที่ช้าลงเล็กน้อยต่อตัวแทนผู้ใช้ที่ไม่รู้จัก แม้แต่การเพิ่มเวลาหน่วงเพียงไม่กี่วินาทีสำหรับโปรแกรมขูดข้อมูลก็สามารถทำให้การดำเนินการอัตโนมัติมีค่าใช้จ่ายสูงขึ้นและไม่น่าดึงดูดน้อยลง เมื่อต้นทุนการขูดข้อมูลเริ่มกัดกร่อนกำไร บางรายเลือกที่จะเจรจาต่อรองแทนที่จะขูดข้อมูลต่อไปอย่างไม่เปิดเผยตัวตน

ต้นทุน ข้อควรระวัง และภูมิทัศน์ของบอตที่เปลี่ยนแปลงอยู่ตลอดเวลา

มีข้อดีในทางปฏิบัติมากกว่าการปกป้องเนื้อหา: การลดปริมาณการเข้าชมจากบอตสามารถลดต้นทุนการโฮสต์และการส่งข้อมูลได้ การร้องขออัตโนมัติที่น้อยลงหมายถึงรอบการทำงานของเซิร์ฟเวอร์ที่น้อยลงและแบนด์วิดท์ที่ใช้กับผู้เยี่ยมชมที่ไม่ใช่มนุษย์น้อยลง ดังนั้นการประหยัดบางครั้งจึงชดเชยราคาของเครื่องมือจัดการบอทได้ ผู้เผยแพร่ที่ตรวจสอบการเข้าชมของพวกเขาพบว่าพวกเขาสามารถบล็อกบอทจำนวนมากได้โดยไม่กระทบต่อรายได้ และการลดเสียงรบกวนที่ไม่ใช่มนุษย์ยังทำให้การวิเคราะห์และการดำเนินงานง่ายขึ้นอีกด้วย

มันไม่ได้ราบรื่นเสมอไป การเปลี่ยนไปใช้ระบบบล็อกก่อนอาจส่งผลที่ไม่คาดคิด — การลืมรายการในไวท์ลิสต์อาจทำให้ระบบยืนยันอีเมลหรือพันธมิตรในการเผยแพร่ข้อมูลขัดข้องชั่วคราวหากไม่ได้คาดการณ์ไว้ นั่นคือเหตุผลที่รายการอนุญาต (whitelist) ต้องการการดูแลอย่างต่อเนื่อง: มันไม่ใช่แค่ “ตั้งค่าแล้วลืมไป” เมื่อมีบอทใหม่เกิดขึ้นและบอทที่มีอยู่พัฒนาขึ้น รายการและวิธีการบังคับใช้จะต้องได้รับการทบทวนบ่อยครั้ง อีกปัญหาหนึ่งคือระบบนิเวศที่คลุมเครือของผู้รวบรวมข้อมูลจากบุคคลที่สามที่ดำเนินการภายใต้รูปแบบต่าง ๆ นักแสดงบางคนเหล่านี้ไม่โปร่งใสเกี่ยวกับผู้ที่พวกเขาให้บริการหรือเหตุผลที่พวกเขาเก็บรวบรวมเนื้อหา ซึ่งทำให้การบังคับใช้และการออกใบอนุญาตซับซ้อนขึ้น รายการบอทที่ได้รับการอนุมัติจากสาธารณะช่วยสร้างพื้นฐานสำหรับการตรวจจับกิจกรรมที่ไม่ได้รับอนุญาต แต่ไม่สามารถเปิดเผยผู้ที่กำลังทำกำไรจากเนื้อหาที่ถูกขูดได้อย่างมหัศจรรย์

เพื่อจัดการกับเรื่องนี้ ผู้เผยแพร่กำลังใช้กลยุทธ์หลายชั้น: การเผยแพร่รายการขาว การใช้กฎระดับเซิร์ฟเวอร์ การติดตั้งเครื่องมือตรวจจับบอท และการทำข้อตกลงใบอนุญาตเชิงพาณิชย์ในกรณีที่เหมาะสม ทางเลือกทางกฎหมายก็มีอยู่เช่นกัน แม้ว่าจะไม่ค่อยเป็นทางออกที่แก้ไขได้ทั้งหมดในครั้งเดียว กลยุทธ์ที่ผสมผสานนี้มีจุดประสงค์เพื่อกระตุ้นพฤติกรรม — ทำให้การดึงข้อมูลโดยไม่ได้รับอนุญาตยากขึ้นและมีค่าใช้จ่ายสูงขึ้น และทำให้การทำธุรกิจอย่างถูกต้องง่ายขึ้นหากคุณต้องการเข้าถึงข้อมูลจริง ๆ

ท้ายที่สุดแล้ว เว็บได้กลายเป็นเป้าหมายที่เคลื่อนไหวอยู่ตลอดเวลา รายการอนุญาตและบล็อกเป็นส่วนหนึ่งของเครื่องมือที่ใหญ่กว่าเพื่อปกป้องคุณค่าของการรายงานต้นฉบับ ในขณะที่ยังคงอนุญาตให้บริการอัตโนมัติที่มีประโยชน์ทำงานได้ การรักษาการป้องกันเหล่านี้ต้องใช้ความใส่ใจ ความอดทน และการแก้ไขปัญหาเป็นครั้งคราว เนื่องจากระบบบอทยังคงเปลี่ยนแปลงอยู่เสมอ