Μια νέα πρόταση εισάγει πρότυπα που επιτρέπουν στους εκδότες να αποκλείουν τα AI training bots από τη χρήση περιεχομένου ιστού που είναι δημόσια διαθέσιμο. Οι ενημερωμένοι κανόνες βασίζονται σε υπάρχοντες μηχανισμούς, όπως το Robots Exclusion Protocol και οι ετικέτες Meta Robots, δίνοντας στους εκδότες τη δυνατότητα να αποκλείουν εύκολα τα ΑΙ bots. Η ανάπτυξη των νέων προτύπων πραγματοποιήθηκε από τους Krishna Madhavan και Fabrice Canel, Διευθυντές Προϊόντων στη Microsoft AI και Microsoft Bing αντίστοιχα, προσφέροντας έναν απλοποιημένο τρόπο διαχείρισης της πρόσβασης των bots.
Ενίσχυση ελέγχου εκδοτών με υπάρχοντα πρότυπα
Η πρόταση βελτιώνει εργαλεία, όπως το Robots.txt και τις ετικέτες Meta Robots, για να αντιμετωπίσει την αυξανόμενη ανησυχία σχετικά με τη χρήση δημόσιου περιεχομένου για την εκπαίδευση AI μοντέλων. Δεδομένου ότι τα περισσότερα νόμιμα bots συμμορφώνονται με αυτά τα πρότυπα, οι εκδότες μπορούν να περιορίσουν αποτελεσματικά την πρόσβαση των ΑΙ bots χωρίς επιπλέον εργαλεία.
Internet Engineering Task Force (IETF)
Η Internet Engineering Task Force (IETF), ένας διεθνής οργανισμός προτυποποίησης του Διαδικτύου που ιδρύθηκε το 1986, επιβλέπει πρωτόκολλα όπως το Robots Exclusion Protocol. Το συγκεκριμένο πρωτόκολλο δημιουργήθηκε το 1994 και υιοθετήθηκε επίσημα ως πρότυπο το 2019. Σήμερα, η IETF συνεχίζει να εξελίσσει αυτές τις κατευθυντήριες γραμμές για να αντιμετωπίσει νέες προκλήσεις, όπως τα AI training bots.
Τρεις τρόποι αποκλεισμού των AI training bots
Το προσχέδιο προτείνει τρεις μεθόδους που επιτρέπουν στους εκδότες να αποκλείουν τα ΑΙ bots:
- Πρωτόκολλο Robots.txt
- HTML Στοιχεία Meta Robots
- Επικεφαλίδες Απόκρισης Εφαρμογών (Application Layer Response Headers)
1. Robots.txt για ΑΙ Bots
Η πρόταση προβλέπει την επέκταση του Robots Exclusion Protocol για να περιλαμβάνει κανόνες που στοχεύουν ειδικά τα bots εκπαίδευσης AI. Αυτές οι προσθήκες επιτρέπουν στους εκδότες να υποδεικνύουν ξεκάθαρα εάν το περιεχόμενό τους μπορεί να χρησιμοποιηθεί για την εκπαίδευση AI μοντέλων. Τα νόμιμα AI bots αναμένεται να συμμορφώνονται εθελοντικά, διασφαλίζοντας τον έλεγχο από τους εκδότες.
Οι προτεινόμενοι κανόνες περιλαμβάνουν:
- DisallowAITraining: Αποτρέπει τα AI bots από τη χρήση περιεχομένου για εκπαίδευση μοντέλων.
- AllowAITraining: Επιτρέπει τη χρήση περιεχομένου για εκπαίδευση AI μοντέλων.
2. HTML Στοιχεία (Robots Meta Tag)
Οι παρακάτω HTML οδηγίες θα παρέχουν έναν τρόπο ελέγχου σε επίπεδο σελίδας για τη συμπεριφορά των AI bots:
<meta name=”robots” content=”DisallowAITraining”>
<meta name=”examplebot” content=”AllowAITraining”>
Αυτές οι ετικέτες δίνουν στους κατόχους ιστοσελίδων λεπτομερή έλεγχο σχετικά με τη συμπεριφορά των bots.
3. Επικεφαλίδες Απόκρισης Εφαρμογών
Μέσω της ενσωμάτωσης κανόνων στις Επικεφαλίδες Απόκρισης Εφαρμογών, οι εκδότες μπορούν να επικοινωνούν άμεσα με τα AI bots μέσω αποκρίσεων του διακομιστή. Οι προτεινόμενες επικεφαλίδες περιλαμβάνουν:
- DisallowAITraining: Απαγορεύει τη χρήση δεδομένων για την εκπαίδευση μοντέλων AI.
- AllowAITraining: Επιτρέπει τη χρήση δεδομένων για εκπαίδευση AI.
Το ζήτημα της χρήσης δημόσιων δεδομένων από AI εταιρείες για εκπαίδευση έχει προκαλέσει νομικές διαμάχες, με τα δικαστήρια να τάσσονται συχνά υπέρ της αρχής της δίκαιης χρήσης (fair use). Τα νέα πρότυπα αντιμετωπίζουν αυτό το κενό, παρέχοντας στους εκδότες σαφή εργαλεία ελέγχου για τα AI bots, εναρμονίζοντάς τα με τη λειτουργία των παραδοσιακών μηχανών αναζήτησης.
Ενίσχυση ελέγχου
Η πρωτοβουλία αυτή αποτελεί ένα σημαντικό βήμα για την ενδυνάμωση των εκδοτών στη διαχείριση των ΑΙ training bots. Χρησιμοποιώντας ευρέως υιοθετημένα πρότυπα, όπως το Robots.txt και οι Meta Robots ετικέτες, η πρόταση προσφέρει μια απλή και εφαρμόσιμη λύση για την προστασία του περιεχομένου του ιστού από μη εξουσιοδοτημένη χρήση AI.