Владельцы веб-сайтов исключают веб-краулеры уже на протяжении 25 лет с помощью протокола Robots Exclusion Protocol (REP). По данным Google, более 500 млн сайтов в сети используют файлы robots.txt для диалога с роботами. Но до сих пор не было ни официального стандарта интернета, ни спецификации для корректного написания правил в соответствии с протоколом. В итоге разработчики нередко делились своими собственными интерпретациями протокола, что привело к созданию различных методов взаимодействия с краулерами….