Google сертифицирует протокол исключений для поисковых роботов

Google сертифицирует протокол исключений для поисковых роботов

03.07.2019     

Google впервые раскрыл подробности алгоритмов своего поискового робота, анализирующего файл robots.txt. Компания планирует сделать свой протокол исключений для ботов стандартом в отрасли.

Файл robots.txt – текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере. В результате анализа файла robots.txt, поисковые роботы получают инструкции:

  • частичный доступ: доступно сканирование отдельных элементов сайта;
  • полный доступ: сканировать можно все;
  • полный запрет: робот ничего не может сканировать.

Библиотека из 90-х

Google опубликовал на GitHub репозиторий своего парсера – программы для анализа и обработки данных – для robots.txt. В файле, расположенном в корневом каталоге сайта, можно прописать директивы для поисковых роботов различных систем. Выложенный код показывает, как анализирует данные программа от Google. 

Репозиторий содержит библиотеку C++, Google использует ее для парсинга 20 лет. Некоторые части библиотеки написаны еще в 90-х годах, хотя большая часть кода постоянно обновляется. Google дорабатывает библиотеку в соответствии с накопленными знаниями о том, как веб-мастера заполняют robots.txt, с какими проблемами сталкиваются.

Кроме самого парсера, ИТ-гигант также представил инструменты для его тестирования, которые позволяют быстро проверить несколько директив для поискового робота. 

На пути к стандарту

Открытие исходного кода библиотеки, используемой поисковым ботом – лишь часть масштабного проекта Google по стандартизации своего протокола Robots Exclusion Protocol (REP). Команда, принимавшая участие в его разработке, задокументировала принципы использования REP в современных веб-технологиях. Представленные сведения уже поданы на рассмотрение Инженерным советом интернета (IETF), который примет окончательное решение. 

Идею использовать файл robots.txt в качестве протокола исключений для роботов придумал и реализовал в 1994 году Мартейн Костер. За 25 лет существования REP стал неофициальным стандартом для веб-мастеров. Из-за неопределенного статуса возникали проблемы при заполнении инструкций для ботов: разработчики могут интерпретировать протокол по-разному, а выработка четко описанных принципов работы REP сильно затруднена. 

За все время своего существования протокол исключений ни разу не обновлялся и во многом перестал соответствовать современным трендам веб-разработки. В качестве примера представитель Google назвал ситуацию, в которой файл robots.txt весит более сотни мегабайт. Разработчику может быть не ясно, что с ним делать и как заставить робота обработать его. 

Изменения грядут

Для стандартизации REP Google обновил документацию, касающуюся работы с robots.txt. Из нее удалены неподдерживаемые правила. Парсер перестанет работать с ними с 1 сентября 2019 года. Среди наиболее значимых изменений:

  • больше не поддерживается директива noindex, используемая для запрета индексации определенных ссылок. Вместо нее рекомендуется применять аналогичный метатег, disallow в robots.txt или возвращать код ответа HTTP 404 и 410.
  • поисковый бот пробует пять раз найти в корне сайта файл с инструкциями. Если robots.txt за это время не будет найден, то цикл прерывается и возвращается ошибка 404;
  • если файл был найден ранее, но позднее перестал быть доступен в течение 30 дней, то робот будет использовать последнюю версию документа, сохраненную в кэше. Если к ней тоже нельзя получить доступ, поисковый бот будет считать весь сайт открытым для индексирования;
  • неудачные запросы или неполные данные обрабатываются как ошибка сервера;
  • максимально допустимый объем для файла robots.txt – 500 КБ. Робот игнорирует файлы, превышающие это значение. 

Репозиторий парсера для robots.txt на GitHub

Полный список изменений



Источник: https://infostart.ru/journal/news/tekhnologii/google-sertifitsiruet-protokol-isklyucheniy-dlya-poiskovykh-robotov_1087978/
Автор:
Александр Вашкевич Аналитик


В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
В этой теме еще нет сообщений.
Оставьте свое сообщение

См. также

Тетрис помог повысить заполняемость отелей

Новость Автоматизация ИТ-новость

Алгоритм RoomTetris, разработанный исследователями из LION Laboratory (Learning and Intelligent Optimization) – Лаборатории обучения и интеллектуальной оптимизации, избавит отельеров от овербукинга. Вдохновением для ученых послужила игра «Тетрис».

вчера в 16:47    865    user1015646    0       

Нейросеть научили создавать изображения по текстовому описанию

Новость Искусственный интеллект ИТ-новость

Разработчики компании OpenAI представили нейронную сеть DALL-E. Она анализирует англоязычный текст и создает изображения на его основе.

вчера в 11:45    1238    user1015646    0       

Разработчики портируют Linux на Mac с процессором M1

Новость Linux Микроэлектроника

Компания Apple представила первые компьютеры на базе процессоров M1 собственной разработки. Разработчик Гектор Мартин решил создать сборку Linux специально для этих компьютеров. 

18.01.2021    823    user1015646    4       

10 стартапов в области машинного обучения, за которыми стоит следить в 2021 году

Новость Искусственный интеллект Стартапы

По данным Crunchbase, в 2020 году компании, связанные с искусственным интеллектом и машинным обучением, получили рекордное финансирование – 28 млрд долларов. Представляем список из 10 самых перспективных стартапов в этой области.

18.01.2021    757    SKravchenko    0       

Fujifilm и IBM создали ленточный накопитель с рекордным объемом памяти

Новость Дата-центры ИТ-новость Облачные технологии

Fujifilm и IBM повысили емкость ленточных накопителей до рекордных 580 терабайт информации. Это значительно превосходит максимальную емкость SSD – 100 ТБ и жестких дисков – 30 ТБ.

13.01.2021    1258    user-programmist    0       

Эксперты назвали 10 навыков для ИТ-специалистов, которые обеспечат прибавку к зарплате

Новость Автоматизация Аналитика Искусственный интеллект ИТ-новость

Зарплаты в ИТ-сфере – одни из самых высоких, и у специалистов здесь существует масса возможностей для роста. Специалисты компании Burning Glass определили, какими навыками должны обладать сотрудники, нацеленные на максимальную прибавку к зарплате.

12.01.2021    1449    user1015646    2       

Против монополии: Apple получила патент на поисковый алгоритм

Новость ИТ-новость Новости компаний

Apple начала активно разрабатывать собственную поисковую систему. Из-за возможных антимонопольных санкций США против Google компания Тима Кука может лишиться возможности пользоваться сервисами поискового гиганта.

11.01.2021    765    VKuser24342747    0       

FreeBSD перевела репозиторий на Git

Новость Linux GitHub ИТ-новость

FreeBSD откажется от использования системы контроля версий Subversion (SVN) и перейдет на Git. Об этом в рассылке объявил разработчик Уорнер Лош.

30.12.2020    1375    user1015646    0       

Вышла бета-версия Go 1.16

Новость ИТ-новость Языки программирования

Предстоящее обновление языка программирования Go 1.16 с открытым исходным кодом включает поддержку процессора Apple, улучшения базовой библиотеки и среды выполнения. Релиз стабильной версии намечается на февраль 2021 года.

30.12.2020    1738    SKravchenko    0       

Microsoft позволит создавать пользовательские функции в Excel

Новость Infostart Software Partners Маркет

В Excel появилась новая функция – LAMBDA – для превращения пользовательских формул в многоразовые функции. Пользователи смогут создавать правила для управления данными внутри Excel, так же, как и в любом другом языке – Java, PHP или Python.

29.12.2020    2086    SKravchenko    2       

Microsoft и МТС планируют совместно развивать российский интернет вещей

Новость ИТ-новость Телекоммуникации Цифровая экономика

МТС и Microsoft договорились совместно развивать российский интернет вещей путем интеграции платформы для разработки решений интернета вещей Microsoft Azure IoT Central и сети интернета вещей NB-IoT МТС.

28.12.2020    1233    user-programmist    1       

Bloomberg оценил компанию JetBrains в $7 млрд

Новость ИТ-новость

По данным Bloomberg Billionaires Index, стартап JetBrains стоит около 7 млрд. долларов. В отличие от технологических компаний, которые продают акции для поддержки развития, руководители JetBrains не полагаются на средства венчурных капиталистов.

28.12.2020    1292    SKravchenko    0       

Cloudflare станет хостинг-провайдером для статических сайтов JAMstack

Новость Интернет ИТ-новость

Cloudflare запустила сервис Pages для создания сайтов при помощи подхода JAMstack. Веб-ресурсы, разработанные при помощи платформы, будут опубликованы в существующей сети провайдера CDN.

25.12.2020    1154    VKuser24342747    0       

GitHub откажется от аутентификации по логину и паролю

Новость GitHub ИТ-новость

Крупнейший хостинг репозиториев кода GitHub пересмотрит политику аутентификации. Пароли перестанут поддерживать – их полностью заменят токены и SSH-ключи.

24.12.2020    1239    user1015646    2       

В Telegram появятся платные функции

Новость ИТ-новость Мессенджеры

Основатель Telegram Павел Дуров рассказал о будущем мессенджера. Команда разработчиков планирует внедрить платные функции, чтобы компенсировать расходы на развитие сервиса.

23.12.2020    1464    user1015646    0       

Составлен рейтинг приложений для предустановки на смартфоны и умные ТВ

Новость Импортозамещение ИТ-новость

Минцифры опубликовало рейтинг приложений, которые с большой вероятностью будут рекомендованы для предустановки на смартфоны и Smart TV. Самые популярные варианты в различных категориях отобрали из более чем 100 заявок от разработчиков.

23.12.2020    1393    user1015646    4       

Microsoft запатентовала технологию оценки эффективности совещаний

Новость Искусственный интеллект ИТ-новость

Microsoft реализует системы мониторинга сотрудников для оценки производительности организации. Одно из последних решений компании – вычислительная система Meeting Insight от Microsoft, которая способна создать «оценку качества» проведенного совещания.

22.12.2020    1601    capitan    1       

Octoverse 2020: GitHub опубликовал главный отчет года

Новость GitHub ИТ-новость

Крупнейший хостинг репозиториев кода GitHub назвал 2020-й «годом экстраординарных изменений». Переход на удаленку повысил продуктивность работы команд и позволил уделять больше времени проектам с открытым исходным кодом.

22.12.2020    1698    user1015646    0       

Автогигант Hyundai купит Boston Dynamics

Новость ИТ-новость Робототехника

Производитель самых известных роботов в мире сменил владельца. Компанию Boston Dynamics приобрел корейский автомобильный концерн Hyundai.

21.12.2020    1738    user1015646    3       

Разработчик запустил аналог Tinder для программистов

Новость ИТ-новость

Приложение для знакомств Tinder привлекает простотой интерфейса: свайп влево – отказ от общения, вправо – намерение познакомиться. Американский разработчик Бен Авад запустил аналогичное приложение для программистов.

18.12.2020    2146    user1015646    2       

Крупное обновление: вышел GNU bash 5.1

Новость Windows Linux ИТ-новость

Вышла свежая версия командного интерпретатора – GNU bash 5.1, используемая по умолчанию в большинстве дистрибутивов Linux. Также обновилась библиотека GNU readline 8.1, используемая в bash для консольного интерфейса и редактирования строк.

17.12.2020    2550    user1015646    0       

Евросоюз обязал поисковых гигантов раскрыть свои алгоритмы

Новость Google Законодательство Интернет ИТ-новость

Технологические компании вроде Google и Amazon должны открыто сообщать пользователям, каким образом ранжируют поисковую выдачу на своих сайтах. Евросоюз считает, что такая норма поможет в борьбе с монополией ИТ-гигантов.

16.12.2020    2145    VKuser24342747    0       

ИТ-дивизион: «Руссофт» посчитал доходы отечественных ИТ-компаний

Новость ИТ-новость Новости компаний

Некоммерческое объединение ИТ-компаний «Руссофт» представило ежегодный отчет «Рейтинг регионов России по уровню развития индустрии разработки ПО».

15.12.2020    2231    VKuser24342747    1       

Microsoft представляет новый способ обновления Windows 10

Новость Windows ИТ-новость

Microsoft начала тестировать новый подход к улучшению отдельных функций Windows 10. Он называется Windows Feature Experience Packs.

15.12.2020    2296    SKravchenko    0       

Apple принимает заявки на сниженную комиссию в App Store

Новость iOS ИТ-новость Мобильные приложения

Apple открыла программу снижения комиссий для разработчиков, которые размещают приложения в официальном магазине App Store. Чтобы отчислять 15% вместо 30%, нужно подать заявку на специальной странице.

14.12.2020    2261    user1015646    1