Веб-скрейпинг
Веб-скрейпинг (web scraping) — процесс автоматизированного составления баз данных при помощи анализа общедоступных интернет-сайтов.
Защита[править]
Некоторые сайты стараются защитить информацию от сбора при помощи веб-скрейпинга. Например, в системе Google выдается каптча для тех, кто пытается делать слишком большое число запросов к поиску или чье поведение напоминает бота. В руководстве к системе говорится, что нежелательно в том числе и автоматизированное определение позиции сайта в поиске — чем занимаются многие SEO-сервисы.
В то же время большинство сайтов разрешают автоматическим программам обращаться к страницам, если количество запросов ограничено разумными пределами (не проводится долбления, что может повлечь за собой повреждение сайта). Таким образом огромное количество ботов постоянно курсирует по Интернету и собирает информацию.
Фактически веб-скрейпингом занимаются поисковые системы, когда регулярно обходят сайты для составления поискового индекса. После этого становится возможным поиск информации с использованием ключевых слов; без этой особенности само использование Интернета было бы скорее всего просто невозможным.
Полученная автоматическим образом информация может быть очень ценной при сборе её в одном месте и появлении возможности анализа.
Правовой статус[править]
В апреле 2022 года суд США принял решение по давно идущему процессу об автоматическом сборе данных с сервиса LinkedIn, который был недоволен тем, что данные о работниках собирают конкуренты (в результате чего довольно быстро стала требоваться регистрация на сайте для работы с ним). Было принято решение о том, что сбор публично доступной информации является полностью законным, и за его использование наказания быть не может.[1]