Веб-скрейпинг

Материал из Неолурк
Перейти к навигации Перейти к поиску

Веб-скрейпинг (web scraping) — процесс автоматизированного составления баз данных при помощи анализа общедоступных интернет-сайтов.

Защита[править]

Некоторые сайты стараются защитить информацию от сбора при помощи веб-скрейпинга. Например, в системе Google выдается каптча для тех, кто пытается делать слишком большое число запросов к поиску или чье поведение напоминает бота. В руководстве к системе говорится, что нежелательно в том числе и автоматизированное определение позиции сайта в поиске — чем занимаются многие SEO-сервисы.

В то же время большинство сайтов разрешают автоматическим программам обращаться к страницам, если количество запросов ограничено разумными пределами (не проводится долбления, что может повлечь за собой повреждение сайта). Таким образом огромное количество ботов постоянно курсирует по Интернету и собирает информацию.

Фактически веб-скрейпингом занимаются поисковые системы, когда регулярно обходят сайты для составления поискового индекса. После этого становится возможным поиск информации с использованием ключевых слов; без этой особенности само использование Интернета было бы скорее всего просто невозможным.

Полученная автоматическим образом информация может быть очень ценной при сборе её в одном месте и появлении возможности анализа.

Правовой статус[править]

В апреле 2022 года суд США принял решение по давно идущему процессу об автоматическом сборе данных с сервиса LinkedIn, который был недоволен тем, что данные о работниках собирают конкуренты (в результате чего довольно быстро стала требоваться регистрация на сайте для работы с ним). Было принято решение о том, что сбор публично доступной информации является полностью законным, и за его использование наказания быть не может.[1]

Примечания[править]


Internet2.png Великая сеть, которая переменила течения мира
Это интернет, деткаБраузеркаБугагашечкиДейтингЗаработокИдентификация пользователейИмиджбордаИмиджхостингИнтернет-магазинИнтернет-сервисыПокровитель интернетовРеестр запрещённых сайтовФайлообменникФотобанкХакеры, крекеры, спамы, куки
ОбщениеIRC (/me/quit#[email protected]) • Интернет-пейджинг (MirandaQIPSkypeАськаЖаббер) • ГостевухаЦитатникЧат (Вап-чат)
БлоггингБлогосфераБлог (МикроблогПодкаст)
ГлобализацияWAPWiki-проектыВеб 1.0Веб 2.0Мобильный интернетРунетСоциальная сетьСкайнетПиндонетЗаповеди интернетаПравила интернетовОтветыФлешмоб (самые известные)
ТипажиАдминАнонимусБелый рыцарьМодераторОптимизаторПредыдущий ораторСетевые онанистыТролльХакер
Термины404ADSLBitcoinDDoSFAQGPONI2PIPv6localhostMediaGetNO CARRIERSEOTorTOSViaWi-FiАккаунтБанБотБотнетВиртуалВордфильтрГолосование ногамиДиалапДомашняя страницаДорвейИнвайтКликбейтКомментКомьюнитиКикКириллические доменыЛесенкаЛинкЛогЛокалкаМемНикОфлайнОффтопикПисьма счастьяПоисковая бомбаПост (Некропост) • ПремодерацияПруфлинкРерайтингСабжСимпафкаСиндром вахтёраСкриншотСмайлСпамСпойлерТрафикТредТроянФлудФорумХотлинкингЭто вашеЮзерпик
ПоставщикиАкадоВолгаТелекомДом.руИскраМакхостСитилайнСтримЮТК