Веб-скрейпинг

Материал из Неолурк, народный Lurkmore
Перейти к навигации Перейти к поиску

Веб-скрейпинг (web scraping) — процесс автоматизированного составления баз данных при помощи анализа общедоступных интернет-сайтов.

Защита[править]

Некоторые сайты стараются защитить информацию от сбора при помощи веб-скрейпинга. Например, в системе Google выдается каптча для тех, кто пытается делать слишком большое число запросов к поиску или чье поведение напоминает бота. В руководстве к системе говорится, что нежелательно в том числе и автоматизированное определение позиции сайта в поиске — чем занимаются многие SEO-сервисы.

В то же время большинство сайтов разрешают автоматическим программам обращаться к страницам, если количество запросов ограничено разумными пределами (не проводится долбления, что может повлечь за собой повреждение сайта). Таким образом огромное количество ботов постоянно курсирует по Интернету и собирает информацию.

Фактически веб-скрейпингом занимаются поисковые системы, когда регулярно обходят сайты для составления поискового индекса. После этого становится возможным поиск информации с использованием ключевых слов; без этой особенности само использование Интернета было бы скорее всего просто невозможным.

Полученная автоматическим образом информация может быть очень ценной при сборе её в одном месте и появлении возможности анализа.

Правовой статус[править]

В апреле 2022 года суд США принял решение по давно идущему процессу об автоматическом сборе данных с сервиса LinkedIn, который был недоволен тем, что данные о работниках собирают конкуренты (в результате чего довольно быстро стала требоваться регистрация на сайте для работы с ним). Было принято решение о том, что сбор публично доступной информации является полностью законным, и за его использование наказания быть не может.

Internet2.png Великая сеть, которая переменила течения мира
Это интернет, деткаИнтернетыДаркнетУведомления в браузереВеб-скрейпингWWWПросмотр стрима в фонеWeb ArchiveИнфоповодОткрытый проксиСайтБраузеркаБугагашечкиДейтингЗаработокИдентификация пользователейИмиджбордаИмиджхостингИнтернет-магазинИнтернет-сервисыПокровитель интернетовКаталог сайтовАссоциация блогеров и агентствОлдфагЧебурнетАнкетаАватарИзоляция российских сайтовВидеохостингТильтGoogle дуракИнфобизнесменStalinism.ruРеестр запрещённых сайтовФайлообменникФотобанкХакеры, крекеры, спамы, кукиЗакат эпохи анонимусаТроллингВеб 3.0Интернет-энциклопедияСтриминговый сервисБлокировщики рекламыВеб-камераИнтернет-знаменитостьGoogle ChromeOperaMozilla FirefoxSafariFirefoxHttpHTTPSКритерий Хомака
Интересное[Перевод в онлайн]] • Облачное хранилище404 ошибкаДвухфакторная авторизацияВикипедияЭлектронная почтаРунетX (ранее Твиттер)HTML5Moswar.ruRu-CenterCerberxБизнес 18+ПИОННенавистьПолитика предотвращения распространения ватной чумыЭджлордВидеоПанорамное видео 360Нейтралитет в информационной войнеПервый поток влогеров рунетаЛысый из BrazzersЛагиНиколай ДуровОпараш ДуроваGoodbyeDPIАвтопереводчикКтотут.рфИнформацияМаносфераБесплатный хостингNginxSearxПолитическое ФГМТеперь мы — это медиаUserscriptMemojiМегасталинCulturalVibesПессимизация ИИХейтвотчингРечной крабFurAffinityOurworldoftextИнтернет-цензура в ГерманииСкроллингХорошие SEOшникиОТРЯД САСА – ОСПАТонилайфШизоидная деградация интернетаMeek-clientПоисковикИстория одного разумистаЛешие в интернетеDuckDuckGoКлоудфаерПутин приказал МВД цензурировать интернет
ТерминыVPNПрокси-сервер (SOCKS-прокси) • Управление репутацией404ADSLDDoSFAQGPONI2PIPv6localhostMediaGetNO CARRIERSEOTorTOSViaWi-FiАккаунтБанБотБотнетВиртуалВордфильтрГолосование ногамиДиалапДомашняя страницаДорвейИнвайтКликбейтКомментКомьюнитиКикКириллические доменыЛесенкаЛинкЛогЛокалкаМемНикОфлайнОффтопикПисьма счастьяПоисковая бомбаПост (Некропост) • ПремодерацияПруфлинкРерайтингСабжСимпафкаСиндром вахтёраСкриншотСмайлСпамСпойлерТрафикТредТроянФлудФорумХотлинкингЭто вашеЮзерпикАнонимностьШок-сайтыПингИКСUser-AgentБраузерWhoisURLДесинкРазметка реддита🤡
ПонятияЦифровая некромантияЗаднеприводная каптчаЭффект АстольфоКвантовый интернетИнформационный вирусОнлайнЛайкСторисХештегPunycodeЧастный сайтПоддерживатьИнтернет-проектФоркСамосбор (проект)Короткие доменыПиксельный ПатриотизмСтирание личной историиБотофермаЗастолблениеЗасираниеDeep TikTokИстория браузераНижний интернетИнторанетФидонетFirstVDSОбрыв загрузки файла на 99%Блокировка Cloudflare в РФПоисковый экстремизм1.1.1.1Запрет Старлинка в РоссииСкриншотная крысаЗапрет VPN на ЮтубеКотовая рыбаUztelecomCDNКраудфандингАтака боторабкоровКубтелекомУдаление перепискиФишки.нетЗухель
МетаВеб 2, или некоторые говорят Веб 2.0Будущее сети