Веб-скрейпинг

Материал из Неолурк, народный Lurkmore
Перейти к навигации Перейти к поиску

Веб-скрейпинг (web scraping) — процесс автоматизированного составления баз данных при помощи анализа общедоступных интернет-сайтов.

Защита[править]

Некоторые сайты стараются защитить информацию от сбора при помощи веб-скрейпинга. Например, в системе Google выдается каптча для тех, кто пытается делать слишком большое число запросов к поиску или чье поведение напоминает бота. В руководстве к системе говорится, что нежелательно в том числе и автоматизированное определение позиции сайта в поиске — чем занимаются многие SEO-сервисы.

В то же время большинство сайтов разрешают автоматическим программам обращаться к страницам, если количество запросов ограничено разумными пределами (не проводится долбления, что может повлечь за собой повреждение сайта). Таким образом огромное количество ботов постоянно курсирует по Интернету и собирает информацию.

Фактически веб-скрейпингом занимаются поисковые системы, когда регулярно обходят сайты для составления поискового индекса. После этого становится возможным поиск информации с использованием ключевых слов; без этой особенности само использование Интернета было бы скорее всего просто невозможным.

Полученная автоматическим образом информация может быть очень ценной при сборе её в одном месте и появлении возможности анализа.

Правовой статус[править]

В апреле 2022 года суд США принял решение по давно идущему процессу об автоматическом сборе данных с сервиса LinkedIn, который был недоволен тем, что данные о работниках собирают конкуренты (в результате чего довольно быстро стала требоваться регистрация на сайте для работы с ним). Было принято решение о том, что сбор публично доступной информации является полностью законным, и за его использование наказания быть не может.[1]

Примечания[править]

Internet2.png Великая сеть, которая переменила течения мира
Это интернет, деткаИнтернетыДаркнетУведомления в браузереВеб-скрейпингWWWПросмотр стрима в фонеWeb ArchiveИнфоповодОткрытый проксиСайтБраузеркаБугагашечкиДейтингЗаработокИдентификация пользователейИмиджбордаИмиджхостингИнтернет-магазинИнтернет-сервисыПокровитель интернетовКаталог сайтовАссоциация блогеров и агентствОлдфагЧебурнетАнкетаАватарИзоляция российских сайтовВидеохостингТильтGoogle дуракИнфобизнесменStalinism.ruРеестр запрещённых сайтовФайлообменникФотобанкХакеры, крекеры, спамы, кукиЗакат эпохи анонимусаТроллингВеб 3.0Интернет-энциклопедияСтриминговый сервисБлокировщики рекламыВеб-камераИнтернет-знаменитостьGoogle ChromeOperaMozilla FirefoxSafariFirefoxHttpHTTPSКритерий ХомакаПеревод в онлайнОблачное хранилище404 ошибкаДвухфакторная авторизацияВикипедияЭлектронная почтаРунетX (ранее Твиттер)HTML5Moswar.ruRu-CenterCerberxБизнес 18+ПИОННенавистьПолитика предотвращения распространения ватной чумыЭджлордВидеоПанорамное видео 360Нейтралитет в информационной войнеПервый поток влогеров рунетаЛысый из BrazzersЛагиНиколай ДуровОпараш ДуроваGoodbyeDPIАвтопереводчикКтотут.рфИнформацияМаносфераБесплатный хостингNginxSearxПолитическое ФГМТеперь мы — это медиаUserscriptMemojiМегасталинCulturalVibesПессимизация ИИХейтвотчингРечной крабFurAffinityOurworldoftextИнтернет-цензура в ГерманииСкроллингХорошие SEOшникиОТРЯД САСА – ОСПАТонилайфШизоидная деградация интернета
ТерминыVPNПрокси-сервер (SOCKS-прокси) • Управление репутацией404ADSLBitcoinDDoSFAQGPONI2PIPv6localhostMediaGetNO CARRIERSEOTorTOSViaWi-FiАккаунтБанБотБотнетВиртуалВордфильтрГолосование ногамиДиалапДомашняя страницаДорвейИнвайтКликбейтКомментКомьюнитиКикКириллические доменыЛесенкаЛинкЛогЛокалкаМемНикОфлайнОффтопикПисьма счастьяПоисковая бомбаПост (Некропост) • ПремодерацияПруфлинкРерайтингСабжСимпафкаСиндром вахтёраСкриншотСмайлСпамСпойлерТрафикТредТроянФлудФорумХотлинкингЭто вашеЮзерпикАнонимностьШок-сайтыПингИКСUser-AgentБраузерWhoisURLДесинкРазметка реддита🤡Цифровая некромантияЗаднеприводная каптчаЭффект АстольфоКвантовый интернетИнформационный вирусОнлайнЛайкСторисХештегPunycodeЧастный сайтПоддерживатьИнтернет-проектФоркСамосбор (проект)Короткие доменыПиксельный ПатриотизмСтирание личной историиБотофермаЗастолблениеЗасираниеDeep TikTokИстория браузера
ПоставщикиБлокировки TOR в РоссииЦепочка проксиУчёт интернет-рекламы в РоссииProxifierПоисковые запросыСоветский интернетВеб-мастерИнтернет шоу-бизнесЛокальная сеть в масштабах страныВизуальный троллингАкадоВолгаТелекомДом.руИскраМакхостСитилайнСтримWibyЮТКЯндексПавел ДуровEMPRESSAlanWakeIP-адрес (Статический IP-адресДинамический IP-адрес) • Обход блокировкиStarlinkРоссийский интернет-форумЛарри ПейджСергей БринJavaScriptPHPOpera VPNHTMLCSSВилле ХакомякиMariaDBИзменение TTL сетевых пакетовТоррент (ΜTorrentMagnet-ссылка) • Archive TeamАрхив АнныАркадий ВоложСпам-листСтримT2NamecheapРостелекомБезопасная юрисдикцияСэми КамкарAGPLСтримерСерверDigitalOceanТян не нужныВася ПупкинNewgroundsГовносфераИИ-цензураЯндекс ПлюсНижний интернет как филиал АдаКакашка (эмодзи)Евгений Максимин
Проблемы и злоВозрастное ограничениеЦензура в TelegramПлатный поиск в ИнтернетеТебя в гугле забанилиАвтозамена на проксиБитва за Le Cosy MontparnasseСпамботАлгоритм НемезидаРевью-бомбингТроллинг верификации в ТвиттереРеклама в ТелеграмеИнтернет-луддитыКукловодТуалетный профильБаяновая революцияЗахват сервераСлив файлов Яндекса в январеКопирование и вставка текста на сайтах с запретомЗамена словОтключение интернетаЦензура в социальных сетяхАвторские праваСкрытый банУтечка данныхШокирующее видеоСимпРоскомнадзор (Роскомнадзор-тян) • СрачХайпЦифровизацияЦифровой следИнтернет-цензураИдентификация пользователей Wi-FiЧёрный списокАккаунт угналиФейкЗабастовка на реддите из-за платного APIAutoModeratorОбида на клоунаСтена текстаДисконнектВзлом электронной почтыФактчекИнтернет-ракАттеншен вхореДобровольно-принудительная регистрацияИзгнание ДуроваБлокировка сайтов по беспределуМ125Виртуальные инстаграмщицыПоломка зоны .ru в январе 2024 годаГлобальный сбой интернетаНаказание за скачивание пиратского контентаПротоколированиеBrain rotНарастание интернет-цензуры в РФИнтернет-зависимостьЗакон ГодвинаСетевой сумасшедшийРоскомнадзор обделался против ТвиттераРотшильды не общаются в интернетахMurka SenseiЗависимость 18+Блокировки электронной почты в РФМурка сенсейАтака Роскомнадзора на YouTube в ноябре 2020Робот-стукачВиртуальная жизньОпараш Mozilla FirefoxЯндекс.МузыкаПартнерка Яндекс БраузераГномы воруютАренда аккаунтов WhatsApp
МетаВеб 2, или некоторые говорят Веб 2.0