[Ответить в тред] Ответить в тред

02/12/16 - Конкурс визуальных новелл доски /ruvn/
15/11/16 - **НОВЫЙ ФУНКЦИОНАЛ** - Стикеры
09/10/16 - Открыта доска /int/ - International, давайте расскажем о ней!

Check this out!


Новые доски: /2d/ - Аниме/Беседка • /wwe/ - WorldWide Wrestling Universe • /ch/ - Чатики и конфочки • /int/ - International • /ruvn/ - Российские визуальные новеллы • /math/ - Математика • Создай свою

[Назад][Обновить тред][Вниз][Каталог] [ Автообновление ] 9 | 3 | 7
Назад Вниз Каталог Обновить

Web crawler ну тип. Аноним 12/01/17 Чтв 02:18:48 910238  
14787785623320.webm (6500Кб, 640x360, 00:04:57)
Сап, многоуважаемые анонимусы.
Такое дело, меня заинтересовал один вопрос касательно веб кравлера.

Стоит задача, теоретически, сделать веб кравлер который бы вытаскивал осмысленное содержимое веб страницы.

Первая мысль была сделать просто, ну ебана получили код хуе мое распарсил и вуаля.

но затем пришла вторая мысль, сейчас же оче модно страницу жава скриптом генерить прям в бравзере, и простым парсингом текстового респонса я не получу релевантной информации.
Или не так уж и модно?

Как это делает гугл?


И второй вопрос, где бы найти бибилотеку реализующую что-то вроде веб бравзера, но без визуальной составляющей, чтобы только dom дерево строил, чтобы жс на странице мог отработать.

Прошу не бейте, лучше обоссыте.

Аноним 12/01/17 Чтв 21:11:48 910947
14268742784702.jpg (184Кб, 1280x905)
Ясно.
Аноним 12/01/17 Чтв 21:33:47 910968
>>910238 (OP)
https://chromium.googlesource.com/v8/v8.git
Ответы: >>910998
Аноним 12/01/17 Чтв 21:53:16 910984
Твой поисковой запрос в гугле "web crawler library" плюс добавляешь язык на котором собираешься писать. Из головы например - selenium и scrapyJS
Аноним 12/01/17 Чтв 22:18:31 910998
>>910968
Я дикоизвиняюсь за глупый вопрос, но v8 это разве не чисты жаваскрипт движок, без всякого html парсинга?
Аноним 12/01/17 Чтв 22:28:06 911004
>>910238 (OP)
> реализующую что-то вроде веб бравзера, но без визуальной составляющей
они называются headless browser
https://en.wikipedia.org/wiki/Headless_browser
Ответы: >>911005 >>911006
Аноним 12/01/17 Чтв 22:28:57 911005
14780163359900.png (3608Кб, 1600x1921)
>>911004
О! Добра!
Аноним 12/01/17 Чтв 22:29:06 911006
>>911004
Опередил
https://github.com/dhamaniasad/HeadlessBrowsers
Аноним 19/01/17 Чтв 18:15:19 915368
>>910238 (OP)
Phantom JS.
Аноним 20/01/17 Птн 21:58:13 916053
>>910238 (OP)
PhantomJS как движок headless браузера и прикручивай свистоперделку к нему в виде какой либо библиотеки(CasperJS, например). Просто писать на голом фантоме удовольствие не из приятных, если тебе нужно описывать сложную логику, а вот с каспером описывать клики, ожидания и т.д. довольно неплохо, хотя иногда хочется уебать авторов за некоторую ебанутость архитектурную.

[Назад][Обновить тред][Вверх][Каталог] [Реквест разбана] [Подписаться на тред] [ Автообновление ] 9 | 3 | 7
Назад Вверх Каталог Обновить

Топ тредов
Избранное
Подписывайся на официальный канал Двача в Телеграме и узнавай обо всех новостях и мемах первым! https://tlg.wtf/dvachannel[X]