[Ответить в тред] Ответить в тред

26/03/16 - Конкурс: Помоги гомункулу обрести семью!
15/10/15 - Набор в модераторы 15.10 по 17.10
27/09/15 - Двач API — Инструкция к применению


[Назад][Обновить тред][Вниз][Каталог] [ Автообновление ] 35 | 5 | 19
Назад Вниз Каталог Обновить

DataCol тред DataCol тред 10/12/15 Чтв 19:55:58 78970  
14497773584560.jpg (91Кб, 604x429)
Сап Двач
Предлагаю создать тред посвященный DataCol'у и вообще парсингу в целом.
Тред будет посвящен:
-DataCol
-ContentDownloader
-EmailParsing
-Плагинам
-Прочей хуйне вопрос ответы
Сам юзаю крякнутый датакол ибо чет неохота платить 3.5к за оригинал обновляемый
Версия 5.54 + Плагины какие то хуевые
Кто сам с чего парсит, кто такой же на датаколе?
Есть у кого мб какие паки плагинов полезные?
Сегодня обыскался
-d5plugin_uniqueplugin
-datacolemailparser
ниче нет, кроме коней на комп и браузера амиго в добавок
Ответы: >>78974
Аноним 11/12/15 Птн 07:49:00 78974
>>78970 (OP)
Хороший тред. Я, например, использую https://magic.import.io/

У только у меня возникают проблемы с обработкой данных.
Ответы: >>78975
Аноним 11/12/15 Птн 07:50:40 78975
>>78974
У меня такой алгоритм.

Если задача простая:
https://magic.import.io/

Если средняя:
ContentDownloader

Если сложная:
http://simplehtmldom.sourceforge.net/
Аноним 11/12/15 Птн 09:36:16 78977
Лол блять. Это все на js делается. Веб-мастера млин)))
Ответы: >>78993
Аноним 11/12/15 Птн 14:26:11 78993
>>78977
Но лучше на питоне.
Аноним 11/12/15 Птн 18:40:44 78995
Че, даже 2975 рублей нет? По сравнению с остальным софтом это не сильно заоблачные цены. Но да, это у них просто лицензирование пидорское такое. С толпой плагинов по 15 баксов.
Аноним 12/12/15 Суб 09:36:09 79002
ContentDownloader, если не получается - zennoposter.
Кто юзает и Кд и датакол - какие у датакола профиты? Стоил покупать или там перекрывается функционал на 99%?

>https://magic.import.io/

Прикольно, никогда не слышал.
Ответы: >>79007
Аноним 12/12/15 Суб 11:53:23 79007
>>79002
Я короче ниче из этого не юзаю, но под НГ собираюсь закупиться по полной программе. 10к на ZP, CD, DC - вполне посильные деньги.

Правда я хуй знает насколько оно надо мне. Есть мнение что для регулярного ПАРСИТЬ НАДО ПАРСЕРАМИ 10М запросов придется ебаться с программированием и серверными решениями с нуля.

>мэджик импорт

поебота какая-то, не вкурил.
Ответы: >>79008
Аноним 12/12/15 Суб 12:12:01 79008
>>79007
>мэджик импорт поебота какая-то, не вкурил.
А ты кури в затяг, упорыш.
https://magic.import.io/?site=http://2ch.hk/web/res/78970.html
Ответы: >>79009
Аноним 12/12/15 Суб 14:08:28 79009
14499293085570.png (72Кб, 873x443)
>>79008
Брат, братишка, спасибо что дал покурить

Они говорят что парсят 10М данных ежедневно. Так-то неплохо.
Ответы: >>79023 >>79229
Аноним 12/12/15 Суб 14:42:39 79011
кстати двач веб мастера
кто в курсе как ускорить скорость парсинга
и что на это влияет?
можете покидать годной инфы
Аноним 12/12/15 Суб 16:09:37 79023
14499365779770.png (34Кб, 967x366)
>>79009
crawler парсит-обрабатывает 1,5-3к урлов в час а их, есть мнение что если предварительно напарсить урлы - extractor напарсит эти данные быстрее.
Ответы: >>79113 >>79229
Аноним 13/12/15 Вск 06:38:46 79041
Парсинг 2ГИС. Есть демка. http://gisdb.ml
Аноним 13/12/15 Вск 07:31:13 79042
Кто-нибудь использует PhantomJS или подобное?
Аноним 14/12/15 Пнд 15:28:48 79113
>>79023
хз
я парсил через датакол
потребовалось по 1 часу на 300 урлов
что бы собрать инфу о наименовании, тел, линк
Ответы: >>79608
Аноним 15/12/15 Втр 07:35:31 79134
<bump>
Аноним 16/12/15 Срд 13:56:25 79229
14502741857820.png (41Кб, 629x356)
На правах бампа

Блядский ДНС со своими бонусами и автоподгрузкой не дает нормально данные спарсить со страницы категории. Потом еще поди бугуртят от запросов на каждую страницу.

Попробовал тут вытягивать данные через гуглотаблицы, в целом неплохо.

Непонятно мне только как разные цены в разных городах-регионах обрабатывать.

>>79009 >>79023-нуб
Ответы: >>79238
Аноним 16/12/15 Срд 16:54:01 79238
14502848419200.png (28Кб, 537x435)
>>79229
апдейт, те же spreadsheets
Аноним 18/12/15 Птн 14:59:59 79384
бамп
Аноним 18/12/15 Птн 15:03:03 79385
а кто-то парсил зун.ру?
Аноним 20/12/15 Вск 14:57:29 79478
B U M P
Аноним 22/12/15 Втр 18:06:20 79608
>>79113
>>потребовалось по 1 часу на 300 урлов

Пиздос. Датаколу до CD, как до Китая раком. Там до сих пор через xpath нужно пердолиться в датаколе?
Ответы: >>79655
Аноним 22/12/15 Втр 19:41:09 79623
Пользуюсь парсером на Битриксе, хуячит до 10 000 элементов в час (если структура простая). За год нечастого парсинга наворовал около 3 миллионов немецких фирм (ток не знаю, зачем лол).

Поделитесь идеями для парсинга, братишки. А то сервер простаивает
Аноним 22/12/15 Втр 21:31:07 79637
Аноны, а вам вот это зачем? Я программер, по работе часто пишу парсеры, хотел бы понять, можно ли это делать на заказ.
Ответы: >>79642 >>79654
Аноним 22/12/15 Втр 21:54:03 79642
>>79637
> Аноны, а вам вот это зачем? Я программер, по работе часто пишу парсеры

Ты не нужен, у нас уже все есть. Заказывают только нубы. Ну и стартаперы берут в штат ещё на всякие агрегаторы.
Ответы: >>79654
Аноним 23/12/15 Срд 05:58:14 79654
>>79637
>>79642

почему нет то?
я уже заебался парсить в 500 шагов, когда какой-либо программер может это соединить все в одну кнопку и программу...
Аноним 23/12/15 Срд 05:59:12 79655
>>79608
да, xpath причем он его и хуево считывает
поясни за КД твой
в чем плюсы, простота использования? платность проги/плагинов?
Ответы: >>79661
Аноним 23/12/15 Срд 09:57:54 79661
>>79655
Это как сравнивать обычный бейсик и javascript. CD насколько далеко ужел в развитии, что так и не опишешь в двух словах. Полазай по сайту, там куча видео.

Пользуюсь CD с 2011 года. Эксперт, можно сказать. Куплено 2 unlim лицензии и 10 базовых.
Ответы: >>79662
Аноним 23/12/15 Срд 10:06:00 79662
>>79661
Мне в CD катастрофически не хватает полей для парсинга . Не понимаю нахуя их вообще ограничивать. Поэтому иногда приходилось парсить все зеннопостером и ебаться с десятками регулярок.

Впрочем, это пожалуй единственный недостаток КД, да и то проявляющийся только в специфических случаях, когда надо парсить более 20 полей.
Ответы: >>79663 >>79674
Аноним 23/12/15 Срд 10:06:23 79663
>>79662
сажа приклеилась
Аноним 23/12/15 Срд 13:21:38 79674
>>79662
>Мне в CD катастрофически не хватает полей для парсинга .

Это редкость. Ты либо не выносишь, все, что можно вынести в повторяющиеся границы.

Либо тупо можно, раз такое дело, через getmorecontent с той же страницы выдергивать.
Ответы: >>79677
Аноним 23/12/15 Срд 14:15:17 79677
>>79674
Это редкость, но несколько раз упирался в именно в это.
>через getmorecontent с той же страницы выдергивать
Это как?
Ответы: >>79678
Аноним 23/12/15 Срд 14:44:47 79678
>>79677
<GETMORECONTENT><URL="[SELF]"><START=""><STARTCOUNT="0"><END=""><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>

Задай начало и конец.
И инструкцию почитай.
Аноним 25/12/15 Птн 03:03:32 79740
есть туторы по КД?
Ответы: >>79745
Аноним 25/12/15 Птн 07:50:33 79745
>>79740
Ты совсем еблан? Никак не найдешь официальный сайт с туторами и видео?
Ответы: >>79861
Аноним 26/12/15 Суб 21:25:15 79861
>>79745
Я думаю автор имел в виду чет тип складчин каких-нить

[Назад][Обновить тред][Вверх][Каталог] [Реквест разбана] [Подписаться на тред] [ Автообновление ] 35 | 5 | 19
Назад Вверх Каталог Обновить

Топ тредов
Подписывайся на официальный канал Двача в Телеграме и узнавай обо всех новостях и мемах первым! https://tlg.wtf/dvachannel[X]