, который по заданным тэгам вываливает картинки. Ну вы же знаете, что у них там на тэг loli вываливается много страниц ёбаного ничего для всех кроме избранных? Это только в веб-морде так, а если через API обращаться, то всё ОК. Но не будем жи мы пялиться в XML, который возвращает это API, вместо лолей?
Так вот мой скрипт на основе того, что возвращает API, формирует страничку, которую потом можно посмотреть в том-же фоксике или хроме. Сейчас он запускается исключительно из командной строки, вываливает страничку просто в out, а параметры вообще не принимает, но уже работает.
Для запуска скрипта понадобится Python.
Код, как бы он ни был ужасен, тут.
Запускаем в командной строке так: dan.py > page.htm
После этого открываем сформировавшийся page.htm в любом браузере и пыримся на 100 картинок (больше за 1 запрос нельзя).
Для получения второй и последующих страниц или изменения запроса меняйте значения переменных в начале. Более двух тэгов не принимает — ограничение гостевого аккаунта.

Если не будете бить ногами, то попробую прикрутить морду на Qt. Возможно.

Tagged with →  

12 Responses to Я тут для danbooru.donmai.us решил сделать простенький скриптец

  1. 31_Zero:

    У них базы не совпадают.
    Естественно можно найти другой сайт, но идея была выковырять картинки именно с данбуру.
    + после небольшой доработки напильником минут за 10-20 можно вместо формирования странички сделать автоматическую качалку всех больших версий картинок со всех страниц по заданному тэгу.

  2. 31_Zero:

    Кстати, теоретически если подправить запросы, то скрипт будет работать и с этим сайтом. В качестве качалки это может быть полезным.

  3. XoBZZ:

    Спасибо!! Это по-настоящему полезная вешь.
    А вот качалка очень даже не помещает, я заболбался скачивать картинки по тегу Megaman и Diebuster.

  4. 31_Zero:

    Вот.
    Правда я не добавил проверку на валидность xml-страницы и потому она может в любой момент скрашиться при получении страницы.
    В начале скрипта переменная limit отвечает за число скачиваемых страниц. По-умолчанию установлена в 1, но можно указать нужное количество самому. Если поставить 0, то будет качать картинки вообще со всех страниц по заданным тэгам. 0 использовать рекомендую только для первого скачивания. Обновления можно отслеживать скачивая первую страницу (100 постов на 1-2 дня должно быть более чем достаточно) и сортируя все файлы по дате скачивания — ранее скачанные картинки мой скрипт пропускает.

    Кстати, если картинка не качается или качается с ошибками (проверяется по md5), то скрипт пытается ещё 4 раза её перекачать.

  5. 31_Zero:

    Впрочем, не гарантирую, что картинка успешно скачается если она скачалась битой с первого раза — я не уверен, что правильно вычитываю данные. Возможно каждый раз нужно заново переоткрывать соединение, а я всё в одном кручу. Как-то не проверил.

  6. 31_Zero:

    Вот версия с обработкой ошибки парсинга xml-страницы если она качается битой или вместо неё приходит какая-то херь + сообщает если файл скачался битым и теперь каждый раз заново к нему подсоединяется (лучше перебдеть).
    Скрипт ожидает 2 секунды между попытками качать. Если 5 раз не получается, то сдаётся и выходит.

  7. XoBZZ:

    Золотой. Спасибо. Скриптинг знаю поверхностно, так что нужное смогу подкрутить в скрипте.

  8. VolDead:

    Все уже сделали почти 2 года назад.
    http://410chan.ru/dev/res/773.html

  9. 31_Zero:

    Эта перда написана хер знает на чём и только для винды. 🙂
    В первую очередь мне было интересно самому поковыряться с Питоном, который я до этого и не знал-то вовсе.

  10. XoBZZ:

    В общем-то это ничего не говорит. Если попариться и на китайских(азиатских) сайтах порыться можно найти программку для скачивания картинок с данбуру-подобных сайтов. Натыкался давно и последний раз попытки найти ни к чему не привели.
    К тому же, на чанах не сидим, виндой не пользуемся.

  11. 31_Zero:

    Я сначала нашёл какую-то перду для KDE, но как ни старался, а не взлетела. Оказалось проще самому написать.

Добавить комментарий