[宅男福利] 电影天堂最新合集、搜索脚本 [原创]

2018-03-06 17:12:32 118 muous 146363 13

宅男福利第四波带你逃离无止境的广告
多线程电影天堂最新资源爬取脚本、电影搜索脚本
PS：方便大家使用写到了HTML中生成表格。
~~线程可以在脚本里直接改，测试线程为30时IP可能会被限制访问。~~[阳光电影是电影天堂的马甲]

环境: Python3

最新电影爬取代码

# -*- coding: utf-8 -*-

# @Time    : 2018/3/5 下午2:43

# @Author  : MyPuppet

# @File    : ygdy8.py

# @Software: PyCharm

import random

import threading

import requests as req

from lxml import etree

from queue import Queue



BASE_URL_COM = 'http://www.ygdy8.com'

BASE_URL_NET = 'http://www.ygdy8.net'

THREADS = 20

PAGE_TOTAL = 100



HEAD = '<!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><title>阳光电影 - 电影天堂</title><link href="https://cdn.bootcss.com/bootstrap/4.0.0/css/bootstrap.min.css" rel="stylesheet"></head><body><table class="table"><thead class="thead-dark"><tr><th scope="col">#</th><th scope="col">电影名</th><th scope="col">下载地址</th></tr></thead><tbody class="table-hover">'

FOOT = '</tbody></table></body></html>'



count = 1





def get_headers():

    user_agent_list = [

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1',

        'Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6',

        'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1',

        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5',

        'Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3',

        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24',

        'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24'

    ]

    UA = random.choice(user_agent_list)

    headers = {'User-Agent': UA}

    return headers





def get_url(list_queue, url_queue):

    while True:

        url = list_queue.get()

        try:

            res = req.get(url, headers=get_headers())

            res.encoding = res.apparent_encoding

            html = etree.HTML(res.text)

            tags = html.xpath('//div[@class="co_content8"]/ul//a')

            for tag in tags:

                href = tag.get('href')

                url_queue.put(href, 1)

                print('[Subscribe] [%s]' % href)

        except:

            print('[Subscribe Error] %s' % url)

        list_queue.task_done()





def get_list(list_queue):

    lists = [i for i in range(1, PAGE_TOTAL + 1)]

    list_url = 'http://www.ygdy8.com/html/gndy/dyzz/list_23_%d.html'

    for i in lists:

        url = list_url % i

        list_queue.put(url, 1)





def parse_download(url):

    res = req.get(url, headers=get_headers())

    res.encoding = res.apparent_encoding

    html = etree.HTML(res.text)

    title = html.xpath('//div[@class="bd3r"]//div[@class="title_all"]/h1/font')[0].text

    downloads = html.xpath('//div[@id="Zoom"]//table//a/@href')

    return title, downloads





def parse_html(url_queue, result_file):

    while True:

        global count

        url_path = url_queue.get()

        try:

            try:

                url = BASE_URL_COM + url_path

                (title, downloads) = parse_download(url)

            except:

                url = BASE_URL_NET + url_path

                (title, downloads) = parse_download(url)

            download = '<hr>'.join(downloads)

            tr = '<tr><th scope="row">%d</th><td>%s</td><td>%s</td></tr>' % (count, title, download)

            result_file.write(tr)

            print('[OK][%d] %s' % (count, title))

            count = count + 1

        except:

            print('[Parse error] %s' % url_path)

        url_queue.task_done()





def thread(thread_name, target, args):

    for i in range(THREADS):

        t = threading.Thread(target=target, args=args)

        t.setDaemon(True)

        t.start()

    thread_name.join()





def main():

    list_queue = Queue()

    url_queue = Queue()

    get_list(list_queue)

    thread(list_queue, get_url, (list_queue, url_queue))

    result_file = open('result.html', 'w')

    result_file.write(HEAD)

    thread(url_queue, parse_html, (url_queue, result_file))

    result_file.write(FOOT)

    result_file.close()

    print('End... 老铁记得顶我(TieZi)\nEnd... 老铁记得顶我(TieZi)\nEnd... 老铁记得顶我(TieZi)')





if __name__ == '__main__':

    main()

搜索电影代码

# -*- coding: utf-8 -*-

# @Time    : 2018/3/6 下午12:00

# @Author  : MyPuppet

# @File    : search.py

# @Software: PyCharm

import sys

import random

import requests as req

from urllib import parse

from lxml import etree

from multiprocessing import Pool



BASE_URL = 'http://www.ygdy8.com'

SEARCH_URL = 'http://s.ygdy8.com/plus/so.php?kwtype=0&searchtype=title&pagesize=1000&keyword='





# 关键字需要URL字符编码

def get_headers():

    user_agent_list = [

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1',

        'Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6',

        'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1',

        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5',

        'Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3',

        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24',

        'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24'

    ]

    ua = random.choice(user_agent_list)

    headers = {'User-Agent': ua}

    return headers





def search(keyword):

    keyword = parse.quote(keyword.encode("gbk"))

    url = SEARCH_URL + keyword

    res = req.get(url, headers=get_headers())

    res.encoding = res.apparent_encoding

    html = etree.HTML(res.text)

    tags = html.xpath('//div[@class="co_content8"]/ul//a')

    result_urls = []

    for tag in tags:

        url = BASE_URL + tag.get('href')

        result_urls.append(url)

    return result_urls





def parse_html(url):

    res = req.get(url, headers=get_headers())

    res.encoding = res.apparent_encoding

    html = etree.HTML(res.text)

    title = html.xpath('//div[@class="bd3r"]//div[@class="title_all"]/h1/font')[0].text

    downloads = html.xpath('//div[@id="Zoom"]//table//a/@href')

    print('[%s]' % title)

    for download in downloads:

        print('[下载链接] [%s]' % download)

    print('\n|----------------------------------------------------------|\n')







if __name__ == '__main__':

    if len(sys.argv) < 2:

        print("Usage: python %s movie_name" % sys.argv[0])

        exit(-1)

    urls = search(sys.argv[1])

    pool = Pool()

    pool.map(parse_html, urls)

关于作者

muous46篇文章694篇回复

评论118次

要评论？请先登录或注册

118楼

msxiaobei
2023-1-9 01:06

脚本学xi思路很重要啊！！谢谢大佬

回复|@ta|踩(0)|顶(0)
117楼

vr4us
2022-12-26 20:40

非阳光电影不看，看阳光电影才有成就感！！

回复|@ta|踩(0)|顶(0)
116楼

hckit
2022-12-25 22:45

nightF1re：
TG 上多的是干嘛还要爬呢
回复|@ta
1

你看时间，18年哪有人人tg

回复|@ta|踩(0)|顶(0)
115楼

nightF1re
2022-11-29 23:08

TG 上多的是干嘛还要爬呢

回复|@ta|踩(0)|顶(0)
114楼

zhoujian017
2022-11-29 17:39

有没有那种可以爬meu8视频的姿势？

回复|@ta|踩(0)|顶(0)
113楼

breezewind
2022-4-28 20:32

大佬写爬虫的思路和代码好清晰，我从头到尾就一两个函数，看起来好乱

回复|@ta|踩(0)|顶(0)
112楼

Darwin
2022-4-27 10:41

爬虫用得好，那啥吃的饱

回复|@ta|踩(0)|顶(0)
111楼

i20zero
2022-4-26 13:59

这个看着挺爽的，马上去试试。

回复|@ta|踩(0)|顶(0)
110楼

xianxian
2022-4-22 10:48

这可不是日产动作片好吗

回复|@ta|踩(0)|顶(0)
109楼

coolcola
2022-3-30 10:23

好东西，爬了放自己网站里

回复|@ta|踩(0)|顶(0)
108楼

KrisHe
2022-3-8 23:06

刚好在学爬虫，可以参考，感谢

回复|@ta|踩(0)|顶(0)
107楼

学渣小明
2019-9-24 23:17

好东西。

回复|@ta|踩(0)|顶(0)
106楼

virus
2019-9-22 13:27

正好在学这玩意儿，我先收下观摩哈啦

回复|@ta|踩(0)|顶(0)
105楼

wolaile123
2018-11-18 17:32

我要大片，大片大片。三骗

回复|@ta|踩(0)|顶(0)
104楼

dookey
2018-11-15 20:20

可以用净网大师去广告

回复|@ta|踩(0)|顶(0)
103楼

xiaoabc4
2018-11-15 20:16

膜拜大佬

回复|@ta|踩(0)|顶(0)
102楼

机智的alex
2018-11-15 11:37

我第一眼看错，值得学xi！

回复|@ta|踩(0)|顶(0)
101楼

0_ok_0
2018-11-15 11:27

xpath 还是比较好用，匹配效率比较高，而且配合chrome特别好用

回复|@ta|踩(0)|顶(0)
100楼

DrewL
2018-6-27 10:02

很不错，拿来用了

回复|@ta|踩(0)|顶(0)
99楼

alexyu
2018-6-25 14:37

-。- 还以为是真福利大片呢被骗了，不过话说用 beautifulsoup 和 xpath 两者性能差异大吗？

回复|@ta|踩(0)|顶(0)

[宅男福利] 电影天堂最新合集、搜索脚本 [原创]

关于作者

评论118次

脚本学xi思路很重要啊！！谢谢大佬

非阳光电影不看，看阳光电影才有成就感！！

TG 上多的是 干嘛还要爬呢

你看时间，18年哪有人人tg

TG 上多的是 干嘛还要爬呢

有没有那种可以爬meu8视频的姿势？

大佬写爬虫的思路和代码好清晰，我从头到尾就一两个函数，看起来好乱

爬虫用得好，那啥吃的饱

这个看着挺爽的，马上去试试。

这可不是 日产动作片好吗

好东西，爬了放自己网站里

刚好在学爬虫，可以参考，感谢

好东西。

正好在学这玩意儿，我先收下观摩哈啦

我要大片，大片大片。 三骗

可以用净网大师去广告

膜拜大佬

我第一眼看错，值得学xi！

xpath 还是比较好用，匹配效率比较高，而且配合chrome特别好用

很不错，拿来用了

-。- 还以为是真福利大片呢 被骗了，不过话说 用 beautifulsoup 和 xpath 两者性能差异大吗？

热门文章

安全资讯号外号外！大家一定来看看！GitHub 骗局诱骗开发人员下载恶意软件

社会工程小世界找联系方式之拓展思路

安全资讯Apex Legends 玩家担心 ALGS 黑客攻击后存在 RCE 缺陷

渗透测试[已重新编辑]AI与基础安全结合的新的攻击面

安全资讯XZ Utils 库中发现秘密后门，影响主要的 Linux 发行版

最新回复

精华推荐

渗透测试【开源】HTTPDecrypt for Android Penetration Test

Web安全边吃瓜边审计 MacCMS

渗透测试CTF中那些脑洞大开的编码和加密

手机无线安卓系统下的手机短信监听工具【更新至3.0版本】

渗透测试记一次域控探索

TG 上多的是干嘛还要爬呢

TG 上多的是干嘛还要爬呢

这可不是日产动作片好吗

我要大片，大片大片。三骗

-。- 还以为是真福利大片呢被骗了，不过话说用 beautifulsoup 和 xpath 两者性能差异大吗？