scrapy模拟登录 2022-06-15 字数统计: 219字 | 阅读时长: 1min 1234567891011121314151617181920212223242526272829303132333435import scrapyclass LoginSpider(scrapy.Spider): name = 'login' start_urls = ['https://github.com/login'] def parse(self, response): ever_token = response.xpath('//*[@id="login"]/div[4]/form/input[1]/@value').extract_first() timestamp_secret = response.xpath('//*[@id="login"]/div[4]/form/div/input[11]/@value').extract_first() timestamp = response.xpath('//*[@id="login"]/div[4]/form/div/input[10]/@value').extract_first() data = { "commit": "Sign in", "authenticity_token": ever_token, # token每次都会变,可以在login网页中查找到 "login": "xxx", # 填成自己的 "password": "xxx", # 填成自己的 "webauthn-support": "supported", "webauthn-iuvpaa-support": "unsupported", "return_to": "https://github.com/login", "timestamp": timestamp, "timestamp_secret": timestamp_secret } yield scrapy.FormRequest( # 用的就是post方式 url='https://github.com/session', # post网址 callback=self.after_login, formdata=data ) def after_login(self, response): yield scrapy.Request('https://github.com/yezhoubing', callback=self.check_login) def check_login(self, response): print(response.xpath('html/head/title/text()').extract_first()) scrapy 展开全文 >>
scrapy使用selenium 2022-06-15 字数统计: 124字 | 阅读时长: 1min 在爬虫文件中 12def __init__(self): self.bro = Chrome() # 默认路径为python.exe所在文件夹 scrapy 展开全文 >>
scrapy异步下载图片 2022-06-15 字数统计: 318字 | 阅读时长: 1min scrapy异步下载图片通过 from scrapy.pipelines.images import ImagesPipeline管道下载,可以考虑自己重写,从而修改默认的方式 爬虫文件123456789101112131415161718192021222324252627282930"""scrapy异步下载图片"""import scrapyfrom selenium.webdriver import Chromefrom ..items import ServantPicItemimport pandas as pdimport numpy as npfrom scrapy.pipelines.images import ImagesPipelineclass ServantSpider(scrapy.Spider): name_list = [] img_list = [] name = 'servant' start_urls = ['https://fgo.wiki/w/%E8%8B%B1%E7%81%B5%E5%9B%BE%E9%89%B4'] def parse(self, response): item = ServantPicItem() # 读取本地csv文件 data = pd.read_csv("link.csv",usecols=["图片名称"]) data_array1 = np.array(data.stack()) # 首先将pandas读取的数据转化为array self.name_list = data_array1.tolist() data = pd.read_csv("link.csv",usecols=["图片链接"]) data_array2 = np.array(data.stack()) # 首先将pandas读取的数据转化为array self.img_list = data_array2.tolist() # 然后转化为list形式 # item['name'] = self.name_list item['image_urls'] = self.img_list # 必须是img_urls,这是图片下载文件中有的 yield item scrapy 展开全文 >>
目录问题 2022-05-29 字数统计: 79字 | 阅读时长: 1min 当自动插入目录的文字格式怎么改都改不掉时,可能是由于之前使用格式刷刷出的标题,导致格式不统一 解决办法将开始菜单栏中的标题样式修改并更新,再更新目录便发现字体修改成功 word 展开全文 >>
题注输入框显示不全 2022-05-29 字数统计: 119字 | 阅读时长: 1min 问题因为对话框的尺寸是限死的,内容的高度超过了对话框的高度就会显示不全。但不会影响内容。 word 展开全文 >>
mathtype对行间距影响 2022-04-29 字数统计: 294字 | 阅读时长: 1min 在写论文时,遇到在word中插入MathType公式后导致行距不一致的问题。 第1种解决方法在几经尝试之后,发现插入word自带的公式并不会导致行距不一问题,就想着将所有的MathType公式都转为word自带的公式进行插入,但重新输入公式太花时间了,因此,找到了一种将MathType公式转换为word自带公式的方法。 mathtype 展开全文 >>
html和css规范 2022-03-27 字数统计: 235字 | 阅读时长: 1min html与css的一些规范问题1.命名问题不要用字母大小写,即驼峰命名法;尽量使用小写字母与数字,用下划线连接 2.url结构协议+主机+端口 +路径+资源 html css 展开全文 >>