开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 4082|回复: 1
收起左侧

[易语言] 关于https://sobooks.cc/网站的网页访问

[复制链接]
结帖率:50% (1/2)
发表于 2020-4-4 14:50:37 | 显示全部楼层 |阅读模式   黑龙江省哈尔滨市
10精币
https://sobooks.cc/    怎么制作这个电子书网站下载链接的爬取  
  
窗口程序集名保 留  保 留备 注
窗口程序集_启动窗口   
变量名类 型数组备 注
程序集_页数整数型  
程序集_标题正则正则表达式类  
程序集_网盘地址正则表达式类  
程序集_文件号整数型  
程序集_错误地址文本型0 

子程序名返回值类型公开备 注
__启动窗口_创建完毕  

子程序名返回值类型公开备 注
子程序_搜索  
变量名类 型静态数组备 注
网页源代码文本型 
k整数型 
子网页源代码文本型0
j整数型 
q整数型 
' https://sobooks.cc/books/15852.html
' https://sobooks.cc/books/1.html
' 网页源代码 = 编码_utf8到gb2312 (到文本 (网页_访问 (编辑框_网址前缀.内容 + 到文本 (程序集_页数), , , , , , , , , , , , )))
精易Web浏览器1.浏览网页 (编辑框_网址前缀.内容 + 到文本 (程序集_页数)“.html”)
网页源代码 = 编码_utf8到gb2312 (精易Web浏览器1.取网页源码 ())
程序集_标题正则.创建 ( #常量_标题, 网页源代码, , , , )
如果 (程序集_标题正则.取子匹配文本 (1, 1, )“未找到页面 by epub,mobi,azw3格式Kindle电子书免费下载 - SoBooks”)
程序集_网盘地址.创建 ( #常量_网盘地址, 网页源代码, , , , )
如果 (程序集_网盘地址.取子匹配文本 (1, 2, )“”)
输出调试文本 (程序集_网盘地址.取子匹配文本 (1, 2, ))
输出调试文本 (“城通网盘(备用)未找到:” + 编辑框_网址前缀.内容 + 到文本 (程序集_页数)“.html”)

输出调试文本 (“未找到页面:” + 编辑框_网址前缀.内容 + 到文本 (程序集_页数)“.html”)

子程序名返回值类型公开备 注
_按钮_爬取_被单击  
变量名类 型静态数组备 注
开始页数整数型 
结束页数整数型 
i整数型 
k整数型 
' 程序集_文件号 = 打开文件 (取运行目录 () + “\sobooks.cc-” + 子程序_计算当前时间 () + “.txt”, #改写, )
开始页数 = 到整数 (编辑框_从.内容)
结束页数 = 到整数 (编辑框_到.内容)
计次循环首 (结束页数 - 开始页数 + 1, i)
程序集_页数 = 开始页数 - 1 + i
状态条1.置文本 (0, “第”到文本 (开始页数 - 1 + i)“页开始”)
子程序_搜索 ()
计次循环尾 ()
. ' 如果真 (取数组成员数 (程序集_错误地址) > 0)
' 移到文件尾 (程序集_文件号)
' 写文本行 (程序集_文件号, “错误:”)
. ' 计次循环首 (取数组成员数 (程序集_错误地址), k)
' 移到文件尾 (程序集_文件号)
' 写文本行 (程序集_文件号, 程序集_错误地址 [k])
. ' 计次循环尾 ()

状态条1.置文本 (0, “完成”)
子程序名返回值类型公开备 注
子程序_计算当前时间文本型 例如:20200329210627  2020年3月29日21:06:27
变量名类 型静态数组备 注
时间日期时间型 
文本型 
文本型 
小时文本型 
分钟文本型 
文本型 
时间 = 取现行时间 ()
如果 (取月份 (时间) < 10)
月 = “0”到文本 (取月份 (时间))
月 = 到文本 (取月份 (时间))

如果 (取日 (时间) < 10)
日 = “0”到文本 (取日 (时间))
日 = 到文本 (取日 (时间))

如果 (取小时 (时间) < 10)
小时 = “0”到文本 (取小时 (时间))
小时 = 到文本 (取小时 (时间))

如果 (取分钟 (时间) < 10)
分钟 = “0”到文本 (取分钟 (时间))
分钟 = 到文本 (取分钟 (时间))

如果 (取秒 (时间) < 10)
秒 = “0”到文本 (取秒 (时间))
秒 = 到文本 (取秒 (时间))

返回 (到文本 (取年份 (时间)) + 月 + 日 + 小时 + 分钟 + 秒)


i支持库列表   支持库注释   
wke精易web浏览器
iext扩展界面支持库一



其中
#常量_标题=<h3> <a href="(.*?)" title="(.*?)"
#常量_网盘地址=百度网盘</a><a href="(.*?)?url=(.*?)" rel="nofollow">城通网盘(备用)</
捕获.JPG


回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值
结帖率:50% (1/2)
 楼主| 发表于 2020-4-5 13:31:59 | 显示全部楼层   黑龙江省哈尔滨市
没有人知道 怎么获取下载地址么?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备2025452707号) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表