|
获取内容网址 有常规模式和高级模式两种。 1.常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。 它有2种方式:a.自动获取地址链接b.手动设置规则获取。 2.高级模式:该模式对0级,多级,POST类型网址的抓取有效。 即起始网址就是内容页网址; 或者需要对多级列表网址采集才能得到最终内容页链接; 或者是post网址类型抓取等情况下使用高级模式。 下面对常规模式采集进行具体说明 高级模式详细教程后续分解 [常规模式]a.自动获取地址链接 自动获取地址链接:自动获取该级列表页中所有的a标签<ahref="URL">内的URL链接 如新浪内地新闻:http://roll.news.sina.com.cn/article/gnxw/gdxw1/index.shtml 获取结果 共81个一级网址,但实际我们需要抓取的1级网址是每页40个, 所以我们可以通过区域设置和链接过滤设置来获取我们所需要的链接。 开始字符串为<ulclass="list_009"> 结尾字符串为<!--分页begin--> 这样我们再点击网址采集测试,可以看出结果是正确的。 [常规模式]b.手动设置规则获取 对于有些由脚本生成的网址,采集器不能自动识别,此时就要手动设置规则获取了。 手动设置规则获取设置原理是编写脚本规则,去和源代码里的内容匹配,获取到自己设置的参数即可。 其中提取规则里的[参数],(*),[标签:XXX]都是通配符,可以统配任意字符, 区别在于[参数]有返回值,一般用于拼接地址,(*)没有返回值,[标签:XXX]有返回值,返回值给标签。 如新浪内地新闻:http://roll.news.sina.com.cn/article/gnxw/gdxw1/index.shtml 有如下源码: <li><ahref="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmpy1472664.shtml"target="_blank">山西公布政府部门责任清单建立拒腐机制</a><span>(10月10日20:20)</span></li><li><ahref="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirwnr6902154.shtml"target="_blank">河南登封市长被举报建寺涉贪与释延鲁关系密切</a><span>(10月10日20:14)</span></li><li><ahref="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmqc5006034.shtml"target="_blank">张家界国土局副局长涉严重违纪被查</a><span>(10月10日19:45)</span></li> 此时,我们可以取其中的一条代码作为循环匹配,把我们要获取的链接替换成[参数],需要采集到的值替换成标签。如: <li><ahref="[参数]"target="_blank">[标签:title]</a><span>([标签:time])</span></li> |
正在阅读:火车采集器获取内容网址教程火车采集器获取内容网址教程
2019-04-09 11:32
出处:其他
责任编辑:lixianmei

火车采集器(LocoySpider)
火车采集器2010SP2
西门子(SIEMENS)274升大容量家用三门冰箱 混冷无霜 零度保鲜 独立三循环 玻璃面板 支持国家补贴 KG28US221C
5399元
苏泊尔电饭煲家用3-4-5-8个人4升电饭锅多功能一体家用蓝钻圆厚釜可做锅巴饭煲仔饭智能煮粥锅预约蒸米饭 不粘厚釜 4L 5-6人可用
329元
绿联65W氮化镓充电器套装兼容45W苹果16pd多口Type-C快充头三星华为手机MacbookPro联想笔记本电脑配线
99元
KZ Castor双子座有线耳机入耳式双单元HM曲线发烧HiFi耳返耳麦
88元
格兰仕(Galanz)【国家补贴】电烤箱 家用 40L大容量 上下独立控温 多层烤位 机械操控 烘培炉灯多功能 K42 经典黑 40L 黑色
260.9元
漫步者(EDIFIER)M25 一体式电脑音响 家用桌面台式机笔记本音箱 蓝牙5.3 黑色 520情人节礼物
109元

