标签 "爬虫" 相关文章
总计 1 页,当前第 1 页
本篇文章转载自公众号“码农翻身”,作者刘欣用小清新的故事说明了什么是网络爬虫,非常的有意思。诞生我是一个Web Crawler , 有时候称为Spider , 你们经常说的爬虫就是我。我想我是遇到了好时代,感谢IT政府,提供了简单的HTTP协议,还有HTML,CSS, JavaScript这一系列开放的技术, 原来的桌面应用,局域网应用都被搬到了网络上,形成了一个个的网站, 网站互联起来,形成了一个覆盖全世界的大网。在这个大背景下,我应...
7年前 (2018-06-04)
阅读(2617)
赞一个 (1 )
链接直达
Jsoup介绍Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup是基于MIT协议发布的,可放心使用于商业项目。能用Jsoup实现什么?从URL,文件或字符串中刮取并解析HTML查找和提取数据,使用DOM遍历或CSS选择器操纵HTML元素,属性和文本根据安全的白名单清理用户提交的内容,以防止...
7年前 (2018-03-29)
阅读(2978)
赞一个 (0 )
链接直达
2017.06.01号《中华人民共和国网络安全法》开始实施,这个安全法在爬虫的这一块宝地上掀一阵大风波,到处都在转这篇试图解读该规定的文章:「 你的爬虫会送老板进监狱吗? 」转载的地方太多,我也不知道原始这篇文章转载自哪里了。总之,自那以后只要碰到爬虫,不管是爬个几万条房价信息用来做一些小研究,还是爬一些知乎的用户资料来做排名统计分析,总会有人说:哎呀,爬虫不是犯法嘛?你要当心啊。我一脸诧异,连这种公开信息也不能抓取...
8年前 (2017-07-01)
阅读(2600)
赞一个 (0 )
链接直达
本人是搞Java、Android开发的,有编程基础。python是刚刚起步学习,在看完《Head first python》这本书后,一直想做一个项目练练手,思来想去不知道做python什么项目好,看网上大家都在玩爬虫。所以自己也花了一个晚上的时间写了个抓取“妹子图片”的爬虫,养眼的福利噢 O(∩_∩)O。大家需要注意博主用的是Python3.x 。在2.7上多线程的实现与3.x不同,所以需要自己调整代码。先上截图,看看成果:如何执行:...
8年前 (2017-01-19)
阅读(3830)
赞一个 (3 )
链接直达