
会员
实战Python网络爬虫
更新时间:2019-11-22 18:45:53 最新章节:28.6 本章小结
书籍简介
本书从原理到实践,循序渐进地讲述了使用Python开发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和BeautifulSoup的使用;数据入库讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,进行企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件的开发、12306抢票程序和微博爬取等。框架篇主要讲述流行的爬虫框架Scrapy,并以Scrapy与Selenium、Splash、Redis结合的项目案例,让读者深层次了解Scrapy的使用。此外,本书还介绍了爬虫的上线部署、如何自己动手开发一款爬虫框架、反爬虫技术的解决方案等内容。本书使用Python3.X编写,技术先进,项目丰富,适合欲从事爬虫工程师和数据分析师岗位的初学者、大学生和研究生使用,也很适合有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员使用。
品牌:清华大学
上架时间:2019-06-01 00:00:00
出版社:清华大学出版社
本书数字版权由清华大学提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
最新上架
- 会员本书为广受读者喜爱的畅销书升级版,旨在让读者快速、简单地上手大模型应用开发。本书为初学者提供了一份清晰、全面的“最小可用知识”,带领你快速了解GPT-4和ChatGPT的工作原理及优势,并在此基础上使用流行的Python编程语言构建大模型应用。升级版在旧版的基础上进行了全面更新,融入了大模型应用开发的最新进展,比如RAG、GPT-4新特性的应用解析等。本书提供了大量简单易学的示例,帮你理解相关概念计算机13.1万字
- 会员近年来,人工智能技术得到了快速发展,并在金融风险管理领域逐渐渗透。本书旨在引导读者了解金融风险建模背后的理论,学会在金融风险管理业务中运用Python语言和一系列机器学习模型。本书分为三部分,第一部分(第1~3章)介绍风险管理的基础知识,第二部分(第4~8章)通过一系列案例将机器学习模型运用到市场风险管理、信用风险管理、流动性风险管理和运营风险管理等场景,第三部分(第9章、第10章)讲解如何对其他计算机8.6万字
- 会员本书主要探讨高并发场景下系统设计的原理和实践案例,帮助读者系统、快速地理解高并发系统的设计原理与相关实践,以及掌握解决高并发场景下可能遇到的各种问题的方法。本书共6章。第1章介绍高并发系统的发展历史、设计难点和基本设计原则,以及度量指标;第2~4章介绍有助于提升高并发系统可用性的3种方法—系统容错、冗余和分片;第5章从提升高并发系统性能的角度讲解并发与异步的原理和实践技巧;第6章从系统运维和团队流计算机11.4万字
- 会员这是一套从Android性能优化本质入手,指导读者实现从硬件层到操作系统层再到应用层全面优化的实战方法论。本书由Android方向Google开发者专家撰写,融合了作者10年大厂实战经验,其中不仅包括作者实操过的监控、优化、防劣化等方向的各种典型案例,还包括多个实战小技巧,可以帮助读者解决工作中遇到的90%以上的能优化问题。本书内存、速度和流畅性、稳定性、包体积、耗电、磁盘占用、流量、降级这8个方计算机13.2万字
- 会员本书介绍如何使用代码(.m与.mlx文件)开发图形用户界面(GUI),辅以大量的编程示例详细讲解基于figure函数的uicontrol、容器、坐标区、常用控件、图窗工具、检测控件、对话框和通知,基于uifigure函数的对话框和通知,以及布局函数、控制流函数、App数据和预设函数等内容。与采用GUIDE、AppDesigner的方式相比,用代码开发的GUI能兼容几乎所有的MATLAB版本,灵活计算机9.2万字
- 会员本书全面介绍如何利用现有的AI技术辅助编程开发,涵盖从基础工具的使用到企业级项目的全程实战与场景化应用。全书分为三部分,共12章,系统讲解AI辅助编程的应用,逐步深入,为开发者提供详细的实践指导。第一部分介绍Cursor与Copilot的安装、配置和使用技巧,通过前后端开发案例,帮助读者优化代码生成流程,设计高效的UI组件,并利用Prompt引导AI生成所需的代码与文档。第二部分聚焦复杂开发场景,计算机10.6万字
- 会员本书主要介绍iOS自动化测试的相关内容。本书首先介绍iOS基础知识;接着介绍测试环境部署、Appium基本操作和Appium终端操作,为读者学习后面的知识打下基础;然后介绍Appium中的元素定位、元素操作、高级操作、等待机制;最后讲述Pytest测试框架、项目实战、项目代码优化、自动化测试框架开发等。本书适合测试人员和开发人员阅读。计算机8.7万字
- 会员本书是享誉全球的Python入门书,影响了超过250万读者。全书分两部分:第一部分介绍用Python编程所必须了解的基本概念,包括强大的Python库和工具,以及列表、字典、if语句、类、文件和异常、代码测试等内容;第二部分将理论付诸实践,讲解如何开发三个项目,包括简单的2D游戏、利用数据生成交互式的信息图以及创建和定制简单的Web应用,并帮助读者解决常见编程问题和困惑。第3版进行了全面修订:使用计算机24.2万字
- 会员本书是一部全面且深入的Java代码审计指南,旨在帮助读者掌握JavaWeb应用中常见安全漏洞的识别、分析及防御技能。全书共分4篇,从基础到实战,系统地介绍Java代码审计的各个方面。基础篇(第1章)主要介绍JavaWeb环境的搭建步骤、常见的动态调试方法以及代码审计工具的基本使用方法,为后续的深入学习打下坚实基础。入门篇(第2章~第3章)首先介绍Java代码审计中发现的常见漏洞,然后通过实战演计算机9.7万字
同类书籍最近更新
- 会员本书全面介绍如何利用现有的AI技术辅助编程开发,涵盖从基础工具的使用到企业级项目的全程实战与场景化应用。全书分为三部分,共12章,系统讲解AI辅助编程的应用,逐步深入,为开发者提供详细的实践指导。第一部分介绍Cursor与Copilot的安装、配置和使用技巧,通过前后端开发案例,帮助读者优化代码生成流程,设计高效的UI组件,并利用Prompt引导AI生成所需的代码与文档。第二部分聚焦复杂开发场景,程序设计10.6万字