网络数据采集技术:Java网络爬虫实战在线阅读
会员

网络数据采集技术:Java网络爬虫实战

钱洋等
开会员,本书免费读 >

计算机网络编程语言与程序设计6.1万字

更新时间:2020-09-29 15:50:25 最新章节:9.4 本章小结

立即阅读
加书架
下载
听书

书籍简介

本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。
上架时间:2020-01-01 00:00:00
出版社:电子工业出版社
上海阅文信息技术有限公司已经获得合法授权,并进行制作发行

最新章节

最新上架

  • 会员
    《Node.js从入门到精通》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Node.js进行Web应用开发需要掌握的各方面技术。全书分为4篇,共18章,包括Node.js环境搭建、第一个Node.js服务器程序、npm包管理器的使用、Node.js基础、事件的监听与触发、util工具模块、fs文件系统模块、os操作系统模块、异步编程与回调、I/O流操作、Web应用构建基础、
    明日科技编著计算机10.4万字
  • 会员
    《Oracle从入门到精通(第5版)》从初学者角度出发,通过通俗易懂的语言和丰富多彩的实例,详细介绍了使用Oracle19c进行数据管理的各方面技术。全书分为4篇,共21章,内容包括Oracle19c概述,Oracle体系结构,Oracle管理工具,SQL*Plus命令,SQL语言基础,PL/SQL编程,过程、函数、触发器和包,管理控制文件和日志文件,管理表空间和数据文件,数据表对象,其他数据对象
    明日科技编著计算机25.5万字
  • 会员
    这是一本面向RPA开发初学者的实战图书,囊括了RPA在金融、政务、制造、电商、医疗等十大行业的RPA开发实战案例,每个案例都有详细的步骤拆解,图文并茂,手把手教会大家完成自动化流程的开发。
    张丽蓝 余冰冰 陈德炼 钟燕 张雪英计算机11.1万字
  • 会员
    OpenCV作为一个应用广泛的开源计算机视觉库,正在受到越来越多的关注。目前OpenCV的各类教程基本上以Python和C++为主,基于Java的OpenCV书籍则少之又少,本书旨在弥补这一空白。本书共13章,前4章是基础部分,包括OpenCV概述和安装配置、数字图像基础及图像基础操作等内容;第5到11章则包括了图像的几何变换、图像平滑、形态学操作、直方图、边缘检测与轮廓、霍夫变换、特征点检测和匹
    姚利民编著计算机6.9万字
  • 会员
    《Scrapy网络爬虫开发实战》介绍如何学习和使用流行的Scrapy框架开发网络爬虫应用,主要内容使用Python开发网络爬虫,识别网页的编码,结构化信息的提取,Scrapy爬虫的示例使用,ScrapyPlaywright抓取动态JS网站,将抓取的数据保存到数据库,部署、调度和运行Scrapy爬虫等。《Scrapy网络爬虫开发实战》适合作为高等院校计算机、软件工程专业本科生、研究生的参考书目,也适
    罗刚编著计算机4.7万字
  • 会员
    《HBase从入门到实战》系统介绍HBase基本原理与运行机制,融入了作者多年的开发经验与实践技巧。本书共分为11章,主要内容包括:HBase的体系结构和系统特性、HBase的基础数据结构与算法、RegionServer的核心模块、HBase的读写流程、Compaction实现原理和使用策略、负载均衡的实现与应用、HBase的基础指令(包括DDL指令、DML指令、命名空间指令等)、如何使用Java
    张文亮编著计算机5.2万字
  • 会员
    这是一本具有高中数学知识就能读懂的机器学习图书,书中通过大量程序实例,将复杂的公式重新拆解,详细、清晰地解读了机器学习中常用的数学知识,一步步带领读者进入机器学习的领域。本书共22章,主要讲解了数据可视化、math模块、sympy模块、numpy模块、方程式、函数、最小平方法、集合、概率、贝叶斯定理、指数、对数、欧拉数、逻辑函数、三角函数、大型运算符、向量、矩阵与线性回归等数学知识。
    洪锦魁计算机5.8万字
  • 会员
    全书共14章。第1章主要讲解MySQL数据库以及客户端工具的安装;第2~4章主要介绍数据库与表的创建、数据类型与表达式,以及函数、运算符与变量;第5章主要讲解select查询语句、子查询以及连接查询;第6章主要讲解索引和索引类型;第7、8章主要介绍MySQL事务的ACID特性、事务的四种隔离级别、如何使用事务、存储过程和视图概述,以及如何使用存储过程和视图;第9章介绍MySQL用户权限管理以及数据
    黄文毅计算机8万字
  • 会员
    《C语言从入门到精通(第6版)》从初学者的角度出发,以通俗易懂的语言、丰富多彩的实例,详细介绍了使用C语言进行程序开发需要掌握的各方面知识。全书分为4篇,共20章,内容包括C语言概述、算法、数据类型、运算符与表达式、数据输入/输出、选择结构、循环控制、数组、函数、指针、结构体和共用体、位运算、预处理、文件、内存管理、网络套接字编程、单词背记闯关游戏、学生信息管理系统、单片机基础和GSM短信控制家庭
    明日科技编著计算机18.5万字

同类书籍最近更新

  • 会员
    本书完全基于区块链5556框架(区块链五大作用、五大推进任务、五大现有领域、六大应用场景)进行大纲设计,力图用通俗易懂的语言,使读者了解区块链技术的核心。本书内容分为理论知识、五大现有领域、六大应用场景、监管安全4部分。理论知识部分即第1章,从比特币的历史讲起,分析了区块链的核心架构、三大关键机制、两大特征和五大作用;五大现有领域部分包括第2~6章,讲述区块链的五大现有领域,分别是数字金融、智能制
    丁鹏程序设计17.4万字
  • 会员
    ThisisahandsonguidethatprovidesexemplarycoverageofallthefeaturesandconceptsrelatedtoPTVS.ThebookisintendedfordeveloperswhoareaimingtoenhancetheirproductivityinPythonpro
    Martino Sabia Cathy Wang程序设计1.8万字
  • 会员
    本书针对主教材有关C语言的基本概念、变量、运算符、表达式、顺序结构、分支结构、循环结构、数组、函数、指针、结构体、联合体和枚举类型、预处理和标准函数、文件、数据结构、数据抽象等章节的重点及难点进行总结。本书最后一部分为上机实验,每个实验包括实验目的与要求、实验步骤及实验内容,以此帮助读者提高程序设计的能力。
    陈维 鲁丽 曹惠雅 杨有安程序设计4.4万字
  • 会员
    本书通过大量实例,由浅入深、循序渐进地介绍了Access2010各种对象的功能及创建方法。本书将一个完整的系统开发案例贯穿于每章,最终完成该系统的开发。全书共分9章,主要内容包括数据库概述、数据库和数据表、查询、窗体、报表、宏、模块与VBA、VBA数据库编程、Access应用系统设计与数据库安全。每章后配有与无纸化考试系统相匹配的思考与练习,使读者能够在学习过程中提高操作能力和实际应用能力。为了方
    李玉霞 刘丽程序设计17.6万字
  • 会员
    TensorFlowLite移动端深度学习循序渐进地讲解了在移动设备中使用TensorFlowLite开发机器学习和深度学习程序的核心知识,并通过具体实例演练了各知识点的使用方法和流程。全书共9章,分别讲解了人工智能开发基础、编写第一个TensorFlowLite程序、创建模型、转换模型、推断、优化处理、微控制器、物体检测识别系统和姿势预测器。全书简洁而不失技术深度,内容丰富全面,以简明的文
    朱元涛编著程序设计6.2万字
  • 会员
    使用机器学习进行数据可视化分析是近年来研究的热点内容之一。本书使用最新的Python作为机器学习的基本语言和工具,从搭建环境开始,逐步深入到理论、代码、应用实践中去,从而使初学者能够独立使用机器学习完成数据分析。本书配套示例代码、PPT课件和答疑服务。本书分为10章,内容包括:机器学习与Python开发环境、用于数据处理及可视化展示的Python类库、NBA赛季数据可视化分析、聚类算法与可视化实战
    王晓华程序设计10.2万字