首页 > Python教程 > Python应用 > Python爬虫教程:使用beautifulSoup4爬取名言网案例代码分享

Python爬虫教程:使用beautifulSoup4爬取名言网案例代码分享

时间:2019-09-15    作者:_a_0_   来源:互联网

本文实例讲述了Python爬虫实现使用beautifulSoup4爬取名言网功能。分享给大家供大家参考,具体如下:

爬取名言网top10标签对应的名言,并存储到mysql中,字段(名言,作者,标签)

#! /usr/bin/python3
# -*- coding:utf-8 -*-
from urllib.request import urlopen as open
from bs4 import BeautifulSoup
import re
import pymysql
def find_top_ten(url):
  response = open(url)
  bs = BeautifulSoup(response,'html.parser')
  tags = bs.select('span.tag-item a')
  top_ten_href = [tag.get('href') for tag in tags]
  top_ten_tag = [tag.text for tag in tags]
  # print(top_ten_href)
  # print(top_ten_tag)
  return top_ten_href
def insert_into_mysql(records):
  con = pymysql.connect(host='localhost',user='root',password='root',database='quotes',charset='utf8',port=3306)
  cursor = con.cursor()
  sql = "insert into quotes(content,author,tags) values(%s,%s,%s)"
  for record in records:
    cursor.execute(sql, record)
  con.commit()
  cursor.close()
  con.close()
# http://quotes.toscrape.com/tag/love/
#要获取对应标签中所有的名言 所以这里要考虑分页的情况
#经过在网页上查看知道分页查询的url
#http://quotes.toscrape.com/tag/love/page/1/
#判断到那一页没有数据 div.container div.row [1]
def find_link_content(link):
  page = 1
  while True:
    new_link = "http://quotes.toscrape.com" + link + "page/"
    # print(new_link)
    new_link = new_link + str(page)
    print(new_link)
    sub_bs = open(new_link)
    sub_bs = BeautifulSoup(sub_bs,'html.parser')
    quotes = sub_bs.select('div.row div.col-md-8 span.text')
    # 如果没有数据就退出
    if len(quotes) == 0:
      break
    #名言
    quotes = [quote.text.strip('“”') for quote in quotes]
    #作者
    authors = sub_bs.select('small.author')
    authors = [author.text for author in authors]
    # 标签
    tags_list = sub_bs.select('meta.keywords')
    tags_list = [tags.get('content') for tags in tags_list]
    # print(authors)
    # print(quotes)
    #print(tags_list)
    record_list = []
    for i in range(len(quotes)):
      tags = tags_list[i]
      tags = tags.replace(',',',')
      print(tags)
      record = [quotes[i],authors[i],tags]
      record_list.append(record)
    insert_into_mysql(record_list)
    page += 1
#
def main():
  url = "http://quotes.toscrape.com/"
  parent_link = find_top_ten(url)
  for link in parent_link:
    print(link)
    find_link_content(link)
if __name__ == '__main__':
  main()

希望本文所述对大家Python程序设计有所帮助。

相关推荐
实战干货!用案例让你一文搞懂python网络爬虫
Python教程:代理IP爬虫的使用方法
用Python爬取B站5000 条视频,揭秘为何千万人为它流泪!
Python教程:如何用xlrd和xlwt库读和写Excel表格?
Python安装MySQL-python:EnvironmentError的解决办法
分享:Python2和Python3有那些差异?
Python 的内置对象都藏了哪些小秘密?
Python教程:图像处理模块ndimage用法实例分析
Python教程:如何使用scipy模块实现一维卷积运算示例?
Python:关于内存分配时的那些小秘密分享
python技巧:global关键字的用法详解
Python教程:深入了解python在HDA中的应用
python技巧:SSLerror的requests证书问题解决方法
PyCharm教程:搭建Spark开发环境的几个步骤
Python开发技巧:openpyxl读取单元格字体颜色过程解析
Python教程:面向对象之Web静态服务器
Python教程:如何为终端提供持久性历史记录
Python技巧分享:自动登录淘宝并保存登录信息的方法
Python数据分析:利用Flask动态展示 Pyecharts 图表数据方法
python3教程:如何搭建微型的web服务器?
python技巧:xlwt如何设置单元格的自定义背景颜色
如何解决Python字符串和正则表达式中的反斜杠('\')问题?
Python开发技巧:编写一个简单登录功能过程解析
Python编程:postman传递当前时间戳实例详解

精彩推荐

热门教程