re.findall

soup.find_all

---------Q----

for i in ***:

***可以是什么类型,主要是关心什么类型的不可以

------------trackback用法------------

>>>
>>> import traceback
>>> try:
... 1/0
... except (Exception,e):
... traceback.print_exc()
...
Traceback (most recent call last):
File "<stdin>", line 2, in <module>
ZeroDivisionError: division by zero

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "<stdin>", line 3, in <module>
NameError: name 'e' is not defined

(说是这样报错更加直观

http://blog.csdn.net/handsomekang/article/details/9373035

--------------有毛病,睡了--------------

  1. #CrawBaiduStocksB.py
  2. import requests
  3. from bs4 import BeautifulSoup
  4. import traceback
  5. import re
  6. def getHTMLText(url, code="utf-8"):
  7. try:
  8. r = requests.get(url)
  9. r.raise_for_status()
  10. r.encoding = code
  11. return r.text
  12. except:
  13. return ""
  14. def getStockList(lst, stockURL):
  15. html = getHTMLText(stockURL, "GB2312")
  16. soup = BeautifulSoup(html, 'html.parser')
  17. a = soup.find_all('a')
  18. for i in a:
  19. try:
  20. href = i.attrs['href']
  21. lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
  22. except:
  23. continue
  24. def getStockInfo(lst, stockURL, fpath):
  25. count = 0
  26. for stock in lst:
  27. url = stockURL + stock + ".html"
  28. html = getHTMLText(url)
  29. try:
  30. if html=="":
  31. continue
  32. infoDict = {}
  33. soup = BeautifulSoup(html, 'html.parser')
  34. stockInfo = soup.find('div',attrs={'class':'stock-bets'})
  35. name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
  36. infoDict.update({'股票名称': name.text.split()[0]})
  37. keyList = stockInfo.find_all('dt')
  38. valueList = stockInfo.find_all('dd')
  39. for i in range(len(keyList)):
  40. key = keyList[i].text
  41. val = valueList[i].text
  42. infoDict[key] = val
  43. with open(fpath, 'a', encoding='utf-8') as f:
  44. f.write( str(infoDict) + '\n' )
  45. count = count + 1
  46. print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
  47. except:
  48. count = count + 1
  49. print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
  50. continue
  51. def main():
  52. stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
  53. stock_info_url = 'https://gupiao.baidu.com/stock/'
  54. output_file = 'D:/BaiduStockInfo.txt'
  55. slist=[]
  56. getStockList(slist, stock_list_url)
  57. getStockInfo(slist, stock_info_url, output_file)
  58. main()
  59. ---------------------------------------------
    1. #CrawBaiduStocksA.py
    2. import requests
    3. from bs4 import BeautifulSoup
    4. import traceback
    5. import re
    6. def getHTMLText(url):
    7. try:
    8. r = requests.get(url)
    9. r.raise_for_status()
    10. r.encoding = r.apparent_encoding
    11. return r.text
    12. except:
    13. return ""
    14. def getStockList(lst, stockURL):
    15. html = getHTMLText(stockURL)
    16. soup = BeautifulSoup(html, 'html.parser')
    17. a = soup.find_all('a')
    18. for i in a:
    19. try:
    20. href = i.attrs['href']
    21. lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
    22. except:
    23. continue
    24. def getStockInfo(lst, stockURL, fpath):
    25. for stock in lst:
    26. url = stockURL + stock + ".html"
    27. html = getHTMLText(url)
    28. try:
    29. if html=="":
    30. continue
    31. infoDict = {}
    32. soup = BeautifulSoup(html, 'html.parser')
    33. stockInfo = soup.find('div',attrs={'class':'stock-bets'})
    34. name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
    35. infoDict.update({'股票名称': name.text.split()[0]})
    36. keyList = stockInfo.find_all('dt')
    37. valueList = stockInfo.find_all('dd')
    38. for i in range(len(keyList)):
    39. key = keyList[i].text
    40. val = valueList[i].text
    41. infoDict[key] = val
    42. with open(fpath, 'a', encoding='utf-8') as f:
    43. f.write( str(infoDict) + '\n' )
    44. except:
    45. traceback.print_exc()
    46. continue
    47. def main():
    48. stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    49. stock_info_url = 'https://gupiao.baidu.com/stock/'
    50. output_file = 'D:/BaiduStockInfo.txt'
    51. slist=[]
    52. getStockList(slist, stock_list_url)
    53. getStockInfo(slist, stock_info_url, output_file)
    54. main()
  60. -------------------学校这破网,让我开始怀疑人生了-------吃屎,强力吃屎,学校吃屎了?ta为什么要吃屎呢?-------
  61. {'股票名称': '东方财富', '今开': '14.99', '成交量': '30.00万手', '最高': '15.05', '涨停': '16.49', '内盘': '16.75万手', '成交额': '4.47亿', '委比': '62.20%', '流通市值': '393.26亿', '市盈率MRQ': '74.03', '每股收益': '0.20', '总股本': '35.58亿', '昨收': '14.99', '换手率': '1.13%', '最低': '14.83', '跌停': '\n 13.49', '外盘': '13.25万手', '振幅': '1.47%', '量比': '0.70', '总市值': '528.41亿', '市净率': '4.12', '每股净资产': '3.60', '流通股本': '26.48亿'}
    {'股票名称': '东方财富', '今开': '14.99', '成交量': '30.00万手', '最高': '15.05', '涨停': '16.49', '内盘': '16.75万手', '成交额': '4.47亿', '委比': '62.20%', '流通市值': '393.26亿', '市盈率MRQ': '74.03', '每股收益': '0.20', '总股本': '35.58亿', '昨收': '14.99', '换手率': '1.13%', '最低': '14.83', '跌停': '\n 13.49', '外盘': '13.25万手', '振幅': '1.47%', '量比': '0.70', '总市值': '528.41亿', '市净率': '4.12', '每股净资产': '3.60', '流通股本': '26.48亿'}
    {'股票名称': 'R003'}
    {'股票名称': 'R003'}
    {'股票名称': 'R007'}
    {'股票名称': 'R007'}
    {'股票名称': 'R014'}
    {'股票名称': 'R028'}
    {'股票名称': 'R091'}
    {'股票名称': 'R182'}
    {'股票名称': 'R014'}
    {'股票名称': 'R001'}
    {'股票名称': 'R028'}
    {'股票名称': 'R002'}
    {'股票名称': 'R091'}
    {'股票名称': 'R004'}
    {'股票名称': 'R182'}
    {'股票名称': 'RC001'}
    {'股票名称': 'R001'}
    {'股票名称': 'RC003'}
    {'股票名称': 'R002'}
    {'股票名称': 'RC007'}
    {'股票名称': '0504R007'}
    {'股票名称': 'R004'}
    {'股票名称': '0504R028'}
    {'股票名称': 'RC001'}
    {'股票名称': '0504R091'}
    {'股票名称': 'RC003'}
    {'股票名称': 'RC007'}
    {'股票名称': '0504R007'}
    {'股票名称': '0512R007'}
    {'股票名称': '0504R028'}
    {'股票名称': '0512R028'}
    {'股票名称': '0504R091'}
    {'股票名称': '0512R091'}
    {'股票名称': '0512R007'}
    {'股票名称': '0603R007'}
    {'股票名称': '0512R028'}
    {'股票名称': '0603R028'}
    {'股票名称': '0512R091'}
    {'股票名称': '0603R091'}
    {'股票名称': 'GC001'}
    {'股票名称': 'GC002'}
    {'股票名称': 'GC003'}
    {'股票名称': 'GC004'}
    {'股票名称': '0603R007'}
    {'股票名称': 'GC007'}
    {'股票名称': 'GC014'}
    {'股票名称': 'GC028'}
    {'股票名称': 'GC091'}
    {'股票名称': 'GC182'}
    {'股票名称': '基金金泰'}
    {'股票名称': '基金泰和'}
    {'股票名称': '基金安信'}
    {'股票名称': '基金汉盛'}
    {'股票名称': '基金裕阳'}
    {'股票名称': '基金景阳'}
    {'股票名称': '基金兴华'}
    {'股票名称': 'GC001'}
    {'股票名称': '基金金鑫'}
    {'股票名称': '基金汉兴'}
    {'股票名称': 'GC002'}
    {'股票名称': 'GC003'}
    {'股票名称': 'GC004'}
    {'股票名称': 'GC007'}
    {'股票名称': 'GC014'}
    {'股票名称': 'GC028'}
    {'股票名称': 'GC091'}
    {'股票名称': 'GC182'}
    {'股票名称': '基金金泰'}
    {'股票名称': '基金泰和'}
    {'股票名称': '基金安信'}
    {'股票名称': '基金科讯'}
    {'股票名称': '基金汉盛'}
    {'股票名称': '基金通乾', '最高': '--', '最低': '--', '今开': '--', '昨收': '0.94', '成交额': '--', '成交量': '--', '净值': '0.9515', '折价率': '-1.42'}
    {'股票名称': '基金裕阳'}
    {'股票名称': '基金科瑞', '最高': '--', '最低': '--', '今开': '--', '昨收': '0.82', '成交额': '--', '成交量': '--', '净值': '0.8540', '折价率': '-3.40'}
    {'股票名称': '基金景阳'}
    {'股票名称': '基金银丰', '最高': '0.97', '最低': '0.96', '今开': '0.96', '昨收': '0.97', '成交额': '1533.12万', '成交量': '15.85万手', '净值': '1.0420', '折价率': '-7.01'}
    {'股票名称': '基金兴华'}
    {'股票名称': '国金鑫新', '最高': '1.03', '最低': '1.03', '今开': '1.03', '昨收': '1.02', '成交额': '9.52万', '成交量': '925手', '净值': '1.0370', '折价率': '-0.68'}
    {'股票名称': '财通多策略(LOF)', '最高': '1.05', '最低': '1.05', '今开': '1.05', '昨收': '1.05', '成交额': '232.03万', '成交量': '2.21万手', '净值': '1.0560', '折价率': '-0.28'}
    {'股票名称': '基金金鑫'}
    {'股票名称': '基金汉兴'}
    {'股票名称': '长信中证能源', '最高': '1.06', '最低': '1.05', '今开': '1.06', '昨收': '1.06', '成交额': '2745', '成交量': '26手', '净值': '1.0530', '折价率': '-0.28'}
    {'股票名称': '基金科讯'}
    {'股票名称': '精准医疗', '最高': '1.02', '最低': '1.01', '今开': '1.01', '昨收': '1.01', '成交额': '5.93万', '成交量': '586手', '净值': '1.0140', '折价率': '0.20'}
    {'股票名称': '互联医疗', '最高': '0.99', '最低': '0.98', '今开': '0.98', '昨收': '0.98', '成交额': '1574', '成交量': '16手', '净值': '0.9879', '折价率': '-0.29'}
    {'股票名称': '基金通乾', '最高': '--', '最低': '--', '今开': '--', '昨收': '0.94', '成交额': '--', '成交量': '--', '净值': '0.9515', '折价率': '-1.42'}
    {'股票名称': '基金科瑞', '最高': '--', '最低': '--', '今开': '--', '昨收': '0.82', '成交额': '--', '成交量': '--', '净值': '0.8540', '折价率': '-3.40'}
    {'股票名称': '基金银丰', '最高': '0.97', '最低': '0.96', '今开': '0.96', '昨收': '0.97', '成交额': '1533.12万', '成交量': '15.85万手', '净值': '1.0420', '折价率': '-7.01'}
    {'股票名称': '国金鑫新', '最高': '1.03', '最低': '1.03', '今开': '1.03', '昨收': '1.02', '成交额': '9.52万', '成交量': '925手', '净值': '1.0370', '折价率': '-0.68'}
    {'股票名称': '互联医C', '最高': '0.98', '最低': '0.98', '今开': '0.98', '昨收': '0.98', '成交额': '13.53万', '成交量': '1377手', '净值': '0.9869', '折价率': '-0.50'}
    {'股票名称': '财通多策略(LOF)', '最高': '1.05', '最低': '1.05', '今开': '1.05', '昨收': '1.05', '成交额': '232.03万', '成交量': '2.21万手', '净值': '1.0560', '折价率': '-0.28'}
    {'股票名称': '生物科技', '最高': '1.03', '最低': '1.01', '今开': '1.02', '昨收': '1.02', '成交额': '1.66万', '成交量': '163手', '净值': '1.0192', '折价率': '0.08'}
    {'股票名称': '长信中证能源', '最高': '1.06', '最低': '1.05', '今开': '1.06', '昨收': '1.06', '成交额': '2745', '成交量': '26手', '净值': '1.0530', '折价率': '-0.28'}
    {'股票名称': '生物科C', '最高': '1.05', '最低': '1.01', '今开': '1.05', '昨收': '1.03', '成交额': '15.58万', '成交量': '1532手', '净值': '1.0182', '折价率': '1.26'}
    {'股票名称': '精准医疗', '最高': '1.02', '最低': '1.01', '今开': '1.01', '昨收': '1.01', '成交额': '5.93万', '成交量': '586手', '净值': '1.0140', '折价率': '0.20'}
    {'股票名称': '中药基金', '最高': '1.07', '最低': '1.05', '今开': '1.07', '昨收': '1.06', '成交额': '16.61万', '成交量': '1568手', '净值': '1.0644', '折价率': '-0.32'}
    {'股票名称': '互联医疗', '最高': '0.99', '最低': '0.98', '今开': '0.98', '昨收': '0.98', '成交额': '1574', '成交量': '16手', '净值': '0.9879', '折价率': '-0.29'}
    {'股票名称': '中药C', '最高': '1.12', '最低': '1.06', '今开': '1.06', '昨收': '1.06', '成交额': '4825', '成交量': '45手', '净值': '--', '折价率': '--'}
    {'股票名称': '互联医C', '最高': '0.98', '最低': '0.98', '今开': '0.98', '昨收': '0.98', '成交额': '13.53万', '成交量': '1377手', '净值': '0.9869', '折价率': '-0.50'}
    {'股票名称': '财通升级', '最高': '1.03', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '1667.72万', '成交量': '16.22万手', '净值': '1.0780', '折价率': '-4.55'}
    {'股票名称': '生物科技', '最高': '1.03', '最低': '1.01', '今开': '1.02', '昨收': '1.02', '成交额': '1.66万', '成交量': '163手', '净值': '1.0192', '折价率': '0.08'}
    {'股票名称': '国泰融丰', '最高': '0.98', '最低': '0.98', '今开': '0.98', '昨收': '0.98', '成交额': '50.69万', '成交量': '5192手', '净值': '1.0445', '折价率': '-6.56'}
    {'股票名称': '生物科C', '最高': '1.05', '最低': '1.01', '今开': '1.05', '昨收': '1.03', '成交额': '15.58万', '成交量': '1532手', '净值': '1.0182', '折价率': '1.26'}
    {'股票名称': '南方原油', '最高': '0.99', '最低': '0.98', '今开': '0.98', '昨收': '0.96', '成交额': '1989.58万', '成交量': '20.22万手', '净值': '0.9821', '折价率': '0.19'}
    {'股票名称': '中药基金', '最高': '1.07', '最低': '1.05', '今开': '1.07', '昨收': '1.06', '成交额': '16.61万', '成交量': '1568手', '净值': '1.0644', '折价率': '-0.32'}
    {'股票名称': '香港中小', '最高': '1.20', '最低': '1.18', '今开': '1.20', '昨收': '1.20', '成交额': '511.41万', '成交量': '4.29万手', '净值': '1.2041', '折价率': '-0.92'}
    {'股票名称': '中药C', '最高': '1.12', '最低': '1.06', '今开': '1.06', '昨收': '1.06', '成交额': '4825', '成交量': '45手', '净值': '--', '折价率': '--'}
    {'股票名称': '银华鑫盛', '最高': '0.95', '最低': '0.94', '今开': '0.94', '昨收': '0.94', '成交额': '816.75万', '成交量': '8.62万手', '净值': '1.0090', '折价率': '-5.95'}
    {'股票名称': '财通升级', '最高': '1.03', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '1667.72万', '成交量': '16.22万手', '净值': '1.0780', '折价率': '-4.55'}
    {'股票名称': '鹏华港中小企', '最高': '1.10', '最低': '1.08', '今开': '1.09', '昨收': '1.09', '成交额': '46.32万', '成交量': '4251手', '净值': '1.0987', '折价率': '-0.88'}
    {'股票名称': '国泰融丰', '最高': '0.98', '最低': '0.98', '今开': '0.98', '昨收': '0.98', '成交额': '50.69万', '成交量': '5192手', '净值': '1.0445', '折价率': '-6.56'}
    {'股票名称': '香港银行', '最高': '1.05', '最低': '1.04', '今开': '1.05', '昨收': '1.05', '成交额': '9.90万', '成交量': '946手', '净值': '1.0448', '折价率': '0.02'}
    {'股票名称': '南方原油', '最高': '0.99', '最低': '0.98', '今开': '0.98', '昨收': '0.96', '成交额': '1989.58万', '成交量': '20.22万手', '净值': '0.9821', '折价率': '0.19'}
    {'股票名称': '香港中小', '最高': '1.20', '最低': '1.18', '今开': '1.20', '昨收': '1.20', '成交额': '511.41万', '成交量': '4.29万手', '净值': '1.2041', '折价率': '-0.92'}
    {'股票名称': '财通多策略福享', '最高': '0.94', '最低': '0.94', '今开': '0.94', '昨收': '0.94', '成交额': '141.30万', '成交量': '1.50万手', '净值': '1.0018', '折价率': '-6.07'}
    {'股票名称': '银华鑫盛', '最高': '0.95', '最低': '0.94', '今开': '0.94', '昨收': '0.94', '成交额': '816.75万', '成交量': '8.62万手', '净值': '1.0090', '折价率': '-5.95'}
    {'股票名称': '财通福瑞', '最高': '0.94', '最低': '0.94', '今开': '0.94', '昨收': '0.94', '成交额': '363.14万', '成交量': '3.87万手', '净值': '1.0154', '折价率': '-7.33'}
    {'股票名称': '鹏华港中小企', '最高': '1.10', '最低': '1.08', '今开': '1.09', '昨收': '1.09', '成交额': '46.32万', '成交量': '4251手', '净值': '1.0987', '折价率': '-0.88'}
    {'股票名称': '红利基金', '最高': '1.04', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '537.41万', '成交量': '5.18万手', '净值': '1.0403', '折价率': '-0.03'}
    {'股票名称': '香港银行', '最高': '1.05', '最低': '1.04', '今开': '1.05', '昨收': '1.05', '成交额': '9.90万', '成交量': '946手', '净值': '1.0448', '折价率': '0.02'}
    {'股票名称': '环境治理', '最高': '1.08', '最低': '1.05', '今开': '1.06', '昨收': '1.06', '成交额': '20.17万', '成交量': '1901手', '净值': '1.0657', '折价率': '0.12'}
    {'股票名称': '财通多策略福享', '最高': '0.94', '最低': '0.94', '今开': '0.94', '昨收': '0.94', '成交额': '141.30万', '成交量': '1.50万手', '净值': '1.0018', '折价率': '-6.07'}
    {'股票名称': '环境C', '最高': '1.10', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '18.35万', '成交量': '1743手', '净值': '1.0654', '折价率': '-0.23'}
    {'股票名称': '财通福瑞', '最高': '0.94', '最低': '0.94', '今开': '0.94', '昨收': '0.94', '成交额': '363.14万', '成交量': '3.87万手', '净值': '1.0154', '折价率': '-7.33'}
    {'股票名称': '50AH', '最高': '1.03', '最低': '1.02', '今开': '1.02', '昨收': '1.02', '成交额': '66.03万', '成交量': '6448手', '净值': '1.0250', '折价率': '0.10'}
    {'股票名称': '红利基金', '最高': '1.04', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '537.41万', '成交量': '5.18万手', '净值': '1.0403', '折价率': '-0.03'}
    {'股票名称': '海富通全球(人民币)', '最高': '1.01', '最低': '1.01', '今开': '1.01', '昨收': '1.01', '成交额': '99.06万', '成交量': '9820手', '净值': '1.0090', '折价率': '0.00'}
    {'股票名称': '环境治理', '最高': '1.08', '最低': '1.05', '今开': '1.06', '昨收': '1.06', '成交额': '20.17万', '成交量': '1901手', '净值': '1.0657', '折价率': '0.12'}
    {'股票名称': '500等权', '最高': '1.03', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '1.20万', '成交量': '116手', '净值': '1.0450', '折价率': '-1.05'}
    {'股票名称': '环境C', '最高': '1.10', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '18.35万', '成交量': '1743手', '净值': '1.0654', '折价率': '-0.23'}
    {'股票名称': '50AH', '最高': '1.03', '最低': '1.02', '今开': '1.02', '昨收': '1.02', '成交额': '66.03万', '成交量': '6448手', '净值': '1.0250', '折价率': '0.10'}
    {'股票名称': '500等权A', '最高': '1.08', '最低': '1.05', '今开': '1.07', '昨收': '1.05', '成交额': '7.41万', '成交量': '691手', '净值': '1.0130', '折价率': '3.85'}
    {'股票名称': '海富通全球(人民币)', '最高': '1.01', '最低': '1.01', '今开': '1.01', '昨收': '1.01', '成交额': '99.06万', '成交量': '9820手', '净值': '1.0090', '折价率': '0.00'}
    {'股票名称': '500等权B', '最高': '1.01', '最低': '1.01', '今开': '1.01', '昨收': '1.01', '成交额': '4032', '成交量': '40手', '净值': '1.0770', '折价率': '-6.41'}
    {'股票名称': '易基军工分级', '最高': '1.15', '最低': '1.14', '今开': '1.14', '昨收': '1.13', '成交额': '119.38万', '成交量': '1.04万手', '净值': '1.1523', '折价率': '-0.63'}
    {'股票名称': '500等权', '最高': '1.03', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '1.20万', '成交量': '116手', '净值': '1.0450', '折价率': '-1.05'}
    {'股票名称': '易基军工A', '最高': '1.03', '最低': '1.02', '今开': '1

  62. 大致就是这个样子。。。。。。。
  63. 噗,破网速,噗,噗噗,噗噗噗

python-股票数据定向爬取的更多相关文章

  1. Python_记一次网站数据定向爬取实现

    记一次网站数据定向爬取实现 by:授客 QQ:1033553122 测试环境: Python版本:Python 3.4 Win7 请勿用于商业及非法用途,仅供学习研究用,否则后果自负 数据爬取场景 如 ...

  2. [python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

    我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点:        1.可以了解Python简单爬取图片的一些思路和方法 ...

  3. [python爬虫] Selenium定向爬取PubMed生物医学摘要信息

    本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容.        PubMed是一个免费的搜寻引擎,提供生物医学方 ...

  4. [python爬虫] Selenium定向爬取虎扑篮球海量精美图片

    前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...

  5. python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制

    CrawlSpider实现的全站数据的爬取 新建一个工程 cd 工程 创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com 连接提取器Link ...

  6. 【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

    原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...

  7. Ajax数据的爬取(淘女郎为例)

    mmtao Ajax数据的爬取(淘女郎为例) 如有疑问,转到 Wiki 淘女郎模特抓取教程 网址:https://0x9.me/xrh6z 判断一个页面是不是 Ajax 加载的方法: 查看网页源代码, ...

  8. Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取

    很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短 ...

  9. Python爬虫实例:爬取猫眼电影——破解字体反爬

    字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

  10. 使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取

    web scraper 下载:Web-Scraper_v0.2.0.10 使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬 ...

随机推荐

  1. EditorConfig知识点

    .editorconfig 该文件定义项目的编码规范,编辑器的行为会与.editorconfig 文件中定义的一致,并且其优先级比编辑器自身的设置要高,这在多人合作开发项目时十分有用而且必要. 在哪里 ...

  2. FineUI利用JS取控件的值

    用ExtJS的获取方式应该就可以了把...我是直接用Ext.getCmp("txt_cusname").getValue;不过txt_cusname这个控件如果是runat=&qu ...

  3. ios之block笔记

    目测和函数指针基本类似用法,贴个hello world,备用 typedef int (^TestBlock)(int val1,int val2); __block ;//这里加__block是为了 ...

  4. 【Spring学习笔记-MVC-15.1】Spring MVC之异常处理=404界面

    作者:ssslinppp       异常处理请参考前篇博客:<[Spring学习笔记-MVC-15]Spring MVC之异常处理>http://www.cnblogs.com/sssl ...

  5. Linux系统管理员非常使用的几款工具推荐

    1. ExplainShell.com 命令解释 对于Linux用户来说每天都会写各种命令和脚本,那么你可以使用这个网站工具来查看命令式如何工作的,这样可以避免不必要的错误出现:也是一个很好的学习命令 ...

  6. maven学习(4)-Maven 构建Web 项目

    紧接着上一节(3),现在maven新建web项目,user-web.模拟一个用户登录的需求: 工程结构: pom.xml: <project xmlns="http://maven.a ...

  7. orace学习操作(4)

    Orace游标: 一.游标简介: 使用游标,我们可以对具体操作数据,比如查询的结果,对行,列数据进行更加细致的处理.以及对其他DML操作进行判断等操作: 二.显示游标: 1.静态的指定变量类型: SQ ...

  8. request-2高级用法

    会话对象 会话对象让你能够跨请求保持某些参数.它也会在同一个session示例发出的所有请求之间保持cookie cookie与session的区别 1.cookie数据存放在客户的浏览器上,sess ...

  9. 1035 Password (20 分)

    1035 Password (20 分) To prepare for PAT, the judge sometimes has to generate random passwords for th ...

  10. OpenGL chapter2

    opengl: 图形硬件的一种软件接口:最大的优点:它的速度快于光线追踪器或软件渲染引擎. GLUT: AUX是OpenGL辅助函数库. 数据类型: GLboolean 位宽:1 GLbyte 8 G ...