re.findall

soup.find_all

---------Q----

for i in ***:

***可以是什么类型,主要是关心什么类型的不可以

------------trackback用法------------

>>>
>>> import traceback
>>> try:
... 1/0
... except (Exception,e):
... traceback.print_exc()
...
Traceback (most recent call last):
File "<stdin>", line 2, in <module>
ZeroDivisionError: division by zero

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "<stdin>", line 3, in <module>
NameError: name 'e' is not defined

(说是这样报错更加直观

http://blog.csdn.net/handsomekang/article/details/9373035

--------------有毛病,睡了--------------

  1. #CrawBaiduStocksB.py
  2. import requests
  3. from bs4 import BeautifulSoup
  4. import traceback
  5. import re
  6. def getHTMLText(url, code="utf-8"):
  7. try:
  8. r = requests.get(url)
  9. r.raise_for_status()
  10. r.encoding = code
  11. return r.text
  12. except:
  13. return ""
  14. def getStockList(lst, stockURL):
  15. html = getHTMLText(stockURL, "GB2312")
  16. soup = BeautifulSoup(html, 'html.parser')
  17. a = soup.find_all('a')
  18. for i in a:
  19. try:
  20. href = i.attrs['href']
  21. lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
  22. except:
  23. continue
  24. def getStockInfo(lst, stockURL, fpath):
  25. count = 0
  26. for stock in lst:
  27. url = stockURL + stock + ".html"
  28. html = getHTMLText(url)
  29. try:
  30. if html=="":
  31. continue
  32. infoDict = {}
  33. soup = BeautifulSoup(html, 'html.parser')
  34. stockInfo = soup.find('div',attrs={'class':'stock-bets'})
  35. name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
  36. infoDict.update({'股票名称': name.text.split()[0]})
  37. keyList = stockInfo.find_all('dt')
  38. valueList = stockInfo.find_all('dd')
  39. for i in range(len(keyList)):
  40. key = keyList[i].text
  41. val = valueList[i].text
  42. infoDict[key] = val
  43. with open(fpath, 'a', encoding='utf-8') as f:
  44. f.write( str(infoDict) + '\n' )
  45. count = count + 1
  46. print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
  47. except:
  48. count = count + 1
  49. print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
  50. continue
  51. def main():
  52. stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
  53. stock_info_url = 'https://gupiao.baidu.com/stock/'
  54. output_file = 'D:/BaiduStockInfo.txt'
  55. slist=[]
  56. getStockList(slist, stock_list_url)
  57. getStockInfo(slist, stock_info_url, output_file)
  58. main()
  59. ---------------------------------------------
    1. #CrawBaiduStocksA.py
    2. import requests
    3. from bs4 import BeautifulSoup
    4. import traceback
    5. import re
    6. def getHTMLText(url):
    7. try:
    8. r = requests.get(url)
    9. r.raise_for_status()
    10. r.encoding = r.apparent_encoding
    11. return r.text
    12. except:
    13. return ""
    14. def getStockList(lst, stockURL):
    15. html = getHTMLText(stockURL)
    16. soup = BeautifulSoup(html, 'html.parser')
    17. a = soup.find_all('a')
    18. for i in a:
    19. try:
    20. href = i.attrs['href']
    21. lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
    22. except:
    23. continue
    24. def getStockInfo(lst, stockURL, fpath):
    25. for stock in lst:
    26. url = stockURL + stock + ".html"
    27. html = getHTMLText(url)
    28. try:
    29. if html=="":
    30. continue
    31. infoDict = {}
    32. soup = BeautifulSoup(html, 'html.parser')
    33. stockInfo = soup.find('div',attrs={'class':'stock-bets'})
    34. name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
    35. infoDict.update({'股票名称': name.text.split()[0]})
    36. keyList = stockInfo.find_all('dt')
    37. valueList = stockInfo.find_all('dd')
    38. for i in range(len(keyList)):
    39. key = keyList[i].text
    40. val = valueList[i].text
    41. infoDict[key] = val
    42. with open(fpath, 'a', encoding='utf-8') as f:
    43. f.write( str(infoDict) + '\n' )
    44. except:
    45. traceback.print_exc()
    46. continue
    47. def main():
    48. stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    49. stock_info_url = 'https://gupiao.baidu.com/stock/'
    50. output_file = 'D:/BaiduStockInfo.txt'
    51. slist=[]
    52. getStockList(slist, stock_list_url)
    53. getStockInfo(slist, stock_info_url, output_file)
    54. main()
  60. -------------------学校这破网,让我开始怀疑人生了-------吃屎,强力吃屎,学校吃屎了?ta为什么要吃屎呢?-------
  61. {'股票名称': '东方财富', '今开': '14.99', '成交量': '30.00万手', '最高': '15.05', '涨停': '16.49', '内盘': '16.75万手', '成交额': '4.47亿', '委比': '62.20%', '流通市值': '393.26亿', '市盈率MRQ': '74.03', '每股收益': '0.20', '总股本': '35.58亿', '昨收': '14.99', '换手率': '1.13%', '最低': '14.83', '跌停': '\n 13.49', '外盘': '13.25万手', '振幅': '1.47%', '量比': '0.70', '总市值': '528.41亿', '市净率': '4.12', '每股净资产': '3.60', '流通股本': '26.48亿'}
    {'股票名称': '东方财富', '今开': '14.99', '成交量': '30.00万手', '最高': '15.05', '涨停': '16.49', '内盘': '16.75万手', '成交额': '4.47亿', '委比': '62.20%', '流通市值': '393.26亿', '市盈率MRQ': '74.03', '每股收益': '0.20', '总股本': '35.58亿', '昨收': '14.99', '换手率': '1.13%', '最低': '14.83', '跌停': '\n 13.49', '外盘': '13.25万手', '振幅': '1.47%', '量比': '0.70', '总市值': '528.41亿', '市净率': '4.12', '每股净资产': '3.60', '流通股本': '26.48亿'}
    {'股票名称': 'R003'}
    {'股票名称': 'R003'}
    {'股票名称': 'R007'}
    {'股票名称': 'R007'}
    {'股票名称': 'R014'}
    {'股票名称': 'R028'}
    {'股票名称': 'R091'}
    {'股票名称': 'R182'}
    {'股票名称': 'R014'}
    {'股票名称': 'R001'}
    {'股票名称': 'R028'}
    {'股票名称': 'R002'}
    {'股票名称': 'R091'}
    {'股票名称': 'R004'}
    {'股票名称': 'R182'}
    {'股票名称': 'RC001'}
    {'股票名称': 'R001'}
    {'股票名称': 'RC003'}
    {'股票名称': 'R002'}
    {'股票名称': 'RC007'}
    {'股票名称': '0504R007'}
    {'股票名称': 'R004'}
    {'股票名称': '0504R028'}
    {'股票名称': 'RC001'}
    {'股票名称': '0504R091'}
    {'股票名称': 'RC003'}
    {'股票名称': 'RC007'}
    {'股票名称': '0504R007'}
    {'股票名称': '0512R007'}
    {'股票名称': '0504R028'}
    {'股票名称': '0512R028'}
    {'股票名称': '0504R091'}
    {'股票名称': '0512R091'}
    {'股票名称': '0512R007'}
    {'股票名称': '0603R007'}
    {'股票名称': '0512R028'}
    {'股票名称': '0603R028'}
    {'股票名称': '0512R091'}
    {'股票名称': '0603R091'}
    {'股票名称': 'GC001'}
    {'股票名称': 'GC002'}
    {'股票名称': 'GC003'}
    {'股票名称': 'GC004'}
    {'股票名称': '0603R007'}
    {'股票名称': 'GC007'}
    {'股票名称': 'GC014'}
    {'股票名称': 'GC028'}
    {'股票名称': 'GC091'}
    {'股票名称': 'GC182'}
    {'股票名称': '基金金泰'}
    {'股票名称': '基金泰和'}
    {'股票名称': '基金安信'}
    {'股票名称': '基金汉盛'}
    {'股票名称': '基金裕阳'}
    {'股票名称': '基金景阳'}
    {'股票名称': '基金兴华'}
    {'股票名称': 'GC001'}
    {'股票名称': '基金金鑫'}
    {'股票名称': '基金汉兴'}
    {'股票名称': 'GC002'}
    {'股票名称': 'GC003'}
    {'股票名称': 'GC004'}
    {'股票名称': 'GC007'}
    {'股票名称': 'GC014'}
    {'股票名称': 'GC028'}
    {'股票名称': 'GC091'}
    {'股票名称': 'GC182'}
    {'股票名称': '基金金泰'}
    {'股票名称': '基金泰和'}
    {'股票名称': '基金安信'}
    {'股票名称': '基金科讯'}
    {'股票名称': '基金汉盛'}
    {'股票名称': '基金通乾', '最高': '--', '最低': '--', '今开': '--', '昨收': '0.94', '成交额': '--', '成交量': '--', '净值': '0.9515', '折价率': '-1.42'}
    {'股票名称': '基金裕阳'}
    {'股票名称': '基金科瑞', '最高': '--', '最低': '--', '今开': '--', '昨收': '0.82', '成交额': '--', '成交量': '--', '净值': '0.8540', '折价率': '-3.40'}
    {'股票名称': '基金景阳'}
    {'股票名称': '基金银丰', '最高': '0.97', '最低': '0.96', '今开': '0.96', '昨收': '0.97', '成交额': '1533.12万', '成交量': '15.85万手', '净值': '1.0420', '折价率': '-7.01'}
    {'股票名称': '基金兴华'}
    {'股票名称': '国金鑫新', '最高': '1.03', '最低': '1.03', '今开': '1.03', '昨收': '1.02', '成交额': '9.52万', '成交量': '925手', '净值': '1.0370', '折价率': '-0.68'}
    {'股票名称': '财通多策略(LOF)', '最高': '1.05', '最低': '1.05', '今开': '1.05', '昨收': '1.05', '成交额': '232.03万', '成交量': '2.21万手', '净值': '1.0560', '折价率': '-0.28'}
    {'股票名称': '基金金鑫'}
    {'股票名称': '基金汉兴'}
    {'股票名称': '长信中证能源', '最高': '1.06', '最低': '1.05', '今开': '1.06', '昨收': '1.06', '成交额': '2745', '成交量': '26手', '净值': '1.0530', '折价率': '-0.28'}
    {'股票名称': '基金科讯'}
    {'股票名称': '精准医疗', '最高': '1.02', '最低': '1.01', '今开': '1.01', '昨收': '1.01', '成交额': '5.93万', '成交量': '586手', '净值': '1.0140', '折价率': '0.20'}
    {'股票名称': '互联医疗', '最高': '0.99', '最低': '0.98', '今开': '0.98', '昨收': '0.98', '成交额': '1574', '成交量': '16手', '净值': '0.9879', '折价率': '-0.29'}
    {'股票名称': '基金通乾', '最高': '--', '最低': '--', '今开': '--', '昨收': '0.94', '成交额': '--', '成交量': '--', '净值': '0.9515', '折价率': '-1.42'}
    {'股票名称': '基金科瑞', '最高': '--', '最低': '--', '今开': '--', '昨收': '0.82', '成交额': '--', '成交量': '--', '净值': '0.8540', '折价率': '-3.40'}
    {'股票名称': '基金银丰', '最高': '0.97', '最低': '0.96', '今开': '0.96', '昨收': '0.97', '成交额': '1533.12万', '成交量': '15.85万手', '净值': '1.0420', '折价率': '-7.01'}
    {'股票名称': '国金鑫新', '最高': '1.03', '最低': '1.03', '今开': '1.03', '昨收': '1.02', '成交额': '9.52万', '成交量': '925手', '净值': '1.0370', '折价率': '-0.68'}
    {'股票名称': '互联医C', '最高': '0.98', '最低': '0.98', '今开': '0.98', '昨收': '0.98', '成交额': '13.53万', '成交量': '1377手', '净值': '0.9869', '折价率': '-0.50'}
    {'股票名称': '财通多策略(LOF)', '最高': '1.05', '最低': '1.05', '今开': '1.05', '昨收': '1.05', '成交额': '232.03万', '成交量': '2.21万手', '净值': '1.0560', '折价率': '-0.28'}
    {'股票名称': '生物科技', '最高': '1.03', '最低': '1.01', '今开': '1.02', '昨收': '1.02', '成交额': '1.66万', '成交量': '163手', '净值': '1.0192', '折价率': '0.08'}
    {'股票名称': '长信中证能源', '最高': '1.06', '最低': '1.05', '今开': '1.06', '昨收': '1.06', '成交额': '2745', '成交量': '26手', '净值': '1.0530', '折价率': '-0.28'}
    {'股票名称': '生物科C', '最高': '1.05', '最低': '1.01', '今开': '1.05', '昨收': '1.03', '成交额': '15.58万', '成交量': '1532手', '净值': '1.0182', '折价率': '1.26'}
    {'股票名称': '精准医疗', '最高': '1.02', '最低': '1.01', '今开': '1.01', '昨收': '1.01', '成交额': '5.93万', '成交量': '586手', '净值': '1.0140', '折价率': '0.20'}
    {'股票名称': '中药基金', '最高': '1.07', '最低': '1.05', '今开': '1.07', '昨收': '1.06', '成交额': '16.61万', '成交量': '1568手', '净值': '1.0644', '折价率': '-0.32'}
    {'股票名称': '互联医疗', '最高': '0.99', '最低': '0.98', '今开': '0.98', '昨收': '0.98', '成交额': '1574', '成交量': '16手', '净值': '0.9879', '折价率': '-0.29'}
    {'股票名称': '中药C', '最高': '1.12', '最低': '1.06', '今开': '1.06', '昨收': '1.06', '成交额': '4825', '成交量': '45手', '净值': '--', '折价率': '--'}
    {'股票名称': '互联医C', '最高': '0.98', '最低': '0.98', '今开': '0.98', '昨收': '0.98', '成交额': '13.53万', '成交量': '1377手', '净值': '0.9869', '折价率': '-0.50'}
    {'股票名称': '财通升级', '最高': '1.03', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '1667.72万', '成交量': '16.22万手', '净值': '1.0780', '折价率': '-4.55'}
    {'股票名称': '生物科技', '最高': '1.03', '最低': '1.01', '今开': '1.02', '昨收': '1.02', '成交额': '1.66万', '成交量': '163手', '净值': '1.0192', '折价率': '0.08'}
    {'股票名称': '国泰融丰', '最高': '0.98', '最低': '0.98', '今开': '0.98', '昨收': '0.98', '成交额': '50.69万', '成交量': '5192手', '净值': '1.0445', '折价率': '-6.56'}
    {'股票名称': '生物科C', '最高': '1.05', '最低': '1.01', '今开': '1.05', '昨收': '1.03', '成交额': '15.58万', '成交量': '1532手', '净值': '1.0182', '折价率': '1.26'}
    {'股票名称': '南方原油', '最高': '0.99', '最低': '0.98', '今开': '0.98', '昨收': '0.96', '成交额': '1989.58万', '成交量': '20.22万手', '净值': '0.9821', '折价率': '0.19'}
    {'股票名称': '中药基金', '最高': '1.07', '最低': '1.05', '今开': '1.07', '昨收': '1.06', '成交额': '16.61万', '成交量': '1568手', '净值': '1.0644', '折价率': '-0.32'}
    {'股票名称': '香港中小', '最高': '1.20', '最低': '1.18', '今开': '1.20', '昨收': '1.20', '成交额': '511.41万', '成交量': '4.29万手', '净值': '1.2041', '折价率': '-0.92'}
    {'股票名称': '中药C', '最高': '1.12', '最低': '1.06', '今开': '1.06', '昨收': '1.06', '成交额': '4825', '成交量': '45手', '净值': '--', '折价率': '--'}
    {'股票名称': '银华鑫盛', '最高': '0.95', '最低': '0.94', '今开': '0.94', '昨收': '0.94', '成交额': '816.75万', '成交量': '8.62万手', '净值': '1.0090', '折价率': '-5.95'}
    {'股票名称': '财通升级', '最高': '1.03', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '1667.72万', '成交量': '16.22万手', '净值': '1.0780', '折价率': '-4.55'}
    {'股票名称': '鹏华港中小企', '最高': '1.10', '最低': '1.08', '今开': '1.09', '昨收': '1.09', '成交额': '46.32万', '成交量': '4251手', '净值': '1.0987', '折价率': '-0.88'}
    {'股票名称': '国泰融丰', '最高': '0.98', '最低': '0.98', '今开': '0.98', '昨收': '0.98', '成交额': '50.69万', '成交量': '5192手', '净值': '1.0445', '折价率': '-6.56'}
    {'股票名称': '香港银行', '最高': '1.05', '最低': '1.04', '今开': '1.05', '昨收': '1.05', '成交额': '9.90万', '成交量': '946手', '净值': '1.0448', '折价率': '0.02'}
    {'股票名称': '南方原油', '最高': '0.99', '最低': '0.98', '今开': '0.98', '昨收': '0.96', '成交额': '1989.58万', '成交量': '20.22万手', '净值': '0.9821', '折价率': '0.19'}
    {'股票名称': '香港中小', '最高': '1.20', '最低': '1.18', '今开': '1.20', '昨收': '1.20', '成交额': '511.41万', '成交量': '4.29万手', '净值': '1.2041', '折价率': '-0.92'}
    {'股票名称': '财通多策略福享', '最高': '0.94', '最低': '0.94', '今开': '0.94', '昨收': '0.94', '成交额': '141.30万', '成交量': '1.50万手', '净值': '1.0018', '折价率': '-6.07'}
    {'股票名称': '银华鑫盛', '最高': '0.95', '最低': '0.94', '今开': '0.94', '昨收': '0.94', '成交额': '816.75万', '成交量': '8.62万手', '净值': '1.0090', '折价率': '-5.95'}
    {'股票名称': '财通福瑞', '最高': '0.94', '最低': '0.94', '今开': '0.94', '昨收': '0.94', '成交额': '363.14万', '成交量': '3.87万手', '净值': '1.0154', '折价率': '-7.33'}
    {'股票名称': '鹏华港中小企', '最高': '1.10', '最低': '1.08', '今开': '1.09', '昨收': '1.09', '成交额': '46.32万', '成交量': '4251手', '净值': '1.0987', '折价率': '-0.88'}
    {'股票名称': '红利基金', '最高': '1.04', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '537.41万', '成交量': '5.18万手', '净值': '1.0403', '折价率': '-0.03'}
    {'股票名称': '香港银行', '最高': '1.05', '最低': '1.04', '今开': '1.05', '昨收': '1.05', '成交额': '9.90万', '成交量': '946手', '净值': '1.0448', '折价率': '0.02'}
    {'股票名称': '环境治理', '最高': '1.08', '最低': '1.05', '今开': '1.06', '昨收': '1.06', '成交额': '20.17万', '成交量': '1901手', '净值': '1.0657', '折价率': '0.12'}
    {'股票名称': '财通多策略福享', '最高': '0.94', '最低': '0.94', '今开': '0.94', '昨收': '0.94', '成交额': '141.30万', '成交量': '1.50万手', '净值': '1.0018', '折价率': '-6.07'}
    {'股票名称': '环境C', '最高': '1.10', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '18.35万', '成交量': '1743手', '净值': '1.0654', '折价率': '-0.23'}
    {'股票名称': '财通福瑞', '最高': '0.94', '最低': '0.94', '今开': '0.94', '昨收': '0.94', '成交额': '363.14万', '成交量': '3.87万手', '净值': '1.0154', '折价率': '-7.33'}
    {'股票名称': '50AH', '最高': '1.03', '最低': '1.02', '今开': '1.02', '昨收': '1.02', '成交额': '66.03万', '成交量': '6448手', '净值': '1.0250', '折价率': '0.10'}
    {'股票名称': '红利基金', '最高': '1.04', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '537.41万', '成交量': '5.18万手', '净值': '1.0403', '折价率': '-0.03'}
    {'股票名称': '海富通全球(人民币)', '最高': '1.01', '最低': '1.01', '今开': '1.01', '昨收': '1.01', '成交额': '99.06万', '成交量': '9820手', '净值': '1.0090', '折价率': '0.00'}
    {'股票名称': '环境治理', '最高': '1.08', '最低': '1.05', '今开': '1.06', '昨收': '1.06', '成交额': '20.17万', '成交量': '1901手', '净值': '1.0657', '折价率': '0.12'}
    {'股票名称': '500等权', '最高': '1.03', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '1.20万', '成交量': '116手', '净值': '1.0450', '折价率': '-1.05'}
    {'股票名称': '环境C', '最高': '1.10', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '18.35万', '成交量': '1743手', '净值': '1.0654', '折价率': '-0.23'}
    {'股票名称': '50AH', '最高': '1.03', '最低': '1.02', '今开': '1.02', '昨收': '1.02', '成交额': '66.03万', '成交量': '6448手', '净值': '1.0250', '折价率': '0.10'}
    {'股票名称': '500等权A', '最高': '1.08', '最低': '1.05', '今开': '1.07', '昨收': '1.05', '成交额': '7.41万', '成交量': '691手', '净值': '1.0130', '折价率': '3.85'}
    {'股票名称': '海富通全球(人民币)', '最高': '1.01', '最低': '1.01', '今开': '1.01', '昨收': '1.01', '成交额': '99.06万', '成交量': '9820手', '净值': '1.0090', '折价率': '0.00'}
    {'股票名称': '500等权B', '最高': '1.01', '最低': '1.01', '今开': '1.01', '昨收': '1.01', '成交额': '4032', '成交量': '40手', '净值': '1.0770', '折价率': '-6.41'}
    {'股票名称': '易基军工分级', '最高': '1.15', '最低': '1.14', '今开': '1.14', '昨收': '1.13', '成交额': '119.38万', '成交量': '1.04万手', '净值': '1.1523', '折价率': '-0.63'}
    {'股票名称': '500等权', '最高': '1.03', '最低': '1.03', '今开': '1.03', '昨收': '1.03', '成交额': '1.20万', '成交量': '116手', '净值': '1.0450', '折价率': '-1.05'}
    {'股票名称': '易基军工A', '最高': '1.03', '最低': '1.02', '今开': '1

  62. 大致就是这个样子。。。。。。。
  63. 噗,破网速,噗,噗噗,噗噗噗

python-股票数据定向爬取的更多相关文章

  1. Python_记一次网站数据定向爬取实现

    记一次网站数据定向爬取实现 by:授客 QQ:1033553122 测试环境: Python版本:Python 3.4 Win7 请勿用于商业及非法用途,仅供学习研究用,否则后果自负 数据爬取场景 如 ...

  2. [python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

    我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点:        1.可以了解Python简单爬取图片的一些思路和方法 ...

  3. [python爬虫] Selenium定向爬取PubMed生物医学摘要信息

    本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容.        PubMed是一个免费的搜寻引擎,提供生物医学方 ...

  4. [python爬虫] Selenium定向爬取虎扑篮球海量精美图片

    前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...

  5. python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制

    CrawlSpider实现的全站数据的爬取 新建一个工程 cd 工程 创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com 连接提取器Link ...

  6. 【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

    原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...

  7. Ajax数据的爬取(淘女郎为例)

    mmtao Ajax数据的爬取(淘女郎为例) 如有疑问,转到 Wiki 淘女郎模特抓取教程 网址:https://0x9.me/xrh6z 判断一个页面是不是 Ajax 加载的方法: 查看网页源代码, ...

  8. Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取

    很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短 ...

  9. Python爬虫实例:爬取猫眼电影——破解字体反爬

    字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

  10. 使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取

    web scraper 下载:Web-Scraper_v0.2.0.10 使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬 ...

随机推荐

  1. JSON.stringify、JSON.parse、toJSON 区别

    JSON.stringify 方法 将一个 JavaScript 值转换为一个 JSON 字符串 可以将数组.对象等转换后的 JSON 字符串,保存在 sessionStorage.localStor ...

  2. grep和egrep正则表达式

    Linux上文本处理三剑客 grep :文本过滤( 模式:pattern) 工具 grep, egrep, fgrep (不支持正则表达式搜索,但搜索纯文本的数据最快) sed :stream edi ...

  3. .gitignore 存放位置

    放在仓库根目录下即可.比如你的仓库在“D:\MYREPO”,位置就是“D:\MYREPO\.gitignore”. 模板可从GITHUB上COPY一份.

  4. java工具类-FreeMarker

    package com.huawei.it.citools.utils; import java.io.File;import java.io.IOException;import java.io.S ...

  5. BASIC-3_蓝桥杯_字母图形

    示例代码: #include <stdio.h>#define N 26 int main(void){ int i = 0 , j = 0 , k = 0; int n = 0 , m ...

  6. 错误:Unsupported major.minor version 51.0(jdk版本错误)

    Java.lang.UnsupportedClassVersionError: org/apache/nutch/crawl/Crawl3 : Unsupported major.minor vers ...

  7. Linux 期中架构 PHP

    环境 PHP安装前准备  先将需要的软件包如下位置放置.另外需要有WWW用户   参照nginx 满足以上条件后执行安装脚本 PHP安装脚本: #!/bin/bash #install PHP #au ...

  8. centos 装iptraf查看网络流量

    今天在测试服务器上准备看下网络流量 [root@localhost ~]# iptraf -d eth0-bash: iptraf: command not found 发现运维同事没有给安装 只能自 ...

  9. git 未能顺利结束 (退出码 1)

    Please make sure you have the correct access rightsand the repository exists.

  10. [UE4]C++实现动态加载UObject:StaticLoadObject();以Texture和Material为例

    相关内容: C++实现动态加载的问题:LoadClass<T>()和LoadObject<T>() http://aigo.iteye.com/blog/2281558C++静 ...