1. import sys
  2. import os
  3. import _io
  4. from collections import namedtuple
  5. from PIL import Image
  6.  
  7. class Nude(object):
  8.  
  9. Skin = namedtuple("Skin", "id skin region x y")
  10.  
  11. def __init__(self, path_or_image):
  12. # 若 path_or_image 为 Image.Image 类型的实例,直接赋值
  13. if isinstance(path_or_image, Image.Image):
  14. self.image = path_or_image
  15. # 若 path_or_image 为 str 类型的实例,打开图片
  16. elif isinstance(path_or_image, str):
  17. self.image = Image.open(path_or_image)
  18.  
  19. # 获得图片所有颜色通道
  20. bands = self.image.getbands()
  21. # 判断是否为单通道图片(也即灰度图),是则将灰度图转换为 RGB 图
  22. if len(bands) == 1:
  23. # 新建相同大小的 RGB 图像
  24. new_img = Image.new("RGB", self.image.size)
  25. # 拷贝灰度图 self.image 到 RGB图 new_img.paste (PIL 自动进行颜色通道转换)
  26. new_img.paste(self.image)
  27. f = self.image.filename
  28. # 替换 self.image
  29. self.image = new_img
  30. self.image.filename = f
  31.  
  32. # 存储对应图像所有像素的全部 Skin 对象
  33. self.skin_map = []
  34. # 检测到的皮肤区域,元素的索引即为皮肤区域号,元素都是包含一些 Skin 对象的列表
  35. self.detected_regions = []
  36. # 元素都是包含一些 int 对象(区域号)的列表
  37. # 这些元素中的区域号代表的区域都是待合并的区域
  38. self.merge_regions = []
  39. # 整合后的皮肤区域,元素的索引即为皮肤区域号,元素都是包含一些 Skin 对象的列表
  40. self.skin_regions = []
  41. # 最近合并的两个皮肤区域的区域号,初始化为 -1
  42. self.last_from, self.last_to = -1, -1
  43. # 色情图像判断结果
  44. self.result = None
  45. # 处理得到的信息
  46. self.message = None
  47. # 图像宽高
  48. self.width, self.height = self.image.size
  49. # 图像总像素
  50. self.total_pixels = self.width * self.height
  51.  
  52. def resize(self, maxwidth=1000, maxheight=1000):
  53. """
  54. 基于最大宽高按比例重设图片大小,
  55. 注意:这可能影响检测算法的结果
  56.  
  57. 如果没有变化返回 0
  58. 原宽度大于 maxwidth 返回 1
  59. 原高度大于 maxheight 返回 2
  60. 原宽高大于 maxwidth, maxheight 返回 3
  61.  
  62. maxwidth - 图片最大宽度
  63. maxheight - 图片最大高度
  64. 传递参数时都可以设置为 False 来忽略
  65. """
  66. # 存储返回值
  67. ret = 0
  68. if maxwidth:
  69. if self.width > maxwidth:
  70. wpercent = (maxwidth / self.width)
  71. hsize = int((self.height * wpercent))
  72. fname = self.image.filename
  73. # Image.LANCZOS 是重采样滤波器,用于抗锯齿
  74. self.image = self.image.resize((maxwidth, hsize), Image.LANCZOS)
  75. self.image.filename = fname
  76. self.width, self.height = self.image.size
  77. self.total_pixels = self.width * self.height
  78. ret += 1
  79. if maxheight:
  80. if self.height > maxheight:
  81. hpercent = (maxheight / float(self.height))
  82. wsize = int((float(self.width) * float(hpercent)))
  83. fname = self.image.filename
  84. self.image = self.image.resize((wsize, maxheight), Image.LANCZOS)
  85. self.image.filename = fname
  86. self.width, self.height = self.image.size
  87. self.total_pixels = self.width * self.height
  88. ret += 2
  89. return ret
  90.  
  91. # 分析函数
  92. def parse(self):
  93. # 如果已有结果,返回本对象
  94. if self.result is not None:
  95. return self
  96. # 获得图片所有像素数据
  97. pixels = self.image.load()
  98. # 遍历每个像素
  99. for y in range(self.height):
  100. for x in range(self.width):
  101. # 得到像素的 RGB 三个通道的值
  102. # [x, y] 是 [(x,y)] 的简便写法
  103. r = pixels[x, y][0] # red
  104. g = pixels[x, y][1] # green
  105. b = pixels[x, y][2] # blue
  106. # 判断当前像素是否为肤色像素
  107. isSkin = True if self._classify_skin(r, g, b) else False
  108. # 给每个像素分配唯一 id 值(1, 2, 3...height*width)
  109. # 注意 x, y 的值从零开始
  110. _id = x + y * self.width + 1
  111. # 为每个像素创建一个对应的 Skin 对象,并添加到 self.skin_map 中
  112. self.skin_map.append(self.Skin(_id, isSkin, None, x, y))
  113. # 若当前像素不为肤色像素,跳过此次循环
  114. if not isSkin:
  115. continue
  116.  
  117. # 设左上角为原点,相邻像素为符号 *,当前像素为符号 ^,那么相互位置关系通常如下图
  118. # ***
  119. # *^
  120.  
  121. # 存有相邻像素索引的列表,存放顺序为由大到小,顺序改变有影响
  122. # 注意 _id 是从 1 开始的,对应的索引则是 _id-1
  123. check_indexes = [_id - 2, # 当前像素左方的像素
  124. _id - self.width - 2, # 当前像素左上方的像素
  125. _id - self.width - 1, # 当前像素的上方的像素
  126. _id - self.width] # 当前像素右上方的像素
  127. # 用来记录相邻像素中肤色像素所在的区域号,初始化为 -1
  128. region = -1
  129. # 遍历每一个相邻像素的索引
  130. for index in check_indexes:
  131. # 尝试索引相邻像素的 Skin 对象,没有则跳出循环
  132. try:
  133. self.skin_map[index]
  134. except IndexError:
  135. break
  136. # 相邻像素若为肤色像素:
  137. if self.skin_map[index].skin:
  138. # 若相邻像素与当前像素的 region 均为有效值,且二者不同,且尚未添加相同的合并任务
  139. if (self.skin_map[index].region != None and
  140. region != None and region != -1 and
  141. self.skin_map[index].region != region and
  142. self.last_from != region and
  143. self.last_to != self.skin_map[index].region) :
  144. # 那么这添加这两个区域的合并任务
  145. self._add_merge(region, self.skin_map[index].region)
  146. # 记录此相邻像素所在的区域号
  147. region = self.skin_map[index].region
  148. # 遍历完所有相邻像素后,若 region 仍等于 -1,说明所有相邻像素都不是肤色像素
  149. if region == -1:
  150. # 更改属性为新的区域号,注意元祖是不可变类型,不能直接更改属性
  151. _skin = self.skin_map[_id - 1]._replace(region=len(self.detected_regions))
  152. self.skin_map[_id - 1] = _skin
  153. # 将此肤色像素所在区域创建为新区域
  154. self.detected_regions.append([self.skin_map[_id - 1]])
  155. # region 不等于 -1 的同时不等于 None,说明有区域号为有效值的相邻肤色像素
  156. elif region != None:
  157. # 将此像素的区域号更改为与相邻像素相同
  158. _skin = self.skin_map[_id - 1]._replace(region=region)
  159. self.skin_map[_id - 1] = _skin
  160. # 向这个区域的像素列表中添加此像素
  161. self.detected_regions[region].append(self.skin_map[_id - 1])
  162. # 完成所有区域合并任务,合并整理后的区域存储到 self.skin_regions
  163. self._merge(self.detected_regions, self.merge_regions)
  164. # 分析皮肤区域,得到判定结果
  165. self._analyse_regions()
  166. return self
  167.  
  168. # self.merge_regions 的元素都是包含一些 int 对象(区域号)的列表
  169. # self.merge_regions 的元素中的区域号代表的区域都是待合并的区域
  170. # 这个方法便是将两个待合并的区域号添加到 self.merge_regions 中
  171. def _add_merge(self, _from, _to):
  172. # 两个区域号赋值给类属性
  173. self.last_from = _from
  174. self.last_to = _to
  175.  
  176. # 记录 self.merge_regions 的某个索引值,初始化为 -1
  177. from_index = -1
  178. # 记录 self.merge_regions 的某个索引值,初始化为 -1
  179. to_index = -1
  180.  
  181. # 遍历每个 self.merge_regions 的元素
  182. for index, region in enumerate(self.merge_regions):
  183. # 遍历元素中的每个区域号
  184. for r_index in region:
  185. if r_index == _from:
  186. from_index = index
  187. if r_index == _to:
  188. to_index = index
  189.  
  190. # 若两个区域号都存在于 self.merge_regions 中
  191. if from_index != -1 and to_index != -1:
  192. # 如果这两个区域号分别存在于两个列表中
  193. # 那么合并这两个列表
  194. if from_index != to_index:
  195. self.merge_regions[from_index].extend(self.merge_regions[to_index])
  196. del(self.merge_regions[to_index])
  197. return
  198.  
  199. # 若两个区域号都不存在于 self.merge_regions 中
  200. if from_index == -1 and to_index == -1:
  201. # 创建新的区域号列表
  202. self.merge_regions.append([_from, _to])
  203. return
  204. # 若两个区域号中有一个存在于 self.merge_regions 中
  205. if from_index != -1 and to_index == -1:
  206. # 将不存在于 self.merge_regions 中的那个区域号
  207. # 添加到另一个区域号所在的列表
  208. self.merge_regions[from_index].append(_to)
  209. return
  210. # 若两个待合并的区域号中有一个存在于 self.merge_regions 中
  211. if from_index == -1 and to_index != -1:
  212. # 将不存在于 self.merge_regions 中的那个区域号
  213. # 添加到另一个区域号所在的列表
  214. self.merge_regions[to_index].append(_from)
  215. return
  216.  
  217. # 合并该合并的皮肤区域
  218. def _merge(self, detected_regions, merge_regions):
  219. # 新建列表 new_detected_regions
  220. # 其元素将是包含一些代表像素的 Skin 对象的列表
  221. # new_detected_regions 的元素即代表皮肤区域,元素索引为区域号
  222. new_detected_regions = []
  223.  
  224. # 将 merge_regions 中的元素中的区域号代表的所有区域合并
  225. for index, region in enumerate(merge_regions):
  226. try:
  227. new_detected_regions[index]
  228. except IndexError:
  229. new_detected_regions.append([])
  230. for r_index in region:
  231. new_detected_regions[index].extend(detected_regions[r_index])
  232. detected_regions[r_index] = []
  233.  
  234. # 添加剩下的其余皮肤区域到 new_detected_regions
  235. for region in detected_regions:
  236. if len(region) > 0:
  237. new_detected_regions.append(region)
  238.  
  239. # 清理 new_detected_regions
  240. self._clear_regions(new_detected_regions)
  241.  
  242. # 皮肤区域清理函数
  243. # 只保存像素数大于指定数量的皮肤区域
  244. def _clear_regions(self, detected_regions):
  245. for region in detected_regions:
  246. if len(region) > 30:
  247. self.skin_regions.append(region)
  248.  
  249. # 分析区域
  250. def _analyse_regions(self):
  251. # 如果皮肤区域小于 3 个,不是色情
  252. if len(self.skin_regions) < 3:
  253. self.message = "Less than 3 skin regions ({_skin_regions_size})".format(
  254. _skin_regions_size=len(self.skin_regions))
  255. self.result = False
  256. return self.result
  257.  
  258. # 为皮肤区域排序
  259. self.skin_regions = sorted(self.skin_regions, key=lambda s: len(s),
  260. reverse=True)
  261.  
  262. # 计算皮肤总像素数
  263. total_skin = float(sum([len(skin_region) for skin_region in self.skin_regions]))
  264.  
  265. # 如果皮肤区域与整个图像的比值小于 15%,那么不是色情图片
  266. if total_skin / self.total_pixels * 100 < 15:
  267. self.message = "Total skin percentage lower than 15 ({:.2f})".format(total_skin / self.total_pixels * 100)
  268. self.result = False
  269. return self.result
  270.  
  271. # 如果最大皮肤区域小于总皮肤面积的 45%,不是色情图片
  272. if len(self.skin_regions[0]) / total_skin * 100 < 45:
  273. self.message = "The biggest region contains less than 45 ({:.2f})".format(len(self.skin_regions[0]) / total_skin * 100)
  274. self.result = False
  275. return self.result
  276.  
  277. # 皮肤区域数量超过 60个,不是色情图片
  278. if len(self.skin_regions) > 60:
  279. self.message = "More than 60 skin regions ({})".format(len(self.skin_regions))
  280. self.result = False
  281. return self.result
  282.  
  283. # 其它情况为色情图片
  284. self.message = "Nude!!"
  285. self.result = True
  286. return self.result
  287.  
  288. # 基于像素的肤色检测技术
  289. def _classify_skin(self, r, g, b):
  290. # 根据RGB值判定
  291. rgb_classifier = r > 95 and \
  292. g > 40 and g < 100 and \
  293. b > 20 and \
  294. max([r, g, b]) - min([r, g, b]) > 15 and \
  295. abs(r - g) > 15 and \
  296. r > g and \
  297. r > b
  298. # 根据处理后的 RGB 值判定
  299. nr, ng, nb = self._to_normalized(r, g, b)
  300. norm_rgb_classifier = nr / ng > 1.185 and \
  301. float(r * b) / ((r + g + b) ** 2) > 0.107 and \
  302. float(r * g) / ((r + g + b) ** 2) > 0.112
  303.  
  304. # HSV 颜色模式下的判定
  305. h, s, v = self._to_hsv(r, g, b)
  306. hsv_classifier = h > 0 and \
  307. h < 35 and \
  308. s > 0.23 and \
  309. s < 0.68
  310.  
  311. # YCbCr 颜色模式下的判定
  312. y, cb, cr = self._to_ycbcr(r, g, b)
  313. ycbcr_classifier = 97.5 <= cb <= 142.5 and 134 <= cr <= 176
  314.  
  315. # 效果不是很好,还需改公式
  316. # return rgb_classifier or norm_rgb_classifier or hsv_classifier or ycbcr_classifier
  317. return ycbcr_classifier
  318.  
  319. def _to_normalized(self, r, g, b):
  320. if r == 0:
  321. r = 0.0001
  322. if g == 0:
  323. g = 0.0001
  324. if b == 0:
  325. b = 0.0001
  326. _sum = float(r + g + b)
  327. return [r / _sum, g / _sum, b / _sum]
  328.  
  329. def _to_ycbcr(self, r, g, b):
  330. # 公式来源:
  331. # http://stackoverflow.com/questions/19459831/rgb-to-ycbcr-conversion-problems
  332. y = .299*r + .587*g + .114*b
  333. cb = 128 - 0.168736*r - 0.331364*g + 0.5*b
  334. cr = 128 + 0.5*r - 0.418688*g - 0.081312*b
  335. return y, cb, cr
  336.  
  337. def _to_hsv(self, r, g, b):
  338. h = 0
  339. _sum = float(r + g + b)
  340. _max = float(max([r, g, b]))
  341. _min = float(min([r, g, b]))
  342. diff = float(_max - _min)
  343. if _sum == 0:
  344. _sum = 0.0001
  345.  
  346. if _max == r:
  347. if diff == 0:
  348. h = sys.maxsize
  349. else:
  350. h = (g - b) / diff
  351. elif _max == g:
  352. h = 2 + ((g - r) / diff)
  353. else:
  354. h = 4 + ((r - g) / diff)
  355.  
  356. h *= 60
  357. if h < 0:
  358. h += 360
  359.  
  360. return [h, 1.0 - (3.0 * (_min / _sum)), (1.0 / 3.0) * _max]
  361.  
  362. def inspect(self):
  363. _image = '{} {} {}×{}'.format(self.image.filename, self.image.format, self.width, self.height)
  364. return "{_image}: result={_result} message='{_message}'".format(_image=_image, _result=self.result, _message=self.message)
  365.  
  366. # 将在源文件目录生成图片文件,将皮肤区域可视化
  367. def showSkinRegions(self):
  368. # 未得出结果时方法返回
  369. if self.result is None:
  370. return
  371. # 皮肤像素的 ID 的集合
  372. skinIdSet = set()
  373. # 将原图做一份拷贝
  374. simage = self.image
  375. # 加载数据
  376. simageData = simage.load()
  377.  
  378. # 将皮肤像素的 id 存入 skinIdSet
  379. for sr in self.skin_regions:
  380. for pixel in sr:
  381. skinIdSet.add(pixel.id)
  382. # 将图像中的皮肤像素设为白色,其余设为黑色
  383. for pixel in self.skin_map:
  384. if pixel.id not in skinIdSet:
  385. simageData[pixel.x, pixel.y] = 0, 0, 0
  386. else:
  387. simageData[pixel.x, pixel.y] = 255, 255, 255
  388. # 源文件绝对路径
  389. filePath = os.path.abspath(self.image.filename)
  390. # 源文件所在目录
  391. fileDirectory = os.path.dirname(filePath) + '/'
  392. # 源文件的完整文件名
  393. fileFullName = os.path.basename(filePath)
  394. # 分离源文件的完整文件名得到文件名和扩展名
  395. fileName, fileExtName = os.path.splitext(fileFullName)
  396. # 保存图片
  397. simage.save('{}{}_{}{}'.format(fileDirectory, fileName,'Nude' if self.result else 'Normal', fileExtName))
  398.  
  399. if __name__ == "__main__":
  400. import argparse
  401.  
  402. parser = argparse.ArgumentParser(description='Detect nudity in images.')
  403. parser.add_argument('files', metavar='image', nargs='+',
  404. help='Images you wish to test')
  405. parser.add_argument('-r', '--resize', action='store_true',
  406. help='Reduce image size to increase speed of scanning')
  407. parser.add_argument('-v', '--visualization', action='store_true',
  408. help='Generating areas of skin image')
  409.  
  410. args = parser.parse_args()
  411.  
  412. for fname in args.files:
  413. if os.path.isfile(fname):
  414. n = Nude(fname)
  415. if args.resize:
  416. n.resize(maxheight=800, maxwidth=600)
  417. n.parse()
  418. if args.visualization:
  419. n.showSkinRegions()
  420. print(n.result, n.inspect())
  421. else:
  422. print(fname, "is not a file")

上面代码文件名为nude.py,则运行下面命令即可开始检测。 $ python3 nude.py -v 0.jpg 1.jpg

  1. 运行环境:
    安装python及相关 $ sudo update-alternatives --install /usr/bin/python3 python3 /usr/bin/python3.4 70 --slave /usr/bin/python3m python3m /usr/bin/python3.4m $ sudo apt-get install python3-dev python3-setuptools
  1. 安装pillow依赖包 $ sudo apt-get install libtiff5-dev libjpeg8-dev zlib1g-dev \libfreetype6-dev liblcms2-dev libwebp-dev tcl8.6-dev tk8.6-dev python-tk
  2. 安装pip3(pip3  Python3 的软件包管理系统,使用它来安装 Python3 的模块非常简便) $ sudo apt-get install python3-pip
  1. 安装pillow $ sudo pip3 install Pillow
  2. 程序原理:

本程序根据颜色(肤色)找出图片中皮肤的区域,然后通过一些条件判断是否为色情图片

程序的关键步骤如下

  1. 遍历每个像素,检测像素颜色是否为肤色
  2. 将相邻的肤色像素归为一个皮肤区域,得到若干个皮肤区域
  3. 剔除像素数量极少的皮肤区域

我们定义非色情图片的判定规则如下(满足任意一个判定为真):

  1.  
  1. 皮肤区域的个数小于 3 个
  2. 皮肤区域的像素与图像所有像素的比值小于 15%
  3. 最大皮肤区域小于总皮肤面积的 45%
  4. 皮肤区域数量超过60个
  1.  

这些规则你可以尝试更改,直到程序效果让你满意为止

关于像素肤色判定这方面,公式可以在网上找到很多,但世界上不可能有正确率 100% 的公式

你可以用自己找到的公式,在程序完成后慢慢调试

  1.  
  1.  

利用python检测色情图片简易实例的更多相关文章

  1. Python 利用Python编写简单网络爬虫实例3

    利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站“http://bbs.51testing. ...

  2. Python 利用Python编写简单网络爬虫实例2

    利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站“http://www.51testing. ...

  3. 利用python批量缩放图片

    废话少说,上代码: import matplotlib as mpl mpl.use('Agg') import os import matplotlib.pyplot as plt from sci ...

  4. 利用python web框架django实现py-faster-rcnn demo实例

    操作系统.编程环境及其他: window7  cpu  python2.7  pycharm5.0  django1.8x 说明:本blog是上一篇blog(http://www.cnblogs.co ...

  5. 利用Python实现简单的相似图片搜索的教程

    大概五年前吧,我那时还在为一家约会网站做开发工作.他们是早期创业公司,但他们也开始拥有了一些稳定用户量.不像其他约会网站,这家公司向来以洁身自好为主要市场形象.它不是一个供你鬼混的网站——是让你能找到 ...

  6. Python 3 实现色情图片识别

    Python 3 实现色情图片识别 项目简介 项目内容 本实验将使用 Python3 去识别图片是否为色情图片,我们会使用到 PIL 这个图片处理库,会编写算法来划分图像的皮肤区域. 项目知识点 Py ...

  7. 利用Python进行异常值分析实例代码

    利用Python进行异常值分析实例代码 异常值是指样本中的个别值,也称为离群点,其数值明显偏离其余的观测值.常用检测方法3σ原则和箱型图.其中,3σ原则只适用服从正态分布的数据.在3σ原则下,异常值被 ...

  8. 没有内涵段子可以刷了,利用Python爬取段友之家贴吧图片和小视频(含源码)

    由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...

  9. 利用Python操作Word文档【图片】

    利用Python操作Word文档

随机推荐

  1. python学习道路(day11note)(协程,同步与异步的性能区别,url爬网页,select,RabbitMq)

    1.协程 #协程 又称微线程 是一种用户的轻量级线程 程序级别代码控制 就不用加机器 #不同函数 = 不同任务 A函数切到B函数没有进行cpu级别的切换,而是程序级别的切换就是协程 yelied #单 ...

  2. rabbitmq之消息重入队列

    说起消息重入队列还得从队列注册消费者说起,客户端在向队列注册消费者之后,创建的channel也会被主队列进程monitor,当channel挂掉后,主队列进程(rabbit_amqqueue_proc ...

  3. css background-size 属性 兼容ie8 ie7 方案

    <!-- background-size-polyfill v0.2.0 | (c) 2012-2013 Louis-Rémi Babé | MIT License --> <PUB ...

  4. php 获取数组第一个元素 以及最后一个元素 && 最后一个元素的键名

    1. current() 函数返回数组中的当前元素的值. 每个数组中都有一个内部的指针指向它的"当前"元素,初始指向插入到数组中的第一个元素. end() - 将内部指针指向数组中 ...

  5. WinEdt 10 - revise the day to register

    步骤: options -> option interface -> Advanced Configuration -> Event Handlers -> Exit 然后,在 ...

  6. Emacs 16进制模式

    http://blog.163.com/lan_ne/blog/static/1926701702012112272840545/ ALT+X hexl-mode   进入16进制模式 在这一模式,直 ...

  7. DEDE有无缩略图如何调取

    同一样式分开调取 [field:array runphp='yes']@me = (strpos(@me['litpic'],'defaultpic') ? "":"&l ...

  8. C#写入日志信息到文件中

    为了在服务器上运行程序及时的跟踪出错的地方,可以在必要的地方加入写日志的程序. string folder = string.Format(@"D:\\{0}\\{1}", Dat ...

  9. neXtep 安装过程整理

    1 授权root用户远程登录 2  文件下载 http://www.nextep-softwares.com/ 选择DOWNLOAD NOW 选择你需要的版本 我选择的版本是 neXtep.1.0.7 ...

  10. charles抓包工具的中文乱码解决方法

    charles是 MAC上最好用的抓包工具.charles 网上的参考文档已经很多,我就不再赘述啦.只是说说我在安装过程遇到的问题和解决方法,仅供参考. charles抓包的数据中的中文内容显示乱码, ...