这个只看重召回率(宁可错杀一万不要放过一个)的话,图像识别的技术已经可以做到不错了。根据每一帧里面的图像抽取特征,然后跑个分类器就好了。
Porn这种模式单一,重点突出,机位固定,然后人体各个部位pattern又那么明显,相信只要有足够的训练数据,并不是一个特别难的机器学习问题。
当然你硬要拍两个奥特曼高达穿着盔甲干啥啥,估计不太好识别= = 但是人观众也是为了简单的刺激,你硬搞这么深奥的想必市场不怎么样吧?
误杀一般都是加菲猫之类的....毕竟全身都是黄的。

具体百度网盘是怎么做的,我猜是机器学习+MD5识别。如果我来干这个的话,先按照经典的方法做一个模型出来,特征就是视频图像识别的特征+文件名文本特征+文件格式,大小等特征。模型拿个常见分类器就行了。
估计音频特征也可以,porn的音频特点也很明确(日语 or 英语那些词太明显了),一抓一个准。

继续丧心病狂的话就加视频特征。连续多帧里面人数量的变化啦(人数量相对固定,大都是一到两个,三四个也有,再多就不是那么常见了);人物移动的pattern啦(很少大范围的移动,而更多是小范围的往复运动);发生的场景啦(大都是室内小空间,并连续很多分钟都是一个场景啦,偶尔有一些外景)。

不过我觉得完全不需要这么复杂就可以做到很高的准确率了......

有模型之后,每隔一天或者几天,具体根据模型效率和机器的负载来决定,在网盘的图片和视频数据上跑一遍,把不该有的东西干掉,然后记录下MD5码。
这些MD5码就是黑名单了,往后每次用户新上传的时候就用这个MD5码做一次判断,不该有的就不让你传了。就是一次哈希查找,效率很快,根据百度网盘本身极速上传功能推断,百度已经有了很成熟的MD5操作的模块了。

这两个加起来就既满足了效果(靠机器学习模型每隔一段时间的精确判断),也满足了效率(MD5实时校验)。
所以呢,你们不要以为改了MD5码就可以逃得过去了,过一段时间人家重跑自动识别算法时还是会被干掉的...这种内容我党管的那么严,搞不好部门领导就要被喊去喝茶的,不可能不好好做的...


---------------------------------------闲扯的分割线--------------------------------


色情内容识别是一个很认真的研究领域好咩。不过...
干这个确实需要大量的训练数据。当年中科院计算所有一个组在做这方面的国家项目,黄色+反动内容识别。人家都是带着条子和公款去国外采购影片和轮子的东东回来做训练数据的......

我不懂事的时候有个女朋友花钱太厉害,逼的没办法去一家前著名论坛网站打零工做过类似项目,不过是自动识别黄色/反动的文本......
他们有积累了很久的人工识别的数据。招了不少人做类似鉴黄师的工作,三班倒每班连干八小时,拿一个简单的搜索引擎对用户发布的内容不停地用各种关键词搜,看到不该看的就删帖+搜集起来。然后这些人工识别的数据拿来给我们训练自动识别模型。

当时为了提高识别效果我被迫看了好多训练数据。。。。。。
我只能说......太刺激了....太暴力了....太有想象力了......
我原先只知道有黄色的,有反动的,没想到还有黄色+反动的........
你能想象拿四人帮做主角的XX小说么........看起来真是一种复杂的感受....类似比利时啤酒,无数种强烈风味的混合,造成了独特的饮用体验...

总之,这对于纯洁的我实在是太下流了....
一张白纸的我就这么被污染了...
再也回不去了......

喂,你们不要误会,我那个工作是做模型自动识别来着,不是人工看好么。。。
而且也只是那半年工作很小的一部分。。。大部分时间还是在给他们做站内搜索和开发公司自己的基础C++库来着。

人工谁要干啊,估计时薪只有十块钱,还要看那么多好恶心的东西...黄瓜茄子一看就会想呕怎么办......