RTBAsia真人概率值说明:

  • 知识背景:互联网用户分为三个最大的“人群”:男,女,机器人;机器人会模仿人类的形态浏览网页、观赏视频、点击广告、撰写评论、投票点赞。机器人通常居住在“数据中心”。
  • 当IP场景为“数据中心”时,此IP发出的网页浏览行为大多数情况下属于NHT(Non Human Traffic,非人类的访问),可能是各种功能的机器人:搜索爬虫、内容采集器、舆情监控、网站性能监控、压力测试器、自动发帖机、安全检测软件等等,你懂的…
  • “真人概率”的数值在50%以上,可以被认定为此IP的网页访问量基本由人类主动行为产生,分值愈高越真实。低于50%则有较高可能性是此IP的行为是机器人主导。

RTBAsia官方网址:https://www.rtbasia.com/

RTBAsia测试网址:https://ip.rtbasia.com/

接口说明:

  • 操作接口是RTBAsia开放在百度APIStore的免费API,apikey缓存你在百度APIStore自己的key,要求安装requests库,命令是pip install requests。
  • 使用方法是,携带一个file参数,读取file内容,每一行一个IP。
# -*- coding: utf-8 -*-

import requests

apikey = 'Your Baidu Apistore apikey'
url = 'http://apis.baidu.com/rtbasia/non_human_traffic_screening_vp/nht_query'
V={}
headers={'apikey': apikey}

def GetValue(ip):
    global V
    r=requests.get(url, params={'ip': ip}, headers=headers).json()
    state = r.get('code')
    ip    = r.get('ip')
    score = int(r.get('data').get('score'))
    if score < 50: V[ip] = score
    return {'state':state, 'ip':ip, 'score': score}

if __name__ == '__main__':
    import sys
    try:
        ipfile=sys.argv[1]
    except IndexError:
        ipfile='test.txt'
    with open(ipfile, 'r') as f:
        ips=f.readlines()
    for ip in ips:
        print GetValue(ip.strip())
    print "真人概率值低语50%的有以下IP:\n", V

此脚本存放在GITHUB中,链接是:https://github.com/staugur/scripts/blob/master/services/RTBAsiaAPI.py


·End·