安全工具

自动采集域名+CMS识别导入数据库 批量利器

URL地址采集+CMS识别
如下图

mysql-5.0.zip       数据库   软件使用MYSQL  数据库
Navicat for MySQL   或者phpMyAdmin
C start open_url.exe 线程号          程序调用命令  目前//////////////////////////////////////////
URL地址采集+CMS识别
主程序main.exe   使用   进程守护(主进程  控制  子进程)
main.exe     多窗口   C start open_url.exe 线程号  服务器上运行
main2.exe    单窗口   C open_url.exe 线程号      本地测试不错
url采集程序open_url.exe
cms识别www_cms_1.exe   www_cms_2.exe(采用2种规则)
run_main_log.txt    main.exe  LOG文件   main.exe每启动一次会清空一次里面的内容

////////////////
数据库    软件使用MYSQL
server.ini   程序配置信息
[Server]
Server=127.0.0.1:3306    MYSQL 链接地址
Username=root            MYSQL 用户名
password=316118740       MYSQL 密码
db=url                   数据库名
如果采集线程过多请给MYSQL  连接数设置大点  1个采集1个链接
采集域名   按照域名后错名   自动创建表
主域名比如  ccc.com.cn  会是com_cn
2级域名不如 xxx.ccc.com.cn   会是2_com_cn

////////////////
域名采集   open_url.exe
server.ini   程序配置信息
[DATA]
TX_openrul=5             采集线程数
mysql_bm=co|la|com|com_cn|cn|cc|org|net|gov|net_cn   采集表  也可以设置二级域名表
BOOL_2com=1               1是0否    是否采集二级域名
BOOL_com_cn=0             1是0否    是否只采集指定后辍名
com_cn=.com|.cn|.cc|.org|.net|.gov    设置采集指定后辍名
main_url=open_url.exe     启动程序名
采集只会采集首页链接
xxxx.com.cn   如果无数据 在测试   www.xxxx.com.cn

////////////////
CMS识别
server.ini   程序配置信息
TX_www_cms=20                CMS识别进程数
mysql_CMS=co|la|com|com_cn|cn|cc|org|net|gov|net_cn|2_co|2_la|2_com|2_com_cn|2_cn|2_cc|2_org|2_net|2_gov|2_net_cn      需要CMS识别的表
post_url=http://218.244.137.19/cms2/cms.php    远程提交数据
cms_time=400              CMS识别超时   单线程状态下
BOOL_file=1               CMS识别结果是否保存到本地
main_cms=www_cms_1.exe  启动程序名close_open=120
close_open=120           软件自动重启/分钟
//cms  文件夹下是CMS识别方式
软件会遍历遍历cms文件夹下所有文件  把内容添加到数组     软件会自动去重重复数据

#URL链接文件(地址)|CMS名称|关键字|文件MD5
/special/index.html|DedeCMS|dedecms|
/favicon.ico|DedeCMS||21e51cee51c833c76dec691155d0d8a4|
/robots.txt|Discuz2x|discuz|2b5cb8618fba34f891ca7b59e232170a|

www_cms_1.exe   一个进程内置10个线程  比较消耗网络资源
使用的是  遍历整个数组  逐一比对
www_cms_2.exe  一个进程内置1个线程   比较消耗硬件资源
//出现个问题  比如CMS中很多都有  /robots.txt
//但是MD5值或者关键字都不一样
//可以写个数组我们检测过什么
//比如  /robots.txt  我们扫过了后面就不重复扫描了
就是会检测到  www.xxxx.com/robots.txt   存在
查询整个CMS数组里的  /robots.txt  进行匹配
在网后查询如果在出现/robots.txt  就跳过

////////////////
结果远程提交远程保存
("%s?url=%s&cms=%s&hand_url=%s&KEY_MD5=%s", DATA_post_url, url, cms, hand_url, key_md5)   软件中远程提交的参数
http://xxxxx.com/cms.php?url=bai ... 3c76dec691155d0d8a4
http://127.0.0.1/cms/conn.php
http://127.0.0.1/cms/cms.php?url ... 3c76dec691155d0d8a4
数量查询
SELECT MAX(cms),count(cms) AS cms FROM cms GROUP BY cms;
时间排序
SELECT * FROM `cms` order by time DESC

视频和软件下载地址  文件有点大传不上来
http://url.cn/RBVt1S

转载自 https://forum.eviloctal.com
下载地址:
温馨提示:此处内容需要评论本文后才能查看。
(2)

本文由 SAFEING 极客社区 作者:root 发表,转载请注明来源!

热评文章

评论:

7 条评论,访客:7 条,博主:0 条
  1. Aerostar сети
    Aerostar сети发布于: 

    谢谢分享

  2. d312r4t5
    d312r4t5发布于: 

    阿瑟东22

  3. test3444
    test3444发布于: 

    流弊了

  4. zz1234
    zz1234发布于: 

    谢谢分享啊

发表评论