一种基于预取的钓鱼网页检测方法专利登记公告
专利名称:一种基于预取的钓鱼网页检测方法
摘要:基于预取的钓鱼网页检测方法涉及网站信息获取、拓扑特征的提取、分类,主要解决了钓鱼网页检测能力问题。该方法以用户界面模块1为界面、总控模块2为中心,调度分类器模块3、特征提取模块4和网页预取模块5。其中分类器模块首先需要从训练集训练,并采用增量更新的方式,保证该分类器保持对新的钓鱼网页的检测能力。特征提取模块主要提取所预取的网站拓扑结构特征,该特征将被保存在训练集数据库中,同时传递给分类器模块。网页预取模块根据总控模块的指令抓取给定网址一定数量的网页,并保存到网页数据库中。本发明提出基于预取的钓鱼检测方法,
专利类型:发明专利
专利号:CN201010102071.4
专利申请(专利权)人:南京邮电大学
专利发明(设计)人:张卫丰;贡亮;周国强;张迎周
主权项:一种基于预取的钓鱼网页检测方法,其特征在于在钓鱼网页检测过程中通过爬虫预取一定数量的网页,在此基础上提取网站拓扑特征,以此作为钓鱼网页检测的依据,分类器采用增量学习方法,保证了分类器的及时更新,具体实现步骤为:步骤1)网络爬虫获取初始训练集的过程:使用网络爬虫采集m个正规网站即非钓鱼网站的数据,其中m>=200,并抽取出特征量组织成实例数据;使用网络爬虫采集n个钓鱼网站的数据,其中m>=200,并抽取出特征量组织成实例数据,步骤2)训练集的标定过程:将所有钓鱼网站实例数据中分类属性全部填写为“true”,
专利地区:江苏
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。