开源情报之领英人脸情报收集,如何快速收集上亿张人脸情报

news2024/11/19 8:47:19

一.前言
先看应用例子:
残忍至极!乌克兰用人脸识别战死俄军,联系母亲打“心理战”
情报机构,所掌握的数据,可以是市面上流出的任何数据,比如市面上泄露的领英数据,facebook,twitter,这些数据可以作为开源情报的基础数据之一,用来将互联网与个人实体联系起来
所有的技术,第一服务目标是暴力,如果你是一个程序员,如何构建一个能联系起现实的庞大数据库,通过触手可及的互联网内容。先展示我的成果,再来讲述技术:
已经成功收集了几千万张这类头像

二.技术实现
SeetaFace6,爬虫
领英已经实现了严格的反爬措施,要爬取6亿条用户的头像,那就要找一个相对于好的弱项进行攻破;已知领英开发团队来之meta,meta程序员好给每个用户搞多个接口返回用户信息,例如badges页面,可以通过该页面,获取无穷无尽的用户头像
1.实现第一步,获取领英的账号地址,如果你是出色的情报人员,你手上应该有已经有了上亿的领英用户主页地址了,如果没有,你可以自己使用程序进行爬取,或者通过灰色渠道,这里写如何通过爬虫爬取:
爬虫实现技术,java selenium,使用现成领英账号登录后进行爬取
如何实现selenium的登录控制与特征抹除:

package com.util;
import org.openqa.selenium.Dimension;
import org.openqa.selenium.PageLoadStrategy;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
import org.openqa.selenium.logging.LogType;
import org.openqa.selenium.logging.LoggingPreferences;
import org.openqa.selenium.net.ChromeDriverProxy;
public class WebDriverTool {
	/**
	 * 获取web驱动
	 * 
	 * @return 浏览器驱动
	 */
	public ChromeDriver getWebDriver(String username) {

		System.setProperty("webdriver.chrome.driver", com.util.PropertyUtil.getvalue("chromedriver"));// 指定驱动路径
		// 设置浏览器参数
		ChromeOptions options = new ChromeOptions();
		Map<String, Object> prefs = new HashMap<String, Object>();
		prefs.put("credentials_enable_service", false);
		prefs.put("profile.password_manager_enabled", false);
		prefs.put("profile.password_manager_enabled", false);
		options.addArguments("user-data-dir=C:\\chrome\\"+username);//指定浏览器的运行文件存储地,领英账号登录后就可以保持长久的会话了
		/**
		excludeSwitches", Arrays.asList("enable-automation")在高版本的谷歌浏览器是无法屏蔽
		window.navigator.webdriver 为false 的特征,这里写出来是为了配合其他参数来关闭浏览器上显示"正在收到自动测试软件控制"的提示
		**/
		options.setExperimentalOption("excludeSwitches", Arrays.asList("enable-automation"));
		options.addArguments("--disable-blink-features");
		options.addArguments("--disable-blink-features=AutomationControlled");
		options.setExperimentalOption("useAutomationExtension", false);
		//options.addArguments("blink-settings=imagesEnabled=false");
		options.setExperimentalOption("prefs", prefs);
		// 创建驱动对象
		ChromeDriver driver = new ChromeDriver(options);
		//ChromeDriverProxy driver=new ChromeDriverProxy(options);
		driver.manage().window().setSize(new Dimension(1280, 1024));
		// 去除seleium全部指纹特征
		FileReader fileReader = new FileReader("C:\\lurk.js");
		String js = fileReader.readString();
		// MapBuilder是依赖hutool工具包的api
		Map<String, Object> commandMap = MapBuilder.create(new LinkedHashMap<String, Object>()).put("source", js).build();
		// executeCdpCommand这个api在selenium3中是没有的,请使用selenium4才能使用此api
		((ChromeDriver) driver).executeCdpCommand("Page.addScriptToEvaluateOnNewDocument", commandMap);
		return driver ;
	}
	
}

lurk.js 文件是控制特征去除的js片段,下载地址:https://download.csdn.net/download/qq_19383667/88444628
使用selenium进行账号登录后,找到:https://sg.linkedin.com/in/li-hao-74581548 这个页面,你会发现,只需要知道领英用户主页地址,即可快速批量的获得用户的头像文件,而且访问一个地址,你就能获取几十张额外的头像与用户主页地址

同名推荐
url对应的正主
同公司地域行业的推荐
到这里基本上能完成很多头像的收集

2.SeetaFace6实现头像切割与特征收集
该项目java版地址:https://gitee.com/cnsugar/seetaface6JNI,特征识别方法为:

try {
							BufferedImage user = ImageIO.read(new File(downpath));
							if (user != null) {
								float[] s = FaceHelper.extractMaxFace(user);
								ArrayList<Float> list = new ArrayList<Float>();
								if (s != null) {
									for (int i = 0; i < s.length; i++) {
										list.add(s[i]);
									}
									JSONArray maxfacecode = JSONArray.fromObject(list);
									maxfacecode_str = maxfacecode.toString();//数字化的人脸特征值,后期直接可用用作人脸对比
									
								}
							}
						} catch (IOException e) {
							// TODO Auto-generated catch block
							e.printStackTrace();
						}

这里已经能收集很多人脸的数据了,领英的价值在于可以将该处人脸特征作为基础数据,与推特,facebook社交内容做交互,快速识别人员身份

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1109659.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

万能DIY预约小程序源码系统 上门预约服务小程序搭建 适用于各种预约场景 自由DIY功能模块

在这个快节奏的时代&#xff0c;预约服务已经成为了我们日常生活的一部分。从看病挂号到餐厅预订&#xff0c;从美发美容到家政服务&#xff0c;预约已经深入到了各个领域。然而&#xff0c;传统的预约方式存在着许多不便&#xff0c;如电话预约、在线填写表格等&#xff0c;不…

python小游戏:小球碰撞

创建带图形界面的游戏通常需要使用图形库。Python有很多图形库&#xff0c;其中比较流行的包括Pygame, PyOpenGL, Panda3D等。在这里&#xff0c;我将用Pygame作为示例来编写一个简单的游戏。 在运行下面的代码之前&#xff0c;请确保你已经安装了Pygame库。你可以使用以下命令…

ASCII (American Standard Code for Information Interchange)

ASCII (American Standard Code for Information Interchange)美国信息交换标准代码

Python基础--PART1

最近闲来无事&#xff0c;学习使用Python也有好几年了&#xff0c;一直没有系统的总结&#xff0c;现在有时间就写一写个人的一些拙见。 PART1. 核心语法(基础语法) 1. 变量 1.1 变量的定义 ​ 变量就是可变的量&#xff0c;对于一些有可能会经常变化的数据&#xff0c;我们…

负荷不均衡问题分析处理流程

一、负荷不均衡分析 负荷不均衡判断标准&#xff1a;4G同覆盖扇区内存在无线利用率大于50%的小区&#xff0c;且两两小区间无线利用率差值大于30%&#xff0c;判定为4G负荷不均衡扇区&#xff1b;5G同覆盖扇区内存在无线利用率大于50%的小区&#xff0c;且两两小区间无线利用率…

梦幻西游手游详细图文架设教程

前言 提到梦幻西游&#xff0c;大家肯定不陌生。在 2001 年正式上线&#xff0c;它成为了很多人的第一款网游&#xff0c;陪伴了一代又一代的玩家成长。没错&#xff0c;今天要架设的就是梦幻西游手游&#xff01; 本文讲解梦幻西游手游架设教程&#xff0c;经典的职业、音乐、…

服务器数据恢复-RAID5中磁盘被踢导致阵列崩溃的服务器数据恢复案例

服务器数据恢复环境&#xff1a; 一台3U的某品牌机架式服务器&#xff0c;Windows server操作系统&#xff0c;100块SAS硬盘组建RAID5阵列。 服务器故障&#xff1a; 服务器有一块硬盘盘的指示灯亮黄灯&#xff0c;这块盘被raid卡踢出后&#xff0c;raid阵列崩溃。 服务器数据…

安防视频监控系统EasyCVR视频汇聚存储平台定制化开发:新增kafka配置

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快&#xff0c;可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等&#xff0c;以及支持厂家私有协议与SDK接入&#xff0c;包括海康Ehome、海大宇等设备的SDK等。平台可拓展性强、…

【自动化测试】基于Selenium + Python的web自动化框架

一、什么是Selenium&#xff1f; Selenium是一个基于浏览器的自动化工具&#xff0c;她提供了一种跨平台、跨浏览器的端到端的web自动化解决方案。Selenium主要包括三部分&#xff1a;Selenium IDE、Selenium WebDriver 和Selenium Grid&#xff1a;  1、Selenium IDE&…

深圳金媒人红娘专业介绍-避免遇到相亲翻车

从古至今&#xff0c;单身男生女生都非常多&#xff0c;大部分单身人群又在急于脱单的过程中&#xff0c;一不小心就容易遇到相亲p局&#xff0c;这就翻车啦&#xff01; 深圳金媒人红娘提醒&#xff1a;找对象更应该懂得防范&#xff0c;要学会选择正规的相亲网站&#xff0c;…

iOS QQ登录SDK升级后报错Duplicate interface definition for class ‘TencentOAuth‘修复

起因 最近发现QQ登录SDK sdk-Lite3.3.8 TencentOpenAPI 在部分手机上会崩溃到初始化位置&#xff0c; 比如&#xff1a;iPhone6p 版本12.5.4&#xff0c;iPhone8p 版本14.1&#xff0c;iPad版本12.5.6 但是在iPhone 12以上的手机都没遇到这个问题 所以怀疑是QQ 登录 SDK版本…

Bootstrap的表单组件相关知识

01-最基本的表单组件使用示例 示例代码如下&#xff1a; <!DOCTYPE html> <html> <head><meta charset"UTF-8"><title>使用表单组件</title><meta name"viewport" content"widthdevice-width,initial-scale…

Practical Deep Raw Image Denoisingon Mobile Devices

Abstract 近年来&#xff0c;基于深度学习的图像去噪方法得到了广泛的研究&#xff0c;并在许多公共基准数据集中盛行。然而&#xff0c;最先进的网络计算成本太高&#xff0c;无法直接应用于移动设备。在这项工作中&#xff0c;我们提出了一种轻量级、高效的基于神经网络的原…

easyexcel操作之名称匹配

简单说下需求 现在我有一个excel表格&#xff0c;里面有两张表&#xff0c;分别是a_name表&#xff0c;b_name表&#xff0c;我要在这两张表的基础上新建一张a_b_name表&#xff0c;这张表匹配a,b表的名称&#xff0c;品牌名一样则放在同一行。 示例&#xff1a; a_name表 …

月入10.3K,苦逼土木狗转行5G网路优化工程师:对象没了之后,我选择转行!

如果要去某乎平台搜大学生第一劝退专业&#xff0c;土木专业当之无愧。熬夜打灰、肤色比拼、领导大饼……是土木交流贴吧群常见热词。初入土木纷纷立下的“年轻人不怕吃苦的”flag接连打破&#xff0c;提桶跑路似乎成了土木最终归宿。 今天采访的主人公也是万千苦逼土木人中的一…

【苍穹外卖 | 项目日记】第七天

前言&#xff1a; 昨天晚上巨难受&#xff0c;学完之后实在不想写项目日记了&#xff0c;所以就偷了一下懒&#xff0c;今天早上补上昨天的项目日记 目录 前言&#xff1a; 今日完结任务&#xff1a; 今日收获&#xff1a; 学习订单支付的接口&#xff1a; 杂项知识点&…

正确选择数据库安全运维平台的几个原则

目前市面上数据库安全运维平台比较多&#xff0c;企业选择时候往往很纠结&#xff0c;这里我们小编就给大家总结了几个正确选择数据库安全运维平台的原则&#xff0c;希望对大家有用哦&#xff01; 正确选择数据库安全运维平台的几个原则 1、明确自己的需求 不同数据库安全运…

Maven系列第7篇:聚合、继承、单继承问题详解,必备技能!

maven系列目标&#xff1a;从入门开始开始掌握一个高级开发所需要的maven技能。 这是maven系列第7篇。 整个maven系列的内容前后是有依赖的&#xff0c;如果之前没有接触过maven&#xff0c;建议从第一篇看起&#xff0c;本文尾部有maven完整系列的连接。 本篇内容 maven中聚…

数据结构与算法之图: Leetcode 65. 有效数字 (Typescript版)

有效数字 https://leetcode.cn/problems/valid-number/ 描述 有效数字&#xff08;按顺序&#xff09;可以分成以下几个部分&#xff1a; 一个 小数 或者 整数&#xff08;可选&#xff09;一个 ‘e’ 或 ‘E’ &#xff0c;后面跟着一个 整数 小数&#xff08;按顺序&#…

Talk | 阿里巴巴算法专家王潇斌:开箱即用的文本理解大模型

本期为TechBeat人工智能社区第538期线上Talk&#xff01; 北京时间10月18日(周三)20:00阿里巴巴算法专家—王潇斌的Talk已准时在TechBeat人工智能社区开播&#xff01; 他与大家分享的主题是: “开箱即用的文本理解大模型”&#xff0c;介绍了他们提出的SeqGPT以及EcomGPT两个文…