.NET做人脸识别并分类

在游乐场、玻璃天桥、滑雪场等娱乐场所，经常能看到有摄影师在拍照片，令这些经营者发愁的一件事就是照片太多了，客户在成千上万张照片中找到自己可不是件容易的事。在一次游玩等活动或家庭聚会也同理，太多了照片导致挑选十分困难。

还好有.NET，只需少量代码，即可轻松找到人脸并完成分类。

本文将使用Microsoft Azure云提供的认知服务（Cognitive Services）API来识别并进行人脸分类，可以免费使用，注册地址是：https://portal.azure.com。注册完成后，会得到两个密钥，通过这个密钥即可完成本文中的所有代码，这个密钥长这个样子（非真实密钥）：

fa3a7bfd807ccd6b17cf559ad584cbaa

使用方法

首先安装NuGet包Microsoft.Azure.CognitiveServices.Vision.Face，目前最新版是2.5.0-preview.1，然后创建一个FaceClient：

string key = "fa3a7bfd807ccd6b17cf559ad584cbaa"; // 替换为你的key

using var fc = new FaceClient(new ApiKeyServiceClientCredentials(key))

{

    Endpoint = "https://southeastasia.api.cognitive.microsoft.com",

};

然后识别一张照片：

using var file = File.OpenRead(@"C:\Photos\DSC_996ICU.JPG");

IList<DetectedFace> faces = await fc.Face.DetectWithStreamAsync(file);

其中返回的faces是一个IList结构，很显然一次可以识别出多个人脸，其中一个示例返回结果如下（已转换为JSON）：

[

    {

      "FaceId": "9997b64e-6e62-4424-88b5-f4780d3767c6",

      "RecognitionModel": null,

      "FaceRectangle": {

        "Width": 174,

        "Height": 174,

        "Left": 62,

        "Top": 559

      },

      "FaceLandmarks": null,

      "FaceAttributes": null

    },

    {

      "FaceId": "8793b251-8cc8-45c5-ab68-e7c9064c4cfd",

      "RecognitionModel": null,

      "FaceRectangle": {

        "Width": 152,

        "Height": 152,

        "Left": 775,

        "Top": 580

      },

      "FaceLandmarks": null,

      "FaceAttributes": null

    }

  ]

可见，该照片返回了两个DetectedFace对象，它用FaceId保存了其Id，用于后续的识别，用FaceRectangle保存了其人脸的位置信息，可供对其做进一步操作。RecognitionModel、FaceLandmarks、FaceAttributes是一些额外属性，包括识别性别、年龄、表情等信息，默认不识别，如下图API所示，可以通过各种参数配置，非常好玩，有兴趣的可以试试：

最后，通过.GroupAsync来将之前识别出的多个faceId进行分类：

var faceIds = faces.Select(x => x.FaceId.Value).ToList();

GroupResult reslut = await fc.Face.GroupAsync(faceIds);

返回了一个GroupResult，其对象定义如下：

public class GroupResult

{

	public IList<IList<Guid>> Groups

	{

		get;

		set;

	}

	public IList<Guid> MessyGroup

	{

		get;

		set;

	}

    // ...

}

包含了一个Groups对象和一个MessyGroup对象，其中Groups是一个数据的数据，用于存放人脸的分组，MessyGroup用于保存未能找到分组的FaceId。

有了这个，就可以通过一小段简短的代码，将不同的人脸组，分别复制对应的文件夹中：

void CopyGroup(string outputPath, GroupResult result, Dictionary<Guid, (string file, DetectedFace face)> faces)

{

    foreach (var item in result.Groups

        .SelectMany((group, index) => group.Select(v => (faceId: v, index)))

        .Select(x => (info: faces[x.faceId], i: x.index + 1)).Dump())

    {

        string dir = Path.Combine(outputPath, item.i.ToString());

        Directory.CreateDirectory(dir);

        File.Copy(item.info.file, Path.Combine(dir, Path.GetFileName(item.info.file)), overwrite: true);

    }

    string messyFolder = Path.Combine(outputPath, "messy");

    Directory.CreateDirectory(messyFolder);

    foreach (var file in result.MessyGroup.Select(x => faces[x].file).Distinct())

    {

        File.Copy(file, Path.Combine(messyFolder, Path.GetFileName(file)), overwrite: true);

    }

}

然后就能得到运行结果，如图，我传入了102张照片，输出了15个分组和一个“未找到队友”的分组：

还能有什么问题？

就两个API调用而已，代码一把梭，感觉太简单了？其实不然，还会有很多问题。

图片太大，需要压缩

毕竟要把图片上传到云服务中，如果上传网速不佳，流量会挺大，而且现在的手机、单反、微单都能轻松达到好几千万像素，jpg大小轻松上10MB，如果不压缩就上传，一来流量和速度遭不住。

二来……其实Azure也不支持，文档(https://docs.microsoft.com/en-us/rest/api/cognitiveservices/face/face/detectwithstream)显示，最大仅支持6MB的图片，且图片大小应不大于1920x1080的分辨率：

JPEG, PNG, GIF (the first frame), and BMP format are supported. The allowed image file size is from 1KB to 6MB.

The minimum detectable face size is 36x36 pixels in an image no larger than 1920x1080 pixels. Images with dimensions higher than 1920x1080 pixels will need a proportionally larger minimum face size.

因此，如果图片太大，必须进行一定的压缩（当然如果图片太小，显然也没必要进行压缩了），使用.NET的Bitmap，并结合C# 8.0的switch expression，这个判断逻辑以及压缩代码可以一气呵成：

byte[] CompressImage(string image, int edgeLimit = 1920)

{

    using var bmp = Bitmap.FromFile(image);

    using var resized = (1.0 * Math.Max(bmp.Width, bmp.Height) / edgeLimit) switch

    {

        var x when x > 1 => new Bitmap(bmp, new Size((int)(bmp.Size.Width / x), (int)(bmp.Size.Height / x))),

        _ => bmp,

    };

    using var ms = new MemoryStream();

    resized.Save(ms, ImageFormat.Jpeg);

    return ms.ToArray();

}

竖立的照片

相机一般都是3:2的传感器，拍出来的照片一般都是横向的。但偶尔寻求一些构图的时候，我们也会选择纵向构图。虽然现在许多API都支持正负30度的侧脸，但竖着的脸API基本都是不支持的，如下图（实在找不到可以授权使用照片的模特了