From patchwork Tue Sep 18 16:16:29 2018
Content-Type: text/plain; charset="utf-8"
MIME-Version: 1.0
Content-Transfer-Encoding: 7bit
X-Patchwork-Submitter: "Jason A. Donenfeld" <jason@zx2c4.com>
X-Patchwork-Id: 146911
Delivered-To: patch@linaro.org
Received: by 2002:a2e:1648:0:0:0:0:0 with SMTP id 8-v6csp64332ljw;
 Tue, 18 Sep 2018 09:18:21 -0700 (PDT)
X-Google-Smtp-Source: ANB0VdbOH+rlZOLfUCzcRxaRZSxtTuHbT5DrAhGOdVUeo3vWwO2x3vr44uDCOgQkz2kszP6GjViH
X-Received: by 2002:a17:902:b08f:: with SMTP id
 p15-v6mr3044044plr.296.1537287496754; 
 Tue, 18 Sep 2018 09:18:16 -0700 (PDT)
ARC-Seal: i=1; a=rsa-sha256; t=1537287496; cv=none;
 d=google.com; s=arc-20160816;
 b=quBDJImRCgL3UzLn3TT+sf5ygGfJj0gMf/El37VFbS1svOhwkKw+esX6qV2tsIAoTV
 h+GqudV1nzPvsIQvZQm6uGKirPCtzzDE84BlebLLMQrQGUHRSEonnoJcNPFYEIPwvwAt
 WdVQ2KhXyKDmlFETJpqe6QCdYq8S+7mdFi4+js1fF1ERKcEsntqL/QhtvLpg4xf0ynW4
 CNySDlcBg8ABJq/naUCGWwNAeIOo13SlfN+YLvzZr+X6dp/U6/Cf+lZfjbpHwrQQ4wEe
 4N579g4KPjNSZft6SVDgaa/HVNHDIF1G/1+rwZiC3lyBPVk1yZHKnAmKOgFVeSXcnQUE
 ZmyQ==
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=google.com;
 s=arc-20160816; 
 h=list-id:precedence:sender:content-transfer-encoding:mime-version
 :references:in-reply-to:message-id:date:subject:cc:to:from
 :dkim-signature;
 bh=zhw4eDmQJWaN2VStBXW18RSTPDmYpB89f6qcBsReWEQ=;
 b=hoYyLOdeUzov+m2rOdj9euhM2xoczhbt958YUjSdnlMpjLzetuEe+6iVMN56LXWnUM
 AOFRw1KA3aThyiKbX5Acqp1km0gkplxVncMyHFyPtRTwT0iDstsVHWzAf9jU7E2jYhBP
 jsVrR1PoOrKqAFQOYYCZbvsWG8EViOEMI8hTYZqRojNq6IHP9e7C4s5UiGEZePvr6aOH
 L+GrcM2+tA2NnexYVAR69R7ZcscsOYm/7cJZP1pD5gRyFQcipGoRq2nB+6u0/sGjXkCM
 qljR7Hi0si43jXoOpwSteY3MVvxomLqHOyhnxn02Y8zCacTeRc8SS21n9NVSG1/J77as
 SGZQ==
ARC-Authentication-Results: i=1; mx.google.com;
 dkim=pass header.i=@zx2c4.com header.s=mail header.b=WKu6XbT7;
 spf=pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) smtp.mailfrom=netdev-owner@vger.kernel.org; 
 dmarc=pass (p=NONE sp=NONE dis=NONE) header.from=zx2c4.com
Return-Path: <netdev-owner@vger.kernel.org>
Received: from vger.kernel.org (vger.kernel.org. [209.132.180.67])
 by mx.google.com with ESMTP id
 v9-v6si19923535pfg.123.2018.09.18.09.18.12; 
 Tue, 18 Sep 2018 09:18:16 -0700 (PDT)
Received-SPF: pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) client-ip=209.132.180.67; 
Authentication-Results: mx.google.com;
 dkim=pass header.i=@zx2c4.com header.s=mail header.b=WKu6XbT7;
 spf=pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) smtp.mailfrom=netdev-owner@vger.kernel.org; 
 dmarc=pass (p=NONE sp=NONE dis=NONE) header.from=zx2c4.com
Received: (majordomo@vger.kernel.org) by vger.kernel.org via listexpand
 id S1730250AbeIRVuv (ORCPT <rfc822;naresh.kamboju@linaro.org>
 + 10 others); Tue, 18 Sep 2018 17:50:51 -0400
Received: from frisell.zx2c4.com ([192.95.5.64]:57805 "EHLO frisell.zx2c4.com"
 rhost-flags-OK-OK-OK-OK) by vger.kernel.org with ESMTP
 id S1729905AbeIRVuu (ORCPT <rfc822;netdev@vger.kernel.org>);
 Tue, 18 Sep 2018 17:50:50 -0400
Received: by frisell.zx2c4.com (ZX2C4 Mail Server) with ESMTP id 7faad02f;
 Tue, 18 Sep 2018 15:59:53 +0000 (UTC)
DKIM-Signature: v=1; a=rsa-sha1; c=relaxed; d=zx2c4.com; h=from:to:cc
 :subject:date:message-id:in-reply-to:references:mime-version
 :content-transfer-encoding; s=mail; bh=LbTDJo+M3jHypcrtDy3qxh1o0
 Qc=; b=WKu6XbT7gvKWgamUSUZwBhfJQajHo3lBpY3f1ZzKrBm/JH/glfU7Ou1cD
 UFus5kqqwYuOUDbe3fMP+t1j9qsKVNf23FsYGeDv24ZRdep/qrym6LfF0U514ztw
 jL/Pch5wAt8Qp/3uQB9GqkKAUxPwJ6HZupMnfkzrx+rFJLbE7nixpSyCkQWFk0Rh
 iROYp9ta6IKQjrpU4UCzvElVAVghdgIO+94gEZ9epMX5Dvz6CvxG7OU3pyEtEtnN
 58YkA/8BqzzpuD6EcDKmf/XbQ/5dVXO4xWBvW2Q/G9XUgsM98bSdpu0NTunthGs4
 cibVI4ynvDL5B2kRPqkwigJ/UUJ5A==
Received: by frisell.zx2c4.com (ZX2C4 Mail Server) with ESMTPSA id 5c024547
 (TLSv1.2:ECDHE-RSA-AES256-GCM-SHA384:256:NO); 
 Tue, 18 Sep 2018 15:59:47 +0000 (UTC)
From: "Jason A. Donenfeld" <Jason@zx2c4.com>
To: linux-kernel@vger.kernel.org, netdev@vger.kernel.org,
 linux-crypto@vger.kernel.org, davem@davemloft.net,
 gregkh@linuxfoundation.org
Cc: "Jason A. Donenfeld" <Jason@zx2c4.com>, Samuel Neves <sneves@dei.uc.pt>,
 Andy Lutomirski <luto@kernel.org>,
 Jean-Philippe Aumasson <jeanphilippe.aumasson@gmail.com>
Subject: [PATCH net-next v5 03/20] zinc: ChaCha20 generic C implementation
 and selftest
Date: Tue, 18 Sep 2018 18:16:29 +0200
Message-Id: <20180918161646.19105-4-Jason@zx2c4.com>
In-Reply-To: <20180918161646.19105-1-Jason@zx2c4.com>
References: <20180918161646.19105-1-Jason@zx2c4.com>
MIME-Version: 1.0
Sender: netdev-owner@vger.kernel.org
Precedence: bulk
List-ID: <netdev.vger.kernel.org>
X-Mailing-List: netdev@vger.kernel.org

This implements the ChaCha20 permutation as a single C statement, by way
of the comma operator, which the compiler is able to simplify
terrifically.

Information: https://cr.yp.to/chacha.html

Signed-off-by: Jason A. Donenfeld <Jason@zx2c4.com>
Cc: Samuel Neves <sneves@dei.uc.pt>
Cc: Andy Lutomirski <luto@kernel.org>
Cc: Greg KH <gregkh@linuxfoundation.org>
Cc: Jean-Philippe Aumasson <jeanphilippe.aumasson@gmail.com>
---
 include/zinc/chacha20.h      |   52 ++
 lib/zinc/Kconfig             |    4 +
 lib/zinc/Makefile            |    3 +
 lib/zinc/chacha20/chacha20.c |  193 ++++++
 lib/zinc/selftest/chacha20.h | 1182 ++++++++++++++++++++++++++++++++++
 5 files changed, 1434 insertions(+)
 create mode 100644 include/zinc/chacha20.h
 create mode 100644 lib/zinc/chacha20/chacha20.c
 create mode 100644 lib/zinc/selftest/chacha20.h

-- 
2.19.0

diff --git a/include/zinc/chacha20.h b/include/zinc/chacha20.h
new file mode 100644
index 000000000000..afad69409f5f
--- /dev/null
+++ b/include/zinc/chacha20.h
@@ -0,0 +1,52 @@
+/* SPDX-License-Identifier: MIT
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ */
+
+#ifndef _ZINC_CHACHA20_H
+#define _ZINC_CHACHA20_H
+
+#include <asm/unaligned.h>
+#include <linux/simd.h>
+#include <linux/kernel.h>
+#include <linux/types.h>
+
+enum {
+	CHACHA20_IV_SIZE = 16,
+	CHACHA20_KEY_SIZE = 32,
+	CHACHA20_BLOCK_SIZE = 64,
+	CHACHA20_BLOCK_WORDS = CHACHA20_BLOCK_SIZE / sizeof(u32),
+	HCHACHA20_KEY_SIZE = 32,
+	HCHACHA20_NONCE_SIZE = 16
+};
+
+struct chacha20_ctx {
+	u32 key[8];
+	u32 counter[4];
+} __aligned(32);
+
+static inline void chacha20_init(struct chacha20_ctx *state,
+				 const u8 key[CHACHA20_KEY_SIZE],
+				 const u64 nonce)
+{
+	state->key[0] = get_unaligned_le32(key + 0);
+	state->key[1] = get_unaligned_le32(key + 4);
+	state->key[2] = get_unaligned_le32(key + 8);
+	state->key[3] = get_unaligned_le32(key + 12);
+	state->key[4] = get_unaligned_le32(key + 16);
+	state->key[5] = get_unaligned_le32(key + 20);
+	state->key[6] = get_unaligned_le32(key + 24);
+	state->key[7] = get_unaligned_le32(key + 28);
+	state->counter[0] = state->counter[1] = 0;
+	state->counter[2] = nonce & U32_MAX;
+	state->counter[3] = nonce >> 32;
+}
+void chacha20(struct chacha20_ctx *state, u8 *dst, const u8 *src, u32 len,
+	      simd_context_t *simd_context);
+
+/* Derived key should be 32-bit aligned */
+void hchacha20(u8 derived_key[CHACHA20_KEY_SIZE],
+	       const u8 nonce[HCHACHA20_NONCE_SIZE],
+	       const u8 key[HCHACHA20_KEY_SIZE], simd_context_t *simd_context);
+
+#endif /* _ZINC_CHACHA20_H */
diff --git a/lib/zinc/Kconfig b/lib/zinc/Kconfig
index 4e2e59126a67..1ca1ae1e9ea9 100644
--- a/lib/zinc/Kconfig
+++ b/lib/zinc/Kconfig
@@ -1,3 +1,7 @@
+config ZINC_CHACHA20
+	tristate
+	select CRYPTO_ALGAPI
+
 config ZINC_DEBUG
 	bool "Zinc cryptography library debugging and self-tests"
 	help
diff --git a/lib/zinc/Makefile b/lib/zinc/Makefile
index 83dfd63988c0..83b320f1ace2 100644
--- a/lib/zinc/Makefile
+++ b/lib/zinc/Makefile
@@ -2,3 +2,6 @@ ccflags-y := -O3
 ccflags-y += -Wframe-larger-than=$(if (CONFIG_KASAN),16384,8192)
 ccflags-y += -D'pr_fmt(fmt)="zinc: " fmt'
 ccflags-$(CONFIG_ZINC_DEBUG) += -DDEBUG
+
+zinc_chacha20-y := chacha20/chacha20.o
+obj-$(CONFIG_ZINC_CHACHA20) += zinc_chacha20.o
diff --git a/lib/zinc/chacha20/chacha20.c b/lib/zinc/chacha20/chacha20.c
new file mode 100644
index 000000000000..3f00e1edd4c8
--- /dev/null
+++ b/lib/zinc/chacha20/chacha20.c
@@ -0,0 +1,193 @@
+/* SPDX-License-Identifier: MIT
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ *
+ * Implementation of the ChaCha20 stream cipher.
+ *
+ * Information: https://cr.yp.to/chacha.html
+ */
+
+#include <zinc/chacha20.h>
+
+#include <linux/kernel.h>
+#include <linux/module.h>
+#include <linux/init.h>
+#include <crypto/algapi.h>
+
+#ifndef HAVE_CHACHA20_ARCH_IMPLEMENTATION
+void __init chacha20_fpu_init(void)
+{
+}
+static inline bool chacha20_arch(u8 *out, const u8 *in, const size_t len,
+				 const u32 key[8], const u32 counter[4],
+				 simd_context_t *simd_context)
+{
+	return false;
+}
+static inline bool hchacha20_arch(u8 *derived_key, const u8 *nonce,
+				  const u8 *key, simd_context_t *simd_context)
+{
+	return false;
+}
+#endif
+
+#define EXPAND_32_BYTE_K 0x61707865U, 0x3320646eU, 0x79622d32U, 0x6b206574U
+
+#define QUARTER_ROUND(x, a, b, c, d) ( \
+	x[a] += x[b], \
+	x[d] = rol32((x[d] ^ x[a]), 16), \
+	x[c] += x[d], \
+	x[b] = rol32((x[b] ^ x[c]), 12), \
+	x[a] += x[b], \
+	x[d] = rol32((x[d] ^ x[a]), 8), \
+	x[c] += x[d], \
+	x[b] = rol32((x[b] ^ x[c]), 7) \
+)
+
+#define C(i, j) (i * 4 + j)
+
+#define DOUBLE_ROUND(x) ( \
+	/* Column Round */ \
+	QUARTER_ROUND(x, C(0, 0), C(1, 0), C(2, 0), C(3, 0)), \
+	QUARTER_ROUND(x, C(0, 1), C(1, 1), C(2, 1), C(3, 1)), \
+	QUARTER_ROUND(x, C(0, 2), C(1, 2), C(2, 2), C(3, 2)), \
+	QUARTER_ROUND(x, C(0, 3), C(1, 3), C(2, 3), C(3, 3)), \
+	/* Diagonal Round */ \
+	QUARTER_ROUND(x, C(0, 0), C(1, 1), C(2, 2), C(3, 3)), \
+	QUARTER_ROUND(x, C(0, 1), C(1, 2), C(2, 3), C(3, 0)), \
+	QUARTER_ROUND(x, C(0, 2), C(1, 3), C(2, 0), C(3, 1)), \
+	QUARTER_ROUND(x, C(0, 3), C(1, 0), C(2, 1), C(3, 2)) \
+)
+
+#define TWENTY_ROUNDS(x) ( \
+	DOUBLE_ROUND(x), \
+	DOUBLE_ROUND(x), \
+	DOUBLE_ROUND(x), \
+	DOUBLE_ROUND(x), \
+	DOUBLE_ROUND(x), \
+	DOUBLE_ROUND(x), \
+	DOUBLE_ROUND(x), \
+	DOUBLE_ROUND(x), \
+	DOUBLE_ROUND(x), \
+	DOUBLE_ROUND(x) \
+)
+
+static void chacha20_block_generic(__le32 *stream, u32 *state)
+{
+	u32 x[CHACHA20_BLOCK_WORDS];
+	int i;
+
+	for (i = 0; i < ARRAY_SIZE(x); ++i)
+		x[i] = state[i];
+
+	TWENTY_ROUNDS(x);
+
+	for (i = 0; i < ARRAY_SIZE(x); ++i)
+		stream[i] = cpu_to_le32(x[i] + state[i]);
+
+	++state[12];
+}
+
+static void chacha20_generic(u8 *out, const u8 *in, u32 len, const u32 key[8],
+			     const u32 counter[4])
+{
+	__le32 buf[CHACHA20_BLOCK_WORDS];
+	u32 x[] = {
+		EXPAND_32_BYTE_K,
+		key[0], key[1], key[2], key[3],
+		key[4], key[5], key[6], key[7],
+		counter[0], counter[1], counter[2], counter[3]
+	};
+
+	if (out != in)
+		memmove(out, in, len);
+
+	while (len >= CHACHA20_BLOCK_SIZE) {
+		chacha20_block_generic(buf, x);
+		crypto_xor(out, (u8 *)buf, CHACHA20_BLOCK_SIZE);
+		len -= CHACHA20_BLOCK_SIZE;
+		out += CHACHA20_BLOCK_SIZE;
+	}
+	if (len) {
+		chacha20_block_generic(buf, x);
+		crypto_xor(out, (u8 *)buf, len);
+	}
+}
+
+void chacha20(struct chacha20_ctx *state, u8 *dst, const u8 *src, u32 len,
+	      simd_context_t *simd_context)
+{
+	if (!chacha20_arch(dst, src, len, state->key, state->counter,
+			   simd_context))
+		chacha20_generic(dst, src, len, state->key, state->counter);
+	state->counter[0] += (len + 63) / 64;
+}
+EXPORT_SYMBOL(chacha20);
+
+static void hchacha20_generic(u8 derived_key[CHACHA20_KEY_SIZE],
+			      const u8 nonce[HCHACHA20_NONCE_SIZE],
+			      const u8 key[HCHACHA20_KEY_SIZE])
+{
+	__le32 *out = (__force __le32 *)derived_key;
+	u32 x[] = { EXPAND_32_BYTE_K,
+		    get_unaligned_le32(key + 0),
+		    get_unaligned_le32(key + 4),
+		    get_unaligned_le32(key + 8),
+		    get_unaligned_le32(key + 12),
+		    get_unaligned_le32(key + 16),
+		    get_unaligned_le32(key + 20),
+		    get_unaligned_le32(key + 24),
+		    get_unaligned_le32(key + 28),
+		    get_unaligned_le32(nonce + 0),
+		    get_unaligned_le32(nonce + 4),
+		    get_unaligned_le32(nonce + 8),
+		    get_unaligned_le32(nonce + 12)
+	};
+
+	TWENTY_ROUNDS(x);
+
+	out[0] = cpu_to_le32(x[0]);
+	out[1] = cpu_to_le32(x[1]);
+	out[2] = cpu_to_le32(x[2]);
+	out[3] = cpu_to_le32(x[3]);
+	out[4] = cpu_to_le32(x[12]);
+	out[5] = cpu_to_le32(x[13]);
+	out[6] = cpu_to_le32(x[14]);
+	out[7] = cpu_to_le32(x[15]);
+}
+
+/* Derived key should be 32-bit aligned */
+void hchacha20(u8 derived_key[CHACHA20_KEY_SIZE],
+	       const u8 nonce[HCHACHA20_NONCE_SIZE],
+	       const u8 key[HCHACHA20_KEY_SIZE], simd_context_t *simd_context)
+{
+	if (!hchacha20_arch(derived_key, nonce, key, simd_context))
+		hchacha20_generic(derived_key, nonce, key);
+}
+EXPORT_SYMBOL(hchacha20);
+
+#include "../selftest/chacha20.h"
+
+static bool nosimd __initdata = false;
+
+static int __init mod_init(void)
+{
+	if (!nosimd)
+		chacha20_fpu_init();
+#ifdef DEBUG
+	if (!chacha20_selftest())
+		return -ENOTRECOVERABLE;
+#endif
+	return 0;
+}
+
+static void __exit mod_exit(void)
+{
+}
+
+module_param(nosimd, bool, 0);
+module_init(mod_init);
+module_exit(mod_exit);
+MODULE_LICENSE("GPL v2");
+MODULE_DESCRIPTION("ChaCha20 stream cipher");
+MODULE_AUTHOR("Jason A. Donenfeld <Jason@zx2c4.com>");
diff --git a/lib/zinc/selftest/chacha20.h b/lib/zinc/selftest/chacha20.h
new file mode 100644
index 000000000000..f591460a854a
--- /dev/null
+++ b/lib/zinc/selftest/chacha20.h
@@ -0,0 +1,1182 @@
+/* SPDX-License-Identifier: MIT
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ */
+
+#ifdef DEBUG
+
+enum { MAXIMUM_TEST_BUFFER_LEN = 800 };
+
+struct chacha20_testvec {
+	u8 key[CHACHA20_KEY_SIZE];
+	u64 nonce;
+	u8 input[MAXIMUM_TEST_BUFFER_LEN];
+	u8 result[MAXIMUM_TEST_BUFFER_LEN];
+	size_t ilen;
+};
+
+/*
+ * #!/usr/bin/env python3
+ *
+ * import chacha20
+ * import os
+ * import struct
+ *
+ * def encode_blob(blob):
+ * 	a = ""
+ * 	x = 0
+ * 	for i in blob:
+ * 		a += ('0x%02x' % i) + ","
+ * 		x += 1
+ * 		if x % 8 == 0:
+ * 			a += "\n\t\t    "
+ * 		else:
+ * 			a += " "
+ * 	if x % 8 == 0:
+ * 		return a[:len(a) - 8]
+ * 	return a[:len(a) - 2]
+ *
+ * enc = [ ]
+ * dec = [ ]
+ *
+ * def make_vector(plen):
+ * 	key = os.urandom(32)
+ * 	nonce = os.urandom(8)
+ * 	p = os.urandom(plen)
+ * 	c = chacha20.chacha20_encrypt(p, key, nonce)
+ *
+ * 	out = "{\n"
+ * 	out += "\t.key\t= { " + encode_blob(key) + " },\n"
+ * 	out += "\t.nonce\t= " + hex(struct.unpack("<Q", nonce)[0]) + "ULL,\n"
+ * 	out += "\t.input\t= { " + encode_blob(p) + " },\n"
+ * 	out += "\t.ilen\t= " + str(len(p)) + ",\n"
+ * 	out += "\t.result\t= { " + encode_blob(c) + " }\n"
+ * 	out += "}"
+ * 	enc.append(out)
+ *
+ * block_size = 64
+ *
+ * make_vector(1)
+ * make_vector(63)
+ * make_vector(64)
+ * make_vector(127)
+ * make_vector(250)
+ * make_vector(256)
+ * make_vector(280)
+ * make_vector(511)
+ * make_vector(512)
+ * make_vector(513)
+ * make_vector(514)
+ * make_vector(769)
+ *
+ * print(", ".join(enc))
+ */
+
+static const struct chacha20_testvec
+chacha20_vectors[] __initconst = {{
+	.key	= { 0x8e, 0xee, 0x50, 0x40, 0xb2, 0x76, 0x80, 0xeb,
+		    0xd8, 0x7e, 0xf2, 0x5a, 0xcf, 0x25, 0xd6, 0x6c,
+		    0x9e, 0xc8, 0x3d, 0x0c, 0xf7, 0x05, 0x00, 0x40,
+		    0xa0, 0x75, 0x66, 0x86, 0xdf, 0x8d, 0xac, 0x77 },
+	.nonce	= 0x37d4e0484f294097ULL,
+	.input	= { 0xe1 },
+	.ilen	= 1,
+	.result	= { 0xf1 }
+}, {
+	.key	= { 0x23, 0xe2, 0x3b, 0x3a, 0x22, 0xd2, 0xfb, 0x69,
+		    0x92, 0xcc, 0x0a, 0xda, 0x48, 0x21, 0x33, 0x8f,
+		    0x57, 0x58, 0x08, 0x17, 0xca, 0xe5, 0x56, 0x08,
+		    0x71, 0x86, 0x91, 0xc7, 0xae, 0x64, 0x4d, 0xfd },
+	.nonce	= 0xe0c627c7e1a4b012ULL,
+	.input	= { 0x83, 0x95, 0x1c, 0xc6, 0x8a, 0x53, 0x92, 0x6a,
+		    0x3f, 0x1e, 0x67, 0x17, 0x0b, 0x2b, 0x45, 0x04,
+		    0xaf, 0x5a, 0x75, 0x59, 0xb7, 0xab, 0x80, 0xde,
+		    0xa4, 0x8f, 0xda, 0x03, 0xfd, 0xda, 0xe1, 0x7e,
+		    0x75, 0x99, 0x44, 0x6f, 0xea, 0x75, 0x26, 0x68,
+		    0xcc, 0x20, 0xe0, 0x7c, 0xf1, 0x09, 0x31, 0x44,
+		    0xba, 0xb9, 0xe8, 0x7f, 0xce, 0x5e, 0x89, 0x6d,
+		    0x0d, 0x4d, 0x20, 0x93, 0x52, 0x91, 0x85 },
+	.ilen	= 63,
+	.result	= { 0xa1, 0x32, 0xec, 0xab, 0x86, 0x35, 0x99, 0x88,
+		    0xc0, 0xef, 0xae, 0x69, 0x64, 0xa3, 0xba, 0xcb,
+		    0xb9, 0x44, 0x24, 0x92, 0x9f, 0x33, 0xdb, 0xc0,
+		    0x7f, 0xe5, 0x39, 0xa8, 0x57, 0x2a, 0x29, 0x5f,
+		    0xdc, 0xc4, 0xee, 0x7f, 0xcd, 0xd9, 0x5f, 0x0b,
+		    0x49, 0xc2, 0x9a, 0xa2, 0x5e, 0x5a, 0x37, 0x3d,
+		    0x7a, 0x1e, 0x66, 0xc6, 0xd1, 0xb9, 0xcb, 0x98,
+		    0xc0, 0xd1, 0xc8, 0xc5, 0xf9, 0x3d, 0xed }
+}, {
+	.key	= { 0x09, 0x5c, 0x71, 0xde, 0x41, 0x76, 0x2d, 0x48,
+		    0x4f, 0x58, 0xec, 0x0e, 0x62, 0x00, 0x73, 0x04,
+		    0x03, 0x47, 0x04, 0x8a, 0x4c, 0xd7, 0x52, 0x5a,
+		    0x7b, 0x84, 0x36, 0xbf, 0x8a, 0xdb, 0xeb, 0xf5 },
+	.nonce	= 0x45a98ae9d6bf5373ULL,
+	.input	= { 0x40, 0x3d, 0x31, 0x7d, 0x63, 0xba, 0xec, 0xd8,
+		    0xa6, 0x73, 0xc4, 0x8c, 0x40, 0xc3, 0xaa, 0x3b,
+		    0xca, 0x03, 0x52, 0xa0, 0xe8, 0x3f, 0xb6, 0x21,
+		    0x3f, 0x07, 0xb1, 0xb3, 0x14, 0x94, 0xf8, 0x36,
+		    0xb3, 0x06, 0x33, 0x1e, 0xb1, 0x05, 0x94, 0x53,
+		    0x1f, 0xee, 0x16, 0x8e, 0xcd, 0x0f, 0x38, 0x41,
+		    0x1f, 0x4d, 0x12, 0x60, 0xec, 0x88, 0x42, 0x2a,
+		    0xca, 0x3e, 0x84, 0x33, 0x13, 0x17, 0xeb, 0x04 },
+	.ilen	= 64,
+	.result	= { 0x48, 0x0e, 0x7f, 0x54, 0xe6, 0x3e, 0x98, 0x81,
+		    0xc6, 0x1d, 0x5a, 0x1b, 0x4d, 0xaf, 0x27, 0x3c,
+		    0xce, 0xd7, 0x98, 0x05, 0x92, 0xdb, 0xb9, 0x24,
+		    0xef, 0xbc, 0x6a, 0x01, 0xb9, 0x61, 0xb9, 0xf9,
+		    0x66, 0xee, 0xc9, 0x30, 0xf5, 0x48, 0xb1, 0xde,
+		    0xcd, 0xe9, 0x4d, 0x05, 0x2f, 0xea, 0x2c, 0xdf,
+		    0x32, 0xc1, 0x43, 0x50, 0x31, 0x1d, 0x0a, 0x3a,
+		    0x4e, 0x24, 0xd3, 0x69, 0xc6, 0x18, 0x23, 0xdb }
+}, {
+	.key	= { 0x5d, 0x01, 0xdf, 0xe5, 0xbc, 0xf6, 0xaf, 0x04,
+		    0x11, 0xda, 0xef, 0x43, 0x6b, 0xdf, 0xdd, 0xb8,
+		    0xa6, 0xc6, 0x4a, 0xbd, 0xa4, 0xb3, 0xba, 0xf6,
+		    0xce, 0x2f, 0xf8, 0x34, 0xbb, 0xdd, 0x22, 0x42 },
+	.nonce	= 0x70faa08a4184e385ULL,
+	.input	= { 0xb8, 0x06, 0x92, 0x20, 0xc7, 0x7c, 0xb2, 0x01,
+		    0x3e, 0xf6, 0x73, 0x6c, 0x74, 0x48, 0x72, 0xec,
+		    0x5a, 0x38, 0xfa, 0x36, 0x39, 0x39, 0xff, 0x3c,
+		    0x81, 0x91, 0x99, 0x0b, 0x29, 0xec, 0xed, 0x4c,
+		    0x53, 0x9a, 0x24, 0xce, 0x4b, 0xcf, 0x8d, 0x36,
+		    0x2b, 0xf1, 0x8b, 0x0a, 0x36, 0xdc, 0xf8, 0xdc,
+		    0x5a, 0x77, 0x64, 0xca, 0x5f, 0x06, 0xf8, 0xb8,
+		    0xc2, 0xa3, 0x69, 0x0d, 0x2f, 0x2f, 0xa5, 0x39,
+		    0x94, 0xc6, 0x83, 0xe3, 0x20, 0x48, 0x8b, 0xb7,
+		    0x58, 0x26, 0xd0, 0x39, 0x2a, 0x4f, 0x7b, 0x66,
+		    0xda, 0x52, 0x0d, 0xa9, 0x5b, 0xb3, 0x44, 0x57,
+		    0x38, 0x86, 0x6a, 0xba, 0xa7, 0x86, 0x44, 0x82,
+		    0xfb, 0xa8, 0xe8, 0x9d, 0x08, 0x1c, 0x3a, 0xce,
+		    0x92, 0x02, 0x61, 0xb6, 0x3e, 0x81, 0xcb, 0x44,
+		    0x12, 0x44, 0xf8, 0x2f, 0x53, 0x62, 0xbd, 0xfb,
+		    0x3e, 0x9f, 0x65, 0x19, 0xae, 0xc8, 0x4f },
+	.ilen	= 127,
+	.result	= { 0x0e, 0x37, 0xd1, 0x08, 0x6c, 0x55, 0xc5, 0x88,
+		    0x33, 0x0a, 0xbd, 0x6e, 0x24, 0xb1, 0x00, 0xdd,
+		    0xb0, 0x43, 0x1f, 0x5a, 0x20, 0x06, 0xfb, 0xa5,
+		    0x00, 0x7c, 0xb4, 0x86, 0x58, 0x46, 0x55, 0x6c,
+		    0xa2, 0x28, 0xd7, 0x55, 0x51, 0xd5, 0xf1, 0xa8,
+		    0x43, 0x06, 0xc4, 0x50, 0xd3, 0x6f, 0x44, 0x21,
+		    0x9c, 0xce, 0x29, 0x89, 0xc2, 0x79, 0x20, 0x8f,
+		    0x76, 0xfe, 0x3a, 0xef, 0xdd, 0x59, 0x21, 0x94,
+		    0xe4, 0xe2, 0xa3, 0x3c, 0x08, 0x74, 0xe7, 0xb5,
+		    0x99, 0xf3, 0x8a, 0x88, 0xad, 0xb1, 0x98, 0x31,
+		    0xd2, 0x2a, 0x36, 0xda, 0xdf, 0x2c, 0x4c, 0xcd,
+		    0xd6, 0xed, 0xe2, 0xca, 0x54, 0xa0, 0x72, 0x0d,
+		    0xce, 0x16, 0xe3, 0xa7, 0x2d, 0x93, 0x2b, 0x07,
+		    0x18, 0x3f, 0xdb, 0x14, 0xd0, 0x00, 0x26, 0xe4,
+		    0x48, 0xa6, 0xe4, 0x59, 0xb7, 0xec, 0xbc, 0xee,
+		    0xba, 0x5e, 0x7e, 0xae, 0xf2, 0xd8, 0x91 }
+}, {
+	.key	= { 0x92, 0x58, 0xaa, 0xf5, 0x07, 0x8f, 0xa3, 0xdd,
+		    0xc6, 0x97, 0x32, 0x34, 0xd6, 0x96, 0xca, 0xc1,
+		    0x6d, 0xf3, 0xef, 0xfe, 0x44, 0x32, 0x82, 0xa4,
+		    0x52, 0x26, 0xf2, 0x69, 0xfb, 0xbf, 0x24, 0xc8 },
+	.nonce	= 0xf66f76ba3ce150e4ULL,
+	.input	= { 0x69, 0x3d, 0xd7, 0xa9, 0x86, 0xf7, 0x64, 0xac,
+		    0x5b, 0x0d, 0xd3, 0xa8, 0x4a, 0xf8, 0xc9, 0x12,
+		    0xa9, 0x2a, 0xc2, 0x28, 0x14, 0x02, 0x48, 0x7a,
+		    0x64, 0xeb, 0x5b, 0x5a, 0xce, 0x79, 0xca, 0x86,
+		    0xa4, 0x60, 0xe6, 0xbe, 0x56, 0x29, 0x50, 0x2d,
+		    0xbd, 0x44, 0x88, 0xf8, 0x92, 0xf7, 0x60, 0xe7,
+		    0xb1, 0xf4, 0x8b, 0x44, 0xbf, 0x25, 0x4d, 0xc8,
+		    0x6b, 0x2e, 0xdc, 0x9e, 0xe8, 0x0f, 0x38, 0x3b,
+		    0x48, 0x8c, 0x9c, 0x30, 0xd8, 0x18, 0xf5, 0xcd,
+		    0x85, 0x69, 0x71, 0x99, 0xe3, 0xb0, 0x23, 0x11,
+		    0x26, 0xf5, 0x84, 0x15, 0x3f, 0xb8, 0xfb, 0xf4,
+		    0xee, 0x9a, 0xc2, 0x79, 0xe6, 0x92, 0x6f, 0x4d,
+		    0x8a, 0x62, 0xcb, 0x38, 0x37, 0x44, 0x84, 0x09,
+		    0xc6, 0xf7, 0xa1, 0x48, 0xf1, 0xa1, 0xf7, 0x1b,
+		    0x87, 0x8e, 0xd0, 0xef, 0xa2, 0x1e, 0x32, 0x8e,
+		    0x9b, 0xdc, 0x0e, 0xa4, 0xf1, 0x94, 0x25, 0x1b,
+		    0x9b, 0x3c, 0x50, 0xdd, 0x41, 0x99, 0xd0, 0x96,
+		    0x60, 0xde, 0xbd, 0xed, 0x0b, 0x9a, 0xa4, 0xcb,
+		    0x2d, 0x2e, 0xd6, 0xdf, 0x97, 0xe0, 0xea, 0x87,
+		    0x12, 0xe1, 0x9b, 0x30, 0xe8, 0x6f, 0x01, 0x25,
+		    0x0c, 0xa4, 0xc1, 0xd4, 0x0e, 0xca, 0x07, 0x46,
+		    0xd9, 0x4b, 0x5d, 0x03, 0xcb, 0x8d, 0xcf, 0x55,
+		    0xe2, 0x62, 0x61, 0x10, 0x86, 0xf9, 0xf5, 0xe8,
+		    0xfe, 0x2f, 0xc5, 0xbc, 0x27, 0x2a, 0x1b, 0x1b,
+		    0x43, 0x4e, 0xb7, 0xd7, 0x18, 0x7b, 0xcf, 0x7a,
+		    0x5b, 0xa5, 0x18, 0x72, 0xa4, 0xa7, 0x24, 0x9f,
+		    0x6a, 0x12, 0xe7, 0x44, 0xb5, 0x45, 0x8c, 0xd5,
+		    0x53, 0xba, 0x2c, 0xaf, 0xaf, 0x3f, 0xe7, 0x12,
+		    0x45, 0xbd, 0x61, 0x68, 0xde, 0xc3, 0x38, 0xa8,
+		    0x5b, 0xbe, 0xc8, 0x7b, 0xab, 0xab, 0x21, 0x75,
+		    0x95, 0x8e, 0xb7, 0x98, 0xb8, 0x76, 0x69, 0xf8,
+		    0xf4, 0x70 },
+	.ilen	= 250,
+	.result	= { 0xd6, 0xfc, 0x21, 0x55, 0x85, 0x12, 0xa2, 0xd2,
+		    0x1c, 0x22, 0x96, 0xd6, 0xfe, 0x61, 0x24, 0x75,
+		    0x0c, 0xaa, 0x90, 0xe9, 0x0b, 0xe1, 0x72, 0xc8,
+		    0xb5, 0xcb, 0x17, 0x95, 0x9e, 0x30, 0x7c, 0x23,
+		    0x69, 0x5f, 0x7a, 0x71, 0x34, 0xac, 0x47, 0x18,
+		    0x0a, 0x9e, 0x39, 0x71, 0x2a, 0xff, 0x5a, 0xba,
+		    0x35, 0x1b, 0x60, 0xc2, 0xe8, 0x10, 0x2d, 0xbf,
+		    0x75, 0xf8, 0x2f, 0x2a, 0x0e, 0x01, 0x67, 0x4e,
+		    0xaf, 0xb5, 0xf3, 0x1c, 0xa1, 0x62, 0x7e, 0x22,
+		    0x2d, 0x17, 0x3c, 0x73, 0x03, 0x4f, 0xff, 0xb2,
+		    0x47, 0xae, 0x68, 0x63, 0x95, 0xcf, 0x66, 0x0e,
+		    0x22, 0xdf, 0x6c, 0x8b, 0xb4, 0xee, 0x3a, 0xb3,
+		    0x5d, 0x0d, 0xd3, 0x33, 0x16, 0x13, 0x45, 0x59,
+		    0x42, 0x74, 0x9f, 0xc5, 0xfb, 0xc6, 0x20, 0x88,
+		    0x33, 0x41, 0x55, 0x28, 0x61, 0x33, 0x9f, 0x80,
+		    0x57, 0x39, 0x26, 0xe4, 0x3b, 0x98, 0xcd, 0x6b,
+		    0xef, 0x10, 0x33, 0x20, 0xee, 0x18, 0x3a, 0x59,
+		    0x89, 0x4a, 0x1a, 0xc3, 0xdf, 0xb2, 0x5b, 0x0b,
+		    0x08, 0x1f, 0xaa, 0xaa, 0x8e, 0x54, 0xd3, 0x10,
+		    0xf7, 0xc2, 0xce, 0x68, 0x06, 0x06, 0x3e, 0x39,
+		    0x13, 0x0f, 0x43, 0xfd, 0x3b, 0x61, 0xc7, 0xfd,
+		    0x92, 0xf2, 0x0b, 0xe7, 0xa2, 0x60, 0xd8, 0xd8,
+		    0x00, 0xe1, 0x18, 0x77, 0x13, 0xb8, 0xa4, 0xa8,
+		    0xc0, 0x60, 0x55, 0x96, 0x2d, 0x6a, 0x69, 0x72,
+		    0x05, 0xa7, 0x27, 0xe5, 0x05, 0x20, 0x22, 0xcf,
+		    0xcf, 0xd5, 0x26, 0x70, 0x1d, 0x76, 0x97, 0xd6,
+		    0x93, 0x71, 0xd4, 0x0a, 0xe2, 0x5e, 0x47, 0x54,
+		    0x42, 0x6e, 0xb0, 0xea, 0xa9, 0x8b, 0x73, 0x2c,
+		    0xc7, 0xbb, 0x2d, 0x64, 0xfd, 0xcf, 0x23, 0x33,
+		    0xb1, 0x93, 0x0c, 0x32, 0x66, 0x1e, 0x26, 0x7a,
+		    0x8c, 0xb6, 0xfa, 0x85, 0x44, 0x35, 0x02, 0xce,
+		    0x05, 0xf6 }
+}, {
+	.key	= { 0x56, 0x5b, 0x3a, 0xc9, 0xa6, 0x55, 0x34, 0xa2,
+		    0xb3, 0xaf, 0x33, 0xed, 0x9d, 0xed, 0x97, 0xfa,
+		    0x13, 0x1b, 0x06, 0x50, 0x09, 0x02, 0xa1, 0x93,
+		    0xe4, 0xa8, 0x3b, 0xd5, 0x8f, 0xc9, 0xa0, 0xc2 },
+	.nonce	= 0x88663f30a2aa338ULL,
+	.input	= { 0x9a, 0x2a, 0x04, 0xa0, 0x09, 0x55, 0x05, 0xfc,
+		    0x17, 0x80, 0x12, 0x6a, 0x78, 0x63, 0xe6, 0x55,
+		    0x13, 0xb7, 0x1e, 0x42, 0x67, 0x86, 0x01, 0x61,
+		    0x42, 0x74, 0x9a, 0x08, 0x46, 0xac, 0x69, 0x3a,
+		    0x10, 0x24, 0x18, 0x97, 0x3b, 0x85, 0xfb, 0x40,
+		    0x5a, 0x77, 0x5b, 0xf3, 0x6b, 0x77, 0xf0, 0x1e,
+		    0x41, 0xba, 0x38, 0x7d, 0xa1, 0x23, 0x9b, 0xd3,
+		    0x58, 0x59, 0x58, 0x34, 0xa9, 0x03, 0xb3, 0x43,
+		    0x9f, 0x5b, 0xe3, 0x1d, 0xf5, 0x9f, 0x8a, 0xdc,
+		    0x99, 0x99, 0x45, 0xb0, 0x72, 0xe0, 0xa0, 0x81,
+		    0xed, 0x7e, 0x2c, 0x21, 0x3d, 0xf2, 0xad, 0xfd,
+		    0xde, 0x9a, 0xf0, 0x40, 0xe7, 0xce, 0x1f, 0xc2,
+		    0x34, 0x2b, 0xf9, 0xc9, 0x52, 0x71, 0x0c, 0xa6,
+		    0x8a, 0x64, 0x90, 0xd0, 0xcf, 0x28, 0x8d, 0xc6,
+		    0x1c, 0x44, 0xd3, 0xdc, 0x24, 0x2a, 0x57, 0x79,
+		    0xc9, 0xa1, 0xb2, 0x38, 0x33, 0x20, 0xa2, 0xd0,
+		    0x59, 0x6e, 0xb9, 0x27, 0x06, 0xdb, 0xaf, 0x7d,
+		    0xed, 0x74, 0x8d, 0x34, 0xbc, 0x3f, 0x89, 0x42,
+		    0xe0, 0x28, 0x59, 0x2b, 0x8a, 0x3f, 0x42, 0xc5,
+		    0x69, 0x55, 0x1d, 0x8e, 0xa2, 0xba, 0xda, 0x01,
+		    0x68, 0x7f, 0x5d, 0xbd, 0x06, 0xa6, 0x95, 0xa7,
+		    0xad, 0x60, 0xf4, 0x5a, 0x43, 0x62, 0x8f, 0x69,
+		    0x9a, 0xc3, 0xd1, 0x89, 0xd3, 0xfe, 0xc8, 0x2d,
+		    0x4d, 0xdd, 0x1c, 0x07, 0xfa, 0x3f, 0xaa, 0x7e,
+		    0xfd, 0x90, 0xff, 0x6b, 0x35, 0x5e, 0x23, 0x0d,
+		    0x38, 0x16, 0x00, 0xc7, 0x00, 0xa0, 0xb2, 0x37,
+		    0x1e, 0x18, 0xdf, 0xa1, 0x18, 0xbc, 0x21, 0x88,
+		    0x80, 0x8f, 0x8c, 0xf8, 0x0c, 0x83, 0x69, 0xd6,
+		    0x89, 0x0e, 0xe9, 0xbc, 0x69, 0x11, 0x3b, 0x17,
+		    0xa1, 0x44, 0x4c, 0xf4, 0x02, 0x9e, 0x3a, 0x8f,
+		    0xaf, 0xbc, 0xcc, 0x4f, 0x46, 0x42, 0x7d, 0x63,
+		    0x9d, 0x95, 0x8d, 0xa7, 0x9d, 0xf9, 0x73, 0xc0 },
+	.ilen	= 256,
+	.result	= { 0x79, 0x75, 0xce, 0x01, 0x53, 0x9b, 0x03, 0x24,
+		    0x1b, 0x28, 0x10, 0x70, 0x98, 0xd8, 0x43, 0x4d,
+		    0x48, 0xba, 0xa2, 0xfb, 0x44, 0x08, 0xff, 0xac,
+		    0x59, 0x91, 0xb2, 0x4c, 0x8b, 0x76, 0x99, 0x79,
+		    0x56, 0x9b, 0x61, 0x69, 0x3c, 0x75, 0xef, 0xbf,
+		    0x4b, 0x22, 0x91, 0x58, 0xd9, 0x54, 0xaa, 0xba,
+		    0xe7, 0x20, 0xf5, 0xba, 0x4a, 0xe0, 0xbc, 0x23,
+		    0x3d, 0x2d, 0x39, 0x82, 0xad, 0x74, 0x01, 0x4d,
+		    0x2d, 0xd8, 0x42, 0x3d, 0x94, 0x42, 0x48, 0x31,
+		    0x40, 0x81, 0xc0, 0x24, 0xeb, 0xf8, 0xa3, 0xa0,
+		    0x51, 0x2e, 0x70, 0x7a, 0x6e, 0xfe, 0xa2, 0xae,
+		    0x49, 0x4b, 0x60, 0x76, 0x1c, 0x82, 0x5a, 0xe5,
+		    0xcd, 0x0e, 0x17, 0xd4, 0x0e, 0x50, 0x22, 0x7f,
+		    0xd9, 0xd8, 0x5e, 0x60, 0x45, 0xd7, 0x98, 0xa6,
+		    0xc1, 0x01, 0xc8, 0x45, 0x18, 0x37, 0x9f, 0xd1,
+		    0x26, 0x61, 0xd4, 0x74, 0x7f, 0x44, 0xd3, 0xad,
+		    0xf0, 0x20, 0xa1, 0x75, 0x8d, 0xaa, 0xf0, 0x26,
+		    0xad, 0xf7, 0x83, 0x45, 0xb5, 0x6f, 0xd0, 0xf9,
+		    0xa3, 0xa9, 0x7b, 0xdf, 0xfd, 0x90, 0x30, 0xa9,
+		    0x66, 0x25, 0x19, 0xd6, 0xcb, 0x16, 0xfb, 0xb1,
+		    0x8b, 0x33, 0x0b, 0x78, 0x8f, 0x40, 0xe0, 0x58,
+		    0x99, 0x3d, 0xd7, 0xfe, 0xd6, 0x2c, 0x84, 0xfd,
+		    0x74, 0x99, 0xea, 0x0c, 0x24, 0x18, 0x2a, 0x1c,
+		    0x46, 0xc0, 0xdc, 0xdf, 0xd0, 0x62, 0x03, 0x10,
+		    0x68, 0x37, 0xb1, 0x3f, 0x45, 0x97, 0xf3, 0xe5,
+		    0x2e, 0xd3, 0xe1, 0x9d, 0x84, 0x57, 0x1c, 0x71,
+		    0x3e, 0xb9, 0x5b, 0x42, 0xc4, 0xaa, 0x84, 0xf0,
+		    0x47, 0x42, 0x5d, 0xed, 0xde, 0x80, 0x3e, 0xde,
+		    0xed, 0xac, 0xeb, 0x3f, 0x13, 0xaa, 0x6f, 0x8a,
+		    0x10, 0xaa, 0x97, 0x64, 0x28, 0x06, 0x2c, 0xaf,
+		    0xfc, 0x71, 0x55, 0x45, 0x8b, 0xd1, 0x31, 0xc7,
+		    0x29, 0xdf, 0xd2, 0x93, 0x43, 0xad, 0xe9, 0x75 }
+}, {
+	.key	= { 0x70, 0x11, 0x81, 0x4d, 0x0f, 0xf3, 0x69, 0xe9,
+		    0x16, 0x2e, 0x24, 0x94, 0x7a, 0x7b, 0xeb, 0x6c,
+		    0x8d, 0xfa, 0xc1, 0x89, 0xaf, 0x79, 0x67, 0xec,
+		    0xe3, 0x0c, 0x74, 0x3d, 0xeb, 0x0e, 0x7c, 0x52 },
+	.nonce	= 0x8a3a75f2adc47f8fULL,
+	.input	= { 0xfa, 0xc3, 0xca, 0xf1, 0xdd, 0x0c, 0xf3, 0xbb,
+		    0xbe, 0x51, 0x0f, 0xea, 0x1f, 0x09, 0xda, 0x68,
+		    0xfa, 0xb2, 0x0d, 0xa9, 0xc6, 0xb3, 0x2b, 0x0c,
+		    0x8a, 0xd6, 0x3f, 0xd6, 0x2e, 0x9d, 0x0e, 0x01,
+		    0xdf, 0x58, 0xf2, 0x02, 0x2d, 0x16, 0x54, 0x69,
+		    0x0e, 0xff, 0x23, 0x01, 0x84, 0x9c, 0xa7, 0xfc,
+		    0x3e, 0xd6, 0xb7, 0x32, 0x4e, 0xa9, 0x5d, 0xc1,
+		    0xb7, 0x62, 0x2d, 0x52, 0xda, 0x95, 0x17, 0x56,
+		    0xf2, 0xa7, 0x81, 0x16, 0x12, 0x5a, 0xab, 0x0b,
+		    0x65, 0x5e, 0xad, 0xe5, 0xbc, 0xee, 0xe9, 0xd7,
+		    0x03, 0xe3, 0x18, 0x50, 0xed, 0xcc, 0xef, 0xd8,
+		    0x59, 0xaa, 0x83, 0x01, 0xbc, 0x61, 0x9c, 0x5f,
+		    0xa3, 0x72, 0x4a, 0x47, 0xce, 0x14, 0x7c, 0x13,
+		    0xb9, 0xe9, 0xc3, 0xba, 0xb0, 0xc6, 0x4d, 0xb8,
+		    0xb2, 0x02, 0xc1, 0xbf, 0x6a, 0xb6, 0xcb, 0x65,
+		    0x05, 0xaa, 0xdb, 0x35, 0x4e, 0x78, 0x5c, 0xbd,
+		    0x9f, 0xef, 0x58, 0x75, 0x55, 0x49, 0x93, 0xb4,
+		    0xd0, 0x21, 0x44, 0x8e, 0x05, 0xb8, 0xbe, 0xa9,
+		    0x72, 0x33, 0x8e, 0x9b, 0xa3, 0xf7, 0x38, 0x97,
+		    0xf7, 0x25, 0xb6, 0x4b, 0x44, 0xbb, 0xc6, 0x45,
+		    0x55, 0xb9, 0x64, 0xbf, 0x43, 0xf6, 0x51, 0x0d,
+		    0xde, 0xa3, 0xc5, 0xda, 0x45, 0x03, 0x7c, 0x7b,
+		    0xf4, 0xd2, 0x1c, 0xce, 0x38, 0xa9, 0x0e, 0x2d,
+		    0x90, 0x80, 0x1d, 0x5d, 0xca, 0x18, 0xdc, 0x53,
+		    0x31, 0x42, 0xaa, 0x92, 0xfb, 0x59, 0xac, 0x8b,
+		    0x57, 0x25, 0xa8, 0xf0, 0xc1, 0x55, 0x4a, 0x16,
+		    0xdb, 0xa4, 0xf7, 0xfd, 0xe1, 0x49, 0x31, 0x6f,
+		    0xb5, 0x5c, 0x69, 0x9d, 0xc2, 0x98, 0x3e, 0x9c,
+		    0xf5, 0x51, 0x52, 0xdc, 0x2f, 0x0e, 0x90, 0x5f,
+		    0x41, 0x88, 0x3a, 0x69, 0x1c, 0x91, 0x69, 0x97,
+		    0xcb, 0xa5, 0x86, 0x52, 0xf7, 0x98, 0x64, 0x04,
+		    0x47, 0x60, 0x6f, 0x32, 0x3b, 0xe2, 0x7b, 0x33,
+		    0x0a, 0x79, 0x53, 0xad, 0x97, 0xa5, 0xc9, 0x1b,
+		    0x8b, 0x5d, 0xfd, 0x1e, 0x51, 0x36, 0x2a, 0x7e,
+		    0x0c, 0xdd, 0x0d, 0x0a, 0xc1, 0xf8, 0xb9, 0x77 },
+	.ilen	= 280,
+	.result	= { 0x9b, 0x42, 0x0b, 0x62, 0x0c, 0x90, 0x82, 0x01,
+		    0x6d, 0x87, 0x1d, 0x33, 0xb2, 0x9d, 0x54, 0x8b,
+		    0x1b, 0xc1, 0xe5, 0x3b, 0x50, 0xcf, 0x2a, 0x49,
+		    0x3d, 0xcf, 0x7b, 0x70, 0xd5, 0xa2, 0x6c, 0x9b,
+		    0x55, 0x72, 0x3b, 0x70, 0xbb, 0x99, 0xf3, 0xfd,
+		    0x34, 0x87, 0xa6, 0x72, 0x77, 0x56, 0x36, 0x05,
+		    0x5f, 0xde, 0x34, 0x9c, 0xb9, 0x26, 0x24, 0x6e,
+		    0x28, 0x64, 0x30, 0x99, 0xc2, 0xfd, 0xc1, 0x6f,
+		    0x27, 0x30, 0x8a, 0x1d, 0xf5, 0x68, 0xd1, 0x99,
+		    0xc8, 0x79, 0xb5, 0x40, 0xbc, 0xd2, 0x5d, 0xfc,
+		    0x6d, 0x57, 0x65, 0x35, 0x77, 0x9a, 0x1f, 0x3c,
+		    0xba, 0x73, 0x76, 0xf3, 0xdb, 0xe9, 0x18, 0x64,
+		    0xe6, 0x7e, 0xc9, 0xf3, 0xa6, 0xb2, 0xbf, 0xf0,
+		    0xa1, 0xcd, 0xd5, 0x03, 0xdd, 0x1e, 0x00, 0x07,
+		    0xba, 0x76, 0x7d, 0x46, 0x48, 0xf1, 0x7d, 0xb7,
+		    0x78, 0xd5, 0x9a, 0xdf, 0x80, 0x18, 0xd2, 0xad,
+		    0x97, 0xc7, 0xbd, 0xeb, 0x5a, 0xab, 0x17, 0x92,
+		    0x4b, 0x93, 0xd3, 0x39, 0x18, 0xef, 0xbb, 0xfe,
+		    0x89, 0x6d, 0x7d, 0x1d, 0xd3, 0x86, 0x4d, 0xfd,
+		    0x3f, 0x67, 0xfc, 0x9b, 0xfe, 0x4e, 0x9e, 0xe7,
+		    0xfb, 0x9f, 0x45, 0x8a, 0xd4, 0xd9, 0x0c, 0x30,
+		    0x90, 0xb8, 0xef, 0xc7, 0x18, 0x04, 0x09, 0x67,
+		    0xdf, 0x57, 0xe7, 0x30, 0x45, 0x91, 0xe3, 0xa6,
+		    0x73, 0x4a, 0x83, 0x6e, 0x92, 0x1e, 0xe5, 0xad,
+		    0x56, 0x1b, 0x86, 0x5c, 0xc3, 0x52, 0x58, 0x01,
+		    0xe7, 0xb9, 0x2e, 0xdc, 0x96, 0xee, 0x4c, 0x65,
+		    0x5a, 0xd7, 0x19, 0x6b, 0xfa, 0xa3, 0x0b, 0xf4,
+		    0xec, 0xab, 0xb5, 0xb2, 0xf8, 0xdd, 0x23, 0xff,
+		    0xe6, 0xa6, 0x55, 0x75, 0xcb, 0xb1, 0xa7, 0xed,
+		    0x6a, 0xa8, 0x60, 0x1a, 0x61, 0x64, 0x2a, 0xbc,
+		    0x73, 0xed, 0xa7, 0x54, 0x0d, 0x79, 0xc9, 0xc6,
+		    0x14, 0x6c, 0x78, 0xb1, 0x14, 0x10, 0x47, 0x80,
+		    0x76, 0xb7, 0x81, 0xac, 0x09, 0xf5, 0x12, 0x2d,
+		    0x21, 0x9c, 0x79, 0xd9, 0x37, 0xae, 0x2a, 0x51,
+		    0x41, 0x1e, 0x9e, 0x7f, 0x0d, 0x4b, 0x17, 0x87 }
+}, {
+	.key	= { 0x23, 0xa3, 0x7e, 0x3a, 0xe4, 0x66, 0xb7, 0x86,
+		    0x7b, 0xdb, 0xf1, 0xdf, 0x76, 0x65, 0x4a, 0x70,
+		    0xc4, 0x93, 0x4d, 0xf4, 0xc1, 0x0e, 0xc1, 0x69,
+		    0xce, 0x43, 0xed, 0x9f, 0x48, 0x36, 0xa3, 0x03 },
+	.nonce	= 0xbc7df621eb115af2ULL,
+	.input	= { 0x11, 0x32, 0xa9, 0x18, 0x65, 0x15, 0x25, 0x2e,
+		    0x9a, 0xbb, 0x0c, 0x25, 0x96, 0x1e, 0xbf, 0x89,
+		    0x71, 0x7f, 0x18, 0x3a, 0x33, 0xf2, 0x9d, 0x85,
+		    0x23, 0x4d, 0x1f, 0x91, 0x44, 0x75, 0x08, 0xee,
+		    0xe0, 0x2d, 0xab, 0x1d, 0x8f, 0xab, 0x0e, 0x3f,
+		    0xe7, 0x3d, 0x43, 0x3d, 0x19, 0x49, 0xfc, 0xb2,
+		    0xf1, 0xc3, 0x53, 0x41, 0x0b, 0x35, 0xda, 0xd1,
+		    0x8c, 0x18, 0x9e, 0xb7, 0x1b, 0xa2, 0x5a, 0xfd,
+		    0x8a, 0xa4, 0xc2, 0xf4, 0x8d, 0x98, 0x01, 0x53,
+		    0xb8, 0x82, 0xf5, 0x53, 0x5c, 0xfe, 0x6d, 0x7d,
+		    0x63, 0x21, 0x46, 0x16, 0x29, 0x9a, 0xcf, 0x20,
+		    0xb3, 0xf7, 0xd2, 0x7f, 0xb4, 0x30, 0x90, 0xbd,
+		    0x95, 0xc2, 0xd2, 0xc0, 0x14, 0x84, 0xd3, 0x4a,
+		    0xf0, 0x12, 0xa6, 0xa8, 0xe8, 0x55, 0x97, 0xb2,
+		    0x0c, 0xee, 0x25, 0xf7, 0x94, 0xef, 0xae, 0xf7,
+		    0xbb, 0xe2, 0x64, 0x7d, 0xe2, 0xdc, 0x0f, 0x6b,
+		    0x7c, 0xa6, 0xe4, 0x71, 0x38, 0x44, 0x3d, 0xcd,
+		    0x0d, 0x94, 0xe9, 0x52, 0x6a, 0xb0, 0x8e, 0xd5,
+		    0x20, 0xe8, 0x60, 0x9c, 0xde, 0x92, 0xfc, 0x67,
+		    0x4e, 0xc3, 0x02, 0x6c, 0x6e, 0xd7, 0x56, 0x0a,
+		    0x00, 0x81, 0xc8, 0xd0, 0x26, 0x3c, 0x9a, 0x97,
+		    0x98, 0xfa, 0x10, 0x0e, 0xad, 0xeb, 0x7e, 0xdc,
+		    0x41, 0x58, 0x68, 0xf8, 0xa4, 0x70, 0x95, 0x2d,
+		    0x8f, 0x00, 0xd2, 0xcf, 0x9e, 0x57, 0x9e, 0xa7,
+		    0xe8, 0x11, 0x4c, 0xfc, 0x64, 0x51, 0x64, 0x11,
+		    0x85, 0xef, 0x47, 0xf5, 0xd3, 0x98, 0xda, 0x48,
+		    0x7e, 0x04, 0x55, 0x95, 0x4b, 0xc1, 0xc8, 0x42,
+		    0x66, 0x7c, 0xc9, 0x2c, 0xb6, 0xde, 0xc9, 0x3b,
+		    0x3d, 0x2b, 0x94, 0x88, 0xbf, 0x07, 0xd4, 0xe9,
+		    0x88, 0x61, 0x12, 0xb6, 0x3e, 0x2c, 0x14, 0x7f,
+		    0xea, 0x6d, 0x0a, 0xd9, 0x64, 0xf0, 0x3d, 0x57,
+		    0x82, 0x4a, 0xab, 0x57, 0x65, 0xba, 0x34, 0xca,
+		    0x22, 0x4d, 0xa8, 0xb5, 0xfe, 0xc2, 0x0a, 0xb4,
+		    0x0a, 0xb2, 0x05, 0x8d, 0x28, 0xc3, 0x5d, 0xee,
+		    0x40, 0xae, 0x48, 0x16, 0xeb, 0x60, 0x07, 0x59,
+		    0x53, 0x7d, 0x8d, 0xf6, 0x7c, 0x15, 0x32, 0x86,
+		    0x0c, 0x58, 0x86, 0x2c, 0xab, 0x92, 0xe8, 0xc8,
+		    0x7b, 0x97, 0x73, 0xd2, 0x11, 0x53, 0xed, 0xab,
+		    0x7d, 0xc2, 0xeb, 0x07, 0x5b, 0xcf, 0xc6, 0x5f,
+		    0xcb, 0xa1, 0x88, 0x9f, 0x4f, 0x74, 0xa9, 0x26,
+		    0xdc, 0x63, 0x7c, 0x5b, 0x60, 0x4b, 0x54, 0x02,
+		    0xa7, 0xaf, 0x7b, 0xf7, 0x34, 0x76, 0xd3, 0xbc,
+		    0x74, 0x51, 0x3c, 0x74, 0x57, 0xe4, 0x06, 0x22,
+		    0x25, 0xc3, 0x5f, 0x41, 0x40, 0x87, 0xf8, 0xf9,
+		    0xed, 0x26, 0x36, 0x7a, 0xb2, 0x5c, 0xde, 0xdb,
+		    0x85, 0x1b, 0x70, 0x87, 0xc8, 0x0e, 0x0e, 0x9c,
+		    0x1e, 0x8d, 0x86, 0x6a, 0x52, 0x3a, 0x64, 0x7c,
+		    0x50, 0xa3, 0xfe, 0x57, 0x48, 0x3a, 0xf7, 0x35,
+		    0x71, 0xea, 0x90, 0xd3, 0xc5, 0xf0, 0x9d, 0x08,
+		    0x94, 0x81, 0x6a, 0x90, 0xa6, 0xf1, 0x70, 0x53,
+		    0x3b, 0x46, 0x10, 0x5f, 0x2a, 0x90, 0x3c, 0xa7,
+		    0x06, 0x54, 0xa8, 0xd5, 0x7d, 0x8d, 0x3e, 0x59,
+		    0xaa, 0x19, 0xa3, 0x48, 0x40, 0xc3, 0xf4, 0xb4,
+		    0x70, 0x77, 0xed, 0x05, 0x0c, 0x41, 0x34, 0x53,
+		    0x7a, 0xd3, 0x1a, 0xc9, 0xbb, 0xee, 0xd3, 0xc3,
+		    0xcb, 0xd6, 0xe7, 0xed, 0x56, 0x17, 0x9d, 0x47,
+		    0x5f, 0x9a, 0xe6, 0x83, 0x41, 0x70, 0x1e, 0xf1,
+		    0x65, 0x98, 0xbf, 0xea, 0x00, 0x3b, 0xfb, 0x0e,
+		    0x91, 0x82, 0x30, 0xa0, 0xa5, 0xbb, 0xff, 0x3c,
+		    0x04, 0x52, 0x8f, 0xc2, 0x16, 0xa8, 0xe2, 0x78,
+		    0x55, 0xaf, 0x91, 0x20, 0xa1, 0xbe, 0xde, 0x90,
+		    0xb3, 0xeb, 0xf1, 0x18, 0x84, 0x25, 0xf0, 0xd4,
+		    0x42, 0x0f, 0x0b, 0xfc, 0x16, 0x47, 0x0c, 0x94,
+		    0x99, 0xeb, 0x96, 0xb5, 0x21, 0x76, 0x03 },
+	.ilen	= 511,
+	.result	= { 0x93, 0xf6, 0xa1, 0x01, 0xf0, 0x82, 0x18, 0x8d,
+		    0xf2, 0xd1, 0x29, 0x36, 0x6b, 0x1f, 0xcb, 0x7b,
+		    0xa2, 0xde, 0x37, 0x8f, 0x31, 0x46, 0x9b, 0x73,
+		    0xd4, 0x9e, 0x71, 0x7b, 0x49, 0x79, 0xc5, 0x2c,
+		    0x29, 0x1f, 0x60, 0xfd, 0x94, 0x9c, 0x00, 0xc0,
+		    0xe5, 0x49, 0xd3, 0x99, 0xe8, 0xb8, 0x7a, 0x9a,
+		    0x35, 0xb3, 0x58, 0xa1, 0x2c, 0x4b, 0xef, 0x7c,
+		    0x05, 0xf0, 0x07, 0x35, 0x4e, 0x02, 0x36, 0xae,
+		    0x29, 0xe4, 0x7c, 0x21, 0x35, 0xba, 0x77, 0xe0,
+		    0x80, 0x59, 0xd4, 0x19, 0xcd, 0xb0, 0xc6, 0xff,
+		    0x4f, 0x71, 0x91, 0x04, 0x90, 0x75, 0xe7, 0xea,
+		    0xd0, 0xc6, 0xa5, 0x10, 0xd2, 0x4b, 0x9d, 0x0f,
+		    0x3e, 0x08, 0x33, 0xf8, 0x7d, 0xe0, 0xcf, 0xb9,
+		    0x4e, 0xae, 0xd2, 0xe7, 0xe0, 0x2e, 0x98, 0x11,
+		    0xdc, 0xb9, 0x95, 0x25, 0xb2, 0x97, 0x16, 0x5b,
+		    0x75, 0x40, 0xa0, 0x6c, 0xcb, 0x67, 0xfb, 0x55,
+		    0x35, 0x20, 0xd1, 0xf0, 0x58, 0x3c, 0x67, 0xc3,
+		    0x77, 0x4e, 0xee, 0xaf, 0xbb, 0x5c, 0x15, 0x1b,
+		    0x05, 0xf8, 0xd3, 0x00, 0x8a, 0x33, 0x4c, 0x8f,
+		    0x01, 0x78, 0x00, 0xb0, 0x54, 0x9c, 0x63, 0x0c,
+		    0x09, 0x37, 0xf0, 0x0a, 0x4a, 0xae, 0x82, 0x2c,
+		    0x14, 0x99, 0xa2, 0x32, 0x3e, 0x6a, 0x90, 0x73,
+		    0x70, 0x6c, 0x01, 0xb1, 0x60, 0xf3, 0x15, 0xc6,
+		    0xc9, 0x05, 0x9a, 0xdc, 0xda, 0x69, 0x1b, 0x31,
+		    0xe7, 0xcf, 0x53, 0x40, 0x3f, 0x42, 0xdf, 0x35,
+		    0x38, 0x6a, 0xc2, 0x00, 0x11, 0xcb, 0x2c, 0x37,
+		    0x81, 0xdd, 0xa8, 0x27, 0xcb, 0x85, 0x89, 0x68,
+		    0x79, 0x46, 0x0c, 0xe3, 0x8e, 0xf4, 0x05, 0x9e,
+		    0xfc, 0xbd, 0x49, 0xbb, 0x4c, 0xe1, 0x05, 0xdf,
+		    0x8c, 0xca, 0xef, 0xbc, 0x3e, 0xb9, 0xa7, 0x02,
+		    0x0b, 0xc6, 0x91, 0xe4, 0x48, 0x9d, 0x3a, 0x58,
+		    0x4a, 0xf6, 0x49, 0xb0, 0xd9, 0xf0, 0xed, 0x39,
+		    0xe5, 0xf2, 0xe2, 0x47, 0xd0, 0x9e, 0xfa, 0xe1,
+		    0xb3, 0x7b, 0xb8, 0x1c, 0xef, 0x92, 0xf2, 0xf0,
+		    0xc0, 0xd5, 0xf1, 0x89, 0xee, 0xba, 0x52, 0xea,
+		    0x39, 0x08, 0x4c, 0xec, 0x92, 0x72, 0x0d, 0x92,
+		    0x3e, 0x57, 0x09, 0x5b, 0x4d, 0x6b, 0xbc, 0x31,
+		    0x7a, 0xcf, 0x28, 0x30, 0x68, 0x29, 0x3a, 0x99,
+		    0x84, 0xa8, 0xb7, 0x36, 0xc7, 0xa7, 0x76, 0x76,
+		    0x10, 0xd5, 0x6d, 0x35, 0xb0, 0xe0, 0x86, 0xa0,
+		    0x12, 0x19, 0x78, 0x0b, 0xbb, 0x7b, 0x03, 0xae,
+		    0x61, 0xf6, 0xe9, 0xb8, 0x7d, 0x7b, 0xf2, 0xb4,
+		    0x4e, 0x1c, 0x57, 0x37, 0xa8, 0xa6, 0x9c, 0x6a,
+		    0xc2, 0xae, 0xc2, 0xfa, 0x10, 0xd7, 0x77, 0x6f,
+		    0x80, 0x91, 0xfe, 0xa9, 0xd2, 0x49, 0xc6, 0x13,
+		    0xad, 0x18, 0x35, 0x94, 0x95, 0xe1, 0x5a, 0x18,
+		    0x0e, 0x31, 0x49, 0xa5, 0x31, 0xa9, 0xb1, 0xd2,
+		    0xf3, 0x36, 0x0a, 0x72, 0x46, 0x45, 0xc1, 0xd0,
+		    0x22, 0x6d, 0x3d, 0xe2, 0x73, 0x74, 0xad, 0x0a,
+		    0x0c, 0xfd, 0x1d, 0x67, 0xab, 0xcf, 0xe4, 0x4b,
+		    0x52, 0xa2, 0xba, 0x87, 0xe8, 0x6b, 0xc3, 0xf9,
+		    0xb2, 0xb0, 0x05, 0xf7, 0xe9, 0xac, 0x96, 0x3f,
+		    0xbb, 0xe5, 0xae, 0xdb, 0xd3, 0x4f, 0x88, 0x3c,
+		    0x29, 0x69, 0x90, 0xc6, 0x2e, 0x56, 0x89, 0x5d,
+		    0xda, 0x57, 0xe2, 0x3e, 0x21, 0x72, 0x50, 0x2d,
+		    0x65, 0xe9, 0xbd, 0x53, 0x4c, 0xe4, 0x3f, 0x75,
+		    0xc7, 0x46, 0x0c, 0xb7, 0x35, 0x25, 0x9b, 0x29,
+		    0x6e, 0xb5, 0x91, 0xa1, 0x37, 0xca, 0xa1, 0x26,
+		    0x09, 0x3f, 0x7e, 0xbd, 0x8f, 0xf0, 0x2f, 0x59,
+		    0x69, 0xa5, 0x74, 0xe2, 0x31, 0xe9, 0x04, 0x36,
+		    0x78, 0x14, 0xf0, 0x30, 0x39, 0x6d, 0xfb, 0xae,
+		    0xed, 0xb5, 0x23, 0x54, 0x28, 0x3d, 0x31, 0x23,
+		    0x49, 0x43, 0xab, 0xf2, 0xf8, 0xc4, 0xe7, 0x5f,
+		    0xef, 0x51, 0xa9, 0x25, 0xb9, 0x87, 0x4c }
+}, {
+	.key	= { 0xa6, 0xa1, 0xb9, 0x92, 0xe4, 0x20, 0x25, 0xe9,
+		    0x7e, 0x51, 0x70, 0x50, 0xc9, 0xa3, 0x9c, 0x7f,
+		    0x48, 0x9f, 0xca, 0x2f, 0x16, 0x8a, 0xaf, 0xdb,
+		    0x25, 0xc0, 0xd3, 0x28, 0x4d, 0x19, 0xd4, 0x57 },
+	.nonce	= 0xf81deedff5b091e0ULL,
+	.input	= { 0x2a, 0xdb, 0xe1, 0x1d, 0x93, 0xd9, 0x63, 0x17,
+		    0x09, 0x06, 0xed, 0x92, 0x67, 0x1a, 0x35, 0x00,
+		    0x1a, 0x61, 0xc1, 0xce, 0xd1, 0xd6, 0x6b, 0x78,
+		    0x09, 0x32, 0xad, 0x36, 0xf8, 0x2b, 0xc7, 0x6f,
+		    0xc7, 0x3b, 0x3a, 0x73, 0x33, 0x00, 0xb0, 0x5c,
+		    0x38, 0x8c, 0x48, 0x82, 0x85, 0x09, 0x8a, 0x4a,
+		    0x0b, 0x32, 0x53, 0xed, 0x80, 0x66, 0x39, 0xa9,
+		    0xa9, 0xf7, 0x11, 0x3b, 0xac, 0x3a, 0xbc, 0xbe,
+		    0xda, 0x20, 0x83, 0xc4, 0x42, 0xcf, 0xf6, 0x21,
+		    0xb7, 0x70, 0x33, 0x5b, 0x6c, 0xcd, 0x20, 0xd0,
+		    0x48, 0x95, 0x36, 0x17, 0xd4, 0x24, 0x55, 0xc7,
+		    0x77, 0xc1, 0x32, 0xe2, 0xa5, 0xd2, 0xd4, 0xc1,
+		    0x6c, 0xe5, 0x77, 0xe4, 0x8c, 0xda, 0x20, 0x03,
+		    0x4b, 0x75, 0x97, 0x64, 0x10, 0x40, 0xf8, 0x5c,
+		    0x94, 0xf8, 0xf7, 0x0a, 0x7f, 0x43, 0x56, 0x9a,
+		    0xcb, 0xe2, 0x8d, 0xe4, 0x81, 0x4c, 0x6f, 0x89,
+		    0x4c, 0x0c, 0x02, 0xf6, 0x00, 0x89, 0x0e, 0xbf,
+		    0x3f, 0xd5, 0x73, 0x83, 0x7e, 0x42, 0x49, 0xf6,
+		    0xdd, 0x21, 0x2f, 0x46, 0x66, 0x07, 0x59, 0xc5,
+		    0x19, 0xee, 0x29, 0x80, 0xc9, 0x3e, 0xa0, 0xfc,
+		    0x78, 0x73, 0xcc, 0x38, 0xed, 0xe8, 0xc1, 0x95,
+		    0xd7, 0x9e, 0x02, 0x03, 0x77, 0x03, 0x19, 0x2a,
+		    0x0d, 0x0b, 0x50, 0x40, 0x64, 0x07, 0x91, 0x6f,
+		    0x82, 0x55, 0x1e, 0x8d, 0x9d, 0xe3, 0x83, 0x75,
+		    0x06, 0xba, 0x4f, 0x42, 0x7c, 0x73, 0x6b, 0x6c,
+		    0x77, 0x31, 0x57, 0xfb, 0x1f, 0x54, 0xe0, 0x05,
+		    0x22, 0x22, 0x05, 0x32, 0x6c, 0x56, 0x2e, 0xc7,
+		    0x7a, 0x8c, 0xc9, 0xbb, 0x7c, 0x89, 0x6a, 0xb4,
+		    0x2e, 0xbb, 0xad, 0xf6, 0xd2, 0xf2, 0x38, 0xf6,
+		    0xcb, 0xab, 0xcc, 0x57, 0x98, 0xd4, 0x5f, 0x99,
+		    0x4c, 0xa0, 0xe1, 0x62, 0x25, 0x9e, 0x31, 0x34,
+		    0xcc, 0xce, 0xd9, 0x79, 0x6a, 0x13, 0xb9, 0x1d,
+		    0x0b, 0x9b, 0x40, 0x73, 0x0f, 0x9e, 0xa5, 0xfd,
+		    0xae, 0x63, 0x3a, 0xa0, 0x52, 0x1e, 0x29, 0x65,
+		    0x0f, 0x62, 0xcc, 0xda, 0x7f, 0x3c, 0x06, 0x91,
+		    0xde, 0xea, 0x77, 0xe5, 0x88, 0x6d, 0x7d, 0x26,
+		    0xc4, 0xf3, 0xc3, 0xa0, 0xf5, 0xd6, 0x51, 0xda,
+		    0x55, 0xcd, 0x38, 0x6f, 0x71, 0x0f, 0x5b, 0x2e,
+		    0x3d, 0xab, 0x7c, 0xf1, 0xae, 0xd5, 0xb5, 0xef,
+		    0x21, 0x51, 0xb6, 0xb5, 0xe9, 0x91, 0xd0, 0xcd,
+		    0x30, 0x11, 0x6d, 0x62, 0x23, 0xfe, 0x5b, 0xda,
+		    0xce, 0xef, 0x82, 0x68, 0x7b, 0x3e, 0xd1, 0x7e,
+		    0x3b, 0xdf, 0x9f, 0xf6, 0xd1, 0x98, 0xc7, 0xfd,
+		    0xdd, 0xc5, 0xc7, 0xb4, 0x79, 0x91, 0x9e, 0x43,
+		    0x93, 0xf1, 0xdb, 0x13, 0xb3, 0x46, 0x6d, 0x69,
+		    0xa2, 0xce, 0xab, 0xf5, 0x23, 0xbc, 0xdf, 0x99,
+		    0x84, 0x5d, 0xba, 0x42, 0x84, 0xaf, 0xf6, 0x70,
+		    0xaf, 0x36, 0x5f, 0xc7, 0x32, 0x56, 0x95, 0x9f,
+		    0x4a, 0x81, 0x2f, 0x1f, 0xa7, 0x58, 0x9f, 0x98,
+		    0x9c, 0x1d, 0x61, 0x98, 0x32, 0xcb, 0xf6, 0xba,
+		    0x3e, 0xda, 0x5d, 0x66, 0x26, 0x9b, 0x5d, 0x03,
+		    0x6e, 0xa2, 0x66, 0xe8, 0x9e, 0x14, 0x23, 0xae,
+		    0x02, 0x24, 0xcd, 0xc5, 0xa7, 0x81, 0x02, 0x0f,
+		    0x7b, 0xf5, 0x0c, 0x6e, 0x0b, 0x88, 0x12, 0x94,
+		    0xaa, 0x86, 0xff, 0x02, 0xef, 0xaa, 0x36, 0xa5,
+		    0x1c, 0x12, 0x23, 0x61, 0x66, 0xfe, 0x05, 0xc1,
+		    0x73, 0x43, 0x4e, 0x2b, 0xc9, 0xda, 0xbb, 0x2f,
+		    0x67, 0x50, 0x0a, 0x1f, 0xd2, 0x65, 0x8c, 0x75,
+		    0x9c, 0xf6, 0xcb, 0xab, 0x33, 0xea, 0xa2, 0x20,
+		    0x58, 0x95, 0x05, 0x9f, 0x76, 0xa4, 0x67, 0x68,
+		    0xc0, 0x77, 0x57, 0x0b, 0xe9, 0x9e, 0x93, 0x72,
+		    0x22, 0x77, 0x9f, 0x8d, 0xf9, 0x2c, 0xe5, 0xa0,
+		    0x32, 0x6b, 0xe1, 0xb5, 0x60, 0xa7, 0xa0, 0x7a,
+		    0xe2, 0x1e, 0x5c, 0x74, 0x1a, 0x1c, 0x69, 0xc1 },
+	.ilen	= 512,
+	.result	= { 0xf4, 0x3e, 0xcf, 0xe1, 0xf7, 0x21, 0xb2, 0x55,
+		    0xc9, 0xf5, 0xd3, 0x54, 0x40, 0xd0, 0x53, 0x28,
+		    0x62, 0xfd, 0xb6, 0x7b, 0x84, 0x51, 0xfd, 0x4d,
+		    0x86, 0x95, 0x9a, 0xfe, 0xcf, 0x10, 0xe1, 0xec,
+		    0x9f, 0x28, 0x2e, 0x24, 0x0f, 0xd4, 0x27, 0x12,
+		    0x7a, 0x36, 0xd4, 0x75, 0x52, 0xa3, 0x1b, 0xb6,
+		    0x18, 0xe4, 0x2a, 0x35, 0xd2, 0x30, 0xf3, 0xc7,
+		    0xdd, 0xf9, 0x3a, 0xfa, 0x90, 0xfd, 0xc3, 0xe6,
+		    0xe5, 0xd4, 0x0c, 0xab, 0xff, 0xd1, 0x9d, 0xfc,
+		    0x7c, 0x50, 0xcc, 0x22, 0x68, 0xd0, 0x81, 0xff,
+		    0x41, 0x7d, 0x28, 0x75, 0xd0, 0x22, 0xa9, 0x45,
+		    0x24, 0x53, 0xf7, 0xc6, 0xed, 0x43, 0x74, 0x14,
+		    0xa8, 0xbf, 0x19, 0x22, 0xfd, 0x46, 0x2e, 0x8d,
+		    0x96, 0xd2, 0x5e, 0x2f, 0xea, 0x52, 0x29, 0x61,
+		    0x48, 0xd6, 0x57, 0xa7, 0x78, 0xaf, 0xdb, 0x0b,
+		    0x21, 0x62, 0x12, 0x7c, 0xaa, 0x40, 0xff, 0xdc,
+		    0xdc, 0x8f, 0x21, 0x73, 0x08, 0x6a, 0x05, 0xdf,
+		    0x3b, 0xd3, 0xd5, 0xdf, 0x63, 0xa7, 0xaa, 0xff,
+		    0x67, 0xb2, 0xd7, 0xff, 0x4f, 0xba, 0xf4, 0x35,
+		    0xef, 0x3f, 0xb2, 0x84, 0xe2, 0x04, 0xd1, 0xb2,
+		    0x6c, 0x53, 0x5e, 0xb7, 0xdb, 0x78, 0x3f, 0x54,
+		    0x63, 0x77, 0xf4, 0xda, 0x50, 0xf4, 0x21, 0xb8,
+		    0xb4, 0xf1, 0x0b, 0x97, 0x23, 0x7b, 0x5f, 0x84,
+		    0xea, 0x20, 0xf2, 0xa2, 0xc4, 0xb8, 0x59, 0xb3,
+		    0x50, 0x67, 0xf7, 0xaf, 0xbe, 0xf1, 0x8c, 0xa0,
+		    0x37, 0x44, 0x8a, 0xd0, 0x70, 0x77, 0x22, 0x24,
+		    0xd2, 0xd6, 0xa1, 0x3a, 0x74, 0x61, 0xa7, 0x38,
+		    0x5a, 0xc4, 0xdc, 0x42, 0x6f, 0xdc, 0x6e, 0xc8,
+		    0xc7, 0x82, 0x0b, 0x16, 0x72, 0xc5, 0x5f, 0xd4,
+		    0x1f, 0x63, 0x13, 0x25, 0xb6, 0xa5, 0x0e, 0xef,
+		    0xa0, 0x75, 0xa4, 0x4e, 0x68, 0xaf, 0x9b, 0x6d,
+		    0x6f, 0xc9, 0x84, 0x5e, 0xc6, 0x64, 0x50, 0x70,
+		    0x81, 0x94, 0xd6, 0x41, 0x6b, 0x17, 0x35, 0x2c,
+		    0x15, 0xd8, 0xf0, 0x42, 0x7a, 0x20, 0x42, 0xca,
+		    0xe0, 0x5a, 0x24, 0xbc, 0xff, 0x90, 0x9e, 0x1d,
+		    0x05, 0x3d, 0x16, 0x35, 0x7d, 0xdc, 0xc6, 0xe2,
+		    0x0c, 0xf0, 0xa7, 0xe9, 0xa5, 0x09, 0x28, 0x6c,
+		    0xd9, 0x80, 0x80, 0xe8, 0xca, 0x48, 0x26, 0x68,
+		    0xb6, 0x84, 0xcb, 0x87, 0x76, 0x13, 0x51, 0x25,
+		    0x47, 0xc4, 0x8a, 0xcd, 0x8d, 0x1a, 0x07, 0x14,
+		    0x5a, 0xa7, 0x1a, 0xbb, 0x86, 0xe6, 0x76, 0xa0,
+		    0x29, 0x50, 0xae, 0xcb, 0x52, 0xfe, 0x0e, 0x27,
+		    0xd6, 0x48, 0x40, 0xfb, 0x3e, 0xb3, 0xdb, 0x67,
+		    0x2a, 0x3a, 0x9e, 0x62, 0xfc, 0x57, 0x5a, 0x0b,
+		    0x2c, 0xe5, 0x6d, 0x3d, 0x33, 0x55, 0xfc, 0xad,
+		    0x5d, 0x96, 0x68, 0xd9, 0xea, 0x92, 0xc1, 0x92,
+		    0x40, 0x3e, 0x72, 0xe6, 0xcc, 0x51, 0xc0, 0x40,
+		    0x70, 0x39, 0x61, 0x8a, 0xcd, 0xef, 0xde, 0x1d,
+		    0x44, 0x7d, 0x86, 0x66, 0x9f, 0xaa, 0x22, 0x9e,
+		    0xb9, 0xd1, 0x02, 0x05, 0x6b, 0xbd, 0xda, 0x29,
+		    0x60, 0x45, 0x77, 0x35, 0xeb, 0xae, 0x8b, 0xd8,
+		    0x79, 0x95, 0x8d, 0x1c, 0x3d, 0xe6, 0xf1, 0x37,
+		    0x70, 0x9a, 0x63, 0xab, 0xdb, 0x21, 0x4d, 0x7b,
+		    0x74, 0x00, 0x02, 0x0c, 0x72, 0x9d, 0x04, 0x39,
+		    0x39, 0xfc, 0x9c, 0x7d, 0x9b, 0x42, 0xf0, 0x94,
+		    0x72, 0x1e, 0x88, 0x58, 0xbf, 0xc9, 0x28, 0x9f,
+		    0xa0, 0x77, 0x65, 0x2e, 0x9d, 0xe9, 0x00, 0x33,
+		    0xc2, 0xd1, 0x83, 0x2a, 0x27, 0xb1, 0xa4, 0x69,
+		    0xc8, 0x61, 0x99, 0x09, 0xe1, 0xb3, 0xdf, 0x8a,
+		    0x11, 0xd4, 0xd4, 0x26, 0xc7, 0x31, 0x83, 0x67,
+		    0x1f, 0xd5, 0x00, 0x39, 0x49, 0xf1, 0xa6, 0xaf,
+		    0xbc, 0x6e, 0xe9, 0xc5, 0xe0, 0xa7, 0xee, 0x0c,
+		    0x7c, 0x9e, 0x08, 0x7f, 0x47, 0x9f, 0xed, 0x85,
+		    0x20, 0x23, 0x14, 0x0b, 0x3e, 0x58, 0xc3, 0x59 }
+}, {
+	.key	= { 0x24, 0x30, 0xaa, 0x5c, 0xad, 0xee, 0xc9, 0xe5,
+		    0x15, 0x8d, 0x04, 0xd4, 0x1e, 0xd1, 0xac, 0xd5,
+		    0xa2, 0xc2, 0xd9, 0xd2, 0x55, 0xd9, 0x34, 0x09,
+		    0x44, 0xf4, 0x29, 0x1c, 0x85, 0xd1, 0x5f, 0xeb },
+	.nonce	= 0xb9f185373d1a89baULL,
+	.input	= { 0xe5, 0x1a, 0xcf, 0x39, 0x07, 0x21, 0x2b, 0x01,
+		    0x7a, 0x9a, 0x13, 0x54, 0x57, 0x8e, 0x45, 0x64,
+		    0xa5, 0xb4, 0x0f, 0x17, 0x72, 0x31, 0x92, 0x6b,
+		    0x18, 0x5e, 0x79, 0x51, 0x51, 0x56, 0xe5, 0x34,
+		    0x6d, 0x70, 0x34, 0x21, 0x00, 0x09, 0x97, 0x3f,
+		    0x9a, 0x56, 0xed, 0x10, 0x45, 0x20, 0xb5, 0x99,
+		    0x53, 0x09, 0xad, 0x22, 0xc0, 0xbb, 0x13, 0x1f,
+		    0xeb, 0xe1, 0xa2, 0x31, 0x9e, 0xab, 0xa8, 0x3c,
+		    0xf5, 0xc4, 0xa6, 0xa0, 0xb2, 0xde, 0xd3, 0x58,
+		    0x3a, 0x46, 0x88, 0x74, 0x0a, 0x8f, 0x1b, 0x67,
+		    0x55, 0x8a, 0xe0, 0xd1, 0x32, 0x9e, 0x07, 0x32,
+		    0x87, 0x4f, 0x04, 0xc1, 0xaf, 0xcb, 0x82, 0xdb,
+		    0x84, 0x15, 0x52, 0xdc, 0x31, 0xfe, 0x99, 0xee,
+		    0x4c, 0x8a, 0xd9, 0x2b, 0x2e, 0xe5, 0xaf, 0x4f,
+		    0x95, 0x4b, 0x46, 0x2b, 0x28, 0xe9, 0xd9, 0xf8,
+		    0x04, 0xc3, 0xbd, 0x8c, 0xb3, 0x2b, 0x50, 0x7d,
+		    0x2a, 0x3a, 0x9d, 0xfd, 0xca, 0x79, 0x91, 0x98,
+		    0xc8, 0xe4, 0xdb, 0xe0, 0xe3, 0x51, 0x67, 0xc8,
+		    0x99, 0x8e, 0x26, 0x63, 0xaa, 0xf5, 0x51, 0x71,
+		    0x90, 0xa2, 0x09, 0x57, 0x6d, 0x30, 0xfe, 0xa1,
+		    0x8e, 0xd6, 0x20, 0x32, 0xbb, 0x84, 0x50, 0xc6,
+		    0xde, 0xc7, 0x7e, 0xd0, 0x5c, 0xd0, 0x31, 0x93,
+		    0x1a, 0x09, 0x18, 0x90, 0x66, 0xc7, 0xc2, 0x05,
+		    0x25, 0xb9, 0x2f, 0x8c, 0xd6, 0x38, 0x11, 0x10,
+		    0x4e, 0x71, 0x26, 0x41, 0x7a, 0x27, 0x6a, 0x55,
+		    0xfc, 0x58, 0x2a, 0x67, 0xd6, 0x1f, 0x9f, 0x7f,
+		    0x57, 0x7c, 0xda, 0x7d, 0xa7, 0x78, 0x84, 0xdc,
+		    0x7a, 0xd7, 0x4d, 0xdc, 0xb6, 0x70, 0x30, 0xea,
+		    0xb9, 0xff, 0x49, 0x00, 0x66, 0x15, 0x22, 0x9e,
+		    0x97, 0x53, 0xd8, 0x16, 0x8c, 0xe1, 0x58, 0xb8,
+		    0x6e, 0x04, 0xe0, 0x79, 0xf9, 0xf4, 0x2f, 0x75,
+		    0x46, 0x06, 0xcf, 0x5b, 0x78, 0xd6, 0xc9, 0xd8,
+		    0xa2, 0xfd, 0x1b, 0x9b, 0x9a, 0x82, 0x16, 0x34,
+		    0xc6, 0x9c, 0x03, 0x95, 0x89, 0xc2, 0x7f, 0xe7,
+		    0x1e, 0xb4, 0x45, 0x43, 0xea, 0xa5, 0x91, 0x3d,
+		    0x26, 0xfe, 0x8c, 0xa8, 0x0f, 0x8a, 0xb8, 0x13,
+		    0x8e, 0x24, 0xc3, 0x75, 0xa5, 0x9f, 0xb3, 0x65,
+		    0x0c, 0x3e, 0x7a, 0x69, 0x5c, 0x01, 0x2c, 0x74,
+		    0xb7, 0x23, 0x1b, 0x1a, 0x07, 0x61, 0x57, 0x39,
+		    0xd7, 0x8d, 0xdd, 0x15, 0x68, 0x1d, 0xdd, 0x4f,
+		    0x3a, 0xc6, 0x48, 0x71, 0x3f, 0x1e, 0x69, 0xb4,
+		    0xb5, 0xfc, 0x4f, 0x25, 0x4a, 0xbe, 0x3f, 0x1d,
+		    0xed, 0x02, 0x7b, 0x82, 0x43, 0x9c, 0x4c, 0xee,
+		    0x5d, 0x16, 0x6e, 0xb6, 0xb3, 0xaa, 0x8f, 0x6b,
+		    0x94, 0x98, 0xe9, 0x83, 0x71, 0xa6, 0x4f, 0xc9,
+		    0xcc, 0x0e, 0xf2, 0x53, 0x85, 0x49, 0xea, 0xda,
+		    0x43, 0x5c, 0xdc, 0xf4, 0x63, 0x9e, 0xa3, 0x98,
+		    0x1d, 0x17, 0x10, 0x43, 0xe0, 0xea, 0x30, 0x34,
+		    0x75, 0x77, 0xc2, 0x3c, 0x56, 0xdc, 0x0c, 0x1b,
+		    0x57, 0xfe, 0x73, 0x02, 0xe9, 0x3e, 0x1a, 0xe3,
+		    0x44, 0xdd, 0xa1, 0x70, 0xed, 0xd9, 0x8c, 0x69,
+		    0xdb, 0xbb, 0xc9, 0x7d, 0x96, 0x38, 0x8b, 0x3a,
+		    0x7b, 0x99, 0x25, 0xaa, 0xab, 0xe9, 0x10, 0x2a,
+		    0xa7, 0xdb, 0xad, 0x0a, 0x33, 0xdc, 0x1d, 0x0a,
+		    0xc4, 0x63, 0x6b, 0x0b, 0x58, 0x67, 0xb5, 0x7a,
+		    0x93, 0xee, 0x5f, 0x74, 0xac, 0xa8, 0x50, 0x29,
+		    0x03, 0x91, 0xf7, 0x10, 0xb6, 0xbe, 0xc7, 0xd1,
+		    0xef, 0xc9, 0xa2, 0x61, 0x89, 0x6f, 0x5e, 0x04,
+		    0xb0, 0xfb, 0x46, 0x9e, 0x18, 0xe7, 0x52, 0x38,
+		    0xdd, 0x64, 0x76, 0xd7, 0x4f, 0xbb, 0xaa, 0x20,
+		    0x36, 0x8d, 0x86, 0xf4, 0x5d, 0x8b, 0x52, 0x66,
+		    0x5c, 0x17, 0x98, 0xc0, 0xc5, 0x5b, 0xc8, 0x00,
+		    0xa4, 0x99, 0x3d, 0x0f, 0x0b, 0x5b, 0x41, 0x96,
+		    0x48, 0xf3, 0xa5, 0x8c, 0x8e, 0xbb, 0x37, 0x3e,
+		    0x13 },
+	.ilen	= 513,
+	.result	= { 0x60, 0x64, 0xf1, 0xf3, 0x13, 0x5c, 0xf5, 0xd4,
+		    0xdc, 0xb9, 0x7b, 0xf8, 0x85, 0xf8, 0xac, 0x46,
+		    0x8c, 0x3b, 0x74, 0xa3, 0x6d, 0x15, 0x36, 0x01,
+		    0x42, 0x62, 0xfb, 0xef, 0x54, 0x37, 0x92, 0x4f,
+		    0xb6, 0x1a, 0x62, 0xa1, 0x0a, 0xb0, 0xf0, 0x52,
+		    0x26, 0x0d, 0xd5, 0x0e, 0x4e, 0x98, 0x1a, 0xd8,
+		    0x82, 0x60, 0x8b, 0x50, 0x50, 0xfd, 0xbb, 0xc8,
+		    0x90, 0xb7, 0x41, 0x26, 0x7f, 0x28, 0x4c, 0x42,
+		    0x50, 0xc1, 0x5c, 0x93, 0x66, 0x0c, 0xbc, 0x73,
+		    0x46, 0x59, 0xc3, 0x7d, 0x16, 0xfd, 0x72, 0x6d,
+		    0x9b, 0x09, 0x1e, 0xd2, 0xa7, 0xca, 0x4f, 0x96,
+		    0xca, 0x58, 0x12, 0x75, 0xdb, 0xbf, 0x1b, 0xfe,
+		    0xa3, 0x7d, 0x17, 0xf5, 0x93, 0x52, 0x0d, 0xbe,
+		    0xc3, 0x6b, 0x06, 0x82, 0x08, 0xec, 0x02, 0xa6,
+		    0x9c, 0x54, 0x74, 0x2f, 0x3f, 0x6e, 0x9e, 0x37,
+		    0x5f, 0x35, 0xd9, 0xd5, 0x39, 0x88, 0xd6, 0x0e,
+		    0xd9, 0x64, 0x17, 0xf2, 0xb2, 0x66, 0x08, 0xc2,
+		    0x0b, 0xa5, 0xd4, 0xc2, 0x01, 0xfa, 0x73, 0x4d,
+		    0x69, 0x48, 0xa0, 0x9d, 0x2b, 0xde, 0x2d, 0xbd,
+		    0xb7, 0xec, 0xc7, 0x55, 0x01, 0x4e, 0xfe, 0x0a,
+		    0xa8, 0xee, 0xb1, 0x5c, 0xad, 0x90, 0x3b, 0x94,
+		    0x41, 0x3b, 0xa3, 0x24, 0xe5, 0xc8, 0x5c, 0xb9,
+		    0x5f, 0x5e, 0x8e, 0x9c, 0x87, 0x57, 0xea, 0xb9,
+		    0x93, 0xbb, 0x68, 0xc1, 0xad, 0xc3, 0xcc, 0xdc,
+		    0x54, 0xc3, 0xab, 0xe8, 0xee, 0x63, 0xe3, 0x78,
+		    0x47, 0x52, 0x36, 0x7e, 0xf0, 0x04, 0xd7, 0xcd,
+		    0x23, 0xa9, 0xd6, 0x7b, 0x6b, 0x39, 0xe6, 0xf1,
+		    0xf1, 0xf4, 0xe6, 0x43, 0x43, 0x31, 0x2f, 0xe6,
+		    0x15, 0x24, 0x0e, 0x02, 0x56, 0x3a, 0xa2, 0x1f,
+		    0x82, 0xf6, 0xd1, 0x23, 0x96, 0x09, 0xf8, 0x7a,
+		    0x55, 0x66, 0x39, 0x4c, 0x5e, 0x77, 0xff, 0x20,
+		    0xf5, 0xef, 0x9e, 0x34, 0x24, 0xbc, 0x33, 0x31,
+		    0x27, 0xb5, 0x0b, 0x20, 0x3e, 0x78, 0x31, 0xa3,
+		    0x48, 0x9d, 0x51, 0xfe, 0x60, 0xc6, 0xb2, 0xec,
+		    0x76, 0x6b, 0x6c, 0xde, 0xfc, 0x53, 0x20, 0xa3,
+		    0x83, 0x0f, 0x7b, 0x82, 0xd9, 0x01, 0xf4, 0x03,
+		    0xba, 0x90, 0x57, 0x72, 0x8e, 0x7b, 0xa1, 0x17,
+		    0xed, 0x61, 0xe9, 0x57, 0x20, 0x37, 0x18, 0xc2,
+		    0x99, 0xa8, 0x62, 0x26, 0x9d, 0x7d, 0x6b, 0x4f,
+		    0xc1, 0xe5, 0x92, 0x77, 0x3f, 0x44, 0xfd, 0xcd,
+		    0xa4, 0x1d, 0x59, 0x51, 0xac, 0x8b, 0x76, 0xc5,
+		    0x64, 0xc7, 0x4d, 0xf6, 0x84, 0x42, 0xc5, 0x73,
+		    0x4d, 0xe6, 0x6f, 0xa7, 0xda, 0x15, 0x43, 0x32,
+		    0xd0, 0x2e, 0x5a, 0xee, 0x36, 0x42, 0x44, 0x77,
+		    0x92, 0xa9, 0xc0, 0xdc, 0xa9, 0x23, 0x59, 0xce,
+		    0x51, 0xf3, 0x67, 0x7a, 0xca, 0x06, 0xed, 0xc6,
+		    0xaf, 0x29, 0x0e, 0xa5, 0xe6, 0x3b, 0xeb, 0x1e,
+		    0x53, 0x48, 0x1a, 0x58, 0x13, 0x01, 0x51, 0x7f,
+		    0xb6, 0x54, 0x8a, 0xab, 0x02, 0x48, 0x73, 0xac,
+		    0x24, 0x6b, 0x5e, 0x5a, 0x2e, 0xf6, 0x63, 0x50,
+		    0xb6, 0x32, 0x0e, 0xcf, 0x93, 0xa1, 0x48, 0x7a,
+		    0xdb, 0x65, 0xab, 0x2e, 0x8a, 0x22, 0x96, 0x71,
+		    0x5a, 0xb9, 0xf7, 0xe4, 0x99, 0x25, 0xa4, 0x80,
+		    0xb5, 0x62, 0xe5, 0x4d, 0x2f, 0xcb, 0xce, 0x73,
+		    0x61, 0x8f, 0x00, 0xa3, 0xd5, 0x40, 0xec, 0xbb,
+		    0x4a, 0xa3, 0xe3, 0x95, 0x20, 0x8b, 0x6a, 0xd6,
+		    0x89, 0xa0, 0x91, 0x42, 0xb4, 0xe6, 0x4e, 0x49,
+		    0xfa, 0x73, 0xab, 0x1e, 0x22, 0x20, 0x30, 0x5e,
+		    0xe1, 0x94, 0x62, 0x48, 0x4d, 0x16, 0x4f, 0xea,
+		    0x44, 0x4c, 0x19, 0xea, 0x00, 0x29, 0x5c, 0xce,
+		    0x99, 0x32, 0xc0, 0xb3, 0x51, 0xe8, 0x39, 0x7b,
+		    0x1c, 0x8f, 0x24, 0xe3, 0x01, 0x5e, 0x65, 0xb2,
+		    0x5e, 0x80, 0x15, 0xdf, 0x17, 0x11, 0x1b, 0x40,
+		    0xe6, 0xdb, 0xe3, 0x60, 0x7b, 0x2f, 0xa8, 0xa7,
+		    0xb6 }
+}, {
+	.key	= { 0xb2, 0xd2, 0x69, 0x85, 0x45, 0xb5, 0x4c, 0x3c,
+		    0xba, 0xb1, 0x01, 0xd4, 0x3d, 0xbe, 0x75, 0x91,
+		    0x98, 0x4c, 0x7b, 0x1d, 0xb1, 0xb0, 0x52, 0xf1,
+		    0xdd, 0xc3, 0x58, 0x1f, 0x2e, 0x9a, 0x72, 0x4f },
+	.nonce	= 0x9aba2243ec59aca0ULL,
+	.input	= { 0x6b, 0xf4, 0xfa, 0xf5, 0x28, 0x04, 0xfa, 0xd3,
+		    0x03, 0xab, 0x62, 0x69, 0x9f, 0x5e, 0x14, 0x83,
+		    0xe9, 0xf2, 0xe5, 0x98, 0xd9, 0x7e, 0x05, 0x22,
+		    0xf1, 0xf7, 0x0f, 0x76, 0x4a, 0x33, 0x9d, 0x49,
+		    0xa2, 0x16, 0xcf, 0x70, 0xd2, 0x94, 0x7e, 0xe5,
+		    0xcc, 0xe3, 0x01, 0x4d, 0x21, 0x14, 0x98, 0xef,
+		    0xbf, 0x18, 0x0e, 0x07, 0x00, 0x8a, 0x82, 0xcb,
+		    0x12, 0x65, 0xab, 0xd5, 0x2a, 0xe2, 0xe6, 0x07,
+		    0xe3, 0x3a, 0x78, 0x22, 0xb0, 0xd8, 0xce, 0x96,
+		    0xde, 0x47, 0x6f, 0xa8, 0xfb, 0x44, 0x00, 0x7b,
+		    0x33, 0x4e, 0xb4, 0x5d, 0x99, 0x9e, 0x14, 0x49,
+		    0xca, 0x90, 0x80, 0x11, 0xac, 0xa9, 0x9b, 0x6d,
+		    0x01, 0x24, 0x9b, 0x05, 0x6d, 0x57, 0x35, 0x2a,
+		    0xde, 0xd2, 0xb6, 0x54, 0x93, 0x55, 0x08, 0xef,
+		    0xfb, 0x19, 0xd0, 0x3e, 0xf2, 0x95, 0xda, 0x75,
+		    0x0e, 0x27, 0x38, 0x14, 0xcf, 0xd2, 0x4e, 0xb7,
+		    0x27, 0xd1, 0xbd, 0x52, 0x08, 0x7e, 0x6c, 0xe4,
+		    0xfd, 0xc5, 0xc3, 0x2a, 0x76, 0x84, 0xf8, 0x4a,
+		    0x4e, 0x10, 0x90, 0xb0, 0x0c, 0x32, 0x25, 0x9f,
+		    0x5f, 0x75, 0x2a, 0x24, 0x57, 0x45, 0xd5, 0x64,
+		    0x32, 0xf7, 0x30, 0x5a, 0x13, 0xbd, 0x79, 0x1c,
+		    0x50, 0x46, 0xf7, 0xbd, 0xdc, 0x32, 0x3c, 0x43,
+		    0x1c, 0x84, 0xe6, 0x73, 0x78, 0x01, 0x94, 0xe2,
+		    0x49, 0x34, 0x32, 0xd9, 0x86, 0x2c, 0xff, 0xa6,
+		    0x6a, 0x46, 0x9c, 0xfc, 0xf3, 0x22, 0x31, 0xef,
+		    0x60, 0xb8, 0xdc, 0x2e, 0xcc, 0x0e, 0x8c, 0x3a,
+		    0xbb, 0xba, 0xb0, 0x36, 0xa0, 0x97, 0x78, 0x09,
+		    0x3a, 0x87, 0xa5, 0xef, 0xc6, 0x50, 0x87, 0x02,
+		    0xfa, 0xb8, 0x3e, 0x55, 0x2d, 0x78, 0xc8, 0xa8,
+		    0x8a, 0xa6, 0x63, 0xba, 0x31, 0x72, 0x56, 0x39,
+		    0x7d, 0xb8, 0x4a, 0xe4, 0x1c, 0xe9, 0x7b, 0x8c,
+		    0x97, 0x25, 0x3f, 0x25, 0xea, 0x8a, 0x6e, 0x2a,
+		    0x09, 0x83, 0x17, 0x12, 0x9b, 0x3b, 0xb8, 0xe6,
+		    0xf8, 0x0f, 0x48, 0x68, 0x9a, 0xcf, 0x73, 0x95,
+		    0xf1, 0x4c, 0x1b, 0x9b, 0x2e, 0x64, 0x17, 0x6c,
+		    0xb1, 0xcd, 0x90, 0x7a, 0xf6, 0x90, 0xf5, 0xa1,
+		    0x22, 0x9a, 0x6b, 0x16, 0xfc, 0xc8, 0x86, 0x5a,
+		    0xe7, 0x68, 0x53, 0x2b, 0x31, 0xd0, 0x06, 0x63,
+		    0x81, 0xdf, 0xd2, 0x9b, 0x7f, 0x60, 0x46, 0xf7,
+		    0xf3, 0xef, 0xb5, 0x71, 0xa4, 0x96, 0xf7, 0xe2,
+		    0xd1, 0x9b, 0x9d, 0x71, 0x0e, 0x06, 0xb5, 0x6e,
+		    0x6e, 0x14, 0x4b, 0xcf, 0xdd, 0x9e, 0x53, 0x71,
+		    0x54, 0xb9, 0xfa, 0x4f, 0xb4, 0x25, 0x48, 0xa4,
+		    0x8a, 0xf8, 0xca, 0x1e, 0x56, 0xc6, 0xa6, 0x19,
+		    0x11, 0x67, 0x9f, 0xb6, 0x59, 0xa1, 0x80, 0x97,
+		    0xb5, 0xdd, 0x50, 0x95, 0x94, 0xbe, 0x8f, 0x65,
+		    0x05, 0xe3, 0xa2, 0xba, 0x22, 0x36, 0x04, 0x1b,
+		    0x44, 0xdf, 0xd8, 0x2c, 0x08, 0xb4, 0x6b, 0x40,
+		    0xec, 0x5d, 0x7f, 0xbb, 0x94, 0x25, 0x3c, 0xf3,
+		    0x73, 0x52, 0xd4, 0xc5, 0x63, 0x54, 0xde, 0x0f,
+		    0x4d, 0xd6, 0xfe, 0x5e, 0xf9, 0x02, 0x84, 0x31,
+		    0x28, 0xee, 0xfd, 0x0e, 0xbe, 0xaf, 0xe0, 0x75,
+		    0x1c, 0xfd, 0xcc, 0xcf, 0x4e, 0x67, 0xd6, 0x86,
+		    0x9c, 0x9d, 0x3c, 0x87, 0xb2, 0x89, 0x79, 0x9b,
+		    0xd7, 0x8e, 0xca, 0x90, 0xb6, 0xdd, 0x4a, 0xf1,
+		    0x0a, 0xed, 0xaa, 0xc1, 0x80, 0xf9, 0x96, 0x49,
+		    0xce, 0xa3, 0x12, 0x63, 0xae, 0xc6, 0xcb, 0x3b,
+		    0xf1, 0xe7, 0xb9, 0x1d, 0x0b, 0x0d, 0xd4, 0x1c,
+		    0x48, 0x30, 0x53, 0xab, 0xba, 0x94, 0x45, 0xc4,
+		    0x5c, 0xaf, 0xe0, 0xe7, 0x81, 0x61, 0x2f, 0xa1,
+		    0x02, 0x12, 0x55, 0x5c, 0xde, 0x3a, 0x48, 0x7c,
+		    0xe0, 0x3b, 0xab, 0x37, 0x18, 0xf1, 0x1b, 0x8b,
+		    0xba, 0x6c, 0x4a, 0xef, 0x5b, 0x95, 0xdb, 0xd8,
+		    0xab, 0x8d, 0xde, 0x27, 0xdf, 0x44, 0xcd, 0xb1,
+		    0x8d, 0x97 },
+	.ilen	= 514,
+	.result	= { 0x20, 0xaf, 0x08, 0x43, 0x2c, 0x9b, 0xff, 0x20,
+		    0x30, 0xc3, 0xec, 0xec, 0x81, 0x08, 0x9b, 0x8d,
+		    0x6e, 0x2a, 0x48, 0xef, 0x65, 0x01, 0xaf, 0x1a,
+		    0xe9, 0x46, 0x32, 0x74, 0x28, 0x50, 0xd4, 0x8a,
+		    0xc9, 0xf3, 0x2c, 0x6c, 0x6b, 0xad, 0x79, 0xa3,
+		    0x61, 0x2c, 0x7e, 0x41, 0xf0, 0xef, 0x74, 0x90,
+		    0xc2, 0xc2, 0xfb, 0xc1, 0x41, 0x48, 0xcb, 0xa2,
+		    0xc3, 0x37, 0x31, 0x63, 0x97, 0x28, 0xd8, 0x7a,
+		    0x6e, 0xa7, 0x57, 0xfb, 0xb2, 0x7d, 0xfc, 0xe1,
+		    0x78, 0xe9, 0x32, 0x2c, 0x74, 0xed, 0x29, 0xf7,
+		    0xb7, 0x4c, 0x65, 0x04, 0x09, 0x47, 0x22, 0x2a,
+		    0x16, 0x3e, 0xe4, 0xff, 0x53, 0x2a, 0x4f, 0xea,
+		    0x7c, 0x31, 0x12, 0x0d, 0xc0, 0x55, 0xc8, 0x6b,
+		    0x97, 0x7f, 0x2e, 0x64, 0xc1, 0x7b, 0x46, 0xb9,
+		    0x9a, 0xfa, 0xcc, 0x36, 0x94, 0x8e, 0x44, 0x06,
+		    0xe2, 0xa6, 0xf2, 0xef, 0x8b, 0x6a, 0x45, 0x44,
+		    0x2e, 0xc8, 0x6a, 0x3c, 0x1b, 0xa5, 0xa8, 0x01,
+		    0xf5, 0x27, 0x23, 0x27, 0xb0, 0xe0, 0x97, 0x69,
+		    0x73, 0x08, 0xa4, 0x3e, 0x71, 0x79, 0xce, 0xa7,
+		    0xce, 0x38, 0xd8, 0x1c, 0xb8, 0xf3, 0x7f, 0x03,
+		    0x6a, 0x4f, 0x19, 0x05, 0xf0, 0x09, 0xe8, 0xb2,
+		    0x19, 0xd4, 0x12, 0xcd, 0x46, 0x87, 0xc2, 0xc5,
+		    0xd2, 0xe3, 0x04, 0x98, 0x97, 0x16, 0xda, 0xd6,
+		    0x39, 0x3a, 0xfe, 0xa8, 0x77, 0x69, 0xc7, 0xe9,
+		    0xb2, 0xe7, 0x65, 0x64, 0x06, 0x22, 0xe7, 0xc2,
+		    0xd4, 0x26, 0x10, 0xf5, 0xd3, 0x01, 0x9f, 0x3d,
+		    0x32, 0x90, 0xbf, 0xd0, 0x19, 0x80, 0xbd, 0xe5,
+		    0xde, 0xe8, 0x15, 0xb3, 0xe9, 0x13, 0x2e, 0x5b,
+		    0x59, 0x2f, 0x3a, 0x24, 0xb2, 0xce, 0xfa, 0x94,
+		    0xe2, 0xc7, 0x69, 0x05, 0xa5, 0xc4, 0xb2, 0x30,
+		    0xfb, 0x48, 0xd9, 0x75, 0x94, 0xf1, 0x85, 0xb5,
+		    0xff, 0xe3, 0xe9, 0xd5, 0xa6, 0xcf, 0x12, 0x46,
+		    0xc5, 0x9a, 0x70, 0xf3, 0xec, 0xbe, 0x2c, 0x24,
+		    0xd2, 0xa2, 0x17, 0x67, 0x7a, 0x46, 0x8f, 0xb4,
+		    0x96, 0xa4, 0xab, 0xf6, 0xab, 0xb4, 0x7b, 0x31,
+		    0x6d, 0xf0, 0x37, 0x8f, 0x98, 0xda, 0x3c, 0x56,
+		    0xd3, 0x5b, 0xe1, 0xd0, 0x57, 0x04, 0xf5, 0xcc,
+		    0x0c, 0x20, 0x4b, 0xd2, 0x17, 0xed, 0x3c, 0x4b,
+		    0x32, 0xa4, 0xd8, 0x87, 0xaf, 0xae, 0xf9, 0x45,
+		    0x26, 0x9d, 0xc5, 0xe4, 0x61, 0x31, 0xf0, 0xde,
+		    0x7b, 0x55, 0x1b, 0x7e, 0xc9, 0x01, 0x91, 0x07,
+		    0xb0, 0x45, 0xf1, 0x1c, 0x75, 0xa9, 0xf5, 0x58,
+		    0xbd, 0x4c, 0x49, 0x4e, 0xd8, 0x73, 0x37, 0x08,
+		    0x92, 0x05, 0x87, 0xba, 0xa3, 0xc8, 0x14, 0xa0,
+		    0xee, 0x21, 0xd7, 0xf6, 0x03, 0x37, 0xe3, 0xe0,
+		    0x4f, 0xea, 0x85, 0x94, 0x1b, 0x45, 0x92, 0x0a,
+		    0xa0, 0xea, 0xba, 0xc2, 0xb9, 0x88, 0x29, 0xe8,
+		    0xbd, 0x81, 0xda, 0x95, 0x45, 0xf5, 0x5f, 0x20,
+		    0x94, 0x80, 0x21, 0x36, 0x10, 0x6a, 0xb7, 0x90,
+		    0xc0, 0xa9, 0x9e, 0x2a, 0x20, 0xa9, 0xd5, 0x61,
+		    0xf4, 0x72, 0x56, 0xaf, 0x00, 0x9a, 0x33, 0xf6,
+		    0x51, 0x12, 0xfc, 0x84, 0x15, 0x36, 0xc5, 0x27,
+		    0x4f, 0x44, 0xdf, 0x64, 0xde, 0xd7, 0xe1, 0xe9,
+		    0xc8, 0x08, 0xa3, 0x42, 0x60, 0xec, 0x1f, 0xbe,
+		    0x9f, 0x7b, 0x79, 0x47, 0xff, 0xea, 0x6f, 0x4f,
+		    0xc6, 0xea, 0x34, 0x54, 0x09, 0xb2, 0xa1, 0xde,
+		    0xb4, 0x54, 0xb9, 0x82, 0x9e, 0x41, 0xad, 0xa6,
+		    0x4f, 0x8f, 0xac, 0x3b, 0x01, 0x04, 0xbb, 0x9c,
+		    0x6a, 0xac, 0x24, 0xc1, 0xa8, 0x91, 0xb7, 0x5b,
+		    0x88, 0x88, 0xf3, 0x42, 0x17, 0xd4, 0xb7, 0xfc,
+		    0xc8, 0x80, 0x1b, 0x54, 0x91, 0x47, 0xd8, 0x1b,
+		    0xbc, 0x12, 0x7e, 0x4a, 0x03, 0x3b, 0x78, 0x83,
+		    0x2c, 0x92, 0x92, 0xa4, 0x31, 0xf2, 0xe8, 0x13,
+		    0x36, 0x0e, 0xc6, 0xb4, 0xed, 0x5c, 0x22, 0x71,
+		    0xa0, 0xa9 }
+}, {
+	.key	= { 0x61, 0x93, 0x3b, 0xc8, 0x4b, 0x53, 0x4f, 0xc1,
+		    0x9e, 0x74, 0x24, 0x7f, 0x00, 0xcb, 0xc8, 0x33,
+		    0x42, 0x55, 0x6f, 0x77, 0xf1, 0x35, 0x52, 0xb0,
+		    0x67, 0xe7, 0x1d, 0x6e, 0xf1, 0xf6, 0x1c, 0x4d },
+	.nonce	= 0xa3030d135287782eULL,
+	.input	= { 0x83, 0x01, 0x49, 0xa9, 0x1b, 0x38, 0x85, 0x91,
+		    0x26, 0x41, 0x91, 0x20, 0xb2, 0x9e, 0x98, 0xaf,
+		    0x27, 0x30, 0xe1, 0xa6, 0x44, 0x4d, 0x2a, 0xaa,
+		    0xb3, 0x50, 0x7b, 0x27, 0x12, 0x86, 0x8b, 0xba,
+		    0x18, 0xaf, 0xc8, 0x8c, 0x68, 0x1b, 0x51, 0x1e,
+		    0x99, 0x89, 0x15, 0xcb, 0xd1, 0x5e, 0xaa, 0xe6,
+		    0x7f, 0x0d, 0x78, 0x7a, 0x66, 0xfc, 0xb5, 0x09,
+		    0x0d, 0x6e, 0xeb, 0xc1, 0x8b, 0x92, 0x5f, 0x94,
+		    0x83, 0xb5, 0x3e, 0x5a, 0x73, 0x28, 0xca, 0xb4,
+		    0x99, 0x9d, 0xe1, 0x17, 0x64, 0x12, 0x59, 0xb7,
+		    0xbe, 0x50, 0xf1, 0x52, 0xd3, 0x34, 0x93, 0x3c,
+		    0xa3, 0xbc, 0xc2, 0x00, 0x86, 0x7e, 0x40, 0x9e,
+		    0xd6, 0x65, 0xf8, 0xf3, 0x8a, 0x60, 0x7c, 0x63,
+		    0x01, 0xc7, 0x1a, 0xbd, 0xe5, 0x0c, 0x91, 0xfe,
+		    0x6b, 0x6c, 0xae, 0xca, 0x9b, 0x79, 0xa6, 0x07,
+		    0xa3, 0x00, 0xc0, 0x63, 0x3b, 0xfb, 0xc6, 0xa5,
+		    0xeb, 0x36, 0xd5, 0xaa, 0xc5, 0x28, 0xed, 0x37,
+		    0x04, 0x90, 0xd2, 0x4d, 0x08, 0x5e, 0x23, 0x8b,
+		    0xe7, 0xf3, 0x93, 0xf4, 0x91, 0xc6, 0xcf, 0x13,
+		    0x24, 0x0a, 0x2d, 0x6a, 0x81, 0x3b, 0xaa, 0xd9,
+		    0x4c, 0xe0, 0x57, 0xe1, 0x11, 0x62, 0xf5, 0x58,
+		    0x7f, 0xcd, 0x7b, 0xe6, 0xa8, 0xc3, 0x5a, 0xd5,
+		    0xc3, 0xd0, 0x32, 0xcf, 0x14, 0x10, 0x4c, 0x79,
+		    0x2d, 0x67, 0x4d, 0x1c, 0xe7, 0x93, 0x2e, 0x1f,
+		    0x9c, 0x51, 0x31, 0xb9, 0x3c, 0x8b, 0x00, 0x72,
+		    0x95, 0x16, 0xb8, 0x5e, 0xf6, 0x6c, 0xfa, 0xe6,
+		    0x7c, 0xbb, 0xa6, 0xef, 0x73, 0x4b, 0xcd, 0x10,
+		    0x32, 0x6b, 0x0d, 0xcb, 0x82, 0x3c, 0x1a, 0x2d,
+		    0xde, 0x7a, 0xc8, 0xcc, 0x23, 0xce, 0x06, 0x6a,
+		    0x92, 0x65, 0xe7, 0x00, 0xe3, 0xe5, 0xf1, 0x46,
+		    0x9e, 0x6a, 0xe8, 0xfb, 0x8c, 0x2c, 0x52, 0x4b,
+		    0x9a, 0x0a, 0x66, 0x26, 0xdc, 0x6f, 0x25, 0x86,
+		    0x2b, 0x63, 0x6b, 0x57, 0x4f, 0x62, 0xb2, 0xe6,
+		    0x5c, 0xbf, 0x55, 0xd9, 0x65, 0x88, 0x8e, 0xb5,
+		    0xc1, 0xfb, 0x0e, 0x80, 0xb5, 0x76, 0x0b, 0x1f,
+		    0xe6, 0x49, 0x8b, 0x60, 0xef, 0xad, 0xb6, 0x47,
+		    0xc2, 0x0e, 0x4c, 0xc7, 0xf8, 0xe6, 0xcb, 0x83,
+		    0x41, 0xf8, 0xd6, 0x72, 0x17, 0xfc, 0x62, 0x03,
+		    0x9f, 0x42, 0x38, 0x3d, 0xe4, 0x26, 0x2b, 0x8c,
+		    0xf8, 0xa4, 0x1d, 0x05, 0x7b, 0x03, 0x3f, 0x64,
+		    0xec, 0x64, 0x77, 0x29, 0xdd, 0xb3, 0x02, 0xf9,
+		    0xb3, 0x0c, 0x60, 0x3d, 0xcb, 0x4d, 0x61, 0x8c,
+		    0xf2, 0x07, 0x2b, 0x0d, 0x07, 0x67, 0xf7, 0xd6,
+		    0x7e, 0xf1, 0xe8, 0x0e, 0xbb, 0x93, 0x9b, 0x3a,
+		    0xe5, 0xe1, 0x03, 0x75, 0x66, 0xe0, 0x10, 0x7e,
+		    0x7b, 0x35, 0x54, 0xc1, 0xd4, 0xec, 0xfa, 0x66,
+		    0x55, 0x22, 0x22, 0x6a, 0xee, 0x30, 0x7c, 0x8f,
+		    0xc9, 0x5d, 0xb9, 0x1f, 0x86, 0x5c, 0x7d, 0x71,
+		    0xc5, 0x2b, 0x74, 0x0a, 0x24, 0x15, 0x8f, 0x91,
+		    0x7b, 0xb0, 0x6b, 0x0b, 0x02, 0x84, 0x92, 0x4a,
+		    0x68, 0x22, 0x63, 0xb4, 0xf1, 0x4f, 0x94, 0x69,
+		    0x25, 0x24, 0x87, 0xef, 0x12, 0x36, 0xb9, 0x75,
+		    0x96, 0x42, 0x65, 0xb6, 0x6d, 0x8b, 0x5d, 0x7b,
+		    0x99, 0x0c, 0xc8, 0xbb, 0x87, 0x83, 0x21, 0xe4,
+		    0xb0, 0xe4, 0xa5, 0x76, 0x0c, 0xe6, 0x2d, 0x70,
+		    0x8e, 0xb2, 0xf9, 0xd0, 0xa8, 0xf2, 0x93, 0xfa,
+		    0x7d, 0xf4, 0x08, 0x58, 0x1d, 0x53, 0xee, 0x1c,
+		    0x74, 0xdf, 0x83, 0x16, 0xbb, 0x84, 0x30, 0xe0,
+		    0x06, 0xf6, 0x4b, 0x05, 0x03, 0xd8, 0x7d, 0xbc,
+		    0x04, 0xc8, 0x44, 0x2a, 0x5d, 0xe1, 0xdc, 0x06,
+		    0xea, 0x61, 0xb7, 0xde, 0xea, 0x27, 0x0f, 0x74,
+		    0x9a, 0x6d, 0xed, 0x1f, 0x03, 0x11, 0xd3, 0xca,
+		    0xf0, 0x6c, 0x3c, 0x62, 0x5c, 0x6a, 0x64, 0xa2,
+		    0x1d, 0x1b, 0xec, 0x21, 0xd0, 0xaa, 0x92, 0xdb,
+		    0x89, 0xac, 0x19, 0xd2, 0xd6, 0xd3, 0x52, 0xa4,
+		    0x36, 0x5b, 0x66, 0xe2, 0xea, 0xa3, 0xe8, 0x6a,
+		    0x1f, 0x8f, 0xaf, 0x6d, 0xfe, 0xcc, 0x5d, 0x9f,
+		    0x88, 0x70, 0xe7, 0x41, 0xa1, 0xb5, 0x3e, 0x6a,
+		    0x2a, 0x94, 0xc5, 0x33, 0x71, 0xb9, 0xea, 0x74,
+		    0xf4, 0x46, 0x8f, 0x71, 0x0e, 0x8b, 0x84, 0x1b,
+		    0xaf, 0xc8, 0x50, 0x74, 0x60, 0xe1, 0xf2, 0x44,
+		    0xc1, 0xac, 0x77, 0x50, 0x93, 0x4e, 0xb1, 0x3c,
+		    0xd3, 0xcf, 0x0c, 0xdf, 0xc1, 0xb9, 0x28, 0x4f,
+		    0xe1, 0x6b, 0xd6, 0xeb, 0x88, 0x57, 0x1c, 0x98,
+		    0xa6, 0xc7, 0x4c, 0xf6, 0xb6, 0x27, 0x9d, 0xfb,
+		    0xc5, 0xc2, 0x7c, 0xf3, 0xa7, 0x29, 0x72, 0xca,
+		    0x3f, 0xf3, 0x56, 0x42, 0xca, 0x50, 0xaf, 0x76,
+		    0x88, 0xd1, 0x7d, 0x88, 0x91, 0x0d, 0x80, 0x05,
+		    0x4f, 0xc1, 0xa4, 0xe4, 0xd5, 0x17, 0xd6, 0xa7,
+		    0xd3, 0xb7, 0x85, 0x44, 0x80, 0x70, 0xee, 0x6a,
+		    0x27, 0x4d, 0x52, 0xd8, 0xfb, 0x7b, 0x51, 0x6c,
+		    0x44, 0x8f, 0x44, 0x4d, 0x74, 0x11, 0x65, 0xac,
+		    0x04, 0x4a, 0x4e, 0xef, 0x98, 0x89, 0x20, 0x09,
+		    0x34, 0x19, 0xfe, 0x38, 0x29, 0xd4, 0x53, 0xee,
+		    0xf9, 0x37, 0x1f, 0xc0, 0x2a, 0x5e, 0xa4, 0x3e,
+		    0x3f, 0x30, 0xd4, 0xaf, 0xa5, 0x3c, 0x77, 0xe4,
+		    0xf5, 0xf7, 0xad, 0x55, 0xd8, 0xc9, 0x90, 0x00,
+		    0x03, 0xa3, 0x9e, 0xb1, 0x84, 0xb0, 0xbb, 0x46,
+		    0x9a, 0xdd, 0xe7, 0xdd, 0xaa, 0x8a, 0xa2, 0xd7,
+		    0xa8, 0x03, 0x63, 0xf4, 0x16, 0x7c, 0x3e, 0xa0,
+		    0xa8, 0x32, 0x9e, 0x3f, 0x16, 0xf0, 0xa5, 0x7a,
+		    0xff, 0x44, 0xfc, 0x60, 0xb1, 0x65, 0xf4, 0xf5,
+		    0xb1, 0x11, 0x7c, 0xe5, 0x0d, 0x78, 0xdc, 0x1a,
+		    0xc3, 0xe0, 0x3f, 0x8c, 0x5e, 0x5a, 0x6b, 0x2f,
+		    0x11, 0xbe, 0xc9, 0xff, 0xe6, 0x84, 0xbf, 0x62,
+		    0x93, 0xdb, 0xe7, 0xe6, 0x30, 0x56, 0x99, 0x4e,
+		    0x85 },
+	.ilen	= 769,
+	.result	= { 0x49, 0xbd, 0x98, 0x31, 0xb8, 0x44, 0x59, 0x02,
+		    0x7e, 0x1e, 0x7a, 0x4f, 0x77, 0x71, 0xd8, 0x5d,
+		    0xef, 0x8d, 0xcb, 0xa4, 0x61, 0x76, 0xab, 0xd8,
+		    0x07, 0x75, 0x86, 0x51, 0x5b, 0xcf, 0xc3, 0xd8,
+		    0x6c, 0x36, 0xe9, 0x1f, 0x24, 0x48, 0xe1, 0xca,
+		    0xff, 0x73, 0x0d, 0x30, 0xc1, 0xff, 0x8f, 0x6c,
+		    0x51, 0xf0, 0x58, 0x7f, 0x1c, 0xba, 0x94, 0x16,
+		    0x59, 0x81, 0x7f, 0x04, 0xcf, 0x58, 0xa0, 0x5f,
+		    0x64, 0x35, 0x55, 0x3e, 0x5d, 0x2e, 0x45, 0x55,
+		    0x71, 0xd1, 0xc9, 0x43, 0x9d, 0x3a, 0xf2, 0x93,
+		    0xed, 0x05, 0x25, 0x2e, 0xc0, 0x8c, 0x09, 0x0b,
+		    0x06, 0x3a, 0x89, 0x26, 0xd3, 0x32, 0x94, 0xc7,
+		    0x66, 0xd1, 0x13, 0xb0, 0x12, 0xd9, 0x99, 0x37,
+		    0x08, 0x14, 0xe4, 0xd5, 0x32, 0x07, 0x3d, 0xcc,
+		    0xa6, 0xc4, 0x25, 0x2f, 0x49, 0x60, 0xa9, 0x78,
+		    0x4c, 0x1c, 0x42, 0xdb, 0x46, 0xa0, 0x6e, 0x84,
+		    0x09, 0x01, 0xe8, 0x69, 0xb0, 0x6e, 0xc4, 0x3c,
+		    0xd9, 0x53, 0x5a, 0x8e, 0xf0, 0xe5, 0xc6, 0x73,
+		    0x7d, 0x46, 0x8c, 0x49, 0x6e, 0xfd, 0x7e, 0x7f,
+		    0xb1, 0xb6, 0xd6, 0x4e, 0x94, 0xce, 0xe1, 0x55,
+		    0x9b, 0x8f, 0x96, 0x46, 0x62, 0x43, 0x59, 0x9c,
+		    0x8f, 0x07, 0x85, 0xad, 0xac, 0x53, 0x54, 0xda,
+		    0xce, 0x99, 0xb8, 0x8d, 0x23, 0x5f, 0x15, 0xcd,
+		    0x13, 0x00, 0xf8, 0xc4, 0x73, 0x74, 0xef, 0x6e,
+		    0x69, 0x9d, 0x10, 0x7e, 0x32, 0xaa, 0xab, 0x72,
+		    0xd9, 0xa0, 0x35, 0x96, 0xbf, 0xbe, 0xae, 0xf5,
+		    0x1d, 0xbc, 0x73, 0x2b, 0x07, 0x0c, 0x1d, 0xb5,
+		    0xfe, 0x9d, 0xc2, 0xda, 0x57, 0x0e, 0xcb, 0x2c,
+		    0x6a, 0x47, 0xab, 0x27, 0xd5, 0x02, 0xc4, 0x4c,
+		    0xc4, 0xb2, 0x1d, 0xca, 0x0d, 0x13, 0xa3, 0x2c,
+		    0x93, 0x23, 0x7d, 0xc9, 0xe9, 0x6b, 0x39, 0xaa,
+		    0xba, 0x24, 0xaf, 0x09, 0x42, 0x5c, 0xfe, 0x63,
+		    0xa2, 0x0e, 0x15, 0x0b, 0x06, 0xf8, 0x1a, 0xfc,
+		    0x9c, 0x03, 0x94, 0x90, 0x0d, 0x2b, 0xdc, 0x7a,
+		    0x08, 0xf3, 0xdd, 0xc6, 0x34, 0xac, 0x2a, 0xfb,
+		    0xd1, 0x5b, 0x04, 0x27, 0x4f, 0x63, 0x76, 0xbb,
+		    0x03, 0x73, 0xb5, 0x9c, 0x49, 0x8b, 0xb5, 0xe7,
+		    0x23, 0xb9, 0x79, 0xf6, 0x4b, 0x48, 0xe4, 0x74,
+		    0x7c, 0xa4, 0xb0, 0x6b, 0xbf, 0x0c, 0x61, 0x9e,
+		    0x19, 0x57, 0xaa, 0x38, 0x40, 0xbf, 0x7b, 0x33,
+		    0x28, 0xeb, 0x96, 0x3d, 0xc2, 0xb6, 0x2e, 0x3e,
+		    0xc7, 0xc9, 0xb5, 0x7b, 0x3e, 0x2c, 0x79, 0x94,
+		    0x10, 0xb5, 0xcd, 0x5b, 0x52, 0xef, 0x57, 0x41,
+		    0x98, 0xae, 0x51, 0x6b, 0x0d, 0x4c, 0x42, 0xe3,
+		    0x9e, 0x62, 0x25, 0xd1, 0x71, 0x19, 0x73, 0x4f,
+		    0x5e, 0x52, 0x76, 0x8e, 0x5f, 0xd7, 0xa2, 0xa9,
+		    0xd2, 0x60, 0x44, 0x81, 0x87, 0xe8, 0x2c, 0xb2,
+		    0xf1, 0xa7, 0x2a, 0x2b, 0x40, 0xf9, 0x0a, 0x01,
+		    0x83, 0xfc, 0x8d, 0xcc, 0x83, 0x28, 0xf4, 0xad,
+		    0x6e, 0xcb, 0xe1, 0x02, 0x89, 0xd7, 0x14, 0x73,
+		    0xd7, 0x56, 0x1e, 0x41, 0xf3, 0x0b, 0xa4, 0xf2,
+		    0x02, 0x8b, 0xc1, 0x9e, 0xe6, 0xd1, 0x89, 0xbd,
+		    0x20, 0xf3, 0x1a, 0xfc, 0x8e, 0x7c, 0xde, 0xb9,
+		    0x2a, 0x51, 0x67, 0xeb, 0x0e, 0x32, 0x3f, 0x88,
+		    0xc1, 0x26, 0xd9, 0xb8, 0x6e, 0xb0, 0x20, 0x4c,
+		    0xfa, 0x4b, 0xfa, 0x21, 0xd9, 0xd3, 0x52, 0xdd,
+		    0xbc, 0x20, 0x91, 0xe7, 0x45, 0x03, 0xe7, 0x3e,
+		    0x40, 0xb0, 0x76, 0xc7, 0xb5, 0xec, 0xb3, 0x67,
+		    0x8f, 0xba, 0xfd, 0xf3, 0x15, 0x81, 0xdc, 0x2f,
+		    0x03, 0x8d, 0xf0, 0x69, 0x9f, 0xd6, 0xda, 0x8f,
+		    0x98, 0xa0, 0x04, 0xb3, 0x73, 0x7b, 0xf2, 0xbd,
+		    0xf2, 0x9e, 0xc8, 0x30, 0x0f, 0x40, 0x65, 0x1f,
+		    0x67, 0xda, 0x7d, 0x56, 0x53, 0x66, 0xff, 0xe9,
+		    0x15, 0xe4, 0x4b, 0x61, 0x26, 0x62, 0x8f, 0x5a,
+		    0xd0, 0xe7, 0xc4, 0x53, 0x5f, 0x96, 0x4d, 0x82,
+		    0x50, 0x61, 0x64, 0x1b, 0xe3, 0xe3, 0xbb, 0x6b,
+		    0x4f, 0x1d, 0x58, 0xf2, 0xde, 0xfd, 0x59, 0x0c,
+		    0x62, 0xa9, 0xc3, 0x65, 0x45, 0xd8, 0x82, 0x45,
+		    0xaa, 0x06, 0x4c, 0xc1, 0x6e, 0x95, 0x9a, 0x7a,
+		    0x2b, 0x1c, 0x91, 0xc1, 0x87, 0x45, 0x47, 0x71,
+		    0xca, 0xea, 0x0c, 0xa6, 0x70, 0x08, 0x2d, 0x1b,
+		    0x26, 0x38, 0xaa, 0x41, 0x0b, 0xe7, 0xa1, 0xe6,
+		    0x6e, 0xa4, 0x7c, 0x8d, 0xf1, 0x1a, 0xd8, 0x05,
+		    0xb3, 0x69, 0x0b, 0x06, 0xc4, 0x49, 0x84, 0x2d,
+		    0x08, 0xe6, 0x57, 0xe9, 0x64, 0x02, 0xd2, 0xc0,
+		    0x73, 0xf1, 0x6d, 0x88, 0x07, 0x48, 0x47, 0x7c,
+		    0xe4, 0x42, 0x4b, 0x5a, 0x65, 0xb4, 0xc3, 0x65,
+		    0xcc, 0xd6, 0xc6, 0x5d, 0xc7, 0x21, 0xc8, 0x65,
+		    0x28, 0x96, 0xd6, 0xad, 0x2b, 0xc7, 0x49, 0xbe,
+		    0x98, 0xb3, 0x43, 0xb8, 0x9a, 0xd1, 0xe9, 0xa0,
+		    0xed, 0x8d, 0x8c, 0x2c, 0x00, 0xa6, 0x1e, 0x3a,
+		    0xb5, 0x0d, 0xeb, 0xcf, 0x12, 0xe6, 0x0e, 0x4f,
+		    0x7d, 0x87, 0xca, 0x3d, 0x37, 0xaf, 0xb4, 0xa3,
+		    0xdc, 0xd4, 0xf7, 0xe2, 0x7e, 0xfc, 0xa7, 0x1b,
+		    0x92, 0x79, 0x63, 0x10, 0xce, 0x7b, 0x59, 0x87,
+		    0x89, 0x49, 0xb7, 0x50, 0x86, 0x7c, 0xa7, 0x5f,
+		    0x3f, 0x50, 0x31, 0x46, 0xd4, 0xfa, 0x6e, 0xcd,
+		    0xf4, 0xbe, 0xce, 0xbe, 0xd0, 0x71, 0xef, 0x2c,
+		    0xfe, 0xf1, 0x3c, 0xf0, 0xfd, 0xef, 0x96, 0x73,
+		    0xa3, 0xa7, 0x23, 0x35, 0x6c, 0x27, 0xef, 0x78,
+		    0xec, 0xdd, 0x46, 0xb7, 0xe4, 0xce, 0x37, 0x43,
+		    0x35, 0xf2, 0x38, 0x35, 0xf5, 0xb5, 0xc2, 0x9f,
+		    0xf0, 0x97, 0x52, 0x23, 0x0c, 0x74, 0x03, 0xd1,
+		    0x53, 0xd9, 0xf0, 0x73, 0xb6, 0xae, 0x4c, 0xa3,
+		    0xac, 0x6f, 0x4c, 0x93, 0x72, 0x47, 0x7b, 0x44,
+		    0x8d, 0xf9, 0xee, 0x24, 0x08, 0x95, 0x62, 0xbe,
+		    0x31 }
+}};
+
+static bool __init chacha20_selftest(void)
+{
+	size_t i;
+	u8 offset_input[MAXIMUM_TEST_BUFFER_LEN + 1]
+			__aligned(__alignof__(unsigned long));
+	u8 offset_key[CHACHA20_KEY_SIZE + 1]
+			__aligned(__alignof__(unsigned long));
+	u8 computed_result[MAXIMUM_TEST_BUFFER_LEN + 1]
+			__aligned(__alignof__(unsigned long));
+	struct chacha20_ctx state;
+	bool success = true;
+	simd_context_t simd_context;
+
+	simd_get(&simd_context);
+	for (i = 0; i < ARRAY_SIZE(chacha20_vectors); ++i) {
+		memset(computed_result, 0, sizeof(computed_result));
+		memset(&state, 0, sizeof(state));
+		chacha20_init(&state, chacha20_vectors[i].key,
+			      chacha20_vectors[i].nonce);
+		chacha20(&state, computed_result, chacha20_vectors[i].input,
+			 chacha20_vectors[i].ilen, &simd_context);
+		if (memcmp(computed_result, chacha20_vectors[i].result,
+			   chacha20_vectors[i].ilen)) {
+			pr_info("chacha20 self-test %zu: FAIL\n", i + 1);
+			success = false;
+		}
+		memset(computed_result, 0, sizeof(computed_result));
+		memset(&state, 0, sizeof(state));
+		memcpy(offset_input + 1, chacha20_vectors[i].input,
+		       chacha20_vectors[i].ilen);
+		memcpy(offset_key + 1, chacha20_vectors[i].key,
+		       CHACHA20_KEY_SIZE);
+		chacha20_init(&state, offset_key + 1, chacha20_vectors[i].nonce);
+		chacha20(&state, computed_result + 1, offset_input + 1,
+			 chacha20_vectors[i].ilen, &simd_context);
+		if (memcmp(computed_result + 1, chacha20_vectors[i].result,
+			   chacha20_vectors[i].ilen)) {
+			pr_info("chacha20 self-test %zu (unaligned): FAIL\n", i + 1);
+			success = false;
+		}
+	}
+	simd_put(&simd_context);
+	if (success)
+		pr_info("chacha20 self-tests: pass\n");
+	return success;
+}
+#endif

From patchwork Tue Sep 18 16:16:32 2018
Content-Type: text/plain; charset="utf-8"
MIME-Version: 1.0
Content-Transfer-Encoding: 8bit
X-Patchwork-Submitter: "Jason A. Donenfeld" <jason@zx2c4.com>
X-Patchwork-Id: 146913
Delivered-To: patch@linaro.org
Received: by 2002:a2e:1648:0:0:0:0:0 with SMTP id 8-v6csp65199ljw;
 Tue, 18 Sep 2018 09:19:07 -0700 (PDT)
X-Google-Smtp-Source: ANB0Vdar0uaWSB8DUa771EUeycwu2F6TzSS9bfJGmlndL3RdRCumf5QYKQMTFTibdZPnHbDosYD6
X-Received: by 2002:a63:a35f:: with SMTP id
 v31-v6mr28675369pgn.261.1537287543682; 
 Tue, 18 Sep 2018 09:19:03 -0700 (PDT)
ARC-Seal: i=1; a=rsa-sha256; t=1537287543; cv=none;
 d=google.com; s=arc-20160816;
 b=syLFRyRQzP4VGrxibsEi1GhuzLrnMDcDD/9fZhX3AqJxCOQOY6gGH9IXvX2PB4N2Da
 1QSk9Udkk+1z2I2GBxvBjlxBAmVgvAHtj07DcOYxW1Pq7ptSOSoWWMPthF6Y2jUiWo2L
 nobOBNQdodgNlrtRoJDj/xEmCpMijoVxxVL/gq0JxpHbr4o4EoDPx+yrWSIyvF8ePqt/
 OcEVUOdmk1/fG6ar3xzOd9s8WA8pEwvkAcQ19zMPLuEoqFpp2984plRumIwMc7qYOx0F
 r8iubRYiCnt4bzSo9EsXSS24Eyl4gOqoqCqP6sxNtJnOkUPgzpUtFtr9U5fzDdO3tg0P
 rKaQ==
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=google.com;
 s=arc-20160816; 
 h=list-id:precedence:sender:content-transfer-encoding:mime-version
 :references:in-reply-to:message-id:date:subject:cc:to:from
 :dkim-signature;
 bh=D/fCE07CkuEAOJb07D9Yg09nEIwXJCJKYI01FwvV2sU=;
 b=nXDUkWa3S82hL6QmcYa/c2pybXpeS92q+IeElzGHqNZSeno24C6AUZkO5xOE+4rfhq
 /00eLA90Y4aCFJcmaJRvC47dS1m2+e9sURJbVk/HjRjjiSeG0aF28mJiE6KXPwLhB9Wn
 NLc/HcKbPx2nmcs0aPXmXvI77GhIlCErhxj6P+f4jEXAqiCn8FEmWI/qDplzIpn/4qcM
 rwBKEfCsWXWJn9DmuMUVa092F6UdSfWlTmQV585y9FMyGvuVFlQd3WVy41gH0uGiDN0X
 0/2W6U/mKOC/bKxOZSpRG/iKGV4cN+7nipNIu1FvLtcQl4EHazxBIWGFaJRGR0Y0joVQ
 ejTg==
ARC-Authentication-Results: i=1; mx.google.com;
 dkim=pass header.i=@zx2c4.com header.s=mail header.b=MYdcwk79;
 spf=pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) smtp.mailfrom=netdev-owner@vger.kernel.org; 
 dmarc=pass (p=NONE sp=NONE dis=NONE) header.from=zx2c4.com
Return-Path: <netdev-owner@vger.kernel.org>
Received: from vger.kernel.org (vger.kernel.org. [209.132.180.67])
 by mx.google.com with ESMTP id
 v9-v6si19923535pfg.123.2018.09.18.09.18.58; 
 Tue, 18 Sep 2018 09:19:03 -0700 (PDT)
Received-SPF: pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) client-ip=209.132.180.67; 
Authentication-Results: mx.google.com;
 dkim=pass header.i=@zx2c4.com header.s=mail header.b=MYdcwk79;
 spf=pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) smtp.mailfrom=netdev-owner@vger.kernel.org; 
 dmarc=pass (p=NONE sp=NONE dis=NONE) header.from=zx2c4.com
Received: (majordomo@vger.kernel.org) by vger.kernel.org via listexpand
 id S1730358AbeIRVvX (ORCPT <rfc822;naresh.kamboju@linaro.org>
 + 10 others); Tue, 18 Sep 2018 17:51:23 -0400
Received: from frisell.zx2c4.com ([192.95.5.64]:57805 "EHLO frisell.zx2c4.com"
 rhost-flags-OK-OK-OK-OK) by vger.kernel.org with ESMTP
 id S1730283AbeIRVvT (ORCPT <rfc822;netdev@vger.kernel.org>);
 Tue, 18 Sep 2018 17:51:19 -0400
Received: by frisell.zx2c4.com (ZX2C4 Mail Server) with ESMTP id debf700c;
 Tue, 18 Sep 2018 16:00:24 +0000 (UTC)
DKIM-Signature: v=1; a=rsa-sha1; c=relaxed; d=zx2c4.com; h=from:to:cc
 :subject:date:message-id:in-reply-to:references:mime-version
 :content-type:content-transfer-encoding; s=mail; bh=7VDUynDhP63b
 qantRSm13rCvVhY=; b=MYdcwk79TrMtHZ/X1X4S+ZfxE/b5OTBqjCRllxhRodOI
 0xiwDwUp6pGWuv7TUZknkdXYk2CEbgeKph7THJeLGqbvGIC2Sgpu0CbkYXw3qQZQ
 y1RjmcwNfZI0jSqr1PX1AHqbZ8DPx8Axs5AM5w9Ma+XxYNnY0CyrkmVs3YlLDcef
 CvmQGQfm4vqg0V7OcAtK/Ci1y5/CSlIDqRAKGvrIkbyeJuQG8jYtYIcssVqFhjPe
 Uuqr5ZCqs1GHZO6H7zvXuRX35MDu5m+Al0+drriICOfC06h0hDFCw+G8wzhKcGRt
 /SvNkwrLhj7XYxP+7ma1+Y1Izwd6LdkHIZKNL2hJ4w==
Received: by frisell.zx2c4.com (ZX2C4 Mail Server) with ESMTPSA id f39dec6f
 (TLSv1.2:ECDHE-RSA-AES256-GCM-SHA384:256:NO); 
 Tue, 18 Sep 2018 16:00:22 +0000 (UTC)
From: "Jason A. Donenfeld" <Jason@zx2c4.com>
To: linux-kernel@vger.kernel.org, netdev@vger.kernel.org,
 linux-crypto@vger.kernel.org, davem@davemloft.net,
 gregkh@linuxfoundation.org
Cc: "Jason A. Donenfeld" <Jason@zx2c4.com>, =?utf-8?q?Ren=C3=A9_van_Dorst?=
 <opensource@vdorst.com>,         Samuel Neves <sneves@dei.uc.pt>,
 Andy Lutomirski <luto@kernel.org>, Jean-Philippe Aumasson
 <jeanphilippe.aumasson@gmail.com>, Ralf Baechle <ralf@linux-mips.org>,
 Paul Burton <paul.burton@mips.com>, James Hogan <jhogan@kernel.org>,
 linux-mips@linux-mips.org
Subject: [PATCH net-next v5 06/20] zinc: ChaCha20 MIPS32r2 implementation
Date: Tue, 18 Sep 2018 18:16:32 +0200
Message-Id: <20180918161646.19105-7-Jason@zx2c4.com>
In-Reply-To: <20180918161646.19105-1-Jason@zx2c4.com>
References: <20180918161646.19105-1-Jason@zx2c4.com>
MIME-Version: 1.0
Sender: netdev-owner@vger.kernel.org
Precedence: bulk
List-ID: <netdev.vger.kernel.org>
X-Mailing-List: netdev@vger.kernel.org

This MIPS32r2 implementation comes from René van Dorst and me and
results in a nice speedup on the usual OpenWRT targets.

Signed-off-by: Jason A. Donenfeld <Jason@zx2c4.com>
Signed-off-by: René van Dorst <opensource@vdorst.com>
Cc: Samuel Neves <sneves@dei.uc.pt>
Cc: Andy Lutomirski <luto@kernel.org>
Cc: Greg KH <gregkh@linuxfoundation.org>
Cc: Jean-Philippe Aumasson <jeanphilippe.aumasson@gmail.com>
Cc: Ralf Baechle <ralf@linux-mips.org>
Cc: Paul Burton <paul.burton@mips.com>
Cc: James Hogan <jhogan@kernel.org>
Cc: linux-mips@linux-mips.org
---
 lib/zinc/Makefile                      |   1 +
 lib/zinc/chacha20/chacha20-mips-glue.h |  24 ++
 lib/zinc/chacha20/chacha20-mips.S      | 474 +++++++++++++++++++++++++
 lib/zinc/chacha20/chacha20.c           |   2 +
 4 files changed, 501 insertions(+)
 create mode 100644 lib/zinc/chacha20/chacha20-mips-glue.h
 create mode 100644 lib/zinc/chacha20/chacha20-mips.S

-- 
2.19.0

diff --git a/lib/zinc/Makefile b/lib/zinc/Makefile
index 36b61145666d..5c7b452d6a19 100644
--- a/lib/zinc/Makefile
+++ b/lib/zinc/Makefile
@@ -7,4 +7,5 @@ zinc_chacha20-y := chacha20/chacha20.o
 zinc_chacha20-$(CONFIG_ZINC_ARCH_X86_64) += chacha20/chacha20-x86_64.o
 zinc_chacha20-$(CONFIG_ZINC_ARCH_ARM) += chacha20/chacha20-arm.o
 zinc_chacha20-$(CONFIG_ZINC_ARCH_ARM64) += chacha20/chacha20-arm64.o
+zinc_chacha20-$(CONFIG_ZINC_ARCH_MIPS) += chacha20/chacha20-mips.o
 obj-$(CONFIG_ZINC_CHACHA20) += zinc_chacha20.o
diff --git a/lib/zinc/chacha20/chacha20-mips-glue.h b/lib/zinc/chacha20/chacha20-mips-glue.h
new file mode 100644
index 000000000000..518deb5e6c34
--- /dev/null
+++ b/lib/zinc/chacha20/chacha20-mips-glue.h
@@ -0,0 +1,24 @@
+/* SPDX-License-Identifier: MIT
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ */
+
+asmlinkage void chacha20_mips(u8 *out, const u8 *in, const size_t len,
+			      const u32 key[8], const u32 counter[4]);
+static void __init chacha20_fpu_init(void)
+{
+}
+
+static inline bool chacha20_arch(u8 *dst, const u8 *src, const size_t len,
+				 const u32 key[8], const u32 counter[4],
+				 simd_context_t *simd_context)
+{
+	chacha20_mips(dst, src, len, key, counter);
+	return true;
+}
+
+static inline bool hchacha20_arch(u8 *derived_key, const u8 *nonce,
+				  const u8 *key, simd_context_t *simd_context)
+{
+	return false;
+}
diff --git a/lib/zinc/chacha20/chacha20-mips.S b/lib/zinc/chacha20/chacha20-mips.S
new file mode 100644
index 000000000000..1415a77fd0c0
--- /dev/null
+++ b/lib/zinc/chacha20/chacha20-mips.S
@@ -0,0 +1,474 @@
+/* SPDX-License-Identifier: MIT
+ *
+ * Copyright (C) 2016-2018 René van Dorst <opensource@vdorst.com>. All Rights Reserved.
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ */
+
+#define MASK_U32	0x3c
+#define MASK_BYTES	0x03
+#define CHACHA20_BLOCK_SIZE 64
+#define STACK_SIZE	4*16
+
+#define X0  $t0
+#define X1  $t1
+#define X2  $t2
+#define X3  $t3
+#define X4  $t4
+#define X5  $t5
+#define X6  $t6
+#define X7  $t7
+#define X8  $v1
+#define X9  $fp
+#define X10 $s7
+#define X11 $s6
+#define X12 $s5
+#define X13 $s4
+#define X14 $s3
+#define X15 $s2
+/* Use regs which are overwritten on exit for Tx so we don't leak clear data. */
+#define T0  $s1
+#define T1  $s0
+#define T(n) T ## n
+#define X(n) X ## n
+
+/* Input arguments */
+#define OUT		$a0
+#define IN		$a1
+#define BYTES		$a2
+/* KEY and NONCE argument must be u32 aligned */
+#define KEY		$a3
+/* NONCE pointer is given via stack */
+#define NONCE		$t9
+
+/* Output argument */
+/* NONCE[0] is kept in a register and not in memory.
+ * We don't want to touch original value in memory.
+ * Must be incremented every loop iteration.
+ */
+#define NONCE_0		$v0
+
+/* SAVED_X and SAVED_CA are set in the jump table.
+ * Use regs which are overwritten on exit else we don't leak clear data.
+ * They are used to handling the last bytes which are not multiple of 4.
+ */
+#define SAVED_X		X15
+#define SAVED_CA	$ra
+
+#define PTR_LAST_ROUND	$t8
+
+/* ChaCha20 constants and stack location */
+#define CONSTANT_OFS_SP	48
+#define UNALIGNED_OFS_SP 40
+
+#define CONSTANT_1	0x61707865
+#define CONSTANT_2	0x3320646e
+#define CONSTANT_3	0x79622d32
+#define CONSTANT_4	0x6b206574
+
+#if __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
+#define MSB 0
+#define LSB 3
+#define ROTx rotl
+#define ROTR(n) rotr n, 24
+#define	CPU_TO_LE32(n) \
+	wsbh	n; \
+	rotr	n, 16;
+#else
+#define MSB 3
+#define LSB 0
+#define ROTx rotr
+#define CPU_TO_LE32(n)
+#define ROTR(n)
+#endif
+
+#define STORE_UNALIGNED(x, a, s, o) \
+.Lchacha20_mips_xor_unaligned_ ## x ## _b: ; \
+	.if ((s != NONCE) || (o != 0)); \
+		lw	T0, o(s); \
+	.endif; \
+	lwl	T1, x-4+MSB ## (IN); \
+	lwr	T1, x-4+LSB ## (IN); \
+	.if ((s == NONCE) && (o == 0)); \
+		addu	X ## a, NONCE_0; \
+	.else; \
+		addu	X ## a, T0; \
+	.endif; \
+	CPU_TO_LE32(X ## a); \
+	xor	X ## a, T1; \
+	swl	X ## a, x-4+MSB ## (OUT); \
+	swr	X ## a, x-4+LSB ## (OUT);
+
+#define STORE_ALIGNED(x, a, s, o) \
+.Lchacha20_mips_xor_aligned_ ## x ## _b: ; \
+	.if ((s != NONCE) || (o != 0)); \
+		lw	T0, o(s); \
+	.endif; \
+	lw	T1, x-4 ## (IN); \
+	.if ((s == NONCE) && (o == 0)); \
+		addu	X ## a, NONCE_0; \
+	.else; \
+		addu	X ## a, T0; \
+	.endif; \
+	CPU_TO_LE32(X ## a); \
+	xor	X ## a, T1; \
+	sw	X ## a, x-4 ## (OUT);
+
+/* Jump table macro.
+ * Used for setup and handling the last bytes, which are not multiple of 4.
+ * X15 is free to store Xn
+ * Every jumptable entry must be equal in size.
+ */
+#define JMPTBL_ALIGNED(x, a, s, o) \
+.Lchacha20_mips_jmptbl_aligned_ ## a: ; \
+	.if ((s == NONCE) && (o == 0)); \
+		move	SAVED_CA, NONCE_0; \
+	.else; \
+		lw	SAVED_CA, o(s);\
+	.endif; \
+	b	.Lchacha20_mips_xor_aligned_ ## x ## _b; \
+	move	SAVED_X, X ## a;
+
+#define JMPTBL_UNALIGNED(x, a, s, o) \
+.Lchacha20_mips_jmptbl_unaligned_ ## a: ; \
+	.if ((s == NONCE) && (o == 0)); \
+		move	SAVED_CA, NONCE_0; \
+	.else; \
+		lw	SAVED_CA, o(s);\
+	.endif; \
+	b	.Lchacha20_mips_xor_unaligned_ ## x ## _b; \
+	move	SAVED_X, X ## a;
+
+#define AXR(A, B, C, D,  K, L, M, N,  V, W, Y, Z,  S) \
+	addu	X(A), X(K); \
+	addu	X(B), X(L); \
+	addu	X(C), X(M); \
+	addu	X(D), X(N); \
+	xor	X(V), X(A); \
+	xor	X(W), X(B); \
+	xor	X(Y), X(C); \
+	xor	X(Z), X(D); \
+	rotl	X(V), S;    \
+	rotl	X(W), S;    \
+	rotl	X(Y), S;    \
+	rotl	X(Z), S;
+
+.text
+.set reorder
+.set noat
+.globl chacha20_mips
+.ent   chacha20_mips
+chacha20_mips:
+	.frame $sp, STACK_SIZE, $ra
+	/* This is in the fifth argument */
+	lw	NONCE, 16($sp)
+
+	/* Return bytes = 0. */
+	.set noreorder
+	beqz	BYTES, .Lchacha20_mips_end
+	addiu	$sp, -STACK_SIZE
+	.set reorder
+
+	/* Calculate PTR_LAST_ROUND */
+	addiu	PTR_LAST_ROUND, BYTES, -1
+	ins	PTR_LAST_ROUND, $zero, 0, 6
+	addu	PTR_LAST_ROUND, OUT
+
+	/* Save s0-s7, fp, ra. */
+	sw	$ra,  0($sp)
+	sw	$fp,  4($sp)
+	sw	$s0,  8($sp)
+	sw	$s1, 12($sp)
+	sw	$s2, 16($sp)
+	sw	$s3, 20($sp)
+	sw	$s4, 24($sp)
+	sw	$s5, 28($sp)
+	sw	$s6, 32($sp)
+	sw	$s7, 36($sp)
+
+	lw	NONCE_0, 0(NONCE)
+	/* Test IN or OUT is unaligned.
+	 * UNALIGNED (T1) = ( IN | OUT ) & 0x00000003
+	 */
+	or	T1, IN, OUT
+	andi	T1, 0x3
+
+	/* Load constant */
+	lui	X0, %hi(CONSTANT_1)
+	lui	X1, %hi(CONSTANT_2)
+	lui	X2, %hi(CONSTANT_3)
+	lui	X3, %hi(CONSTANT_4)
+	ori	X0, %lo(CONSTANT_1)
+	ori	X1, %lo(CONSTANT_2)
+	ori	X2, %lo(CONSTANT_3)
+	ori	X3, %lo(CONSTANT_4)
+
+	/* Store constant on stack. */
+	sw	X0,  0+CONSTANT_OFS_SP($sp)
+	sw	X1,  4+CONSTANT_OFS_SP($sp)
+	sw	X2,  8+CONSTANT_OFS_SP($sp)
+	sw	X3, 12+CONSTANT_OFS_SP($sp)
+
+	sw	T1, UNALIGNED_OFS_SP($sp)
+
+	.set	noreorder
+	b	.Lchacha20_rounds_start
+	andi	BYTES, (CHACHA20_BLOCK_SIZE-1)
+	.set	reorder
+
+.align 4
+.Loop_chacha20_rounds:
+	addiu	IN,  CHACHA20_BLOCK_SIZE
+	addiu	OUT, CHACHA20_BLOCK_SIZE
+	addiu	NONCE_0, 1
+
+	lw	X0,  0+CONSTANT_OFS_SP($sp)
+	lw	X1,  4+CONSTANT_OFS_SP($sp)
+	lw	X2,  8+CONSTANT_OFS_SP($sp)
+	lw	X3, 12+CONSTANT_OFS_SP($sp)
+	lw	T1,   UNALIGNED_OFS_SP($sp)
+
+.Lchacha20_rounds_start:
+	lw	X4,   0(KEY)
+	lw	X5,   4(KEY)
+	lw	X6,   8(KEY)
+	lw	X7,  12(KEY)
+	lw	X8,  16(KEY)
+	lw	X9,  20(KEY)
+	lw	X10, 24(KEY)
+	lw	X11, 28(KEY)
+
+	move	X12, NONCE_0
+	lw	X13,  4(NONCE)
+	lw	X14,  8(NONCE)
+	lw	X15, 12(NONCE)
+
+	li	$at, 9
+.Loop_chacha20_xor_rounds:
+	AXR( 0, 1, 2, 3,  4, 5, 6, 7, 12,13,14,15, 16);
+	AXR( 8, 9,10,11, 12,13,14,15,  4, 5, 6, 7, 12);
+	AXR( 0, 1, 2, 3,  4, 5, 6, 7, 12,13,14,15,  8);
+	AXR( 8, 9,10,11, 12,13,14,15,  4, 5, 6, 7,  7);
+	AXR( 0, 1, 2, 3,  5, 6, 7, 4, 15,12,13,14, 16);
+	AXR(10,11, 8, 9, 15,12,13,14,  5, 6, 7, 4, 12);
+	AXR( 0, 1, 2, 3,  5, 6, 7, 4, 15,12,13,14,  8);
+	AXR(10,11, 8, 9, 15,12,13,14,  5, 6, 7, 4,  7);
+	.set noreorder
+	bnez	$at, .Loop_chacha20_xor_rounds
+	addiu	$at, -1
+
+	/* Unaligned? Jump */
+	bnez	T1, .Loop_chacha20_unaligned
+	andi	$at, BYTES, MASK_U32
+
+	/* Last round? No jump */
+	bne	OUT, PTR_LAST_ROUND, .Lchacha20_mips_xor_aligned_64_b
+	/* Load upper half of jump table addr */
+	lui	T0, %hi(.Lchacha20_mips_jmptbl_aligned_0)
+
+	/* Full block? Jump */
+	beqz	BYTES, .Lchacha20_mips_xor_aligned_64_b
+	/* Calculate lower half jump table addr and offset */
+	ins	T0, $at, 2, 6
+
+	subu	T0, $at
+	addiu	T0, %lo(.Lchacha20_mips_jmptbl_aligned_0)
+
+	jr	T0
+	/* Delay slot */
+	nop
+
+	.set	reorder
+
+.Loop_chacha20_unaligned:
+	.set noreorder
+
+	/* Last round? no jump */
+	bne	OUT, PTR_LAST_ROUND, .Lchacha20_mips_xor_unaligned_64_b
+	/* Load upper half of jump table addr */
+	lui	T0, %hi(.Lchacha20_mips_jmptbl_unaligned_0)
+
+	/* Full block? Jump */
+	beqz	BYTES, .Lchacha20_mips_xor_unaligned_64_b
+
+	/* Calculate lower half jump table addr and offset */
+	ins     T0, $at, 2, 6
+	subu	T0, $at
+	addiu	T0, %lo(.Lchacha20_mips_jmptbl_unaligned_0)
+
+	jr	T0
+	/* Delay slot */
+	nop
+
+	.set	reorder
+
+/* Aligned code path
+ */
+.align 4
+	STORE_ALIGNED(64, 15, NONCE,12)
+	STORE_ALIGNED(60, 14, NONCE, 8)
+	STORE_ALIGNED(56, 13, NONCE, 4)
+	STORE_ALIGNED(52, 12, NONCE, 0)
+	STORE_ALIGNED(48, 11, KEY, 28)
+	STORE_ALIGNED(44, 10, KEY, 24)
+	STORE_ALIGNED(40,  9, KEY, 20)
+	STORE_ALIGNED(36,  8, KEY, 16)
+	STORE_ALIGNED(32,  7, KEY, 12)
+	STORE_ALIGNED(28,  6, KEY,  8)
+	STORE_ALIGNED(24,  5, KEY,  4)
+	STORE_ALIGNED(20,  4, KEY,  0)
+	STORE_ALIGNED(16,  3, $sp, 12+CONSTANT_OFS_SP)
+	STORE_ALIGNED(12,  2, $sp,  8+CONSTANT_OFS_SP)
+	STORE_ALIGNED( 8,  1, $sp,  4+CONSTANT_OFS_SP)
+.Lchacha20_mips_xor_aligned_4_b:
+	/* STORE_ALIGNED( 4,  0, $sp, 0+CONSTANT_OFS_SP) */
+	lw	T0, 0+CONSTANT_OFS_SP($sp)
+	lw	T1, 0(IN)
+	addu	X0, T0
+	CPU_TO_LE32(X0)
+	xor	X0, T1
+	.set noreorder
+	bne	OUT, PTR_LAST_ROUND, .Loop_chacha20_rounds
+	sw	X0, 0(OUT)
+	.set reorder
+
+	.set noreorder
+	bne	$at, BYTES, .Lchacha20_mips_xor_bytes
+	/* Empty delayslot, Increase NONCE_0, return NONCE_0 value */
+	addiu	NONCE_0, 1
+	.set noreorder
+
+.Lchacha20_mips_xor_done:
+	/* Restore used registers */
+	lw	$ra,  0($sp)
+	lw	$fp,  4($sp)
+	lw	$s0,  8($sp)
+	lw	$s1, 12($sp)
+	lw	$s2, 16($sp)
+	lw	$s3, 20($sp)
+	lw	$s4, 24($sp)
+	lw	$s5, 28($sp)
+	lw	$s6, 32($sp)
+	lw	$s7, 36($sp)
+.Lchacha20_mips_end:
+	.set noreorder
+	jr	$ra
+	addiu	$sp, STACK_SIZE
+	.set reorder
+
+	.set noreorder
+	/* Start jump table */
+	JMPTBL_ALIGNED( 0,  0, $sp,  0+CONSTANT_OFS_SP)
+	JMPTBL_ALIGNED( 4,  1, $sp,  4+CONSTANT_OFS_SP)
+	JMPTBL_ALIGNED( 8,  2, $sp,  8+CONSTANT_OFS_SP)
+	JMPTBL_ALIGNED(12,  3, $sp, 12+CONSTANT_OFS_SP)
+	JMPTBL_ALIGNED(16,  4, KEY,  0)
+	JMPTBL_ALIGNED(20,  5, KEY,  4)
+	JMPTBL_ALIGNED(24,  6, KEY,  8)
+	JMPTBL_ALIGNED(28,  7, KEY, 12)
+	JMPTBL_ALIGNED(32,  8, KEY, 16)
+	JMPTBL_ALIGNED(36,  9, KEY, 20)
+	JMPTBL_ALIGNED(40, 10, KEY, 24)
+	JMPTBL_ALIGNED(44, 11, KEY, 28)
+	JMPTBL_ALIGNED(48, 12, NONCE, 0)
+	JMPTBL_ALIGNED(52, 13, NONCE, 4)
+	JMPTBL_ALIGNED(56, 14, NONCE, 8)
+	JMPTBL_ALIGNED(60, 15, NONCE,12)
+	/* End jump table */
+	.set reorder
+
+/* Unaligned code path
+ */
+	STORE_UNALIGNED(64, 15, NONCE,12)
+	STORE_UNALIGNED(60, 14, NONCE, 8)
+	STORE_UNALIGNED(56, 13, NONCE, 4)
+	STORE_UNALIGNED(52, 12, NONCE, 0)
+	STORE_UNALIGNED(48, 11, KEY, 28)
+	STORE_UNALIGNED(44, 10, KEY, 24)
+	STORE_UNALIGNED(40,  9, KEY, 20)
+	STORE_UNALIGNED(36,  8, KEY, 16)
+	STORE_UNALIGNED(32,  7, KEY, 12)
+	STORE_UNALIGNED(28,  6, KEY,  8)
+	STORE_UNALIGNED(24,  5, KEY,  4)
+	STORE_UNALIGNED(20,  4, KEY,  0)
+	STORE_UNALIGNED(16,  3, $sp, 12+CONSTANT_OFS_SP)
+	STORE_UNALIGNED(12,  2, $sp,  8+CONSTANT_OFS_SP)
+	STORE_UNALIGNED( 8,  1, $sp,  4+CONSTANT_OFS_SP)
+.Lchacha20_mips_xor_unaligned_4_b:
+	/* STORE_UNALIGNED( 4,  0, $sp, 0+CONSTANT_OFS_SP) */
+	lw	T0, 0+CONSTANT_OFS_SP($sp)
+	lwl	T1, 0+MSB(IN)
+	lwr	T1, 0+LSB(IN)
+	addu	X0, T0
+	CPU_TO_LE32(X0)
+	xor	X0, T1
+	swl	X0, 0+MSB(OUT)
+	.set noreorder
+	bne	OUT, PTR_LAST_ROUND, .Loop_chacha20_rounds
+	swr	X0, 0+LSB(OUT)
+	.set reorder
+
+	/* Fall through to byte handling */
+	.set noreorder
+	beq	$at, BYTES, .Lchacha20_mips_xor_done
+	/* Empty delayslot, increase NONCE_0, return NONCE_0 value */
+.Lchacha20_mips_xor_unaligned_0_b:
+.Lchacha20_mips_xor_aligned_0_b:
+	addiu	NONCE_0, 1
+	.set reorder
+
+.Lchacha20_mips_xor_bytes:
+	addu	OUT, $at
+	addu	IN, $at
+	addu	SAVED_X, SAVED_CA
+	/* First byte */
+	lbu	T1, 0(IN)
+	andi	$at, BYTES, 2
+	CPU_TO_LE32(SAVED_X)
+	ROTR(SAVED_X)
+	xor	T1, SAVED_X
+	.set noreorder
+	beqz	$at, .Lchacha20_mips_xor_done
+	sb	T1, 0(OUT)
+	.set reorder
+	/* Second byte */
+	lbu	T1, 1(IN)
+	andi	$at, BYTES, 1
+	ROTx	SAVED_X, 8
+	xor	T1, SAVED_X
+	.set noreorder
+	beqz	$at, .Lchacha20_mips_xor_done
+	sb	T1, 1(OUT)
+	.set reorder
+	/* Third byte */
+	lbu	T1, 2(IN)
+	ROTx	SAVED_X, 8
+	xor	T1, SAVED_X
+	.set noreorder
+	b	.Lchacha20_mips_xor_done
+	sb	T1, 2(OUT)
+	.set reorder
+.set noreorder
+
+.Lchacha20_mips_jmptbl_unaligned:
+	/* Start jump table */
+	JMPTBL_UNALIGNED( 0,  0, $sp,  0+CONSTANT_OFS_SP)
+	JMPTBL_UNALIGNED( 4,  1, $sp,  4+CONSTANT_OFS_SP)
+	JMPTBL_UNALIGNED( 8,  2, $sp,  8+CONSTANT_OFS_SP)
+	JMPTBL_UNALIGNED(12,  3, $sp, 12+CONSTANT_OFS_SP)
+	JMPTBL_UNALIGNED(16,  4, KEY,  0)
+	JMPTBL_UNALIGNED(20,  5, KEY,  4)
+	JMPTBL_UNALIGNED(24,  6, KEY,  8)
+	JMPTBL_UNALIGNED(28,  7, KEY, 12)
+	JMPTBL_UNALIGNED(32,  8, KEY, 16)
+	JMPTBL_UNALIGNED(36,  9, KEY, 20)
+	JMPTBL_UNALIGNED(40, 10, KEY, 24)
+	JMPTBL_UNALIGNED(44, 11, KEY, 28)
+	JMPTBL_UNALIGNED(48, 12, NONCE, 0)
+	JMPTBL_UNALIGNED(52, 13, NONCE, 4)
+	JMPTBL_UNALIGNED(56, 14, NONCE, 8)
+	JMPTBL_UNALIGNED(60, 15, NONCE,12)
+	/* End jump table */
+.set reorder
+
+.end chacha20_mips
+.set at
diff --git a/lib/zinc/chacha20/chacha20.c b/lib/zinc/chacha20/chacha20.c
index 385e7350adc3..0cf490ca23be 100644
--- a/lib/zinc/chacha20/chacha20.c
+++ b/lib/zinc/chacha20/chacha20.c
@@ -18,6 +18,8 @@
 #include "chacha20-x86_64-glue.h"
 #elif defined(CONFIG_ZINC_ARCH_ARM) || defined(CONFIG_ZINC_ARCH_ARM64)
 #include "chacha20-arm-glue.h"
+#elif defined(CONFIG_ZINC_ARCH_MIPS)
+#include "chacha20-mips-glue.h"
 #else
 void __init chacha20_fpu_init(void)
 {

From patchwork Tue Sep 18 16:16:33 2018
Content-Type: text/plain; charset="utf-8"
MIME-Version: 1.0
Content-Transfer-Encoding: 8bit
X-Patchwork-Submitter: "Jason A. Donenfeld" <jason@zx2c4.com>
X-Patchwork-Id: 146919
Delivered-To: patch@linaro.org
Received: by 2002:a2e:1648:0:0:0:0:0 with SMTP id 8-v6csp65620ljw;
 Tue, 18 Sep 2018 09:19:31 -0700 (PDT)
X-Google-Smtp-Source: ANB0VdYNUJ14teosHWVDvZ4nuOkH73rhuEFcm/5F6EYl+chwtJYSjVXTI6R36XbP8/fCn6sq8s+g
X-Received: by 2002:a62:ee06:: with SMTP id
 e6-v6mr31873965pfi.2.1537287566704; 
 Tue, 18 Sep 2018 09:19:26 -0700 (PDT)
ARC-Seal: i=1; a=rsa-sha256; t=1537287566; cv=none;
 d=google.com; s=arc-20160816;
 b=icwziL8YEBz28o2Yil1HyGUAfWcIMHWkB6myrb+IDCPPhWUQn6etairV+pquICMtLz
 0IlF/TM9l10wPWyxTXM3ncymmiCrcW56U4zlHICoZXsD0vAgEe4yc7JEdV29AKE3vv2r
 +8/kAkHwyJJI4YM7u1rY4b/Lfn/3dFT1dgTpWnWeFWG/j/BP1XZ6Z919g8M8bcDSg5va
 JYdMMREr/uiBqsINozWEiEhE98BsrBzbOWEWsnOqaRVVSpKv8Cw9z6JZ1bwd07S17RJJ
 CcEVw/CgQdHPcF9cA/ok9njCKkq0UWj6UiSaVlHFkuu13TS5O7eR17ts38Ai7K+pns5W
 369g==
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=google.com;
 s=arc-20160816; 
 h=list-id:precedence:sender:content-transfer-encoding:mime-version
 :references:in-reply-to:message-id:date:subject:cc:to:from
 :dkim-signature;
 bh=88YfBH/+VH9Y4eI0EBR4mwvx91N06yHU3i5AX35NOvE=;
 b=bn4sZBV22TRps0OFF1K/6oD9gptvMqgDSHrmgOnKuroaHyP5d/Wjwlw2mrYhvGr9qq
 k85AcR9GI1Id7z09TBE5MDHWQPIsORyQib1Dx9VIJ5Fkqez6mLyIDSwcqugS6X+P9kG1
 MgRnuPYPeY3RWNJi1iRwekgrsg9qQ897hz0uwLMKJ3b9bqfQCOkcaVd2nUbq5e0ze035
 2rDXVxDbXH98ybJpEOvJ9eC/ubaD+1ISeR7OXKE0IYeo8MuuBEi27HnsNoymdNTQ6+qy
 zY7nxBJXwYr0dRk7k/2JV/Zt6ZgXQy1lOFuGgNSDDxHBz6zFul25qFxg4yqIgB30Fl88
 kNpA==
ARC-Authentication-Results: i=1; mx.google.com;
 dkim=pass header.i=@zx2c4.com header.s=mail header.b=rT4YKJzR;
 spf=pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) smtp.mailfrom=netdev-owner@vger.kernel.org; 
 dmarc=pass (p=NONE sp=NONE dis=NONE) header.from=zx2c4.com
Return-Path: <netdev-owner@vger.kernel.org>
Received: from vger.kernel.org (vger.kernel.org. [209.132.180.67])
 by mx.google.com with ESMTP id
 v9-v6si19923535pfg.123.2018.09.18.09.19.22; 
 Tue, 18 Sep 2018 09:19:26 -0700 (PDT)
Received-SPF: pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) client-ip=209.132.180.67; 
Authentication-Results: mx.google.com;
 dkim=pass header.i=@zx2c4.com header.s=mail header.b=rT4YKJzR;
 spf=pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) smtp.mailfrom=netdev-owner@vger.kernel.org; 
 dmarc=pass (p=NONE sp=NONE dis=NONE) header.from=zx2c4.com
Received: (majordomo@vger.kernel.org) by vger.kernel.org via listexpand
 id S1730370AbeIRVvf (ORCPT <rfc822;naresh.kamboju@linaro.org>
 + 10 others); Tue, 18 Sep 2018 17:51:35 -0400
Received: from frisell.zx2c4.com ([192.95.5.64]:57805 "EHLO frisell.zx2c4.com"
 rhost-flags-OK-OK-OK-OK) by vger.kernel.org with ESMTP
 id S1729955AbeIRVve (ORCPT <rfc822;netdev@vger.kernel.org>);
 Tue, 18 Sep 2018 17:51:34 -0400
Received: by frisell.zx2c4.com (ZX2C4 Mail Server) with ESMTP id 68c3e4ba;
 Tue, 18 Sep 2018 16:00:35 +0000 (UTC)
DKIM-Signature: v=1; a=rsa-sha1; c=relaxed; d=zx2c4.com; h=from:to:cc
 :subject:date:message-id:in-reply-to:references:mime-version
 :content-type:content-transfer-encoding; s=mail; bh=MmVs4KXc9V3w
 V3OFZnlwhopjILo=; b=rT4YKJzRGAk6BLitCEQPeHrCu2C2rUiUxYBQBCVD/Od5
 zIk14VHT0q5PO1pSEI7ZwIIQQTJR3jRWrsJcXUm4FH/d6pP1iEkPMG68UWAmNR+6
 3sB8Bjtm8WP8iESSnT1k2RtTFb8gG77Db26bAvO1uIy4elMwljqIhp5ZYdcu10Q6
 LSRyNwD7xrJtx67kVUAvLVHHoOlnbFLvXxr7bq0XkwPWuYx2JoLbhrDGJVootz6l
 cX5I+T+ATEvjiJwkHiUErd8dq4Qq9chJfNfIvBFGX9A09dnkx2n4VDFjhvtkGJcH
 GLzHWEiYfI53y2/nL+ezj6+tZ87slqB3cJjeWNlI5g==
Received: by frisell.zx2c4.com (ZX2C4 Mail Server) with ESMTPSA id a3d33cee
 (TLSv1.2:ECDHE-RSA-AES256-GCM-SHA384:256:NO); 
 Tue, 18 Sep 2018 16:00:30 +0000 (UTC)
From: "Jason A. Donenfeld" <Jason@zx2c4.com>
To: linux-kernel@vger.kernel.org, netdev@vger.kernel.org,
 linux-crypto@vger.kernel.org, davem@davemloft.net,
 gregkh@linuxfoundation.org
Cc: "Jason A. Donenfeld" <Jason@zx2c4.com>, Samuel Neves <sneves@dei.uc.pt>,
 Andy Lutomirski <luto@kernel.org>,
 Jean-Philippe Aumasson <jeanphilippe.aumasson@gmail.com>
Subject: [PATCH net-next v5 07/20] zinc: Poly1305 generic C implementations
 and selftest
Date: Tue, 18 Sep 2018 18:16:33 +0200
Message-Id: <20180918161646.19105-8-Jason@zx2c4.com>
In-Reply-To: <20180918161646.19105-1-Jason@zx2c4.com>
References: <20180918161646.19105-1-Jason@zx2c4.com>
MIME-Version: 1.0
Sender: netdev-owner@vger.kernel.org
Precedence: bulk
List-ID: <netdev.vger.kernel.org>
X-Mailing-List: netdev@vger.kernel.org

These two C implementations -- a 32x32 one and a 64x64 one, depending on
the platform -- come from Andrew Moon's public domain poly1305-donna
portable code, modified for usage in the kernel and for usage with
accelerated primitives.

Information: https://cr.yp.to/mac.html

Signed-off-by: Jason A. Donenfeld <Jason@zx2c4.com>
Cc: Samuel Neves <sneves@dei.uc.pt>
Cc: Andy Lutomirski <luto@kernel.org>
Cc: Greg KH <gregkh@linuxfoundation.org>
Cc: Jean-Philippe Aumasson <jeanphilippe.aumasson@gmail.com>
---
 include/zinc/poly1305.h              |  31 +
 lib/zinc/Kconfig                     |   3 +
 lib/zinc/Makefile                    |   3 +
 lib/zinc/poly1305/poly1305-donna32.h | 205 +++++++
 lib/zinc/poly1305/poly1305-donna64.h | 182 ++++++
 lib/zinc/poly1305/poly1305.c         | 155 +++++
 lib/zinc/selftest/poly1305.h         | 875 +++++++++++++++++++++++++++
 7 files changed, 1454 insertions(+)
 create mode 100644 include/zinc/poly1305.h
 create mode 100644 lib/zinc/poly1305/poly1305-donna32.h
 create mode 100644 lib/zinc/poly1305/poly1305-donna64.h
 create mode 100644 lib/zinc/poly1305/poly1305.c
 create mode 100644 lib/zinc/selftest/poly1305.h

-- 
2.19.0

diff --git a/include/zinc/poly1305.h b/include/zinc/poly1305.h
new file mode 100644
index 000000000000..f6ea9dc26c95
--- /dev/null
+++ b/include/zinc/poly1305.h
@@ -0,0 +1,31 @@
+/* SPDX-License-Identifier: MIT
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ */
+
+#ifndef _ZINC_POLY1305_H
+#define _ZINC_POLY1305_H
+
+#include <linux/simd.h>
+#include <linux/types.h>
+
+enum poly1305_lengths {
+	POLY1305_BLOCK_SIZE = 16,
+	POLY1305_KEY_SIZE = 32,
+	POLY1305_MAC_SIZE = 16
+};
+
+struct poly1305_ctx {
+	u8 opaque[24 * sizeof(u64)];
+	u32 nonce[4];
+	u8 data[POLY1305_BLOCK_SIZE];
+	size_t num;
+} __aligned(8);
+
+void poly1305_init(struct poly1305_ctx *ctx, const u8 key[POLY1305_KEY_SIZE]);
+void poly1305_update(struct poly1305_ctx *ctx, const u8 *input, size_t len,
+		     simd_context_t *simd_context);
+void poly1305_final(struct poly1305_ctx *ctx, u8 mac[POLY1305_MAC_SIZE],
+		    simd_context_t *simd_context);
+
+#endif /* _ZINC_POLY1305_H */
diff --git a/lib/zinc/Kconfig b/lib/zinc/Kconfig
index 1ca1ae1e9ea9..f9ef8f7e3c25 100644
--- a/lib/zinc/Kconfig
+++ b/lib/zinc/Kconfig
@@ -2,6 +2,9 @@ config ZINC_CHACHA20
 	tristate
 	select CRYPTO_ALGAPI
 
+config ZINC_POLY1305
+	tristate
+
 config ZINC_DEBUG
 	bool "Zinc cryptography library debugging and self-tests"
 	help
diff --git a/lib/zinc/Makefile b/lib/zinc/Makefile
index 5c7b452d6a19..ce9707d79ea8 100644
--- a/lib/zinc/Makefile
+++ b/lib/zinc/Makefile
@@ -9,3 +9,6 @@ zinc_chacha20-$(CONFIG_ZINC_ARCH_ARM) += chacha20/chacha20-arm.o
 zinc_chacha20-$(CONFIG_ZINC_ARCH_ARM64) += chacha20/chacha20-arm64.o
 zinc_chacha20-$(CONFIG_ZINC_ARCH_MIPS) += chacha20/chacha20-mips.o
 obj-$(CONFIG_ZINC_CHACHA20) += zinc_chacha20.o
+
+zinc_poly1305-y := poly1305/poly1305.o
+obj-$(CONFIG_ZINC_POLY1305) += zinc_poly1305.o
diff --git a/lib/zinc/poly1305/poly1305-donna32.h b/lib/zinc/poly1305/poly1305-donna32.h
new file mode 100644
index 000000000000..931ce66aed2a
--- /dev/null
+++ b/lib/zinc/poly1305/poly1305-donna32.h
@@ -0,0 +1,205 @@
+/* SPDX-License-Identifier: MIT
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ *
+ * This is based in part on Andrew Moon's poly1305-donna, which is in the
+ * public domain.
+ */
+
+struct poly1305_internal {
+	u32 h[5];
+	u32 r[5];
+	u32 s[4];
+};
+
+static void poly1305_init_generic(void *ctx, const u8 key[16])
+{
+	struct poly1305_internal *st = (struct poly1305_internal *)ctx;
+
+	/* r &= 0xffffffc0ffffffc0ffffffc0fffffff */
+	st->r[0] = (get_unaligned_le32(&key[0])) & 0x3ffffff;
+	st->r[1] = (get_unaligned_le32(&key[3]) >> 2) & 0x3ffff03;
+	st->r[2] = (get_unaligned_le32(&key[6]) >> 4) & 0x3ffc0ff;
+	st->r[3] = (get_unaligned_le32(&key[9]) >> 6) & 0x3f03fff;
+	st->r[4] = (get_unaligned_le32(&key[12]) >> 8) & 0x00fffff;
+
+	/* s = 5*r */
+	st->s[0] = st->r[1] * 5;
+	st->s[1] = st->r[2] * 5;
+	st->s[2] = st->r[3] * 5;
+	st->s[3] = st->r[4] * 5;
+
+	/* h = 0 */
+	st->h[0] = 0;
+	st->h[1] = 0;
+	st->h[2] = 0;
+	st->h[3] = 0;
+	st->h[4] = 0;
+}
+
+static void poly1305_blocks_generic(void *ctx, const u8 *input, size_t len,
+				    const u32 padbit)
+{
+	struct poly1305_internal *st = (struct poly1305_internal *)ctx;
+	const u32 hibit = padbit << 24;
+	u32 r0, r1, r2, r3, r4;
+	u32 s1, s2, s3, s4;
+	u32 h0, h1, h2, h3, h4;
+	u64 d0, d1, d2, d3, d4;
+	u32 c;
+
+	r0 = st->r[0];
+	r1 = st->r[1];
+	r2 = st->r[2];
+	r3 = st->r[3];
+	r4 = st->r[4];
+
+	s1 = st->s[0];
+	s2 = st->s[1];
+	s3 = st->s[2];
+	s4 = st->s[3];
+
+	h0 = st->h[0];
+	h1 = st->h[1];
+	h2 = st->h[2];
+	h3 = st->h[3];
+	h4 = st->h[4];
+
+	while (len >= POLY1305_BLOCK_SIZE) {
+		/* h += m[i] */
+		h0 += (get_unaligned_le32(&input[0])) & 0x3ffffff;
+		h1 += (get_unaligned_le32(&input[3]) >> 2) & 0x3ffffff;
+		h2 += (get_unaligned_le32(&input[6]) >> 4) & 0x3ffffff;
+		h3 += (get_unaligned_le32(&input[9]) >> 6) & 0x3ffffff;
+		h4 += (get_unaligned_le32(&input[12]) >> 8) | hibit;
+
+		/* h *= r */
+		d0 = ((u64)h0 * r0) + ((u64)h1 * s4) +
+		     ((u64)h2 * s3) + ((u64)h3 * s2) +
+		     ((u64)h4 * s1);
+		d1 = ((u64)h0 * r1) + ((u64)h1 * r0) +
+		     ((u64)h2 * s4) + ((u64)h3 * s3) +
+		     ((u64)h4 * s2);
+		d2 = ((u64)h0 * r2) + ((u64)h1 * r1) +
+		     ((u64)h2 * r0) + ((u64)h3 * s4) +
+		     ((u64)h4 * s3);
+		d3 = ((u64)h0 * r3) + ((u64)h1 * r2) +
+		     ((u64)h2 * r1) + ((u64)h3 * r0) +
+		     ((u64)h4 * s4);
+		d4 = ((u64)h0 * r4) + ((u64)h1 * r3) +
+		     ((u64)h2 * r2) + ((u64)h3 * r1) +
+		     ((u64)h4 * r0);
+
+		/* (partial) h %= p */
+		c = (u32)(d0 >> 26);
+		h0 = (u32)d0 & 0x3ffffff;
+		d1 += c;
+		c = (u32)(d1 >> 26);
+		h1 = (u32)d1 & 0x3ffffff;
+		d2 += c;
+		c = (u32)(d2 >> 26);
+		h2 = (u32)d2 & 0x3ffffff;
+		d3 += c;
+		c = (u32)(d3 >> 26);
+		h3 = (u32)d3 & 0x3ffffff;
+		d4 += c;
+		c = (u32)(d4 >> 26);
+		h4 = (u32)d4 & 0x3ffffff;
+		h0 += c * 5;
+		c = (h0 >> 26);
+		h0 = h0 & 0x3ffffff;
+		h1 += c;
+
+		input += POLY1305_BLOCK_SIZE;
+		len -= POLY1305_BLOCK_SIZE;
+	}
+
+	st->h[0] = h0;
+	st->h[1] = h1;
+	st->h[2] = h2;
+	st->h[3] = h3;
+	st->h[4] = h4;
+}
+
+static void poly1305_emit_generic(void *ctx, u8 mac[16], const u32 nonce[4])
+{
+	struct poly1305_internal *st = (struct poly1305_internal *)ctx;
+	u32 h0, h1, h2, h3, h4, c;
+	u32 g0, g1, g2, g3, g4;
+	u64 f;
+	u32 mask;
+
+	/* fully carry h */
+	h0 = st->h[0];
+	h1 = st->h[1];
+	h2 = st->h[2];
+	h3 = st->h[3];
+	h4 = st->h[4];
+
+	c = h1 >> 26;
+	h1 = h1 & 0x3ffffff;
+	h2 += c;
+	c = h2 >> 26;
+	h2 = h2 & 0x3ffffff;
+	h3 += c;
+	c = h3 >> 26;
+	h3 = h3 & 0x3ffffff;
+	h4 += c;
+	c = h4 >> 26;
+	h4 = h4 & 0x3ffffff;
+	h0 += c * 5;
+	c = h0 >> 26;
+	h0 = h0 & 0x3ffffff;
+	h1 += c;
+
+	/* compute h + -p */
+	g0 = h0 + 5;
+	c = g0 >> 26;
+	g0 &= 0x3ffffff;
+	g1 = h1 + c;
+	c = g1 >> 26;
+	g1 &= 0x3ffffff;
+	g2 = h2 + c;
+	c = g2 >> 26;
+	g2 &= 0x3ffffff;
+	g3 = h3 + c;
+	c = g3 >> 26;
+	g3 &= 0x3ffffff;
+	g4 = h4 + c - (1UL << 26);
+
+	/* select h if h < p, or h + -p if h >= p */
+	mask = (g4 >> ((sizeof(u32) * 8) - 1)) - 1;
+	g0 &= mask;
+	g1 &= mask;
+	g2 &= mask;
+	g3 &= mask;
+	g4 &= mask;
+	mask = ~mask;
+
+	h0 = (h0 & mask) | g0;
+	h1 = (h1 & mask) | g1;
+	h2 = (h2 & mask) | g2;
+	h3 = (h3 & mask) | g3;
+	h4 = (h4 & mask) | g4;
+
+	/* h = h % (2^128) */
+	h0 = ((h0) | (h1 << 26)) & 0xffffffff;
+	h1 = ((h1 >> 6) | (h2 << 20)) & 0xffffffff;
+	h2 = ((h2 >> 12) | (h3 << 14)) & 0xffffffff;
+	h3 = ((h3 >> 18) | (h4 << 8)) & 0xffffffff;
+
+	/* mac = (h + nonce) % (2^128) */
+	f = (u64)h0 + nonce[0];
+	h0 = (u32)f;
+	f = (u64)h1 + nonce[1] + (f >> 32);
+	h1 = (u32)f;
+	f = (u64)h2 + nonce[2] + (f >> 32);
+	h2 = (u32)f;
+	f = (u64)h3 + nonce[3] + (f >> 32);
+	h3 = (u32)f;
+
+	put_unaligned_le32(h0, &mac[0]);
+	put_unaligned_le32(h1, &mac[4]);
+	put_unaligned_le32(h2, &mac[8]);
+	put_unaligned_le32(h3, &mac[12]);
+}
diff --git a/lib/zinc/poly1305/poly1305-donna64.h b/lib/zinc/poly1305/poly1305-donna64.h
new file mode 100644
index 000000000000..8e82c20b9831
--- /dev/null
+++ b/lib/zinc/poly1305/poly1305-donna64.h
@@ -0,0 +1,182 @@
+/* SPDX-License-Identifier: MIT
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ *
+ * This is based in part on Andrew Moon's poly1305-donna, which is in the
+ * public domain.
+ */
+
+typedef __uint128_t u128;
+
+struct poly1305_internal {
+	u64 r[3];
+	u64 h[3];
+	u64 s[2];
+};
+
+static void poly1305_init_generic(void *ctx, const u8 key[16])
+{
+	struct poly1305_internal *st = (struct poly1305_internal *)ctx;
+	u64 t0, t1;
+
+	/* r &= 0xffffffc0ffffffc0ffffffc0fffffff */
+	t0 = get_unaligned_le64(&key[0]);
+	t1 = get_unaligned_le64(&key[8]);
+
+	st->r[0] = t0 & 0xffc0fffffff;
+	st->r[1] = ((t0 >> 44) | (t1 << 20)) & 0xfffffc0ffff;
+	st->r[2] = ((t1 >> 24)) & 0x00ffffffc0f;
+
+	/* s = 20*r */
+	st->s[0] = st->r[1] * 20;
+	st->s[1] = st->r[2] * 20;
+
+	/* h = 0 */
+	st->h[0] = 0;
+	st->h[1] = 0;
+	st->h[2] = 0;
+}
+
+static void poly1305_blocks_generic(void *ctx, const u8 *input, size_t len,
+				    const u32 padbit)
+{
+	struct poly1305_internal *st = (struct poly1305_internal *)ctx;
+	const u64 hibit = ((u64)padbit) << 40;
+	u64 r0, r1, r2;
+	u64 s1, s2;
+	u64 h0, h1, h2;
+	u64 c;
+	u128 d0, d1, d2, d;
+
+	r0 = st->r[0];
+	r1 = st->r[1];
+	r2 = st->r[2];
+
+	h0 = st->h[0];
+	h1 = st->h[1];
+	h2 = st->h[2];
+
+	s1 = st->s[0];
+	s2 = st->s[1];
+
+	while (len >= POLY1305_BLOCK_SIZE) {
+		u64 t0, t1;
+
+		/* h += m[i] */
+		t0 = get_unaligned_le64(&input[0]);
+		t1 = get_unaligned_le64(&input[8]);
+
+		h0 += t0 & 0xfffffffffff;
+		h1 += ((t0 >> 44) | (t1 << 20)) & 0xfffffffffff;
+		h2 += (((t1 >> 24)) & 0x3ffffffffff) | hibit;
+
+		/* h *= r */
+		d0 = (u128)h0 * r0;
+		d = (u128)h1 * s2;
+		d0 += d;
+		d = (u128)h2 * s1;
+		d0 += d;
+		d1 = (u128)h0 * r1;
+		d = (u128)h1 * r0;
+		d1 += d;
+		d = (u128)h2 * s2;
+		d1 += d;
+		d2 = (u128)h0 * r2;
+		d = (u128)h1 * r1;
+		d2 += d;
+		d = (u128)h2 * r0;
+		d2 += d;
+
+		/* (partial) h %= p */
+		c = (u64)(d0 >> 44);
+		h0 = (u64)d0 & 0xfffffffffff;
+		d1 += c;
+		c = (u64)(d1 >> 44);
+		h1 = (u64)d1 & 0xfffffffffff;
+		d2 += c;
+		c = (u64)(d2 >> 42);
+		h2 = (u64)d2 & 0x3ffffffffff;
+		h0 += c * 5;
+		c = h0 >> 44;
+		h0 = h0 & 0xfffffffffff;
+		h1 += c;
+
+		input += POLY1305_BLOCK_SIZE;
+		len -= POLY1305_BLOCK_SIZE;
+	}
+
+	st->h[0] = h0;
+	st->h[1] = h1;
+	st->h[2] = h2;
+}
+
+static void poly1305_emit_generic(void *ctx, u8 mac[16], const u32 nonce[4])
+{
+	struct poly1305_internal *st = (struct poly1305_internal *)ctx;
+	u64 h0, h1, h2, c;
+	u64 g0, g1, g2;
+	u64 t0, t1;
+
+	/* fully carry h */
+	h0 = st->h[0];
+	h1 = st->h[1];
+	h2 = st->h[2];
+
+	c = h1 >> 44;
+	h1 &= 0xfffffffffff;
+	h2 += c;
+	c = h2 >> 42;
+	h2 &= 0x3ffffffffff;
+	h0 += c * 5;
+	c = h0 >> 44;
+	h0 &= 0xfffffffffff;
+	h1 += c;
+	c = h1 >> 44;
+	h1 &= 0xfffffffffff;
+	h2 += c;
+	c = h2 >> 42;
+	h2 &= 0x3ffffffffff;
+	h0 += c * 5;
+	c = h0 >> 44;
+	h0 &= 0xfffffffffff;
+	h1 += c;
+
+	/* compute h + -p */
+	g0 = h0 + 5;
+	c  = g0 >> 44;
+	g0 &= 0xfffffffffff;
+	g1 = h1 + c;
+	c  = g1 >> 44;
+	g1 &= 0xfffffffffff;
+	g2 = h2 + c - (1ULL << 42);
+
+	/* select h if h < p, or h + -p if h >= p */
+	c = (g2 >> ((sizeof(u64) * 8) - 1)) - 1;
+	g0 &= c;
+	g1 &= c;
+	g2 &= c;
+	c  = ~c;
+	h0 = (h0 & c) | g0;
+	h1 = (h1 & c) | g1;
+	h2 = (h2 & c) | g2;
+
+	/* h = (h + nonce) */
+	t0 = ((u64)nonce[1] << 32) | nonce[0];
+	t1 = ((u64)nonce[3] << 32) | nonce[2];
+
+	h0 += t0 & 0xfffffffffff;
+	c = h0 >> 44;
+	h0 &= 0xfffffffffff;
+	h1 += (((t0 >> 44) | (t1 << 20)) & 0xfffffffffff) + c;
+	c = h1 >> 44;
+	h1 &= 0xfffffffffff;
+	h2 += (((t1 >> 24)) & 0x3ffffffffff) + c;
+	h2 &= 0x3ffffffffff;
+
+	/* mac = h % (2^128) */
+	h0 = h0 | (h1 << 44);
+	h1 = (h1 >> 20) | (h2 << 24);
+
+	put_unaligned_le64(h0, &mac[0]);
+	put_unaligned_le64(h1, &mac[8]);
+}
diff --git a/lib/zinc/poly1305/poly1305.c b/lib/zinc/poly1305/poly1305.c
new file mode 100644
index 000000000000..dbab82f33aa7
--- /dev/null
+++ b/lib/zinc/poly1305/poly1305.c
@@ -0,0 +1,155 @@
+/* SPDX-License-Identifier: MIT
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ *
+ * Implementation of the Poly1305 message authenticator.
+ *
+ * Information: https://cr.yp.to/mac.html
+ */
+
+#include <zinc/poly1305.h>
+
+#include <asm/unaligned.h>
+#include <linux/kernel.h>
+#include <linux/string.h>
+#include <linux/module.h>
+#include <linux/init.h>
+
+#ifndef HAVE_POLY1305_ARCH_IMPLEMENTATION
+static inline bool poly1305_init_arch(void *ctx,
+				      const u8 key[POLY1305_KEY_SIZE])
+{
+	return false;
+}
+static inline bool poly1305_blocks_arch(void *ctx, const u8 *input,
+					const size_t len, const u32 padbit,
+					simd_context_t *simd_context)
+{
+	return false;
+}
+static inline bool poly1305_emit_arch(void *ctx, u8 mac[POLY1305_MAC_SIZE],
+				      const u32 nonce[4],
+				      simd_context_t *simd_context)
+{
+	return false;
+}
+void __init poly1305_fpu_init(void)
+{
+}
+#endif
+
+#if defined(CONFIG_ARCH_SUPPORTS_INT128) && defined(__SIZEOF_INT128__)
+#include "poly1305-donna64.h"
+#else
+#include "poly1305-donna32.h"
+#endif
+
+void poly1305_init(struct poly1305_ctx *ctx, const u8 key[POLY1305_KEY_SIZE])
+{
+	ctx->nonce[0] = get_unaligned_le32(&key[16]);
+	ctx->nonce[1] = get_unaligned_le32(&key[20]);
+	ctx->nonce[2] = get_unaligned_le32(&key[24]);
+	ctx->nonce[3] = get_unaligned_le32(&key[28]);
+
+	if (!poly1305_init_arch(ctx->opaque, key))
+		poly1305_init_generic(ctx->opaque, key);
+
+	ctx->num = 0;
+}
+EXPORT_SYMBOL(poly1305_init);
+
+static inline void poly1305_blocks(void *ctx, const u8 *input, const size_t len,
+				   const u32 padbit,
+				   simd_context_t *simd_context)
+{
+	if (!poly1305_blocks_arch(ctx, input, len, padbit, simd_context))
+		poly1305_blocks_generic(ctx, input, len, padbit);
+}
+
+static inline void poly1305_emit(void *ctx, u8 mac[POLY1305_KEY_SIZE],
+				 const u32 nonce[4],
+				 simd_context_t *simd_context)
+{
+	if (!poly1305_emit_arch(ctx, mac, nonce, simd_context))
+		poly1305_emit_generic(ctx, mac, nonce);
+}
+
+void poly1305_update(struct poly1305_ctx *ctx, const u8 *input, size_t len,
+		     simd_context_t *simd_context)
+{
+	const size_t num = ctx->num % POLY1305_BLOCK_SIZE;
+	size_t rem;
+
+	if (num) {
+		rem = POLY1305_BLOCK_SIZE - num;
+		if (len < rem) {
+			memcpy(ctx->data + num, input, len);
+			ctx->num = num + len;
+			return;
+		}
+		memcpy(ctx->data + num, input, rem);
+		poly1305_blocks(ctx->opaque, ctx->data, POLY1305_BLOCK_SIZE, 1,
+				simd_context);
+		input += rem;
+		len -= rem;
+	}
+
+	rem = len % POLY1305_BLOCK_SIZE;
+	len -= rem;
+
+	if (len >= POLY1305_BLOCK_SIZE) {
+		poly1305_blocks(ctx->opaque, input, len, 1, simd_context);
+		input += len;
+	}
+
+	if (rem)
+		memcpy(ctx->data, input, rem);
+
+	ctx->num = rem;
+}
+EXPORT_SYMBOL(poly1305_update);
+
+void poly1305_final(struct poly1305_ctx *ctx, u8 mac[POLY1305_MAC_SIZE],
+		    simd_context_t *simd_context)
+{
+	size_t num = ctx->num % POLY1305_BLOCK_SIZE;
+
+	if (num) {
+		ctx->data[num++] = 1;
+		while (num < POLY1305_BLOCK_SIZE)
+			ctx->data[num++] = 0;
+		poly1305_blocks(ctx->opaque, ctx->data, POLY1305_BLOCK_SIZE, 0,
+				simd_context);
+	}
+
+	poly1305_emit(ctx->opaque, mac, ctx->nonce, simd_context);
+
+	memzero_explicit(ctx, sizeof(*ctx));
+}
+EXPORT_SYMBOL(poly1305_final);
+
+#include "../selftest/poly1305.h"
+
+static bool nosimd __initdata = false;
+
+static int __init mod_init(void)
+{
+	if (!nosimd)
+		poly1305_fpu_init();
+#ifdef DEBUG
+	if (!poly1305_selftest())
+		return -ENOTRECOVERABLE;
+#endif
+	return 0;
+}
+
+static void __exit mod_exit(void)
+{
+}
+
+module_param(nosimd, bool, 0);
+module_init(mod_init);
+module_exit(mod_exit);
+MODULE_LICENSE("GPL v2");
+MODULE_DESCRIPTION("Poly1305 one-time authenticator");
+MODULE_AUTHOR("Jason A. Donenfeld <Jason@zx2c4.com>");
diff --git a/lib/zinc/selftest/poly1305.h b/lib/zinc/selftest/poly1305.h
new file mode 100644
index 000000000000..1439c98e879a
--- /dev/null
+++ b/lib/zinc/selftest/poly1305.h
@@ -0,0 +1,875 @@
+/* SPDX-License-Identifier: MIT
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ */
+
+#ifdef DEBUG
+struct poly1305_testvec {
+	u8 input[600];
+	u8 output[POLY1305_MAC_SIZE];
+	u8 key[POLY1305_KEY_SIZE];
+	size_t ilen;
+};
+
+static const struct poly1305_testvec poly1305_testvecs[] __initconst = {
+{ /* RFC7539 */
+	.input	= { 0x43, 0x72, 0x79, 0x70, 0x74, 0x6f, 0x67, 0x72,
+		    0x61, 0x70, 0x68, 0x69, 0x63, 0x20, 0x46, 0x6f,
+		    0x72, 0x75, 0x6d, 0x20, 0x52, 0x65, 0x73, 0x65,
+		    0x61, 0x72, 0x63, 0x68, 0x20, 0x47, 0x72, 0x6f,
+		    0x75, 0x70 },
+	.ilen	= 34,
+	.output	= { 0xa8, 0x06, 0x1d, 0xc1, 0x30, 0x51, 0x36, 0xc6,
+		    0xc2, 0x2b, 0x8b, 0xaf, 0x0c, 0x01, 0x27, 0xa9 },
+	.key	= { 0x85, 0xd6, 0xbe, 0x78, 0x57, 0x55, 0x6d, 0x33,
+		    0x7f, 0x44, 0x52, 0xfe, 0x42, 0xd5, 0x06, 0xa8,
+		    0x01, 0x03, 0x80, 0x8a, 0xfb, 0x0d, 0xb2, 0xfd,
+		    0x4a, 0xbf, 0xf6, 0xaf, 0x41, 0x49, 0xf5, 0x1b },
+}, { /* "The Poly1305-AES message-authentication code" */
+	.input	= { 0xf3, 0xf6 },
+	.ilen	= 2,
+	.output	= { 0xf4, 0xc6, 0x33, 0xc3, 0x04, 0x4f, 0xc1, 0x45,
+		    0xf8, 0x4f, 0x33, 0x5c, 0xb8, 0x19, 0x53, 0xde },
+	.key	= { 0x85, 0x1f, 0xc4, 0x0c, 0x34, 0x67, 0xac, 0x0b,
+		    0xe0, 0x5c, 0xc2, 0x04, 0x04, 0xf3, 0xf7, 0x00,
+		    0x58, 0x0b, 0x3b, 0x0f, 0x94, 0x47, 0xbb, 0x1e,
+		    0x69, 0xd0, 0x95, 0xb5, 0x92, 0x8b, 0x6d, 0xbc },
+}, {
+	.input	= "",
+	.ilen	= 0,
+	.output	= { 0xdd, 0x3f, 0xab, 0x22, 0x51, 0xf1, 0x1a, 0xc7,
+		    0x59, 0xf0, 0x88, 0x71, 0x29, 0xcc, 0x2e, 0xe7 },
+	.key	= { 0xa0, 0xf3, 0x08, 0x00, 0x00, 0xf4, 0x64, 0x00,
+		    0xd0, 0xc7, 0xe9, 0x07, 0x6c, 0x83, 0x44, 0x03,
+		    0xdd, 0x3f, 0xab, 0x22, 0x51, 0xf1, 0x1a, 0xc7,
+		    0x59, 0xf0, 0x88, 0x71, 0x29, 0xcc, 0x2e, 0xe7 },
+}, {
+	.input	= { 0x66, 0x3c, 0xea, 0x19, 0x0f, 0xfb, 0x83, 0xd8,
+		    0x95, 0x93, 0xf3, 0xf4, 0x76, 0xb6, 0xbc, 0x24,
+		    0xd7, 0xe6, 0x79, 0x10, 0x7e, 0xa2, 0x6a, 0xdb,
+		    0x8c, 0xaf, 0x66, 0x52, 0xd0, 0x65, 0x61, 0x36 },
+	.ilen	= 32,
+	.output	= { 0x0e, 0xe1, 0xc1, 0x6b, 0xb7, 0x3f, 0x0f, 0x4f,
+		    0xd1, 0x98, 0x81, 0x75, 0x3c, 0x01, 0xcd, 0xbe },
+	.key	= { 0x48, 0x44, 0x3d, 0x0b, 0xb0, 0xd2, 0x11, 0x09,
+		    0xc8, 0x9a, 0x10, 0x0b, 0x5c, 0xe2, 0xc2, 0x08,
+		    0x83, 0x14, 0x9c, 0x69, 0xb5, 0x61, 0xdd, 0x88,
+		    0x29, 0x8a, 0x17, 0x98, 0xb1, 0x07, 0x16, 0xef },
+}, {
+	.input	= { 0xab, 0x08, 0x12, 0x72, 0x4a, 0x7f, 0x1e, 0x34,
+		    0x27, 0x42, 0xcb, 0xed, 0x37, 0x4d, 0x94, 0xd1,
+		    0x36, 0xc6, 0xb8, 0x79, 0x5d, 0x45, 0xb3, 0x81,
+		    0x98, 0x30, 0xf2, 0xc0, 0x44, 0x91, 0xfa, 0xf0,
+		    0x99, 0x0c, 0x62, 0xe4, 0x8b, 0x80, 0x18, 0xb2,
+		    0xc3, 0xe4, 0xa0, 0xfa, 0x31, 0x34, 0xcb, 0x67,
+		    0xfa, 0x83, 0xe1, 0x58, 0xc9, 0x94, 0xd9, 0x61,
+		    0xc4, 0xcb, 0x21, 0x09, 0x5c, 0x1b, 0xf9 },
+	.ilen	= 63,
+	.output	= { 0x51, 0x54, 0xad, 0x0d, 0x2c, 0xb2, 0x6e, 0x01,
+		    0x27, 0x4f, 0xc5, 0x11, 0x48, 0x49, 0x1f, 0x1b },
+	.key	= { 0x12, 0x97, 0x6a, 0x08, 0xc4, 0x42, 0x6d, 0x0c,
+		    0xe8, 0xa8, 0x24, 0x07, 0xc4, 0xf4, 0x82, 0x07,
+		    0x80, 0xf8, 0xc2, 0x0a, 0xa7, 0x12, 0x02, 0xd1,
+		    0xe2, 0x91, 0x79, 0xcb, 0xcb, 0x55, 0x5a, 0x57 },
+}, { /* self-generated vectors exercise "significant" lengths, such that they
+      * are handled by different code paths */
+	.input	= { 0xab, 0x08, 0x12, 0x72, 0x4a, 0x7f, 0x1e, 0x34,
+		    0x27, 0x42, 0xcb, 0xed, 0x37, 0x4d, 0x94, 0xd1,
+		    0x36, 0xc6, 0xb8, 0x79, 0x5d, 0x45, 0xb3, 0x81,
+		    0x98, 0x30, 0xf2, 0xc0, 0x44, 0x91, 0xfa, 0xf0,
+		    0x99, 0x0c, 0x62, 0xe4, 0x8b, 0x80, 0x18, 0xb2,
+		    0xc3, 0xe4, 0xa0, 0xfa, 0x31, 0x34, 0xcb, 0x67,
+		    0xfa, 0x83, 0xe1, 0x58, 0xc9, 0x94, 0xd9, 0x61,
+		    0xc4, 0xcb, 0x21, 0x09, 0x5c, 0x1b, 0xf9, 0xaf },
+	.ilen	= 64,
+	.output	= { 0x81, 0x20, 0x59, 0xa5, 0xda, 0x19, 0x86, 0x37,
+		    0xca, 0xc7, 0xc4, 0xa6, 0x31, 0xbe, 0xe4, 0x66 },
+	.key	= { 0x12, 0x97, 0x6a, 0x08, 0xc4, 0x42, 0x6d, 0x0c,
+		    0xe8, 0xa8, 0x24, 0x07, 0xc4, 0xf4, 0x82, 0x07,
+		    0x80, 0xf8, 0xc2, 0x0a, 0xa7, 0x12, 0x02, 0xd1,
+		    0xe2, 0x91, 0x79, 0xcb, 0xcb, 0x55, 0x5a, 0x57 },
+}, {
+	.input	= { 0xab, 0x08, 0x12, 0x72, 0x4a, 0x7f, 0x1e, 0x34,
+		    0x27, 0x42, 0xcb, 0xed, 0x37, 0x4d, 0x94, 0xd1,
+		    0x36, 0xc6, 0xb8, 0x79, 0x5d, 0x45, 0xb3, 0x81,
+		    0x98, 0x30, 0xf2, 0xc0, 0x44, 0x91, 0xfa, 0xf0,
+		    0x99, 0x0c, 0x62, 0xe4, 0x8b, 0x80, 0x18, 0xb2,
+		    0xc3, 0xe4, 0xa0, 0xfa, 0x31, 0x34, 0xcb, 0x67 },
+	.ilen	= 48,
+	.output	= { 0x5b, 0x88, 0xd7, 0xf6, 0x22, 0x8b, 0x11, 0xe2,
+		    0xe2, 0x85, 0x79, 0xa5, 0xc0, 0xc1, 0xf7, 0x61 },
+	.key	= { 0x12, 0x97, 0x6a, 0x08, 0xc4, 0x42, 0x6d, 0x0c,
+		    0xe8, 0xa8, 0x24, 0x07, 0xc4, 0xf4, 0x82, 0x07,
+		    0x80, 0xf8, 0xc2, 0x0a, 0xa7, 0x12, 0x02, 0xd1,
+		    0xe2, 0x91, 0x79, 0xcb, 0xcb, 0x55, 0x5a, 0x57 },
+}, {
+	.input	= { 0xab, 0x08, 0x12, 0x72, 0x4a, 0x7f, 0x1e, 0x34,
+		    0x27, 0x42, 0xcb, 0xed, 0x37, 0x4d, 0x94, 0xd1,
+		    0x36, 0xc6, 0xb8, 0x79, 0x5d, 0x45, 0xb3, 0x81,
+		    0x98, 0x30, 0xf2, 0xc0, 0x44, 0x91, 0xfa, 0xf0,
+		    0x99, 0x0c, 0x62, 0xe4, 0x8b, 0x80, 0x18, 0xb2,
+		    0xc3, 0xe4, 0xa0, 0xfa, 0x31, 0x34, 0xcb, 0x67,
+		    0xfa, 0x83, 0xe1, 0x58, 0xc9, 0x94, 0xd9, 0x61,
+		    0xc4, 0xcb, 0x21, 0x09, 0x5c, 0x1b, 0xf9, 0xaf,
+		    0x66, 0x3c, 0xea, 0x19, 0x0f, 0xfb, 0x83, 0xd8,
+		    0x95, 0x93, 0xf3, 0xf4, 0x76, 0xb6, 0xbc, 0x24,
+		    0xd7, 0xe6, 0x79, 0x10, 0x7e, 0xa2, 0x6a, 0xdb,
+		    0x8c, 0xaf, 0x66, 0x52, 0xd0, 0x65, 0x61, 0x36 },
+	.ilen	= 96,
+	.output	= { 0xbb, 0xb6, 0x13, 0xb2, 0xb6, 0xd7, 0x53, 0xba,
+		    0x07, 0x39, 0x5b, 0x91, 0x6a, 0xae, 0xce, 0x15 },
+	.key	= { 0x12, 0x97, 0x6a, 0x08, 0xc4, 0x42, 0x6d, 0x0c,
+		    0xe8, 0xa8, 0x24, 0x07, 0xc4, 0xf4, 0x82, 0x07,
+		    0x80, 0xf8, 0xc2, 0x0a, 0xa7, 0x12, 0x02, 0xd1,
+		    0xe2, 0x91, 0x79, 0xcb, 0xcb, 0x55, 0x5a, 0x57 },
+}, {
+	.input	= { 0xab, 0x08, 0x12, 0x72, 0x4a, 0x7f, 0x1e, 0x34,
+		    0x27, 0x42, 0xcb, 0xed, 0x37, 0x4d, 0x94, 0xd1,
+		    0x36, 0xc6, 0xb8, 0x79, 0x5d, 0x45, 0xb3, 0x81,
+		    0x98, 0x30, 0xf2, 0xc0, 0x44, 0x91, 0xfa, 0xf0,
+		    0x99, 0x0c, 0x62, 0xe4, 0x8b, 0x80, 0x18, 0xb2,
+		    0xc3, 0xe4, 0xa0, 0xfa, 0x31, 0x34, 0xcb, 0x67,
+		    0xfa, 0x83, 0xe1, 0x58, 0xc9, 0x94, 0xd9, 0x61,
+		    0xc4, 0xcb, 0x21, 0x09, 0x5c, 0x1b, 0xf9, 0xaf,
+		    0x48, 0x44, 0x3d, 0x0b, 0xb0, 0xd2, 0x11, 0x09,
+		    0xc8, 0x9a, 0x10, 0x0b, 0x5c, 0xe2, 0xc2, 0x08,
+		    0x83, 0x14, 0x9c, 0x69, 0xb5, 0x61, 0xdd, 0x88,
+		    0x29, 0x8a, 0x17, 0x98, 0xb1, 0x07, 0x16, 0xef,
+		    0x66, 0x3c, 0xea, 0x19, 0x0f, 0xfb, 0x83, 0xd8,
+		    0x95, 0x93, 0xf3, 0xf4, 0x76, 0xb6, 0xbc, 0x24 },
+	.ilen	= 112,
+	.output	= { 0xc7, 0x94, 0xd7, 0x05, 0x7d, 0x17, 0x78, 0xc4,
+		    0xbb, 0xee, 0x0a, 0x39, 0xb3, 0xd9, 0x73, 0x42 },
+	.key	= { 0x12, 0x97, 0x6a, 0x08, 0xc4, 0x42, 0x6d, 0x0c,
+		    0xe8, 0xa8, 0x24, 0x07, 0xc4, 0xf4, 0x82, 0x07,
+		    0x80, 0xf8, 0xc2, 0x0a, 0xa7, 0x12, 0x02, 0xd1,
+		    0xe2, 0x91, 0x79, 0xcb, 0xcb, 0x55, 0x5a, 0x57 },
+}, {
+	.input	= { 0xab, 0x08, 0x12, 0x72, 0x4a, 0x7f, 0x1e, 0x34,
+		    0x27, 0x42, 0xcb, 0xed, 0x37, 0x4d, 0x94, 0xd1,
+		    0x36, 0xc6, 0xb8, 0x79, 0x5d, 0x45, 0xb3, 0x81,
+		    0x98, 0x30, 0xf2, 0xc0, 0x44, 0x91, 0xfa, 0xf0,
+		    0x99, 0x0c, 0x62, 0xe4, 0x8b, 0x80, 0x18, 0xb2,
+		    0xc3, 0xe4, 0xa0, 0xfa, 0x31, 0x34, 0xcb, 0x67,
+		    0xfa, 0x83, 0xe1, 0x58, 0xc9, 0x94, 0xd9, 0x61,
+		    0xc4, 0xcb, 0x21, 0x09, 0x5c, 0x1b, 0xf9, 0xaf,
+		    0x48, 0x44, 0x3d, 0x0b, 0xb0, 0xd2, 0x11, 0x09,
+		    0xc8, 0x9a, 0x10, 0x0b, 0x5c, 0xe2, 0xc2, 0x08,
+		    0x83, 0x14, 0x9c, 0x69, 0xb5, 0x61, 0xdd, 0x88,
+		    0x29, 0x8a, 0x17, 0x98, 0xb1, 0x07, 0x16, 0xef,
+		    0x66, 0x3c, 0xea, 0x19, 0x0f, 0xfb, 0x83, 0xd8,
+		    0x95, 0x93, 0xf3, 0xf4, 0x76, 0xb6, 0xbc, 0x24,
+		    0xd7, 0xe6, 0x79, 0x10, 0x7e, 0xa2, 0x6a, 0xdb,
+		    0x8c, 0xaf, 0x66, 0x52, 0xd0, 0x65, 0x61, 0x36 },
+	.ilen	= 128,
+	.output	= { 0xff, 0xbc, 0xb9, 0xb3, 0x71, 0x42, 0x31, 0x52,
+		    0xd7, 0xfc, 0xa5, 0xad, 0x04, 0x2f, 0xba, 0xa9 },
+	.key	= { 0x12, 0x97, 0x6a, 0x08, 0xc4, 0x42, 0x6d, 0x0c,
+		    0xe8, 0xa8, 0x24, 0x07, 0xc4, 0xf4, 0x82, 0x07,
+		    0x80, 0xf8, 0xc2, 0x0a, 0xa7, 0x12, 0x02, 0xd1,
+		    0xe2, 0x91, 0x79, 0xcb, 0xcb, 0x55, 0x5a, 0x57 },
+}, {
+	.input	= { 0xab, 0x08, 0x12, 0x72, 0x4a, 0x7f, 0x1e, 0x34,
+		    0x27, 0x42, 0xcb, 0xed, 0x37, 0x4d, 0x94, 0xd1,
+		    0x36, 0xc6, 0xb8, 0x79, 0x5d, 0x45, 0xb3, 0x81,
+		    0x98, 0x30, 0xf2, 0xc0, 0x44, 0x91, 0xfa, 0xf0,
+		    0x99, 0x0c, 0x62, 0xe4, 0x8b, 0x80, 0x18, 0xb2,
+		    0xc3, 0xe4, 0xa0, 0xfa, 0x31, 0x34, 0xcb, 0x67,
+		    0xfa, 0x83, 0xe1, 0x58, 0xc9, 0x94, 0xd9, 0x61,
+		    0xc4, 0xcb, 0x21, 0x09, 0x5c, 0x1b, 0xf9, 0xaf,
+		    0x48, 0x44, 0x3d, 0x0b, 0xb0, 0xd2, 0x11, 0x09,
+		    0xc8, 0x9a, 0x10, 0x0b, 0x5c, 0xe2, 0xc2, 0x08,
+		    0x83, 0x14, 0x9c, 0x69, 0xb5, 0x61, 0xdd, 0x88,
+		    0x29, 0x8a, 0x17, 0x98, 0xb1, 0x07, 0x16, 0xef,
+		    0x66, 0x3c, 0xea, 0x19, 0x0f, 0xfb, 0x83, 0xd8,
+		    0x95, 0x93, 0xf3, 0xf4, 0x76, 0xb6, 0xbc, 0x24,
+		    0xd7, 0xe6, 0x79, 0x10, 0x7e, 0xa2, 0x6a, 0xdb,
+		    0x8c, 0xaf, 0x66, 0x52, 0xd0, 0x65, 0x61, 0x36,
+		    0x81, 0x20, 0x59, 0xa5, 0xda, 0x19, 0x86, 0x37,
+		    0xca, 0xc7, 0xc4, 0xa6, 0x31, 0xbe, 0xe4, 0x66 },
+	.ilen	= 144,
+	.output	= { 0x06, 0x9e, 0xd6, 0xb8, 0xef, 0x0f, 0x20, 0x7b,
+		    0x3e, 0x24, 0x3b, 0xb1, 0x01, 0x9f, 0xe6, 0x32 },
+	.key	= { 0x12, 0x97, 0x6a, 0x08, 0xc4, 0x42, 0x6d, 0x0c,
+		    0xe8, 0xa8, 0x24, 0x07, 0xc4, 0xf4, 0x82, 0x07,
+		    0x80, 0xf8, 0xc2, 0x0a, 0xa7, 0x12, 0x02, 0xd1,
+		    0xe2, 0x91, 0x79, 0xcb, 0xcb, 0x55, 0x5a, 0x57 },
+}, {
+	.input	= { 0xab, 0x08, 0x12, 0x72, 0x4a, 0x7f, 0x1e, 0x34,
+		    0x27, 0x42, 0xcb, 0xed, 0x37, 0x4d, 0x94, 0xd1,
+		    0x36, 0xc6, 0xb8, 0x79, 0x5d, 0x45, 0xb3, 0x81,
+		    0x98, 0x30, 0xf2, 0xc0, 0x44, 0x91, 0xfa, 0xf0,
+		    0x99, 0x0c, 0x62, 0xe4, 0x8b, 0x80, 0x18, 0xb2,
+		    0xc3, 0xe4, 0xa0, 0xfa, 0x31, 0x34, 0xcb, 0x67,
+		    0xfa, 0x83, 0xe1, 0x58, 0xc9, 0x94, 0xd9, 0x61,
+		    0xc4, 0xcb, 0x21, 0x09, 0x5c, 0x1b, 0xf9, 0xaf,
+		    0x48, 0x44, 0x3d, 0x0b, 0xb0, 0xd2, 0x11, 0x09,
+		    0xc8, 0x9a, 0x10, 0x0b, 0x5c, 0xe2, 0xc2, 0x08,
+		    0x83, 0x14, 0x9c, 0x69, 0xb5, 0x61, 0xdd, 0x88,
+		    0x29, 0x8a, 0x17, 0x98, 0xb1, 0x07, 0x16, 0xef,
+		    0x66, 0x3c, 0xea, 0x19, 0x0f, 0xfb, 0x83, 0xd8,
+		    0x95, 0x93, 0xf3, 0xf4, 0x76, 0xb6, 0xbc, 0x24,
+		    0xd7, 0xe6, 0x79, 0x10, 0x7e, 0xa2, 0x6a, 0xdb,
+		    0x8c, 0xaf, 0x66, 0x52, 0xd0, 0x65, 0x61, 0x36,
+		    0x81, 0x20, 0x59, 0xa5, 0xda, 0x19, 0x86, 0x37,
+		    0xca, 0xc7, 0xc4, 0xa6, 0x31, 0xbe, 0xe4, 0x66,
+		    0x5b, 0x88, 0xd7, 0xf6, 0x22, 0x8b, 0x11, 0xe2,
+		    0xe2, 0x85, 0x79, 0xa5, 0xc0, 0xc1, 0xf7, 0x61 },
+	.ilen	= 160,
+	.output	= { 0xcc, 0xa3, 0x39, 0xd9, 0xa4, 0x5f, 0xa2, 0x36,
+		    0x8c, 0x2c, 0x68, 0xb3, 0xa4, 0x17, 0x91, 0x33 },
+	.key	= { 0x12, 0x97, 0x6a, 0x08, 0xc4, 0x42, 0x6d, 0x0c,
+		    0xe8, 0xa8, 0x24, 0x07, 0xc4, 0xf4, 0x82, 0x07,
+		    0x80, 0xf8, 0xc2, 0x0a, 0xa7, 0x12, 0x02, 0xd1,
+		    0xe2, 0x91, 0x79, 0xcb, 0xcb, 0x55, 0x5a, 0x57 },
+}, {
+	.input	= { 0xab, 0x08, 0x12, 0x72, 0x4a, 0x7f, 0x1e, 0x34,
+		    0x27, 0x42, 0xcb, 0xed, 0x37, 0x4d, 0x94, 0xd1,
+		    0x36, 0xc6, 0xb8, 0x79, 0x5d, 0x45, 0xb3, 0x81,
+		    0x98, 0x30, 0xf2, 0xc0, 0x44, 0x91, 0xfa, 0xf0,
+		    0x99, 0x0c, 0x62, 0xe4, 0x8b, 0x80, 0x18, 0xb2,
+		    0xc3, 0xe4, 0xa0, 0xfa, 0x31, 0x34, 0xcb, 0x67,
+		    0xfa, 0x83, 0xe1, 0x58, 0xc9, 0x94, 0xd9, 0x61,
+		    0xc4, 0xcb, 0x21, 0x09, 0x5c, 0x1b, 0xf9, 0xaf,
+		    0x48, 0x44, 0x3d, 0x0b, 0xb0, 0xd2, 0x11, 0x09,
+		    0xc8, 0x9a, 0x10, 0x0b, 0x5c, 0xe2, 0xc2, 0x08,
+		    0x83, 0x14, 0x9c, 0x69, 0xb5, 0x61, 0xdd, 0x88,
+		    0x29, 0x8a, 0x17, 0x98, 0xb1, 0x07, 0x16, 0xef,
+		    0x66, 0x3c, 0xea, 0x19, 0x0f, 0xfb, 0x83, 0xd8,
+		    0x95, 0x93, 0xf3, 0xf4, 0x76, 0xb6, 0xbc, 0x24,
+		    0xd7, 0xe6, 0x79, 0x10, 0x7e, 0xa2, 0x6a, 0xdb,
+		    0x8c, 0xaf, 0x66, 0x52, 0xd0, 0x65, 0x61, 0x36,
+		    0x81, 0x20, 0x59, 0xa5, 0xda, 0x19, 0x86, 0x37,
+		    0xca, 0xc7, 0xc4, 0xa6, 0x31, 0xbe, 0xe4, 0x66,
+		    0x5b, 0x88, 0xd7, 0xf6, 0x22, 0x8b, 0x11, 0xe2,
+		    0xe2, 0x85, 0x79, 0xa5, 0xc0, 0xc1, 0xf7, 0x61,
+		    0xab, 0x08, 0x12, 0x72, 0x4a, 0x7f, 0x1e, 0x34,
+		    0x27, 0x42, 0xcb, 0xed, 0x37, 0x4d, 0x94, 0xd1,
+		    0x36, 0xc6, 0xb8, 0x79, 0x5d, 0x45, 0xb3, 0x81,
+		    0x98, 0x30, 0xf2, 0xc0, 0x44, 0x91, 0xfa, 0xf0,
+		    0x99, 0x0c, 0x62, 0xe4, 0x8b, 0x80, 0x18, 0xb2,
+		    0xc3, 0xe4, 0xa0, 0xfa, 0x31, 0x34, 0xcb, 0x67,
+		    0xfa, 0x83, 0xe1, 0x58, 0xc9, 0x94, 0xd9, 0x61,
+		    0xc4, 0xcb, 0x21, 0x09, 0x5c, 0x1b, 0xf9, 0xaf,
+		    0x48, 0x44, 0x3d, 0x0b, 0xb0, 0xd2, 0x11, 0x09,
+		    0xc8, 0x9a, 0x10, 0x0b, 0x5c, 0xe2, 0xc2, 0x08,
+		    0x83, 0x14, 0x9c, 0x69, 0xb5, 0x61, 0xdd, 0x88,
+		    0x29, 0x8a, 0x17, 0x98, 0xb1, 0x07, 0x16, 0xef,
+		    0x66, 0x3c, 0xea, 0x19, 0x0f, 0xfb, 0x83, 0xd8,
+		    0x95, 0x93, 0xf3, 0xf4, 0x76, 0xb6, 0xbc, 0x24,
+		    0xd7, 0xe6, 0x79, 0x10, 0x7e, 0xa2, 0x6a, 0xdb,
+		    0x8c, 0xaf, 0x66, 0x52, 0xd0, 0x65, 0x61, 0x36 },
+	.ilen	= 288,
+	.output	= { 0x53, 0xf6, 0xe8, 0x28, 0xa2, 0xf0, 0xfe, 0x0e,
+		    0xe8, 0x15, 0xbf, 0x0b, 0xd5, 0x84, 0x1a, 0x34 },
+	.key	= { 0x12, 0x97, 0x6a, 0x08, 0xc4, 0x42, 0x6d, 0x0c,
+		    0xe8, 0xa8, 0x24, 0x07, 0xc4, 0xf4, 0x82, 0x07,
+		    0x80, 0xf8, 0xc2, 0x0a, 0xa7, 0x12, 0x02, 0xd1,
+		    0xe2, 0x91, 0x79, 0xcb, 0xcb, 0x55, 0x5a, 0x57 },
+}, {
+	.input	= { 0xab, 0x08, 0x12, 0x72, 0x4a, 0x7f, 0x1e, 0x34,
+		    0x27, 0x42, 0xcb, 0xed, 0x37, 0x4d, 0x94, 0xd1,
+		    0x36, 0xc6, 0xb8, 0x79, 0x5d, 0x45, 0xb3, 0x81,
+		    0x98, 0x30, 0xf2, 0xc0, 0x44, 0x91, 0xfa, 0xf0,
+		    0x99, 0x0c, 0x62, 0xe4, 0x8b, 0x80, 0x18, 0xb2,
+		    0xc3, 0xe4, 0xa0, 0xfa, 0x31, 0x34, 0xcb, 0x67,
+		    0xfa, 0x83, 0xe1, 0x58, 0xc9, 0x94, 0xd9, 0x61,
+		    0xc4, 0xcb, 0x21, 0x09, 0x5c, 0x1b, 0xf9, 0xaf,
+		    0x48, 0x44, 0x3d, 0x0b, 0xb0, 0xd2, 0x11, 0x09,
+		    0xc8, 0x9a, 0x10, 0x0b, 0x5c, 0xe2, 0xc2, 0x08,
+		    0x83, 0x14, 0x9c, 0x69, 0xb5, 0x61, 0xdd, 0x88,
+		    0x29, 0x8a, 0x17, 0x98, 0xb1, 0x07, 0x16, 0xef,
+		    0x66, 0x3c, 0xea, 0x19, 0x0f, 0xfb, 0x83, 0xd8,
+		    0x95, 0x93, 0xf3, 0xf4, 0x76, 0xb6, 0xbc, 0x24,
+		    0xd7, 0xe6, 0x79, 0x10, 0x7e, 0xa2, 0x6a, 0xdb,
+		    0x8c, 0xaf, 0x66, 0x52, 0xd0, 0x65, 0x61, 0x36,
+		    0x81, 0x20, 0x59, 0xa5, 0xda, 0x19, 0x86, 0x37,
+		    0xca, 0xc7, 0xc4, 0xa6, 0x31, 0xbe, 0xe4, 0x66,
+		    0x5b, 0x88, 0xd7, 0xf6, 0x22, 0x8b, 0x11, 0xe2,
+		    0xe2, 0x85, 0x79, 0xa5, 0xc0, 0xc1, 0xf7, 0x61,
+		    0xab, 0x08, 0x12, 0x72, 0x4a, 0x7f, 0x1e, 0x34,
+		    0x27, 0x42, 0xcb, 0xed, 0x37, 0x4d, 0x94, 0xd1,
+		    0x36, 0xc6, 0xb8, 0x79, 0x5d, 0x45, 0xb3, 0x81,
+		    0x98, 0x30, 0xf2, 0xc0, 0x44, 0x91, 0xfa, 0xf0,
+		    0x99, 0x0c, 0x62, 0xe4, 0x8b, 0x80, 0x18, 0xb2,
+		    0xc3, 0xe4, 0xa0, 0xfa, 0x31, 0x34, 0xcb, 0x67,
+		    0xfa, 0x83, 0xe1, 0x58, 0xc9, 0x94, 0xd9, 0x61,
+		    0xc4, 0xcb, 0x21, 0x09, 0x5c, 0x1b, 0xf9, 0xaf,
+		    0x48, 0x44, 0x3d, 0x0b, 0xb0, 0xd2, 0x11, 0x09,
+		    0xc8, 0x9a, 0x10, 0x0b, 0x5c, 0xe2, 0xc2, 0x08,
+		    0x83, 0x14, 0x9c, 0x69, 0xb5, 0x61, 0xdd, 0x88,
+		    0x29, 0x8a, 0x17, 0x98, 0xb1, 0x07, 0x16, 0xef,
+		    0x66, 0x3c, 0xea, 0x19, 0x0f, 0xfb, 0x83, 0xd8,
+		    0x95, 0x93, 0xf3, 0xf4, 0x76, 0xb6, 0xbc, 0x24,
+		    0xd7, 0xe6, 0x79, 0x10, 0x7e, 0xa2, 0x6a, 0xdb,
+		    0x8c, 0xaf, 0x66, 0x52, 0xd0, 0x65, 0x61, 0x36,
+		    0x81, 0x20, 0x59, 0xa5, 0xda, 0x19, 0x86, 0x37,
+		    0xca, 0xc7, 0xc4, 0xa6, 0x31, 0xbe, 0xe4, 0x66,
+		    0x5b, 0x88, 0xd7, 0xf6, 0x22, 0x8b, 0x11, 0xe2,
+		    0xe2, 0x85, 0x79, 0xa5, 0xc0, 0xc1, 0xf7, 0x61 },
+	.ilen	= 320,
+	.output	= { 0xb8, 0x46, 0xd4, 0x4e, 0x9b, 0xbd, 0x53, 0xce,
+		    0xdf, 0xfb, 0xfb, 0xb6, 0xb7, 0xfa, 0x49, 0x33 },
+	.key	= { 0x12, 0x97, 0x6a, 0x08, 0xc4, 0x42, 0x6d, 0x0c,
+		    0xe8, 0xa8, 0x24, 0x07, 0xc4, 0xf4, 0x82, 0x07,
+		    0x80, 0xf8, 0xc2, 0x0a, 0xa7, 0x12, 0x02, 0xd1,
+		    0xe2, 0x91, 0x79, 0xcb, 0xcb, 0x55, 0x5a, 0x57 },
+}, { /* 4th power of the key spills to 131th bit in SIMD key setup */
+	.input	= { 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff },
+	.ilen	= 256,
+	.output	= { 0x07, 0x14, 0x5a, 0x4c, 0x02, 0xfe, 0x5f, 0xa3,
+		    0x20, 0x36, 0xde, 0x68, 0xfa, 0xbe, 0x90, 0x66 },
+	.key	= { 0xad, 0x62, 0x81, 0x07, 0xe8, 0x35, 0x1d, 0x0f,
+		    0x2c, 0x23, 0x1a, 0x05, 0xdc, 0x4a, 0x41, 0x06,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+}, { /* OpenSSL's poly1305_ieee754.c failed this in final stage */
+	.input	= { 0x84, 0x23, 0x64, 0xe1, 0x56, 0x33, 0x6c, 0x09,
+		    0x98, 0xb9, 0x33, 0xa6, 0x23, 0x77, 0x26, 0x18,
+		    0x0d, 0x9e, 0x3f, 0xdc, 0xbd, 0xe4, 0xcd, 0x5d,
+		    0x17, 0x08, 0x0f, 0xc3, 0xbe, 0xb4, 0x96, 0x14,
+		    0xd7, 0x12, 0x2c, 0x03, 0x74, 0x63, 0xff, 0x10,
+		    0x4d, 0x73, 0xf1, 0x9c, 0x12, 0x70, 0x46, 0x28,
+		    0xd4, 0x17, 0xc4, 0xc5, 0x4a, 0x3f, 0xe3, 0x0d,
+		    0x3c, 0x3d, 0x77, 0x14, 0x38, 0x2d, 0x43, 0xb0,
+		    0x38, 0x2a, 0x50, 0xa5, 0xde, 0xe5, 0x4b, 0xe8,
+		    0x44, 0xb0, 0x76, 0xe8, 0xdf, 0x88, 0x20, 0x1a,
+		    0x1c, 0xd4, 0x3b, 0x90, 0xeb, 0x21, 0x64, 0x3f,
+		    0xa9, 0x6f, 0x39, 0xb5, 0x18, 0xaa, 0x83, 0x40,
+		    0xc9, 0x42, 0xff, 0x3c, 0x31, 0xba, 0xf7, 0xc9,
+		    0xbd, 0xbf, 0x0f, 0x31, 0xae, 0x3f, 0xa0, 0x96,
+		    0xbf, 0x8c, 0x63, 0x03, 0x06, 0x09, 0x82, 0x9f,
+		    0xe7, 0x2e, 0x17, 0x98, 0x24, 0x89, 0x0b, 0xc8,
+		    0xe0, 0x8c, 0x31, 0x5c, 0x1c, 0xce, 0x2a, 0x83,
+		    0x14, 0x4d, 0xbb, 0xff, 0x09, 0xf7, 0x4e, 0x3e,
+		    0xfc, 0x77, 0x0b, 0x54, 0xd0, 0x98, 0x4a, 0x8f,
+		    0x19, 0xb1, 0x47, 0x19, 0xe6, 0x36, 0x35, 0x64,
+		    0x1d, 0x6b, 0x1e, 0xed, 0xf6, 0x3e, 0xfb, 0xf0,
+		    0x80, 0xe1, 0x78, 0x3d, 0x32, 0x44, 0x54, 0x12,
+		    0x11, 0x4c, 0x20, 0xde, 0x0b, 0x83, 0x7a, 0x0d,
+		    0xfa, 0x33, 0xd6, 0xb8, 0x28, 0x25, 0xff, 0xf4,
+		    0x4c, 0x9a, 0x70, 0xea, 0x54, 0xce, 0x47, 0xf0,
+		    0x7d, 0xf6, 0x98, 0xe6, 0xb0, 0x33, 0x23, 0xb5,
+		    0x30, 0x79, 0x36, 0x4a, 0x5f, 0xc3, 0xe9, 0xdd,
+		    0x03, 0x43, 0x92, 0xbd, 0xde, 0x86, 0xdc, 0xcd,
+		    0xda, 0x94, 0x32, 0x1c, 0x5e, 0x44, 0x06, 0x04,
+		    0x89, 0x33, 0x6c, 0xb6, 0x5b, 0xf3, 0x98, 0x9c,
+		    0x36, 0xf7, 0x28, 0x2c, 0x2f, 0x5d, 0x2b, 0x88,
+		    0x2c, 0x17, 0x1e, 0x74 },
+	.ilen	= 252,
+	.output	= { 0xf2, 0x48, 0x31, 0x2e, 0x57, 0x8d, 0x9d, 0x58,
+		    0xf8, 0xb7, 0xbb, 0x4d, 0x19, 0x10, 0x54, 0x31 },
+	.key	= { 0x95, 0xd5, 0xc0, 0x05, 0x50, 0x3e, 0x51, 0x0d,
+		    0x8c, 0xd0, 0xaa, 0x07, 0x2c, 0x4a, 0x4d, 0x06,
+		    0x6e, 0xab, 0xc5, 0x2d, 0x11, 0x65, 0x3d, 0xf4,
+		    0x7f, 0xbf, 0x63, 0xab, 0x19, 0x8b, 0xcc, 0x26 },
+}, { /* AVX2 in OpenSSL's poly1305-x86.pl failed this with 176+32 split */
+	.input	= { 0x24, 0x8a, 0xc3, 0x10, 0x85, 0xb6, 0xc2, 0xad,
+		    0xaa, 0xa3, 0x82, 0x59, 0xa0, 0xd7, 0x19, 0x2c,
+		    0x5c, 0x35, 0xd1, 0xbb, 0x4e, 0xf3, 0x9a, 0xd9,
+		    0x4c, 0x38, 0xd1, 0xc8, 0x24, 0x79, 0xe2, 0xdd,
+		    0x21, 0x59, 0xa0, 0x77, 0x02, 0x4b, 0x05, 0x89,
+		    0xbc, 0x8a, 0x20, 0x10, 0x1b, 0x50, 0x6f, 0x0a,
+		    0x1a, 0xd0, 0xbb, 0xab, 0x76, 0xe8, 0x3a, 0x83,
+		    0xf1, 0xb9, 0x4b, 0xe6, 0xbe, 0xae, 0x74, 0xe8,
+		    0x74, 0xca, 0xb6, 0x92, 0xc5, 0x96, 0x3a, 0x75,
+		    0x43, 0x6b, 0x77, 0x61, 0x21, 0xec, 0x9f, 0x62,
+		    0x39, 0x9a, 0x3e, 0x66, 0xb2, 0xd2, 0x27, 0x07,
+		    0xda, 0xe8, 0x19, 0x33, 0xb6, 0x27, 0x7f, 0x3c,
+		    0x85, 0x16, 0xbc, 0xbe, 0x26, 0xdb, 0xbd, 0x86,
+		    0xf3, 0x73, 0x10, 0x3d, 0x7c, 0xf4, 0xca, 0xd1,
+		    0x88, 0x8c, 0x95, 0x21, 0x18, 0xfb, 0xfb, 0xd0,
+		    0xd7, 0xb4, 0xbe, 0xdc, 0x4a, 0xe4, 0x93, 0x6a,
+		    0xff, 0x91, 0x15, 0x7e, 0x7a, 0xa4, 0x7c, 0x54,
+		    0x44, 0x2e, 0xa7, 0x8d, 0x6a, 0xc2, 0x51, 0xd3,
+		    0x24, 0xa0, 0xfb, 0xe4, 0x9d, 0x89, 0xcc, 0x35,
+		    0x21, 0xb6, 0x6d, 0x16, 0xe9, 0xc6, 0x6a, 0x37,
+		    0x09, 0x89, 0x4e, 0x4e, 0xb0, 0xa4, 0xee, 0xdc,
+		    0x4a, 0xe1, 0x94, 0x68, 0xe6, 0x6b, 0x81, 0xf2,
+		    0x71, 0x35, 0x1b, 0x1d, 0x92, 0x1e, 0xa5, 0x51,
+		    0x04, 0x7a, 0xbc, 0xc6, 0xb8, 0x7a, 0x90, 0x1f,
+		    0xde, 0x7d, 0xb7, 0x9f, 0xa1, 0x81, 0x8c, 0x11,
+		    0x33, 0x6d, 0xbc, 0x07, 0x24, 0x4a, 0x40, 0xeb },
+	.ilen	= 208,
+	.output	= { 0xbc, 0x93, 0x9b, 0xc5, 0x28, 0x14, 0x80, 0xfa,
+		    0x99, 0xc6, 0xd6, 0x8c, 0x25, 0x8e, 0xc4, 0x2f },
+	.key	= { 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07,
+		    0x08, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+}, { /* test vectors from Google */
+	.input	= "",
+	.ilen	= 0,
+	.output	= { 0x47, 0x10, 0x13, 0x0e, 0x9f, 0x6f, 0xea, 0x8d,
+		    0x72, 0x29, 0x38, 0x50, 0xa6, 0x67, 0xd8, 0x6c },
+	.key	= { 0xc8, 0xaf, 0xaa, 0xc3, 0x31, 0xee, 0x37, 0x2c,
+		    0xd6, 0x08, 0x2d, 0xe1, 0x34, 0x94, 0x3b, 0x17,
+		    0x47, 0x10, 0x13, 0x0e, 0x9f, 0x6f, 0xea, 0x8d,
+		    0x72, 0x29, 0x38, 0x50, 0xa6, 0x67, 0xd8, 0x6c },
+}, {
+	.input	= { 0x48, 0x65, 0x6c, 0x6c, 0x6f, 0x20, 0x77, 0x6f,
+		    0x72, 0x6c, 0x64, 0x21 },
+	.ilen	= 12,
+	.output	= { 0xa6, 0xf7, 0x45, 0x00, 0x8f, 0x81, 0xc9, 0x16,
+		    0xa2, 0x0d, 0xcc, 0x74, 0xee, 0xf2, 0xb2, 0xf0 },
+	.key	= { 0x74, 0x68, 0x69, 0x73, 0x20, 0x69, 0x73, 0x20,
+		    0x33, 0x32, 0x2d, 0x62, 0x79, 0x74, 0x65, 0x20,
+		    0x6b, 0x65, 0x79, 0x20, 0x66, 0x6f, 0x72, 0x20,
+		    0x50, 0x6f, 0x6c, 0x79, 0x31, 0x33, 0x30, 0x35 },
+}, {
+	.input	= { 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+	.ilen	= 32,
+	.output	= { 0x49, 0xec, 0x78, 0x09, 0x0e, 0x48, 0x1e, 0xc6,
+		    0xc2, 0x6b, 0x33, 0xb9, 0x1c, 0xcc, 0x03, 0x07 },
+	.key	= { 0x74, 0x68, 0x69, 0x73, 0x20, 0x69, 0x73, 0x20,
+		    0x33, 0x32, 0x2d, 0x62, 0x79, 0x74, 0x65, 0x20,
+		    0x6b, 0x65, 0x79, 0x20, 0x66, 0x6f, 0x72, 0x20,
+		    0x50, 0x6f, 0x6c, 0x79, 0x31, 0x33, 0x30, 0x35 },
+}, {
+	.input	= { 0x89, 0xda, 0xb8, 0x0b, 0x77, 0x17, 0xc1, 0xdb,
+		    0x5d, 0xb4, 0x37, 0x86, 0x0a, 0x3f, 0x70, 0x21,
+		    0x8e, 0x93, 0xe1, 0xb8, 0xf4, 0x61, 0xfb, 0x67,
+		    0x7f, 0x16, 0xf3, 0x5f, 0x6f, 0x87, 0xe2, 0xa9,
+		    0x1c, 0x99, 0xbc, 0x3a, 0x47, 0xac, 0xe4, 0x76,
+		    0x40, 0xcc, 0x95, 0xc3, 0x45, 0xbe, 0x5e, 0xcc,
+		    0xa5, 0xa3, 0x52, 0x3c, 0x35, 0xcc, 0x01, 0x89,
+		    0x3a, 0xf0, 0xb6, 0x4a, 0x62, 0x03, 0x34, 0x27,
+		    0x03, 0x72, 0xec, 0x12, 0x48, 0x2d, 0x1b, 0x1e,
+		    0x36, 0x35, 0x61, 0x69, 0x8a, 0x57, 0x8b, 0x35,
+		    0x98, 0x03, 0x49, 0x5b, 0xb4, 0xe2, 0xef, 0x19,
+		    0x30, 0xb1, 0x7a, 0x51, 0x90, 0xb5, 0x80, 0xf1,
+		    0x41, 0x30, 0x0d, 0xf3, 0x0a, 0xdb, 0xec, 0xa2,
+		    0x8f, 0x64, 0x27, 0xa8, 0xbc, 0x1a, 0x99, 0x9f,
+		    0xd5, 0x1c, 0x55, 0x4a, 0x01, 0x7d, 0x09, 0x5d,
+		    0x8c, 0x3e, 0x31, 0x27, 0xda, 0xf9, 0xf5, 0x95 },
+	.ilen	= 128,
+	.output	= { 0xc8, 0x5d, 0x15, 0xed, 0x44, 0xc3, 0x78, 0xd6,
+		    0xb0, 0x0e, 0x23, 0x06, 0x4c, 0x7b, 0xcd, 0x51 },
+	.key	= { 0x2d, 0x77, 0x3b, 0xe3, 0x7a, 0xdb, 0x1e, 0x4d,
+		    0x68, 0x3b, 0xf0, 0x07, 0x5e, 0x79, 0xc4, 0xee,
+		    0x03, 0x79, 0x18, 0x53, 0x5a, 0x7f, 0x99, 0xcc,
+		    0xb7, 0x04, 0x0f, 0xb5, 0xf5, 0xf4, 0x3a, 0xea },
+}, {
+	.input	= { 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x0b,
+		    0x17, 0x03, 0x03, 0x02, 0x00, 0x00, 0x00, 0x00,
+		    0x06, 0xdb, 0x1f, 0x1f, 0x36, 0x8d, 0x69, 0x6a,
+		    0x81, 0x0a, 0x34, 0x9c, 0x0c, 0x71, 0x4c, 0x9a,
+		    0x5e, 0x78, 0x50, 0xc2, 0x40, 0x7d, 0x72, 0x1a,
+		    0xcd, 0xed, 0x95, 0xe0, 0x18, 0xd7, 0xa8, 0x52,
+		    0x66, 0xa6, 0xe1, 0x28, 0x9c, 0xdb, 0x4a, 0xeb,
+		    0x18, 0xda, 0x5a, 0xc8, 0xa2, 0xb0, 0x02, 0x6d,
+		    0x24, 0xa5, 0x9a, 0xd4, 0x85, 0x22, 0x7f, 0x3e,
+		    0xae, 0xdb, 0xb2, 0xe7, 0xe3, 0x5e, 0x1c, 0x66,
+		    0xcd, 0x60, 0xf9, 0xab, 0xf7, 0x16, 0xdc, 0xc9,
+		    0xac, 0x42, 0x68, 0x2d, 0xd7, 0xda, 0xb2, 0x87,
+		    0xa7, 0x02, 0x4c, 0x4e, 0xef, 0xc3, 0x21, 0xcc,
+		    0x05, 0x74, 0xe1, 0x67, 0x93, 0xe3, 0x7c, 0xec,
+		    0x03, 0xc5, 0xbd, 0xa4, 0x2b, 0x54, 0xc1, 0x14,
+		    0xa8, 0x0b, 0x57, 0xaf, 0x26, 0x41, 0x6c, 0x7b,
+		    0xe7, 0x42, 0x00, 0x5e, 0x20, 0x85, 0x5c, 0x73,
+		    0xe2, 0x1d, 0xc8, 0xe2, 0xed, 0xc9, 0xd4, 0x35,
+		    0xcb, 0x6f, 0x60, 0x59, 0x28, 0x00, 0x11, 0xc2,
+		    0x70, 0xb7, 0x15, 0x70, 0x05, 0x1c, 0x1c, 0x9b,
+		    0x30, 0x52, 0x12, 0x66, 0x20, 0xbc, 0x1e, 0x27,
+		    0x30, 0xfa, 0x06, 0x6c, 0x7a, 0x50, 0x9d, 0x53,
+		    0xc6, 0x0e, 0x5a, 0xe1, 0xb4, 0x0a, 0xa6, 0xe3,
+		    0x9e, 0x49, 0x66, 0x92, 0x28, 0xc9, 0x0e, 0xec,
+		    0xb4, 0xa5, 0x0d, 0xb3, 0x2a, 0x50, 0xbc, 0x49,
+		    0xe9, 0x0b, 0x4f, 0x4b, 0x35, 0x9a, 0x1d, 0xfd,
+		    0x11, 0x74, 0x9c, 0xd3, 0x86, 0x7f, 0xcf, 0x2f,
+		    0xb7, 0xbb, 0x6c, 0xd4, 0x73, 0x8f, 0x6a, 0x4a,
+		    0xd6, 0xf7, 0xca, 0x50, 0x58, 0xf7, 0x61, 0x88,
+		    0x45, 0xaf, 0x9f, 0x02, 0x0f, 0x6c, 0x3b, 0x96,
+		    0x7b, 0x8f, 0x4c, 0xd4, 0xa9, 0x1e, 0x28, 0x13,
+		    0xb5, 0x07, 0xae, 0x66, 0xf2, 0xd3, 0x5c, 0x18,
+		    0x28, 0x4f, 0x72, 0x92, 0x18, 0x60, 0x62, 0xe1,
+		    0x0f, 0xd5, 0x51, 0x0d, 0x18, 0x77, 0x53, 0x51,
+		    0xef, 0x33, 0x4e, 0x76, 0x34, 0xab, 0x47, 0x43,
+		    0xf5, 0xb6, 0x8f, 0x49, 0xad, 0xca, 0xb3, 0x84,
+		    0xd3, 0xfd, 0x75, 0xf7, 0x39, 0x0f, 0x40, 0x06,
+		    0xef, 0x2a, 0x29, 0x5c, 0x8c, 0x7a, 0x07, 0x6a,
+		    0xd5, 0x45, 0x46, 0xcd, 0x25, 0xd2, 0x10, 0x7f,
+		    0xbe, 0x14, 0x36, 0xc8, 0x40, 0x92, 0x4a, 0xae,
+		    0xbe, 0x5b, 0x37, 0x08, 0x93, 0xcd, 0x63, 0xd1,
+		    0x32, 0x5b, 0x86, 0x16, 0xfc, 0x48, 0x10, 0x88,
+		    0x6b, 0xc1, 0x52, 0xc5, 0x32, 0x21, 0xb6, 0xdf,
+		    0x37, 0x31, 0x19, 0x39, 0x32, 0x55, 0xee, 0x72,
+		    0xbc, 0xaa, 0x88, 0x01, 0x74, 0xf1, 0x71, 0x7f,
+		    0x91, 0x84, 0xfa, 0x91, 0x64, 0x6f, 0x17, 0xa2,
+		    0x4a, 0xc5, 0x5d, 0x16, 0xbf, 0xdd, 0xca, 0x95,
+		    0x81, 0xa9, 0x2e, 0xda, 0x47, 0x92, 0x01, 0xf0,
+		    0xed, 0xbf, 0x63, 0x36, 0x00, 0xd6, 0x06, 0x6d,
+		    0x1a, 0xb3, 0x6d, 0x5d, 0x24, 0x15, 0xd7, 0x13,
+		    0x51, 0xbb, 0xcd, 0x60, 0x8a, 0x25, 0x10, 0x8d,
+		    0x25, 0x64, 0x19, 0x92, 0xc1, 0xf2, 0x6c, 0x53,
+		    0x1c, 0xf9, 0xf9, 0x02, 0x03, 0xbc, 0x4c, 0xc1,
+		    0x9f, 0x59, 0x27, 0xd8, 0x34, 0xb0, 0xa4, 0x71,
+		    0x16, 0xd3, 0x88, 0x4b, 0xbb, 0x16, 0x4b, 0x8e,
+		    0xc8, 0x83, 0xd1, 0xac, 0x83, 0x2e, 0x56, 0xb3,
+		    0x91, 0x8a, 0x98, 0x60, 0x1a, 0x08, 0xd1, 0x71,
+		    0x88, 0x15, 0x41, 0xd5, 0x94, 0xdb, 0x39, 0x9c,
+		    0x6a, 0xe6, 0x15, 0x12, 0x21, 0x74, 0x5a, 0xec,
+		    0x81, 0x4c, 0x45, 0xb0, 0xb0, 0x5b, 0x56, 0x54,
+		    0x36, 0xfd, 0x6f, 0x13, 0x7a, 0xa1, 0x0a, 0x0c,
+		    0x0b, 0x64, 0x37, 0x61, 0xdb, 0xd6, 0xf9, 0xa9,
+		    0xdc, 0xb9, 0x9b, 0x1a, 0x6e, 0x69, 0x08, 0x54,
+		    0xce, 0x07, 0x69, 0xcd, 0xe3, 0x97, 0x61, 0xd8,
+		    0x2f, 0xcd, 0xec, 0x15, 0xf0, 0xd9, 0x2d, 0x7d,
+		    0x8e, 0x94, 0xad, 0xe8, 0xeb, 0x83, 0xfb, 0xe0 },
+	.ilen	= 528,
+	.output	= { 0x26, 0x37, 0x40, 0x8f, 0xe1, 0x30, 0x86, 0xea,
+		    0x73, 0xf9, 0x71, 0xe3, 0x42, 0x5e, 0x28, 0x20 },
+	.key	= { 0x99, 0xe5, 0x82, 0x2d, 0xd4, 0x17, 0x3c, 0x99,
+		    0x5e, 0x3d, 0xae, 0x0d, 0xde, 0xfb, 0x97, 0x74,
+		    0x3f, 0xde, 0x3b, 0x08, 0x01, 0x34, 0xb3, 0x9f,
+		    0x76, 0xe9, 0xbf, 0x8d, 0x0e, 0x88, 0xd5, 0x46 },
+}, { /* test vectors from Hanno Böck */
+	.input	= { 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0x80, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xce, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xc5,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xe3, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xac, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xe6,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0x00, 0x00, 0x00,
+		    0xaf, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc,
+		    0xcc, 0xcc, 0xff, 0xff, 0xff, 0xf5, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0xff, 0xff, 0xff, 0xe7, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x71, 0x92, 0x05, 0xa8, 0x52, 0x1d,
+		    0xfc },
+	.ilen	= 257,
+	.output	= { 0x85, 0x59, 0xb8, 0x76, 0xec, 0xee, 0xd6, 0x6e,
+		    0xb3, 0x77, 0x98, 0xc0, 0x45, 0x7b, 0xaf, 0xf9 },
+	.key	= { 0x7f, 0x1b, 0x02, 0x64, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc, 0xcc },
+}, {
+	.input	= { 0xaa, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa,
+		    0xaa, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa,
+		    0xaa, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa,
+		    0xaa, 0xaa, 0xaa, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x80, 0x02, 0x64 },
+	.ilen	= 39,
+	.output	= { 0x00, 0xbd, 0x12, 0x58, 0x97, 0x8e, 0x20, 0x54,
+		    0x44, 0xc9, 0xaa, 0xaa, 0x82, 0x00, 0x6f, 0xed },
+	.key	= { 0xe0, 0x00, 0x16, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa,
+		    0xaa, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa, 0xaa },
+}, {
+	.input	= { 0x02, 0xfc },
+	.ilen	= 2,
+	.output	= { 0x06, 0x12, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c,
+		    0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c },
+	.key	= { 0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c,
+		    0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c,
+		    0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c,
+		    0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c, 0x0c },
+}, {
+	.input	= { 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7a, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x5c, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x6e, 0x7b, 0x00, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7a, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x5c,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b, 0x7b,
+		    0x7b, 0x6e, 0x7b, 0x00, 0x13, 0x00, 0x00, 0x00,
+		    0x00, 0xb3, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0xf2, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x20, 0x00, 0xef, 0xff, 0x00,
+		    0x09, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x10, 0x00, 0x00,
+		    0x00, 0x00, 0x09, 0x00, 0x00, 0x00, 0x64, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x13, 0x00, 0x00, 0x00, 0x00,
+		    0xb3, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xf2,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x20, 0x00, 0xef, 0xff, 0x00, 0x09,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x7a, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00,
+		    0x00, 0x09, 0x00, 0x00, 0x00, 0x64, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0xfc },
+	.ilen	= 415,
+	.output	= { 0x33, 0x20, 0x5b, 0xbf, 0x9e, 0x9f, 0x8f, 0x72,
+		    0x12, 0xab, 0x9e, 0x2a, 0xb9, 0xb7, 0xe4, 0xa5 },
+	.key	= { 0x00, 0xff, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x1e, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x7b, 0x7b },
+}, {
+	.input	= { 0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77,
+		    0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77,
+		    0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77,
+		    0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77,
+		    0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77,
+		    0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77,
+		    0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77,
+		    0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77,
+		    0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77,
+		    0x77, 0x77, 0x77, 0x77, 0xff, 0xff, 0xff, 0xe9,
+		    0xe9, 0xac, 0xac, 0xac, 0xac, 0xac, 0xac, 0xac,
+		    0xac, 0xac, 0xac, 0xac, 0x00, 0x00, 0xac, 0xac,
+		    0xec, 0x01, 0x00, 0xac, 0xac, 0xac, 0x2c, 0xac,
+		    0xa2, 0xac, 0xac, 0xac, 0xac, 0xac, 0xac, 0xac,
+		    0xac, 0xac, 0xac, 0xac, 0x64, 0xf2 },
+	.ilen	= 118,
+	.output	= { 0x02, 0xee, 0x7c, 0x8c, 0x54, 0x6d, 0xde, 0xb1,
+		    0xa4, 0x67, 0xe4, 0xc3, 0x98, 0x11, 0x58, 0xb9 },
+	.key	= { 0x00, 0x00, 0x00, 0x7f, 0x00, 0x00, 0x00, 0x7f,
+		    0x01, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0xcf, 0x77, 0x77, 0x77, 0x77, 0x77,
+		    0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77, 0x77 },
+}, { /* nacl */
+	.input	= { 0x8e, 0x99, 0x3b, 0x9f, 0x48, 0x68, 0x12, 0x73,
+		    0xc2, 0x96, 0x50, 0xba, 0x32, 0xfc, 0x76, 0xce,
+		    0x48, 0x33, 0x2e, 0xa7, 0x16, 0x4d, 0x96, 0xa4,
+		    0x47, 0x6f, 0xb8, 0xc5, 0x31, 0xa1, 0x18, 0x6a,
+		    0xc0, 0xdf, 0xc1, 0x7c, 0x98, 0xdc, 0xe8, 0x7b,
+		    0x4d, 0xa7, 0xf0, 0x11, 0xec, 0x48, 0xc9, 0x72,
+		    0x71, 0xd2, 0xc2, 0x0f, 0x9b, 0x92, 0x8f, 0xe2,
+		    0x27, 0x0d, 0x6f, 0xb8, 0x63, 0xd5, 0x17, 0x38,
+		    0xb4, 0x8e, 0xee, 0xe3, 0x14, 0xa7, 0xcc, 0x8a,
+		    0xb9, 0x32, 0x16, 0x45, 0x48, 0xe5, 0x26, 0xae,
+		    0x90, 0x22, 0x43, 0x68, 0x51, 0x7a, 0xcf, 0xea,
+		    0xbd, 0x6b, 0xb3, 0x73, 0x2b, 0xc0, 0xe9, 0xda,
+		    0x99, 0x83, 0x2b, 0x61, 0xca, 0x01, 0xb6, 0xde,
+		    0x56, 0x24, 0x4a, 0x9e, 0x88, 0xd5, 0xf9, 0xb3,
+		    0x79, 0x73, 0xf6, 0x22, 0xa4, 0x3d, 0x14, 0xa6,
+		    0x59, 0x9b, 0x1f, 0x65, 0x4c, 0xb4, 0x5a, 0x74,
+		    0xe3, 0x55, 0xa5 },
+	.ilen	= 131,
+	.output	= { 0xf3, 0xff, 0xc7, 0x70, 0x3f, 0x94, 0x00, 0xe5,
+		    0x2a, 0x7d, 0xfb, 0x4b, 0x3d, 0x33, 0x05, 0xd9 },
+	.key	= { 0xee, 0xa6, 0xa7, 0x25, 0x1c, 0x1e, 0x72, 0x91,
+		    0x6d, 0x11, 0xc2, 0xcb, 0x21, 0x4d, 0x3c, 0x25,
+		    0x25, 0x39, 0x12, 0x1d, 0x8e, 0x23, 0x4e, 0x65,
+		    0x2d, 0x65, 0x1f, 0xa4, 0xc8, 0xcf, 0xf8, 0x80 },
+}, { /* wrap 2^130-5 */
+	.input	= { 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff },
+	.ilen	= 16,
+	.output	= { 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+	.key	= { 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+}, { /* wrap 2^128 */
+	.input	= { 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+	.ilen	= 16,
+	.output	= { 0x03, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+	.key	= { 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff },
+}, { /* limb carry */
+	.input	= { 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xf0, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0x11, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+	.ilen	= 48,
+	.output	= { 0x05, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+	.key	= { 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+}, { /* 2^130-5 */
+	.input	= { 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xfb, 0xfe, 0xfe, 0xfe, 0xfe, 0xfe, 0xfe, 0xfe,
+		    0xfe, 0xfe, 0xfe, 0xfe, 0xfe, 0xfe, 0xfe, 0xfe,
+		    0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01,
+		    0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01 },
+	.ilen	= 48,
+	.output	= { 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+	.key	= { 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+}, { /* 2^130-6 */
+	.input	= { 0xfd, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff },
+	.ilen	= 16,
+	.output	= { 0xfa, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+		    0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff },
+	.key	= { 0x02, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+}, { /* 5*H+L reduction intermediate */
+	.input	= { 0xe3, 0x35, 0x94, 0xd7, 0x50, 0x5e, 0x43, 0xb9,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x33, 0x94, 0xd7, 0x50, 0x5e, 0x43, 0x79, 0xcd,
+		    0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+	.ilen	= 64,
+	.output	= { 0x14, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x55, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+	.key	= { 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+}, { /* 5*H+L reduction final */
+	.input	= { 0xe3, 0x35, 0x94, 0xd7, 0x50, 0x5e, 0x43, 0xb9,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x33, 0x94, 0xd7, 0x50, 0x5e, 0x43, 0x79, 0xcd,
+		    0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+	.ilen	= 48,
+	.output	= { 0x13, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+	.key	= { 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x04, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
+		    0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
+} };
+
+static bool __init poly1305_selftest(void)
+{
+	simd_context_t simd_context;
+	bool success = true;
+	size_t i, j;
+
+	simd_get(&simd_context);
+	for (i = 0; i < ARRAY_SIZE(poly1305_testvecs); ++i) {
+		struct poly1305_ctx poly1305;
+		u8 out[POLY1305_MAC_SIZE];
+
+		memset(out, 0, sizeof(out));
+		memset(&poly1305, 0, sizeof(poly1305));
+		poly1305_init(&poly1305, poly1305_testvecs[i].key);
+		poly1305_update(&poly1305, poly1305_testvecs[i].input,
+				poly1305_testvecs[i].ilen, &simd_context);
+		poly1305_final(&poly1305, out, &simd_context);
+		if (memcmp(out, poly1305_testvecs[i].output,
+			   POLY1305_MAC_SIZE)) {
+			pr_info("poly1305 self-test %zu: FAIL\n", i + 1);
+			success = false;
+		}
+		simd_relax(&simd_context);
+
+		if (poly1305_testvecs[i].ilen <= 1)
+			continue;
+
+		for (j = 1; j < poly1305_testvecs[i].ilen - 1; ++j) {
+			memset(out, 0, sizeof(out));
+			memset(&poly1305, 0, sizeof(poly1305));
+			poly1305_init(&poly1305, poly1305_testvecs[i].key);
+			poly1305_update(&poly1305, poly1305_testvecs[i].input,
+					j, &simd_context);
+			poly1305_update(&poly1305,
+					poly1305_testvecs[i].input + j,
+					poly1305_testvecs[i].ilen - j,
+					&simd_context);
+			poly1305_final(&poly1305, out, &simd_context);
+			if (memcmp(out, poly1305_testvecs[i].output,
+				   POLY1305_MAC_SIZE)) {
+				pr_info("poly1305 self-test %zu (split %zu): FAIL\n",
+					i + 1, j);
+				success = false;
+			}
+			simd_relax(&simd_context);
+		}
+	}
+	simd_put(&simd_context);
+
+	if (success)
+		pr_info("poly1305 self-tests: pass\n");
+
+	return success;
+}
+#endif

From patchwork Tue Sep 18 16:16:35 2018
Content-Type: text/plain; charset="utf-8"
MIME-Version: 1.0
Content-Transfer-Encoding: 7bit
X-Patchwork-Submitter: "Jason A. Donenfeld" <jason@zx2c4.com>
X-Patchwork-Id: 146918
Delivered-To: patch@linaro.org
Received: by 2002:aa7:da13:0:0:0:0:0 with SMTP id r19-v6csp3560200eds;
 Tue, 18 Sep 2018 09:19:54 -0700 (PDT)
X-Google-Smtp-Source: ANB0VdbHB641d6rYV7x8GL7NxFZrH3D4k5xVB6HT6gkdBGgnZRgrgf86vLMFPZowIK5Bhnvv6hak
X-Received: by 2002:a17:902:26c:: with SMTP id
 99-v6mr30325965plc.341.1537287594613; 
 Tue, 18 Sep 2018 09:19:54 -0700 (PDT)
ARC-Seal: i=1; a=rsa-sha256; t=1537287594; cv=none;
 d=google.com; s=arc-20160816;
 b=B2ljcr2mDCiXD2/Tomoi3N/DVSKYKiKd1ku95lgbyF36Tte0Mn/ymLpv/rY8pYeNAe
 lRNDmI+/d4f7TvomFsRToL4KC2GmzdXLmaG790wTU+uinfaRI+qCEaOK4ElupIUNhLJ9
 NC6mY+Nt+lLjIu03PT5h2AWo0VeidGvcZJdmDDVI5f0jouQQ1r3X/iO05jqimJNUtBB9
 yM7fDoysA6SIfGNaqxZKitxrsC+Z9vDKCdq7kbh3/PEO8Xn9o2a39hD74iG+JYFJVHZw
 sqFHDHYVTr430xg8FQBmTkD6aJfPXPGtUc6A2L+6ihT8kvw667smage9hEt0BrE594FR
 0N8w==
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=google.com;
 s=arc-20160816; 
 h=list-id:precedence:sender:content-transfer-encoding:mime-version
 :references:in-reply-to:message-id:date:subject:cc:to:from
 :dkim-signature;
 bh=fxFzoEgdJfybk5FAmKJpOLtobejcPK67b1hYp86F83g=;
 b=K3eRF0mOv+lhnHQjf01YoUMro39G1+RBr5x+bcoeT2JahvlMmLGoFamfbZ+kx2G3xa
 O024hv9VmnxrKdlSyxBTygHTP/qTDlE9kWgleahDH1QimxDK0SupEBrToZcksSbwHgW8
 QwzcwxQJE4HdRmVAPFlYaYRoBjiM8WnqiJeK7RdtolODHUq0zWfczajhbcaibzgYViqd
 RCW1dKAQEKpvp9aY9457A707D1JMpJa9kKjaTiD23aGDnKGeAY2I27+ITRbhWmsFyCKQ
 nlN76ar/gLJfy2KhrrUZRSCHyZg2xPjs52bsd0h3k+fiseDk0nD/IC/snSKFr1UG7rU7
 IE7g==
ARC-Authentication-Results: i=1; mx.google.com;
 dkim=pass header.i=@zx2c4.com header.s=mail header.b=q6gH+OjW;
 spf=pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) smtp.mailfrom=netdev-owner@vger.kernel.org; 
 dmarc=pass (p=NONE sp=NONE dis=NONE) header.from=zx2c4.com
Return-Path: <netdev-owner@vger.kernel.org>
Received: from vger.kernel.org (vger.kernel.org. [209.132.180.67])
 by mx.google.com with ESMTP id
 v9-v6si19923535pfg.123.2018.09.18.09.19.54; 
 Tue, 18 Sep 2018 09:19:54 -0700 (PDT)
Received-SPF: pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) client-ip=209.132.180.67; 
Authentication-Results: mx.google.com;
 dkim=pass header.i=@zx2c4.com header.s=mail header.b=q6gH+OjW;
 spf=pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) smtp.mailfrom=netdev-owner@vger.kernel.org; 
 dmarc=pass (p=NONE sp=NONE dis=NONE) header.from=zx2c4.com
Received: (majordomo@vger.kernel.org) by vger.kernel.org via listexpand
 id S1730406AbeIRVwD (ORCPT <rfc822;naresh.kamboju@linaro.org>
 + 10 others); Tue, 18 Sep 2018 17:52:03 -0400
Received: from frisell.zx2c4.com ([192.95.5.64]:57805 "EHLO frisell.zx2c4.com"
 rhost-flags-OK-OK-OK-OK) by vger.kernel.org with ESMTP
 id S1729501AbeIRVwC (ORCPT <rfc822;netdev@vger.kernel.org>);
 Tue, 18 Sep 2018 17:52:02 -0400
Received: by frisell.zx2c4.com (ZX2C4 Mail Server) with ESMTP id d29c8d8e;
 Tue, 18 Sep 2018 16:01:03 +0000 (UTC)
DKIM-Signature: v=1; a=rsa-sha1; c=relaxed; d=zx2c4.com; h=from:to:cc
 :subject:date:message-id:in-reply-to:references:mime-version
 :content-transfer-encoding; s=mail; bh=U9vqB2Dbn1FWmUYUgDZgsoBin
 FU=; b=q6gH+OjWpnG0uXBW0vVfXRsj5pU0fSw+U8MxkBvdQyNktBezyPyTGjGnU
 qSHmmZVwl2Lzsvi6lon8Lkqi5/P27YnU6M0teY5Rx1pLVY2lmONDz2CR20mh+WI2
 JcxdJQ8ps0NO9liF1rOYlFx28duZBw5C8UFnJlONoxhpgnrOp/ShY1MBuM1Qo7ne
 9tD5iqRUbVIdpT+4sgEkclAs7cGTSlRKrcBnl7zBeDoHf7E+NnGbFhfMYJlst0Em
 eHPVYY64EQSnMWArkAgRqIWlGC+oJNxrnUUEz/glGJ8yKmTQdHxB0dy6HsyPM3Qd
 EABYLG/YfvNiYf4iSu0/Oo61m0oPg==
Received: by frisell.zx2c4.com (ZX2C4 Mail Server) with ESMTPSA id 7c544671
 (TLSv1.2:ECDHE-RSA-AES256-GCM-SHA384:256:NO); 
 Tue, 18 Sep 2018 16:00:56 +0000 (UTC)
From: "Jason A. Donenfeld" <Jason@zx2c4.com>
To: linux-kernel@vger.kernel.org, netdev@vger.kernel.org,
 linux-crypto@vger.kernel.org, davem@davemloft.net,
 gregkh@linuxfoundation.org
Cc: "Jason A. Donenfeld" <Jason@zx2c4.com>, Samuel Neves <sneves@dei.uc.pt>,
 Andy Lutomirski <luto@kernel.org>,
 Jean-Philippe Aumasson <jeanphilippe.aumasson@gmail.com>,
 Andy Polyakov <appro@openssl.org>, Russell King <linux@armlinux.org.uk>,
 linux-arm-kernel@lists.infradead.org
Subject: [PATCH net-next v5 09/20] zinc: Poly1305 ARM and ARM64 implementations
Date: Tue, 18 Sep 2018 18:16:35 +0200
Message-Id: <20180918161646.19105-10-Jason@zx2c4.com>
In-Reply-To: <20180918161646.19105-1-Jason@zx2c4.com>
References: <20180918161646.19105-1-Jason@zx2c4.com>
MIME-Version: 1.0
Sender: netdev-owner@vger.kernel.org
Precedence: bulk
List-ID: <netdev.vger.kernel.org>
X-Mailing-List: netdev@vger.kernel.org

These NEON and non-NEON implementations come from Andy Polyakov's
implementation. They are exactly the same as Andy Polyakov's original,
with the following exceptions:

- Entries and exits use the proper kernel convention macro.
- CPU feature checking is done in C by the glue code, so that has been
  removed from the assembly.
- The function names have been renamed to fit kernel conventions.
- Labels have been renamed to fit kernel conventions.
- The neon code can jump to the scalar code when it makes sense to do
  so.

After '/^#/d;/^\..*[^:]$/d', the code has the following diff in actual
instructions from the original.

ARM:

-poly1305_init:
-.Lpoly1305_init:
+ENTRY(poly1305_init_arm)
 	stmdb	sp!,{r4-r11}

 	eor	r3,r3,r3
@@ -18,8 +25,6 @@
 	moveq	r0,#0
 	beq	.Lno_key

-	adr	r11,.Lpoly1305_init
-	ldr	r12,.LOPENSSL_armcap
 	ldrb	r4,[r1,#0]
 	mov	r10,#0x0fffffff
 	ldrb	r5,[r1,#1]
@@ -34,8 +39,6 @@
 	ldrb	r7,[r1,#6]
 	and	r4,r4,r10

-	ldr	r12,[r11,r12]		@ OPENSSL_armcap_P
-	ldr	r12,[r12]
 	ldrb	r8,[r1,#7]
 	orr	r5,r5,r6,lsl#8
 	ldrb	r6,[r1,#8]
@@ -45,22 +48,6 @@
 	ldrb	r8,[r1,#10]
 	and	r5,r5,r3

-	tst	r12,#ARMV7_NEON		@ check for NEON
-	adr	r9,poly1305_blocks_neon
-	adr	r11,poly1305_blocks
-	it	ne
-	movne	r11,r9
-	adr	r12,poly1305_emit
-	adr	r10,poly1305_emit_neon
-	it	ne
-	movne	r12,r10
-	itete	eq
-	addeq	r12,r11,#(poly1305_emit-.Lpoly1305_init)
-	addne	r12,r11,#(poly1305_emit_neon-.Lpoly1305_init)
-	addeq	r11,r11,#(poly1305_blocks-.Lpoly1305_init)
-	addne	r11,r11,#(poly1305_blocks_neon-.Lpoly1305_init)
-	orr	r12,r12,#1	@ thumb-ify address
-	orr	r11,r11,#1
 	ldrb	r9,[r1,#11]
 	orr	r6,r6,r7,lsl#8
 	ldrb	r7,[r1,#12]
@@ -79,17 +66,16 @@
 	str	r6,[r0,#8]
 	and	r7,r7,r3
 	str	r7,[r0,#12]
-	stmia	r2,{r11,r12}		@ fill functions table
-	mov	r0,#1
-	mov	r0,#0
 .Lno_key:
 	ldmia	sp!,{r4-r11}
 	bx	lr				@ bx	lr
 	tst	lr,#1
 	moveq	pc,lr			@ be binary compatible with V4, yet
 	.word	0xe12fff1e			@ interoperable with Thumb ISA:-)
-poly1305_blocks:
-.Lpoly1305_blocks:
+ENDPROC(poly1305_init_arm)
+
+ENTRY(poly1305_blocks_arm)
+.Lpoly1305_blocks_arm:
 	stmdb	sp!,{r3-r11,lr}

 	ands	r2,r2,#-16
@@ -231,10 +217,11 @@
 	tst	lr,#1
 	moveq	pc,lr			@ be binary compatible with V4, yet
 	.word	0xe12fff1e			@ interoperable with Thumb ISA:-)
-poly1305_emit:
+ENDPROC(poly1305_blocks_arm)
+
+ENTRY(poly1305_emit_arm)
 	stmdb	sp!,{r4-r11}
 .Lpoly1305_emit_enter:
-
 	ldmia	r0,{r3-r7}
 	adds	r8,r3,#5		@ compare to modulus
 	adcs	r9,r4,#0
@@ -305,8 +292,12 @@
 	tst	lr,#1
 	moveq	pc,lr			@ be binary compatible with V4, yet
 	.word	0xe12fff1e			@ interoperable with Thumb ISA:-)
+ENDPROC(poly1305_emit_arm)
+
+

-poly1305_init_neon:
+ENTRY(poly1305_init_neon)
+.Lpoly1305_init_neon:
 	ldr	r4,[r0,#20]		@ load key base 2^32
 	ldr	r5,[r0,#24]
 	ldr	r6,[r0,#28]
@@ -515,8 +506,9 @@
 	vst1.32		{d8[1]},[r7]

 	bx	lr				@ bx	lr
+ENDPROC(poly1305_init_neon)

-poly1305_blocks_neon:
+ENTRY(poly1305_blocks_neon)
 	ldr	ip,[r0,#36]		@ is_base2_26
 	ands	r2,r2,#-16
 	beq	.Lno_data_neon
@@ -524,7 +516,7 @@
 	cmp	r2,#64
 	bhs	.Lenter_neon
 	tst	ip,ip			@ is_base2_26?
-	beq	.Lpoly1305_blocks
+	beq	.Lpoly1305_blocks_arm

 .Lenter_neon:
 	stmdb	sp!,{r4-r7}
@@ -534,7 +526,7 @@
 	bne	.Lbase2_26_neon

 	stmdb	sp!,{r1-r3,lr}
-	bl	poly1305_init_neon
+	bl	.Lpoly1305_init_neon

 	ldr	r4,[r0,#0]		@ load hash value base 2^32
 	ldr	r5,[r0,#4]
@@ -989,8 +981,9 @@
 	ldmia	sp!,{r4-r7}
 .Lno_data_neon:
 	bx	lr					@ bx	lr
+ENDPROC(poly1305_blocks_neon)

-poly1305_emit_neon:
+ENTRY(poly1305_emit_neon)
 	ldr	ip,[r0,#36]		@ is_base2_26

 	stmdb	sp!,{r4-r11}
@@ -1055,6 +1048,6 @@

 	ldmia	sp!,{r4-r11}
 	bx	lr				@ bx	lr
+ENDPROC(poly1305_emit_neon)

ARM64:

-poly1305_init:
+ENTRY(poly1305_init_arm)
 	cmp	x1,xzr
 	stp	xzr,xzr,[x0]		// zero hash value
 	stp	xzr,xzr,[x0,#16]	// [along with is_base2_26]
@@ -11,14 +15,9 @@
 	csel	x0,xzr,x0,eq
 	b.eq	.Lno_key

-	ldrsw	x11,.LOPENSSL_armcap_P
-	ldr	x11,.LOPENSSL_armcap_P
-	adr	x10,.LOPENSSL_armcap_P
-
 	ldp	x7,x8,[x1]		// load key
 	mov	x9,#0xfffffffc0fffffff
 	movk	x9,#0x0fff,lsl#48
-	ldr	w17,[x10,x11]
 	rev	x7,x7			// flip bytes
 	rev	x8,x8
 	and	x7,x7,x9		// &=0ffffffc0fffffff
@@ -26,24 +25,11 @@
 	and	x8,x8,x9		// &=0ffffffc0ffffffc
 	stp	x7,x8,[x0,#32]	// save key value

-	tst	w17,#ARMV7_NEON
-
-	adr	x12,poly1305_blocks
-	adr	x7,poly1305_blocks_neon
-	adr	x13,poly1305_emit
-	adr	x8,poly1305_emit_neon
-
-	csel	x12,x12,x7,eq
-	csel	x13,x13,x8,eq
-
-	stp	w12,w13,[x2]
-	stp	x12,x13,[x2]
-
-	mov	x0,#1
 .Lno_key:
 	ret
+ENDPROC(poly1305_init_arm)

-poly1305_blocks:
+ENTRY(poly1305_blocks_arm)
 	ands	x2,x2,#-16
 	b.eq	.Lno_data

@@ -100,8 +86,9 @@

 .Lno_data:
 	ret
+ENDPROC(poly1305_blocks_arm)

-poly1305_emit:
+ENTRY(poly1305_emit_arm)
 	ldp	x4,x5,[x0]		// load hash base 2^64
 	ldr	x6,[x0,#16]
 	ldp	x10,x11,[x2]	// load nonce
@@ -124,7 +111,9 @@
 	stp	x4,x5,[x1]		// write result

 	ret
-poly1305_mult:
+ENDPROC(poly1305_emit_arm)
+
+__poly1305_mult:
 	mul	x12,x4,x7		// h0*r0
 	umulh	x13,x4,x7

@@ -158,7 +147,7 @@

 	ret

-poly1305_splat:
+__poly1305_splat:
 	and	x12,x4,#0x03ffffff	// base 2^64 -> base 2^26
 	ubfx	x13,x4,#26,#26
 	extr	x14,x5,x4,#52
@@ -182,11 +171,11 @@

 	ret

-poly1305_blocks_neon:
+ENTRY(poly1305_blocks_neon)
 	ldr	x17,[x0,#24]
 	cmp	x2,#128
 	b.hs	.Lblocks_neon
-	cbz	x17,poly1305_blocks
+	cbz	x17,poly1305_blocks_arm

 .Lblocks_neon:
 	stp	x29,x30,[sp,#-80]!
@@ -232,7 +221,7 @@
 	adcs	x5,x5,x13
 	adc	x6,x6,x3

-	bl	poly1305_mult
+	bl	__poly1305_mult
 	ldr	x30,[sp,#8]

 	cbz	x3,.Lstore_base2_64_neon
@@ -274,7 +263,7 @@
 	adcs	x5,x5,x13
 	adc	x6,x6,x3

-	bl	poly1305_mult
+	bl	__poly1305_mult

 .Linit_neon:
 	and	x10,x4,#0x03ffffff	// base 2^64 -> base 2^26
@@ -301,19 +290,19 @@
 	mov	x5,x8
 	mov	x6,xzr
 	add	x0,x0,#48+12
-	bl	poly1305_splat
+	bl	__poly1305_splat

-	bl	poly1305_mult		// r^2
+	bl	__poly1305_mult		// r^2
 	sub	x0,x0,#4
-	bl	poly1305_splat
+	bl	__poly1305_splat

-	bl	poly1305_mult		// r^3
+	bl	__poly1305_mult		// r^3
 	sub	x0,x0,#4
-	bl	poly1305_splat
+	bl	__poly1305_splat

-	bl	poly1305_mult		// r^4
+	bl	__poly1305_mult		// r^4
 	sub	x0,x0,#4
-	bl	poly1305_splat
+	bl	__poly1305_splat
 	ldr	x30,[sp,#8]

 	add	x16,x1,#32
@@ -743,10 +732,11 @@
 .Lno_data_neon:
 	ldr	x29,[sp],#80
 	ret
+ENDPROC(poly1305_blocks_neon)

-poly1305_emit_neon:
+ENTRY(poly1305_emit_neon)
 	ldr	x17,[x0,#24]
-	cbz	x17,poly1305_emit
+	cbz	x17,poly1305_emit_arm

 	ldp	w10,w11,[x0]		// load hash value base 2^26
 	ldp	w12,w13,[x0,#8]
@@ -788,6 +778,6 @@
 	stp	x4,x5,[x1]		// write result

 	ret
+ENDPROC(poly1305_emit_neon)

Signed-off-by: Jason A. Donenfeld <Jason@zx2c4.com>
Cc: Samuel Neves <sneves@dei.uc.pt>
Cc: Andy Lutomirski <luto@kernel.org>
Cc: Greg KH <gregkh@linuxfoundation.org>
Cc: Jean-Philippe Aumasson <jeanphilippe.aumasson@gmail.com>
Cc: Andy Polyakov <appro@openssl.org>
Cc: Russell King <linux@armlinux.org.uk>
Cc: linux-arm-kernel@lists.infradead.org
---
 lib/zinc/Makefile                     |    2 +
 lib/zinc/poly1305/poly1305-arm-glue.h |   65 ++
 lib/zinc/poly1305/poly1305-arm.S      | 1117 +++++++++++++++++++++++++
 lib/zinc/poly1305/poly1305-arm64.S    |  822 ++++++++++++++++++
 lib/zinc/poly1305/poly1305.c          |    2 +
 5 files changed, 2008 insertions(+)
 create mode 100644 lib/zinc/poly1305/poly1305-arm-glue.h
 create mode 100644 lib/zinc/poly1305/poly1305-arm.S
 create mode 100644 lib/zinc/poly1305/poly1305-arm64.S

-- 
2.19.0

diff --git a/lib/zinc/Makefile b/lib/zinc/Makefile
index f61d5ff4e386..1970d912b4df 100644
--- a/lib/zinc/Makefile
+++ b/lib/zinc/Makefile
@@ -12,4 +12,6 @@ obj-$(CONFIG_ZINC_CHACHA20) += zinc_chacha20.o
 
 zinc_poly1305-y := poly1305/poly1305.o
 zinc_poly1305-$(CONFIG_ZINC_ARCH_X86_64) += poly1305/poly1305-x86_64.o
+zinc_poly1305-$(CONFIG_ZINC_ARCH_ARM) += poly1305/poly1305-arm.o
+zinc_poly1305-$(CONFIG_ZINC_ARCH_ARM64) += poly1305/poly1305-arm64.o
 obj-$(CONFIG_ZINC_POLY1305) += zinc_poly1305.o
diff --git a/lib/zinc/poly1305/poly1305-arm-glue.h b/lib/zinc/poly1305/poly1305-arm-glue.h
new file mode 100644
index 000000000000..dd3fa5a38c62
--- /dev/null
+++ b/lib/zinc/poly1305/poly1305-arm-glue.h
@@ -0,0 +1,65 @@
+/* SPDX-License-Identifier: MIT
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ */
+
+#include <asm/hwcap.h>
+#include <asm/neon.h>
+
+asmlinkage void poly1305_init_arm(void *ctx, const u8 key[16]);
+asmlinkage void poly1305_blocks_arm(void *ctx, const u8 *inp, const size_t len,
+				    const u32 padbit);
+asmlinkage void poly1305_emit_arm(void *ctx, u8 mac[16], const u32 nonce[4]);
+#if IS_ENABLED(CONFIG_KERNEL_MODE_NEON) &&                                     \
+	(defined(CONFIG_64BIT) || __LINUX_ARM_ARCH__ >= 7)
+#define ARM_USE_NEON
+asmlinkage void poly1305_blocks_neon(void *ctx, const u8 *inp, const size_t len,
+				     const u32 padbit);
+asmlinkage void poly1305_emit_neon(void *ctx, u8 mac[16], const u32 nonce[4]);
+#endif
+
+static bool poly1305_use_neon __ro_after_init;
+
+static void __init poly1305_fpu_init(void)
+{
+#if defined(CONFIG_ARM64)
+	poly1305_use_neon = elf_hwcap & HWCAP_ASIMD;
+#elif defined(CONFIG_ARM)
+	poly1305_use_neon = elf_hwcap & HWCAP_NEON;
+#endif
+}
+
+static inline bool poly1305_init_arch(void *ctx,
+				      const u8 key[POLY1305_KEY_SIZE])
+{
+	poly1305_init_arm(ctx, key);
+	return true;
+}
+
+static inline bool poly1305_blocks_arch(void *ctx, const u8 *inp,
+					const size_t len, const u32 padbit,
+					simd_context_t *simd_context)
+{
+#if defined(ARM_USE_NEON)
+	if (poly1305_use_neon && simd_use(simd_context)) {
+		poly1305_blocks_neon(ctx, inp, len, padbit);
+		return true;
+	}
+#endif
+	poly1305_blocks_arm(ctx, inp, len, padbit);
+	return true;
+}
+
+static inline bool poly1305_emit_arch(void *ctx, u8 mac[POLY1305_MAC_SIZE],
+				      const u32 nonce[4],
+				      simd_context_t *simd_context)
+{
+#if defined(ARM_USE_NEON)
+	if (poly1305_use_neon && simd_use(simd_context)) {
+		poly1305_emit_neon(ctx, mac, nonce);
+		return true;
+	}
+#endif
+	poly1305_emit_arm(ctx, mac, nonce);
+	return true;
+}
diff --git a/lib/zinc/poly1305/poly1305-arm.S b/lib/zinc/poly1305/poly1305-arm.S
new file mode 100644
index 000000000000..0823963df238
--- /dev/null
+++ b/lib/zinc/poly1305/poly1305-arm.S
@@ -0,0 +1,1117 @@
+/* SPDX-License-Identifier: BSD-3-Clause
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ * Copyright (C) 2006-2017 CRYPTOGAMS by <appro@openssl.org>. All Rights Reserved.
+ *
+ * This is based in part on Andy Polyakov's implementation from CRYPTOGAMS.
+ */
+
+#include <linux/linkage.h>
+
+.text
+#if defined(__thumb2__)
+.syntax	unified
+.thumb
+#else
+.code	32
+#endif
+
+.align	5
+ENTRY(poly1305_init_arm)
+	stmdb	sp!,{r4-r11}
+
+	eor	r3,r3,r3
+	cmp	r1,#0
+	str	r3,[r0,#0]		@ zero hash value
+	str	r3,[r0,#4]
+	str	r3,[r0,#8]
+	str	r3,[r0,#12]
+	str	r3,[r0,#16]
+	str	r3,[r0,#36]		@ is_base2_26
+	add	r0,r0,#20
+
+#ifdef	__thumb2__
+	it	eq
+#endif
+	moveq	r0,#0
+	beq	.Lno_key
+
+	ldrb	r4,[r1,#0]
+	mov	r10,#0x0fffffff
+	ldrb	r5,[r1,#1]
+	and	r3,r10,#-4		@ 0x0ffffffc
+	ldrb	r6,[r1,#2]
+	ldrb	r7,[r1,#3]
+	orr	r4,r4,r5,lsl#8
+	ldrb	r5,[r1,#4]
+	orr	r4,r4,r6,lsl#16
+	ldrb	r6,[r1,#5]
+	orr	r4,r4,r7,lsl#24
+	ldrb	r7,[r1,#6]
+	and	r4,r4,r10
+
+	ldrb	r8,[r1,#7]
+	orr	r5,r5,r6,lsl#8
+	ldrb	r6,[r1,#8]
+	orr	r5,r5,r7,lsl#16
+	ldrb	r7,[r1,#9]
+	orr	r5,r5,r8,lsl#24
+	ldrb	r8,[r1,#10]
+	and	r5,r5,r3
+
+	ldrb	r9,[r1,#11]
+	orr	r6,r6,r7,lsl#8
+	ldrb	r7,[r1,#12]
+	orr	r6,r6,r8,lsl#16
+	ldrb	r8,[r1,#13]
+	orr	r6,r6,r9,lsl#24
+	ldrb	r9,[r1,#14]
+	and	r6,r6,r3
+
+	ldrb	r10,[r1,#15]
+	orr	r7,r7,r8,lsl#8
+	str	r4,[r0,#0]
+	orr	r7,r7,r9,lsl#16
+	str	r5,[r0,#4]
+	orr	r7,r7,r10,lsl#24
+	str	r6,[r0,#8]
+	and	r7,r7,r3
+	str	r7,[r0,#12]
+.Lno_key:
+	ldmia	sp!,{r4-r11}
+#if __LINUX_ARM_ARCH__ >= 5
+	bx	lr				@ bx	lr
+#else
+	tst	lr,#1
+	moveq	pc,lr			@ be binary compatible with V4, yet
+	.word	0xe12fff1e			@ interoperable with Thumb ISA:-)
+#endif
+ENDPROC(poly1305_init_arm)
+
+.align	5
+ENTRY(poly1305_blocks_arm)
+.Lpoly1305_blocks_arm:
+	stmdb	sp!,{r3-r11,lr}
+
+	ands	r2,r2,#-16
+	beq	.Lno_data
+
+	cmp	r3,#0
+	add	r2,r2,r1		@ end pointer
+	sub	sp,sp,#32
+
+	ldmia	r0,{r4-r12}		@ load context
+
+	str	r0,[sp,#12]		@ offload stuff
+	mov	lr,r1
+	str	r2,[sp,#16]
+	str	r10,[sp,#20]
+	str	r11,[sp,#24]
+	str	r12,[sp,#28]
+	b	.Loop
+
+.Loop:
+#if __LINUX_ARM_ARCH__ < 7
+	ldrb	r0,[lr],#16		@ load input
+#ifdef	__thumb2__
+	it	hi
+#endif
+	addhi	r8,r8,#1		@ 1<<128
+	ldrb	r1,[lr,#-15]
+	ldrb	r2,[lr,#-14]
+	ldrb	r3,[lr,#-13]
+	orr	r1,r0,r1,lsl#8
+	ldrb	r0,[lr,#-12]
+	orr	r2,r1,r2,lsl#16
+	ldrb	r1,[lr,#-11]
+	orr	r3,r2,r3,lsl#24
+	ldrb	r2,[lr,#-10]
+	adds	r4,r4,r3		@ accumulate input
+
+	ldrb	r3,[lr,#-9]
+	orr	r1,r0,r1,lsl#8
+	ldrb	r0,[lr,#-8]
+	orr	r2,r1,r2,lsl#16
+	ldrb	r1,[lr,#-7]
+	orr	r3,r2,r3,lsl#24
+	ldrb	r2,[lr,#-6]
+	adcs	r5,r5,r3
+
+	ldrb	r3,[lr,#-5]
+	orr	r1,r0,r1,lsl#8
+	ldrb	r0,[lr,#-4]
+	orr	r2,r1,r2,lsl#16
+	ldrb	r1,[lr,#-3]
+	orr	r3,r2,r3,lsl#24
+	ldrb	r2,[lr,#-2]
+	adcs	r6,r6,r3
+
+	ldrb	r3,[lr,#-1]
+	orr	r1,r0,r1,lsl#8
+	str	lr,[sp,#8]		@ offload input pointer
+	orr	r2,r1,r2,lsl#16
+	add	r10,r10,r10,lsr#2
+	orr	r3,r2,r3,lsl#24
+#else
+	ldr	r0,[lr],#16		@ load input
+#ifdef	__thumb2__
+	it	hi
+#endif
+	addhi	r8,r8,#1		@ padbit
+	ldr	r1,[lr,#-12]
+	ldr	r2,[lr,#-8]
+	ldr	r3,[lr,#-4]
+#ifdef	__ARMEB__
+	rev	r0,r0
+	rev	r1,r1
+	rev	r2,r2
+	rev	r3,r3
+#endif
+	adds	r4,r4,r0		@ accumulate input
+	str	lr,[sp,#8]		@ offload input pointer
+	adcs	r5,r5,r1
+	add	r10,r10,r10,lsr#2
+	adcs	r6,r6,r2
+#endif
+	add	r11,r11,r11,lsr#2
+	adcs	r7,r7,r3
+	add	r12,r12,r12,lsr#2
+
+	umull	r2,r3,r5,r9
+	 adc	r8,r8,#0
+	umull	r0,r1,r4,r9
+	umlal	r2,r3,r8,r10
+	umlal	r0,r1,r7,r10
+	ldr	r10,[sp,#20]		@ reload r10
+	umlal	r2,r3,r6,r12
+	umlal	r0,r1,r5,r12
+	umlal	r2,r3,r7,r11
+	umlal	r0,r1,r6,r11
+	umlal	r2,r3,r4,r10
+	str	r0,[sp,#0]		@ future r4
+	 mul	r0,r11,r8
+	ldr	r11,[sp,#24]		@ reload r11
+	adds	r2,r2,r1		@ d1+=d0>>32
+	 eor	r1,r1,r1
+	adc	lr,r3,#0		@ future r6
+	str	r2,[sp,#4]		@ future r5
+
+	mul	r2,r12,r8
+	eor	r3,r3,r3
+	umlal	r0,r1,r7,r12
+	ldr	r12,[sp,#28]		@ reload r12
+	umlal	r2,r3,r7,r9
+	umlal	r0,r1,r6,r9
+	umlal	r2,r3,r6,r10
+	umlal	r0,r1,r5,r10
+	umlal	r2,r3,r5,r11
+	umlal	r0,r1,r4,r11
+	umlal	r2,r3,r4,r12
+	ldr	r4,[sp,#0]
+	mul	r8,r9,r8
+	ldr	r5,[sp,#4]
+
+	adds	r6,lr,r0		@ d2+=d1>>32
+	ldr	lr,[sp,#8]		@ reload input pointer
+	adc	r1,r1,#0
+	adds	r7,r2,r1		@ d3+=d2>>32
+	ldr	r0,[sp,#16]		@ reload end pointer
+	adc	r3,r3,#0
+	add	r8,r8,r3		@ h4+=d3>>32
+
+	and	r1,r8,#-4
+	and	r8,r8,#3
+	add	r1,r1,r1,lsr#2		@ *=5
+	adds	r4,r4,r1
+	adcs	r5,r5,#0
+	adcs	r6,r6,#0
+	adcs	r7,r7,#0
+	adc	r8,r8,#0
+
+	cmp	r0,lr			@ done yet?
+	bhi	.Loop
+
+	ldr	r0,[sp,#12]
+	add	sp,sp,#32
+	stmia	r0,{r4-r8}		@ store the result
+
+.Lno_data:
+#if __LINUX_ARM_ARCH__ >= 5
+	ldmia	sp!,{r3-r11,pc}
+#else
+	ldmia	sp!,{r3-r11,lr}
+	tst	lr,#1
+	moveq	pc,lr			@ be binary compatible with V4, yet
+	.word	0xe12fff1e			@ interoperable with Thumb ISA:-)
+#endif
+ENDPROC(poly1305_blocks_arm)
+
+.align	5
+ENTRY(poly1305_emit_arm)
+	stmdb	sp!,{r4-r11}
+.Lpoly1305_emit_enter:
+	ldmia	r0,{r3-r7}
+	adds	r8,r3,#5		@ compare to modulus
+	adcs	r9,r4,#0
+	adcs	r10,r5,#0
+	adcs	r11,r6,#0
+	adc	r7,r7,#0
+	tst	r7,#4			@ did it carry/borrow?
+
+#ifdef	__thumb2__
+	it	ne
+#endif
+	movne	r3,r8
+	ldr	r8,[r2,#0]
+#ifdef	__thumb2__
+	it	ne
+#endif
+	movne	r4,r9
+	ldr	r9,[r2,#4]
+#ifdef	__thumb2__
+	it	ne
+#endif
+	movne	r5,r10
+	ldr	r10,[r2,#8]
+#ifdef	__thumb2__
+	it	ne
+#endif
+	movne	r6,r11
+	ldr	r11,[r2,#12]
+
+	adds	r3,r3,r8
+	adcs	r4,r4,r9
+	adcs	r5,r5,r10
+	adc	r6,r6,r11
+
+#if __LINUX_ARM_ARCH__ >= 7
+#ifdef __ARMEB__
+	rev	r3,r3
+	rev	r4,r4
+	rev	r5,r5
+	rev	r6,r6
+#endif
+	str	r3,[r1,#0]
+	str	r4,[r1,#4]
+	str	r5,[r1,#8]
+	str	r6,[r1,#12]
+#else
+	strb	r3,[r1,#0]
+	mov	r3,r3,lsr#8
+	strb	r4,[r1,#4]
+	mov	r4,r4,lsr#8
+	strb	r5,[r1,#8]
+	mov	r5,r5,lsr#8
+	strb	r6,[r1,#12]
+	mov	r6,r6,lsr#8
+
+	strb	r3,[r1,#1]
+	mov	r3,r3,lsr#8
+	strb	r4,[r1,#5]
+	mov	r4,r4,lsr#8
+	strb	r5,[r1,#9]
+	mov	r5,r5,lsr#8
+	strb	r6,[r1,#13]
+	mov	r6,r6,lsr#8
+
+	strb	r3,[r1,#2]
+	mov	r3,r3,lsr#8
+	strb	r4,[r1,#6]
+	mov	r4,r4,lsr#8
+	strb	r5,[r1,#10]
+	mov	r5,r5,lsr#8
+	strb	r6,[r1,#14]
+	mov	r6,r6,lsr#8
+
+	strb	r3,[r1,#3]
+	strb	r4,[r1,#7]
+	strb	r5,[r1,#11]
+	strb	r6,[r1,#15]
+#endif
+	ldmia	sp!,{r4-r11}
+#if __LINUX_ARM_ARCH__ >= 5
+	bx	lr				@ bx	lr
+#else
+	tst	lr,#1
+	moveq	pc,lr			@ be binary compatible with V4, yet
+	.word	0xe12fff1e			@ interoperable with Thumb ISA:-)
+#endif
+ENDPROC(poly1305_emit_arm)
+
+
+#if __LINUX_ARM_ARCH__ >= 7
+.fpu	neon
+
+.align	5
+ENTRY(poly1305_init_neon)
+.Lpoly1305_init_neon:
+	ldr	r4,[r0,#20]		@ load key base 2^32
+	ldr	r5,[r0,#24]
+	ldr	r6,[r0,#28]
+	ldr	r7,[r0,#32]
+
+	and	r2,r4,#0x03ffffff	@ base 2^32 -> base 2^26
+	mov	r3,r4,lsr#26
+	mov	r4,r5,lsr#20
+	orr	r3,r3,r5,lsl#6
+	mov	r5,r6,lsr#14
+	orr	r4,r4,r6,lsl#12
+	mov	r6,r7,lsr#8
+	orr	r5,r5,r7,lsl#18
+	and	r3,r3,#0x03ffffff
+	and	r4,r4,#0x03ffffff
+	and	r5,r5,#0x03ffffff
+
+	vdup.32	d0,r2			@ r^1 in both lanes
+	add	r2,r3,r3,lsl#2		@ *5
+	vdup.32	d1,r3
+	add	r3,r4,r4,lsl#2
+	vdup.32	d2,r2
+	vdup.32	d3,r4
+	add	r4,r5,r5,lsl#2
+	vdup.32	d4,r3
+	vdup.32	d5,r5
+	add	r5,r6,r6,lsl#2
+	vdup.32	d6,r4
+	vdup.32	d7,r6
+	vdup.32	d8,r5
+
+	mov	r5,#2		@ counter
+
+.Lsquare_neon:
+	@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
+	@ d0 = h0*r0 + h4*5*r1 + h3*5*r2 + h2*5*r3 + h1*5*r4
+	@ d1 = h1*r0 + h0*r1   + h4*5*r2 + h3*5*r3 + h2*5*r4
+	@ d2 = h2*r0 + h1*r1   + h0*r2   + h4*5*r3 + h3*5*r4
+	@ d3 = h3*r0 + h2*r1   + h1*r2   + h0*r3   + h4*5*r4
+	@ d4 = h4*r0 + h3*r1   + h2*r2   + h1*r3   + h0*r4
+
+	vmull.u32	q5,d0,d0[1]
+	vmull.u32	q6,d1,d0[1]
+	vmull.u32	q7,d3,d0[1]
+	vmull.u32	q8,d5,d0[1]
+	vmull.u32	q9,d7,d0[1]
+
+	vmlal.u32	q5,d7,d2[1]
+	vmlal.u32	q6,d0,d1[1]
+	vmlal.u32	q7,d1,d1[1]
+	vmlal.u32	q8,d3,d1[1]
+	vmlal.u32	q9,d5,d1[1]
+
+	vmlal.u32	q5,d5,d4[1]
+	vmlal.u32	q6,d7,d4[1]
+	vmlal.u32	q8,d1,d3[1]
+	vmlal.u32	q7,d0,d3[1]
+	vmlal.u32	q9,d3,d3[1]
+
+	vmlal.u32	q5,d3,d6[1]
+	vmlal.u32	q8,d0,d5[1]
+	vmlal.u32	q6,d5,d6[1]
+	vmlal.u32	q7,d7,d6[1]
+	vmlal.u32	q9,d1,d5[1]
+
+	vmlal.u32	q8,d7,d8[1]
+	vmlal.u32	q5,d1,d8[1]
+	vmlal.u32	q6,d3,d8[1]
+	vmlal.u32	q7,d5,d8[1]
+	vmlal.u32	q9,d0,d7[1]
+
+	@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
+	@ lazy reduction as discussed in "NEON crypto" by D.J. Bernstein
+	@ and P. Schwabe
+	@
+	@ H0>>+H1>>+H2>>+H3>>+H4
+	@ H3>>+H4>>*5+H0>>+H1
+	@
+	@ Trivia.
+	@
+	@ Result of multiplication of n-bit number by m-bit number is
+	@ n+m bits wide. However! Even though 2^n is a n+1-bit number,
+	@ m-bit number multiplied by 2^n is still n+m bits wide.
+	@
+	@ Sum of two n-bit numbers is n+1 bits wide, sum of three - n+2,
+	@ and so is sum of four. Sum of 2^m n-m-bit numbers and n-bit
+	@ one is n+1 bits wide.
+	@
+	@ >>+ denotes Hnext += Hn>>26, Hn &= 0x3ffffff. This means that
+	@ H0, H2, H3 are guaranteed to be 26 bits wide, while H1 and H4
+	@ can be 27. However! In cases when their width exceeds 26 bits
+	@ they are limited by 2^26+2^6. This in turn means that *sum*
+	@ of the products with these values can still be viewed as sum
+	@ of 52-bit numbers as long as the amount of addends is not a
+	@ power of 2. For example,
+	@
+	@ H4 = H4*R0 + H3*R1 + H2*R2 + H1*R3 + H0 * R4,
+	@
+	@ which can't be larger than 5 * (2^26 + 2^6) * (2^26 + 2^6), or
+	@ 5 * (2^52 + 2*2^32 + 2^12), which in turn is smaller than
+	@ 8 * (2^52) or 2^55. However, the value is then multiplied by
+	@ by 5, so we should be looking at 5 * 5 * (2^52 + 2^33 + 2^12),
+	@ which is less than 32 * (2^52) or 2^57. And when processing
+	@ data we are looking at triple as many addends...
+	@
+	@ In key setup procedure pre-reduced H0 is limited by 5*4+1 and
+	@ 5*H4 - by 5*5 52-bit addends, or 57 bits. But when hashing the
+	@ input H0 is limited by (5*4+1)*3 addends, or 58 bits, while
+	@ 5*H4 by 5*5*3, or 59[!] bits. How is this relevant? vmlal.u32
+	@ instruction accepts 2x32-bit input and writes 2x64-bit result.
+	@ This means that result of reduction have to be compressed upon
+	@ loop wrap-around. This can be done in the process of reduction
+	@ to minimize amount of instructions [as well as amount of
+	@ 128-bit instructions, which benefits low-end processors], but
+	@ one has to watch for H2 (which is narrower than H0) and 5*H4
+	@ not being wider than 58 bits, so that result of right shift
+	@ by 26 bits fits in 32 bits. This is also useful on x86,
+	@ because it allows to use paddd in place for paddq, which
+	@ benefits Atom, where paddq is ridiculously slow.
+
+	vshr.u64	q15,q8,#26
+	vmovn.i64	d16,q8
+	 vshr.u64	q4,q5,#26
+	 vmovn.i64	d10,q5
+	vadd.i64	q9,q9,q15		@ h3 -> h4
+	vbic.i32	d16,#0xfc000000	@ &=0x03ffffff
+	 vadd.i64	q6,q6,q4		@ h0 -> h1
+	 vbic.i32	d10,#0xfc000000
+
+	vshrn.u64	d30,q9,#26
+	vmovn.i64	d18,q9
+	 vshr.u64	q4,q6,#26
+	 vmovn.i64	d12,q6
+	 vadd.i64	q7,q7,q4		@ h1 -> h2
+	vbic.i32	d18,#0xfc000000
+	 vbic.i32	d12,#0xfc000000
+
+	vadd.i32	d10,d10,d30
+	vshl.u32	d30,d30,#2
+	 vshrn.u64	d8,q7,#26
+	 vmovn.i64	d14,q7
+	vadd.i32	d10,d10,d30	@ h4 -> h0
+	 vadd.i32	d16,d16,d8	@ h2 -> h3
+	 vbic.i32	d14,#0xfc000000
+
+	vshr.u32	d30,d10,#26
+	vbic.i32	d10,#0xfc000000
+	 vshr.u32	d8,d16,#26
+	 vbic.i32	d16,#0xfc000000
+	vadd.i32	d12,d12,d30	@ h0 -> h1
+	 vadd.i32	d18,d18,d8	@ h3 -> h4
+
+	subs		r5,r5,#1
+	beq		.Lsquare_break_neon
+
+	add		r6,r0,#(48+0*9*4)
+	add		r7,r0,#(48+1*9*4)
+
+	vtrn.32		d0,d10		@ r^2:r^1
+	vtrn.32		d3,d14
+	vtrn.32		d5,d16
+	vtrn.32		d1,d12
+	vtrn.32		d7,d18
+
+	vshl.u32	d4,d3,#2		@ *5
+	vshl.u32	d6,d5,#2
+	vshl.u32	d2,d1,#2
+	vshl.u32	d8,d7,#2
+	vadd.i32	d4,d4,d3
+	vadd.i32	d2,d2,d1
+	vadd.i32	d6,d6,d5
+	vadd.i32	d8,d8,d7
+
+	vst4.32		{d0[0],d1[0],d2[0],d3[0]},[r6]!
+	vst4.32		{d0[1],d1[1],d2[1],d3[1]},[r7]!
+	vst4.32		{d4[0],d5[0],d6[0],d7[0]},[r6]!
+	vst4.32		{d4[1],d5[1],d6[1],d7[1]},[r7]!
+	vst1.32		{d8[0]},[r6,:32]
+	vst1.32		{d8[1]},[r7,:32]
+
+	b		.Lsquare_neon
+
+.align	4
+.Lsquare_break_neon:
+	add		r6,r0,#(48+2*4*9)
+	add		r7,r0,#(48+3*4*9)
+
+	vmov		d0,d10		@ r^4:r^3
+	vshl.u32	d2,d12,#2		@ *5
+	vmov		d1,d12
+	vshl.u32	d4,d14,#2
+	vmov		d3,d14
+	vshl.u32	d6,d16,#2
+	vmov		d5,d16
+	vshl.u32	d8,d18,#2
+	vmov		d7,d18
+	vadd.i32	d2,d2,d12
+	vadd.i32	d4,d4,d14
+	vadd.i32	d6,d6,d16
+	vadd.i32	d8,d8,d18
+
+	vst4.32		{d0[0],d1[0],d2[0],d3[0]},[r6]!
+	vst4.32		{d0[1],d1[1],d2[1],d3[1]},[r7]!
+	vst4.32		{d4[0],d5[0],d6[0],d7[0]},[r6]!
+	vst4.32		{d4[1],d5[1],d6[1],d7[1]},[r7]!
+	vst1.32		{d8[0]},[r6]
+	vst1.32		{d8[1]},[r7]
+
+	bx	lr				@ bx	lr
+ENDPROC(poly1305_init_neon)
+
+.align	5
+ENTRY(poly1305_blocks_neon)
+	ldr	ip,[r0,#36]		@ is_base2_26
+	ands	r2,r2,#-16
+	beq	.Lno_data_neon
+
+	cmp	r2,#64
+	bhs	.Lenter_neon
+	tst	ip,ip			@ is_base2_26?
+	beq	.Lpoly1305_blocks_arm
+
+.Lenter_neon:
+	stmdb	sp!,{r4-r7}
+	vstmdb	sp!,{d8-d15}		@ ABI specification says so
+
+	tst	ip,ip			@ is_base2_26?
+	bne	.Lbase2_26_neon
+
+	stmdb	sp!,{r1-r3,lr}
+	bl	.Lpoly1305_init_neon
+
+	ldr	r4,[r0,#0]		@ load hash value base 2^32
+	ldr	r5,[r0,#4]
+	ldr	r6,[r0,#8]
+	ldr	r7,[r0,#12]
+	ldr	ip,[r0,#16]
+
+	and	r2,r4,#0x03ffffff	@ base 2^32 -> base 2^26
+	mov	r3,r4,lsr#26
+	 veor	d10,d10,d10
+	mov	r4,r5,lsr#20
+	orr	r3,r3,r5,lsl#6
+	 veor	d12,d12,d12
+	mov	r5,r6,lsr#14
+	orr	r4,r4,r6,lsl#12
+	 veor	d14,d14,d14
+	mov	r6,r7,lsr#8
+	orr	r5,r5,r7,lsl#18
+	 veor	d16,d16,d16
+	and	r3,r3,#0x03ffffff
+	orr	r6,r6,ip,lsl#24
+	 veor	d18,d18,d18
+	and	r4,r4,#0x03ffffff
+	mov	r1,#1
+	and	r5,r5,#0x03ffffff
+	str	r1,[r0,#36]		@ is_base2_26
+
+	vmov.32	d10[0],r2
+	vmov.32	d12[0],r3
+	vmov.32	d14[0],r4
+	vmov.32	d16[0],r5
+	vmov.32	d18[0],r6
+	adr	r5,.Lzeros
+
+	ldmia	sp!,{r1-r3,lr}
+	b	.Lbase2_32_neon
+
+.align	4
+.Lbase2_26_neon:
+	@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
+	@ load hash value
+
+	veor		d10,d10,d10
+	veor		d12,d12,d12
+	veor		d14,d14,d14
+	veor		d16,d16,d16
+	veor		d18,d18,d18
+	vld4.32		{d10[0],d12[0],d14[0],d16[0]},[r0]!
+	adr		r5,.Lzeros
+	vld1.32		{d18[0]},[r0]
+	sub		r0,r0,#16		@ rewind
+
+.Lbase2_32_neon:
+	add		r4,r1,#32
+	mov		r3,r3,lsl#24
+	tst		r2,#31
+	beq		.Leven
+
+	vld4.32		{d20[0],d22[0],d24[0],d26[0]},[r1]!
+	vmov.32		d28[0],r3
+	sub		r2,r2,#16
+	add		r4,r1,#32
+
+#ifdef	__ARMEB__
+	vrev32.8	q10,q10
+	vrev32.8	q13,q13
+	vrev32.8	q11,q11
+	vrev32.8	q12,q12
+#endif
+	vsri.u32	d28,d26,#8	@ base 2^32 -> base 2^26
+	vshl.u32	d26,d26,#18
+
+	vsri.u32	d26,d24,#14
+	vshl.u32	d24,d24,#12
+	vadd.i32	d29,d28,d18	@ add hash value and move to #hi
+
+	vbic.i32	d26,#0xfc000000
+	vsri.u32	d24,d22,#20
+	vshl.u32	d22,d22,#6
+
+	vbic.i32	d24,#0xfc000000
+	vsri.u32	d22,d20,#26
+	vadd.i32	d27,d26,d16
+
+	vbic.i32	d20,#0xfc000000
+	vbic.i32	d22,#0xfc000000
+	vadd.i32	d25,d24,d14
+
+	vadd.i32	d21,d20,d10
+	vadd.i32	d23,d22,d12
+
+	mov		r7,r5
+	add		r6,r0,#48
+
+	cmp		r2,r2
+	b		.Long_tail
+
+.align	4
+.Leven:
+	subs		r2,r2,#64
+	it		lo
+	movlo		r4,r5
+
+	vmov.i32	q14,#1<<24		@ padbit, yes, always
+	vld4.32		{d20,d22,d24,d26},[r1]	@ inp[0:1]
+	add		r1,r1,#64
+	vld4.32		{d21,d23,d25,d27},[r4]	@ inp[2:3] (or 0)
+	add		r4,r4,#64
+	itt		hi
+	addhi		r7,r0,#(48+1*9*4)
+	addhi		r6,r0,#(48+3*9*4)
+
+#ifdef	__ARMEB__
+	vrev32.8	q10,q10
+	vrev32.8	q13,q13
+	vrev32.8	q11,q11
+	vrev32.8	q12,q12
+#endif
+	vsri.u32	q14,q13,#8		@ base 2^32 -> base 2^26
+	vshl.u32	q13,q13,#18
+
+	vsri.u32	q13,q12,#14
+	vshl.u32	q12,q12,#12
+
+	vbic.i32	q13,#0xfc000000
+	vsri.u32	q12,q11,#20
+	vshl.u32	q11,q11,#6
+
+	vbic.i32	q12,#0xfc000000
+	vsri.u32	q11,q10,#26
+
+	vbic.i32	q10,#0xfc000000
+	vbic.i32	q11,#0xfc000000
+
+	bls		.Lskip_loop
+
+	vld4.32		{d0[1],d1[1],d2[1],d3[1]},[r7]!	@ load r^2
+	vld4.32		{d0[0],d1[0],d2[0],d3[0]},[r6]!	@ load r^4
+	vld4.32		{d4[1],d5[1],d6[1],d7[1]},[r7]!
+	vld4.32		{d4[0],d5[0],d6[0],d7[0]},[r6]!
+	b		.Loop_neon
+
+.align	5
+.Loop_neon:
+	@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
+	@ ((inp[0]*r^4+inp[2]*r^2+inp[4])*r^4+inp[6]*r^2
+	@ ((inp[1]*r^4+inp[3]*r^2+inp[5])*r^3+inp[7]*r
+	@   ___________________/
+	@ ((inp[0]*r^4+inp[2]*r^2+inp[4])*r^4+inp[6]*r^2+inp[8])*r^2
+	@ ((inp[1]*r^4+inp[3]*r^2+inp[5])*r^4+inp[7]*r^2+inp[9])*r
+	@   ___________________/ ____________________/
+	@
+	@ Note that we start with inp[2:3]*r^2. This is because it
+	@ doesn't depend on reduction in previous iteration.
+	@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
+	@ d4 = h4*r0 + h3*r1   + h2*r2   + h1*r3   + h0*r4
+	@ d3 = h3*r0 + h2*r1   + h1*r2   + h0*r3   + h4*5*r4
+	@ d2 = h2*r0 + h1*r1   + h0*r2   + h4*5*r3 + h3*5*r4
+	@ d1 = h1*r0 + h0*r1   + h4*5*r2 + h3*5*r3 + h2*5*r4
+	@ d0 = h0*r0 + h4*5*r1 + h3*5*r2 + h2*5*r3 + h1*5*r4
+
+	@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
+	@ inp[2:3]*r^2
+
+	vadd.i32	d24,d24,d14	@ accumulate inp[0:1]
+	vmull.u32	q7,d25,d0[1]
+	vadd.i32	d20,d20,d10
+	vmull.u32	q5,d21,d0[1]
+	vadd.i32	d26,d26,d16
+	vmull.u32	q8,d27,d0[1]
+	vmlal.u32	q7,d23,d1[1]
+	vadd.i32	d22,d22,d12
+	vmull.u32	q6,d23,d0[1]
+
+	vadd.i32	d28,d28,d18
+	vmull.u32	q9,d29,d0[1]
+	subs		r2,r2,#64
+	vmlal.u32	q5,d29,d2[1]
+	it		lo
+	movlo		r4,r5
+	vmlal.u32	q8,d25,d1[1]
+	vld1.32		d8[1],[r7,:32]
+	vmlal.u32	q6,d21,d1[1]
+	vmlal.u32	q9,d27,d1[1]
+
+	vmlal.u32	q5,d27,d4[1]
+	vmlal.u32	q8,d23,d3[1]
+	vmlal.u32	q9,d25,d3[1]
+	vmlal.u32	q6,d29,d4[1]
+	vmlal.u32	q7,d21,d3[1]
+
+	vmlal.u32	q8,d21,d5[1]
+	vmlal.u32	q5,d25,d6[1]
+	vmlal.u32	q9,d23,d5[1]
+	vmlal.u32	q6,d27,d6[1]
+	vmlal.u32	q7,d29,d6[1]
+
+	vmlal.u32	q8,d29,d8[1]
+	vmlal.u32	q5,d23,d8[1]
+	vmlal.u32	q9,d21,d7[1]
+	vmlal.u32	q6,d25,d8[1]
+	vmlal.u32	q7,d27,d8[1]
+
+	vld4.32		{d21,d23,d25,d27},[r4]	@ inp[2:3] (or 0)
+	add		r4,r4,#64
+
+	@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
+	@ (hash+inp[0:1])*r^4 and accumulate
+
+	vmlal.u32	q8,d26,d0[0]
+	vmlal.u32	q5,d20,d0[0]
+	vmlal.u32	q9,d28,d0[0]
+	vmlal.u32	q6,d22,d0[0]
+	vmlal.u32	q7,d24,d0[0]
+	vld1.32		d8[0],[r6,:32]
+
+	vmlal.u32	q8,d24,d1[0]
+	vmlal.u32	q5,d28,d2[0]
+	vmlal.u32	q9,d26,d1[0]
+	vmlal.u32	q6,d20,d1[0]
+	vmlal.u32	q7,d22,d1[0]
+
+	vmlal.u32	q8,d22,d3[0]
+	vmlal.u32	q5,d26,d4[0]
+	vmlal.u32	q9,d24,d3[0]
+	vmlal.u32	q6,d28,d4[0]
+	vmlal.u32	q7,d20,d3[0]
+
+	vmlal.u32	q8,d20,d5[0]
+	vmlal.u32	q5,d24,d6[0]
+	vmlal.u32	q9,d22,d5[0]
+	vmlal.u32	q6,d26,d6[0]
+	vmlal.u32	q8,d28,d8[0]
+
+	vmlal.u32	q7,d28,d6[0]
+	vmlal.u32	q5,d22,d8[0]
+	vmlal.u32	q9,d20,d7[0]
+	vmov.i32	q14,#1<<24		@ padbit, yes, always
+	vmlal.u32	q6,d24,d8[0]
+	vmlal.u32	q7,d26,d8[0]
+
+	vld4.32		{d20,d22,d24,d26},[r1]	@ inp[0:1]
+	add		r1,r1,#64
+#ifdef	__ARMEB__
+	vrev32.8	q10,q10
+	vrev32.8	q11,q11
+	vrev32.8	q12,q12
+	vrev32.8	q13,q13
+#endif
+
+	@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
+	@ lazy reduction interleaved with base 2^32 -> base 2^26 of
+	@ inp[0:3] previously loaded to q10-q13 and smashed to q10-q14.
+
+	vshr.u64	q15,q8,#26
+	vmovn.i64	d16,q8
+	 vshr.u64	q4,q5,#26
+	 vmovn.i64	d10,q5
+	vadd.i64	q9,q9,q15		@ h3 -> h4
+	vbic.i32	d16,#0xfc000000
+	  vsri.u32	q14,q13,#8		@ base 2^32 -> base 2^26
+	 vadd.i64	q6,q6,q4		@ h0 -> h1
+	  vshl.u32	q13,q13,#18
+	 vbic.i32	d10,#0xfc000000
+
+	vshrn.u64	d30,q9,#26
+	vmovn.i64	d18,q9
+	 vshr.u64	q4,q6,#26
+	 vmovn.i64	d12,q6
+	 vadd.i64	q7,q7,q4		@ h1 -> h2
+	  vsri.u32	q13,q12,#14
+	vbic.i32	d18,#0xfc000000
+	  vshl.u32	q12,q12,#12
+	 vbic.i32	d12,#0xfc000000
+
+	vadd.i32	d10,d10,d30
+	vshl.u32	d30,d30,#2
+	  vbic.i32	q13,#0xfc000000
+	 vshrn.u64	d8,q7,#26
+	 vmovn.i64	d14,q7
+	vaddl.u32	q5,d10,d30	@ h4 -> h0 [widen for a sec]
+	  vsri.u32	q12,q11,#20
+	 vadd.i32	d16,d16,d8	@ h2 -> h3
+	  vshl.u32	q11,q11,#6
+	 vbic.i32	d14,#0xfc000000
+	  vbic.i32	q12,#0xfc000000
+
+	vshrn.u64	d30,q5,#26		@ re-narrow
+	vmovn.i64	d10,q5
+	  vsri.u32	q11,q10,#26
+	  vbic.i32	q10,#0xfc000000
+	 vshr.u32	d8,d16,#26
+	 vbic.i32	d16,#0xfc000000
+	vbic.i32	d10,#0xfc000000
+	vadd.i32	d12,d12,d30	@ h0 -> h1
+	 vadd.i32	d18,d18,d8	@ h3 -> h4
+	  vbic.i32	q11,#0xfc000000
+
+	bhi		.Loop_neon
+
+.Lskip_loop:
+	@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
+	@ multiply (inp[0:1]+hash) or inp[2:3] by r^2:r^1
+
+	add		r7,r0,#(48+0*9*4)
+	add		r6,r0,#(48+1*9*4)
+	adds		r2,r2,#32
+	it		ne
+	movne		r2,#0
+	bne		.Long_tail
+
+	vadd.i32	d25,d24,d14	@ add hash value and move to #hi
+	vadd.i32	d21,d20,d10
+	vadd.i32	d27,d26,d16
+	vadd.i32	d23,d22,d12
+	vadd.i32	d29,d28,d18
+
+.Long_tail:
+	vld4.32		{d0[1],d1[1],d2[1],d3[1]},[r7]!	@ load r^1
+	vld4.32		{d0[0],d1[0],d2[0],d3[0]},[r6]!	@ load r^2
+
+	vadd.i32	d24,d24,d14	@ can be redundant
+	vmull.u32	q7,d25,d0
+	vadd.i32	d20,d20,d10
+	vmull.u32	q5,d21,d0
+	vadd.i32	d26,d26,d16
+	vmull.u32	q8,d27,d0
+	vadd.i32	d22,d22,d12
+	vmull.u32	q6,d23,d0
+	vadd.i32	d28,d28,d18
+	vmull.u32	q9,d29,d0
+
+	vmlal.u32	q5,d29,d2
+	vld4.32		{d4[1],d5[1],d6[1],d7[1]},[r7]!
+	vmlal.u32	q8,d25,d1
+	vld4.32		{d4[0],d5[0],d6[0],d7[0]},[r6]!
+	vmlal.u32	q6,d21,d1
+	vmlal.u32	q9,d27,d1
+	vmlal.u32	q7,d23,d1
+
+	vmlal.u32	q8,d23,d3
+	vld1.32		d8[1],[r7,:32]
+	vmlal.u32	q5,d27,d4
+	vld1.32		d8[0],[r6,:32]
+	vmlal.u32	q9,d25,d3
+	vmlal.u32	q6,d29,d4
+	vmlal.u32	q7,d21,d3
+
+	vmlal.u32	q8,d21,d5
+	 it		ne
+	 addne		r7,r0,#(48+2*9*4)
+	vmlal.u32	q5,d25,d6
+	 it		ne
+	 addne		r6,r0,#(48+3*9*4)
+	vmlal.u32	q9,d23,d5
+	vmlal.u32	q6,d27,d6
+	vmlal.u32	q7,d29,d6
+
+	vmlal.u32	q8,d29,d8
+	 vorn		q0,q0,q0	@ all-ones, can be redundant
+	vmlal.u32	q5,d23,d8
+	 vshr.u64	q0,q0,#38
+	vmlal.u32	q9,d21,d7
+	vmlal.u32	q6,d25,d8
+	vmlal.u32	q7,d27,d8
+
+	beq		.Lshort_tail
+
+	@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
+	@ (hash+inp[0:1])*r^4:r^3 and accumulate
+
+	vld4.32		{d0[1],d1[1],d2[1],d3[1]},[r7]!	@ load r^3
+	vld4.32		{d0[0],d1[0],d2[0],d3[0]},[r6]!	@ load r^4
+
+	vmlal.u32	q7,d24,d0
+	vmlal.u32	q5,d20,d0
+	vmlal.u32	q8,d26,d0
+	vmlal.u32	q6,d22,d0
+	vmlal.u32	q9,d28,d0
+
+	vmlal.u32	q5,d28,d2
+	vld4.32		{d4[1],d5[1],d6[1],d7[1]},[r7]!
+	vmlal.u32	q8,d24,d1
+	vld4.32		{d4[0],d5[0],d6[0],d7[0]},[r6]!
+	vmlal.u32	q6,d20,d1
+	vmlal.u32	q9,d26,d1
+	vmlal.u32	q7,d22,d1
+
+	vmlal.u32	q8,d22,d3
+	vld1.32		d8[1],[r7,:32]
+	vmlal.u32	q5,d26,d4
+	vld1.32		d8[0],[r6,:32]
+	vmlal.u32	q9,d24,d3
+	vmlal.u32	q6,d28,d4
+	vmlal.u32	q7,d20,d3
+
+	vmlal.u32	q8,d20,d5
+	vmlal.u32	q5,d24,d6
+	vmlal.u32	q9,d22,d5
+	vmlal.u32	q6,d26,d6
+	vmlal.u32	q7,d28,d6
+
+	vmlal.u32	q8,d28,d8
+	 vorn		q0,q0,q0	@ all-ones
+	vmlal.u32	q5,d22,d8
+	 vshr.u64	q0,q0,#38
+	vmlal.u32	q9,d20,d7
+	vmlal.u32	q6,d24,d8
+	vmlal.u32	q7,d26,d8
+
+.Lshort_tail:
+	@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
+	@ horizontal addition
+
+	vadd.i64	d16,d16,d17
+	vadd.i64	d10,d10,d11
+	vadd.i64	d18,d18,d19
+	vadd.i64	d12,d12,d13
+	vadd.i64	d14,d14,d15
+
+	@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
+	@ lazy reduction, but without narrowing
+
+	vshr.u64	q15,q8,#26
+	vand.i64	q8,q8,q0
+	 vshr.u64	q4,q5,#26
+	 vand.i64	q5,q5,q0
+	vadd.i64	q9,q9,q15		@ h3 -> h4
+	 vadd.i64	q6,q6,q4		@ h0 -> h1
+
+	vshr.u64	q15,q9,#26
+	vand.i64	q9,q9,q0
+	 vshr.u64	q4,q6,#26
+	 vand.i64	q6,q6,q0
+	 vadd.i64	q7,q7,q4		@ h1 -> h2
+
+	vadd.i64	q5,q5,q15
+	vshl.u64	q15,q15,#2
+	 vshr.u64	q4,q7,#26
+	 vand.i64	q7,q7,q0
+	vadd.i64	q5,q5,q15		@ h4 -> h0
+	 vadd.i64	q8,q8,q4		@ h2 -> h3
+
+	vshr.u64	q15,q5,#26
+	vand.i64	q5,q5,q0
+	 vshr.u64	q4,q8,#26
+	 vand.i64	q8,q8,q0
+	vadd.i64	q6,q6,q15		@ h0 -> h1
+	 vadd.i64	q9,q9,q4		@ h3 -> h4
+
+	cmp		r2,#0
+	bne		.Leven
+
+	@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
+	@ store hash value
+
+	vst4.32		{d10[0],d12[0],d14[0],d16[0]},[r0]!
+	vst1.32		{d18[0]},[r0]
+
+	vldmia	sp!,{d8-d15}			@ epilogue
+	ldmia	sp!,{r4-r7}
+.Lno_data_neon:
+	bx	lr					@ bx	lr
+ENDPROC(poly1305_blocks_neon)
+
+.align	5
+ENTRY(poly1305_emit_neon)
+	ldr	ip,[r0,#36]		@ is_base2_26
+
+	stmdb	sp!,{r4-r11}
+
+	tst	ip,ip
+	beq	.Lpoly1305_emit_enter
+
+	ldmia	r0,{r3-r7}
+	eor	r8,r8,r8
+
+	adds	r3,r3,r4,lsl#26	@ base 2^26 -> base 2^32
+	mov	r4,r4,lsr#6
+	adcs	r4,r4,r5,lsl#20
+	mov	r5,r5,lsr#12
+	adcs	r5,r5,r6,lsl#14
+	mov	r6,r6,lsr#18
+	adcs	r6,r6,r7,lsl#8
+	adc	r7,r8,r7,lsr#24	@ can be partially reduced ...
+
+	and	r8,r7,#-4		@ ... so reduce
+	and	r7,r6,#3
+	add	r8,r8,r8,lsr#2	@ *= 5
+	adds	r3,r3,r8
+	adcs	r4,r4,#0
+	adcs	r5,r5,#0
+	adcs	r6,r6,#0
+	adc	r7,r7,#0
+
+	adds	r8,r3,#5		@ compare to modulus
+	adcs	r9,r4,#0
+	adcs	r10,r5,#0
+	adcs	r11,r6,#0
+	adc	r7,r7,#0
+	tst	r7,#4			@ did it carry/borrow?
+
+	it	ne
+	movne	r3,r8
+	ldr	r8,[r2,#0]
+	it	ne
+	movne	r4,r9
+	ldr	r9,[r2,#4]
+	it	ne
+	movne	r5,r10
+	ldr	r10,[r2,#8]
+	it	ne
+	movne	r6,r11
+	ldr	r11,[r2,#12]
+
+	adds	r3,r3,r8		@ accumulate nonce
+	adcs	r4,r4,r9
+	adcs	r5,r5,r10
+	adc	r6,r6,r11
+
+#ifdef __ARMEB__
+	rev	r3,r3
+	rev	r4,r4
+	rev	r5,r5
+	rev	r6,r6
+#endif
+	str	r3,[r1,#0]		@ store the result
+	str	r4,[r1,#4]
+	str	r5,[r1,#8]
+	str	r6,[r1,#12]
+
+	ldmia	sp!,{r4-r11}
+	bx	lr				@ bx	lr
+ENDPROC(poly1305_emit_neon)
+
+.align	5
+.Lzeros:
+.long	0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
+#endif
diff --git a/lib/zinc/poly1305/poly1305-arm64.S b/lib/zinc/poly1305/poly1305-arm64.S
new file mode 100644
index 000000000000..8a6a701faffd
--- /dev/null
+++ b/lib/zinc/poly1305/poly1305-arm64.S
@@ -0,0 +1,822 @@
+/* SPDX-License-Identifier: BSD-3-Clause
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ * Copyright (C) 2006-2017 CRYPTOGAMS by <appro@openssl.org>. All Rights Reserved.
+ *
+ * This is based in part on Andy Polyakov's implementation from CRYPTOGAMS.
+ */
+
+#include <linux/linkage.h>
+.text
+
+.align	5
+ENTRY(poly1305_init_arm)
+	cmp	x1,xzr
+	stp	xzr,xzr,[x0]		// zero hash value
+	stp	xzr,xzr,[x0,#16]	// [along with is_base2_26]
+
+	csel	x0,xzr,x0,eq
+	b.eq	.Lno_key
+
+	ldp	x7,x8,[x1]		// load key
+	mov	x9,#0xfffffffc0fffffff
+	movk	x9,#0x0fff,lsl#48
+#ifdef	__ARMEB__
+	rev	x7,x7			// flip bytes
+	rev	x8,x8
+#endif
+	and	x7,x7,x9		// &=0ffffffc0fffffff
+	and	x9,x9,#-4
+	and	x8,x8,x9		// &=0ffffffc0ffffffc
+	stp	x7,x8,[x0,#32]	// save key value
+
+.Lno_key:
+	ret
+ENDPROC(poly1305_init_arm)
+
+.align	5
+ENTRY(poly1305_blocks_arm)
+	ands	x2,x2,#-16
+	b.eq	.Lno_data
+
+	ldp	x4,x5,[x0]		// load hash value
+	ldp	x7,x8,[x0,#32]	// load key value
+	ldr	x6,[x0,#16]
+	add	x9,x8,x8,lsr#2	// s1 = r1 + (r1 >> 2)
+	b	.Loop
+
+.align	5
+.Loop:
+	ldp	x10,x11,[x1],#16	// load input
+	sub	x2,x2,#16
+#ifdef	__ARMEB__
+	rev	x10,x10
+	rev	x11,x11
+#endif
+	adds	x4,x4,x10		// accumulate input
+	adcs	x5,x5,x11
+
+	mul	x12,x4,x7		// h0*r0
+	adc	x6,x6,x3
+	umulh	x13,x4,x7
+
+	mul	x10,x5,x9		// h1*5*r1
+	umulh	x11,x5,x9
+
+	adds	x12,x12,x10
+	mul	x10,x4,x8		// h0*r1
+	adc	x13,x13,x11
+	umulh	x14,x4,x8
+
+	adds	x13,x13,x10
+	mul	x10,x5,x7		// h1*r0
+	adc	x14,x14,xzr
+	umulh	x11,x5,x7
+
+	adds	x13,x13,x10
+	mul	x10,x6,x9		// h2*5*r1
+	adc	x14,x14,x11
+	mul	x11,x6,x7		// h2*r0
+
+	adds	x13,x13,x10
+	adc	x14,x14,x11
+
+	and	x10,x14,#-4		// final reduction
+	and	x6,x14,#3
+	add	x10,x10,x14,lsr#2
+	adds	x4,x12,x10
+	adcs	x5,x13,xzr
+	adc	x6,x6,xzr
+
+	cbnz	x2,.Loop
+
+	stp	x4,x5,[x0]		// store hash value
+	str	x6,[x0,#16]
+
+.Lno_data:
+	ret
+ENDPROC(poly1305_blocks_arm)
+
+.align	5
+ENTRY(poly1305_emit_arm)
+	ldp	x4,x5,[x0]		// load hash base 2^64
+	ldr	x6,[x0,#16]
+	ldp	x10,x11,[x2]	// load nonce
+
+	adds	x12,x4,#5		// compare to modulus
+	adcs	x13,x5,xzr
+	adc	x14,x6,xzr
+
+	tst	x14,#-4			// see if it's carried/borrowed
+
+	csel	x4,x4,x12,eq
+	csel	x5,x5,x13,eq
+
+#ifdef	__ARMEB__
+	ror	x10,x10,#32		// flip nonce words
+	ror	x11,x11,#32
+#endif
+	adds	x4,x4,x10		// accumulate nonce
+	adc	x5,x5,x11
+#ifdef	__ARMEB__
+	rev	x4,x4			// flip output bytes
+	rev	x5,x5
+#endif
+	stp	x4,x5,[x1]		// write result
+
+	ret
+ENDPROC(poly1305_emit_arm)
+
+.align	5
+__poly1305_mult:
+	mul	x12,x4,x7		// h0*r0
+	umulh	x13,x4,x7
+
+	mul	x10,x5,x9		// h1*5*r1
+	umulh	x11,x5,x9
+
+	adds	x12,x12,x10
+	mul	x10,x4,x8		// h0*r1
+	adc	x13,x13,x11
+	umulh	x14,x4,x8
+
+	adds	x13,x13,x10
+	mul	x10,x5,x7		// h1*r0
+	adc	x14,x14,xzr
+	umulh	x11,x5,x7
+
+	adds	x13,x13,x10
+	mul	x10,x6,x9		// h2*5*r1
+	adc	x14,x14,x11
+	mul	x11,x6,x7		// h2*r0
+
+	adds	x13,x13,x10
+	adc	x14,x14,x11
+
+	and	x10,x14,#-4		// final reduction
+	and	x6,x14,#3
+	add	x10,x10,x14,lsr#2
+	adds	x4,x12,x10
+	adcs	x5,x13,xzr
+	adc	x6,x6,xzr
+
+	ret
+
+__poly1305_splat:
+	and	x12,x4,#0x03ffffff	// base 2^64 -> base 2^26
+	ubfx	x13,x4,#26,#26
+	extr	x14,x5,x4,#52
+	and	x14,x14,#0x03ffffff
+	ubfx	x15,x5,#14,#26
+	extr	x16,x6,x5,#40
+
+	str	w12,[x0,#16*0]	// r0
+	add	w12,w13,w13,lsl#2	// r1*5
+	str	w13,[x0,#16*1]	// r1
+	add	w13,w14,w14,lsl#2	// r2*5
+	str	w12,[x0,#16*2]	// s1
+	str	w14,[x0,#16*3]	// r2
+	add	w14,w15,w15,lsl#2	// r3*5
+	str	w13,[x0,#16*4]	// s2
+	str	w15,[x0,#16*5]	// r3
+	add	w15,w16,w16,lsl#2	// r4*5
+	str	w14,[x0,#16*6]	// s3
+	str	w16,[x0,#16*7]	// r4
+	str	w15,[x0,#16*8]	// s4
+
+	ret
+
+.align	5
+ENTRY(poly1305_blocks_neon)
+	ldr	x17,[x0,#24]
+	cmp	x2,#128
+	b.hs	.Lblocks_neon
+	cbz	x17,poly1305_blocks_arm
+
+.Lblocks_neon:
+	stp	x29,x30,[sp,#-80]!
+	add	x29,sp,#0
+
+	ands	x2,x2,#-16
+	b.eq	.Lno_data_neon
+
+	cbz	x17,.Lbase2_64_neon
+
+	ldp	w10,w11,[x0]		// load hash value base 2^26
+	ldp	w12,w13,[x0,#8]
+	ldr	w14,[x0,#16]
+
+	tst	x2,#31
+	b.eq	.Leven_neon
+
+	ldp	x7,x8,[x0,#32]	// load key value
+
+	add	x4,x10,x11,lsl#26	// base 2^26 -> base 2^64
+	lsr	x5,x12,#12
+	adds	x4,x4,x12,lsl#52
+	add	x5,x5,x13,lsl#14
+	adc	x5,x5,xzr
+	lsr	x6,x14,#24
+	adds	x5,x5,x14,lsl#40
+	adc	x14,x6,xzr		// can be partially reduced...
+
+	ldp	x12,x13,[x1],#16	// load input
+	sub	x2,x2,#16
+	add	x9,x8,x8,lsr#2	// s1 = r1 + (r1 >> 2)
+
+	and	x10,x14,#-4		// ... so reduce
+	and	x6,x14,#3
+	add	x10,x10,x14,lsr#2
+	adds	x4,x4,x10
+	adcs	x5,x5,xzr
+	adc	x6,x6,xzr
+
+#ifdef	__ARMEB__
+	rev	x12,x12
+	rev	x13,x13
+#endif
+	adds	x4,x4,x12		// accumulate input
+	adcs	x5,x5,x13
+	adc	x6,x6,x3
+
+	bl	__poly1305_mult
+	ldr	x30,[sp,#8]
+
+	cbz	x3,.Lstore_base2_64_neon
+
+	and	x10,x4,#0x03ffffff	// base 2^64 -> base 2^26
+	ubfx	x11,x4,#26,#26
+	extr	x12,x5,x4,#52
+	and	x12,x12,#0x03ffffff
+	ubfx	x13,x5,#14,#26
+	extr	x14,x6,x5,#40
+
+	cbnz	x2,.Leven_neon
+
+	stp	w10,w11,[x0]		// store hash value base 2^26
+	stp	w12,w13,[x0,#8]
+	str	w14,[x0,#16]
+	b	.Lno_data_neon
+
+.align	4
+.Lstore_base2_64_neon:
+	stp	x4,x5,[x0]		// store hash value base 2^64
+	stp	x6,xzr,[x0,#16]	// note that is_base2_26 is zeroed
+	b	.Lno_data_neon
+
+.align	4
+.Lbase2_64_neon:
+	ldp	x7,x8,[x0,#32]	// load key value
+
+	ldp	x4,x5,[x0]		// load hash value base 2^64
+	ldr	x6,[x0,#16]
+
+	tst	x2,#31
+	b.eq	.Linit_neon
+
+	ldp	x12,x13,[x1],#16	// load input
+	sub	x2,x2,#16
+	add	x9,x8,x8,lsr#2	// s1 = r1 + (r1 >> 2)
+#ifdef	__ARMEB__
+	rev	x12,x12
+	rev	x13,x13
+#endif
+	adds	x4,x4,x12		// accumulate input
+	adcs	x5,x5,x13
+	adc	x6,x6,x3
+
+	bl	__poly1305_mult
+
+.Linit_neon:
+	and	x10,x4,#0x03ffffff	// base 2^64 -> base 2^26
+	ubfx	x11,x4,#26,#26
+	extr	x12,x5,x4,#52
+	and	x12,x12,#0x03ffffff
+	ubfx	x13,x5,#14,#26
+	extr	x14,x6,x5,#40
+
+	stp	d8,d9,[sp,#16]		// meet ABI requirements
+	stp	d10,d11,[sp,#32]
+	stp	d12,d13,[sp,#48]
+	stp	d14,d15,[sp,#64]
+
+	fmov	d24,x10
+	fmov	d25,x11
+	fmov	d26,x12
+	fmov	d27,x13
+	fmov	d28,x14
+
+	////////////////////////////////// initialize r^n table
+	mov	x4,x7			// r^1
+	add	x9,x8,x8,lsr#2	// s1 = r1 + (r1 >> 2)
+	mov	x5,x8
+	mov	x6,xzr
+	add	x0,x0,#48+12
+	bl	__poly1305_splat
+
+	bl	__poly1305_mult		// r^2
+	sub	x0,x0,#4
+	bl	__poly1305_splat
+
+	bl	__poly1305_mult		// r^3
+	sub	x0,x0,#4
+	bl	__poly1305_splat
+
+	bl	__poly1305_mult		// r^4
+	sub	x0,x0,#4
+	bl	__poly1305_splat
+	ldr	x30,[sp,#8]
+
+	add	x16,x1,#32
+	adr	x17,.Lzeros
+	subs	x2,x2,#64
+	csel	x16,x17,x16,lo
+
+	mov	x4,#1
+	str	x4,[x0,#-24]		// set is_base2_26
+	sub	x0,x0,#48		// restore original x0
+	b	.Ldo_neon
+
+.align	4
+.Leven_neon:
+	add	x16,x1,#32
+	adr	x17,.Lzeros
+	subs	x2,x2,#64
+	csel	x16,x17,x16,lo
+
+	stp	d8,d9,[sp,#16]		// meet ABI requirements
+	stp	d10,d11,[sp,#32]
+	stp	d12,d13,[sp,#48]
+	stp	d14,d15,[sp,#64]
+
+	fmov	d24,x10
+	fmov	d25,x11
+	fmov	d26,x12
+	fmov	d27,x13
+	fmov	d28,x14
+
+.Ldo_neon:
+	ldp	x8,x12,[x16],#16	// inp[2:3] (or zero)
+	ldp	x9,x13,[x16],#48
+
+	lsl	x3,x3,#24
+	add	x15,x0,#48
+
+#ifdef	__ARMEB__
+	rev	x8,x8
+	rev	x12,x12
+	rev	x9,x9
+	rev	x13,x13
+#endif
+	and	x4,x8,#0x03ffffff	// base 2^64 -> base 2^26
+	and	x5,x9,#0x03ffffff
+	ubfx	x6,x8,#26,#26
+	ubfx	x7,x9,#26,#26
+	add	x4,x4,x5,lsl#32		// bfi	x4,x5,#32,#32
+	extr	x8,x12,x8,#52
+	extr	x9,x13,x9,#52
+	add	x6,x6,x7,lsl#32		// bfi	x6,x7,#32,#32
+	fmov	d14,x4
+	and	x8,x8,#0x03ffffff
+	and	x9,x9,#0x03ffffff
+	ubfx	x10,x12,#14,#26
+	ubfx	x11,x13,#14,#26
+	add	x12,x3,x12,lsr#40
+	add	x13,x3,x13,lsr#40
+	add	x8,x8,x9,lsl#32		// bfi	x8,x9,#32,#32
+	fmov	d15,x6
+	add	x10,x10,x11,lsl#32	// bfi	x10,x11,#32,#32
+	add	x12,x12,x13,lsl#32	// bfi	x12,x13,#32,#32
+	fmov	d16,x8
+	fmov	d17,x10
+	fmov	d18,x12
+
+	ldp	x8,x12,[x1],#16	// inp[0:1]
+	ldp	x9,x13,[x1],#48
+
+	ld1	{v0.4s,v1.4s,v2.4s,v3.4s},[x15],#64
+	ld1	{v4.4s,v5.4s,v6.4s,v7.4s},[x15],#64
+	ld1	{v8.4s},[x15]
+
+#ifdef	__ARMEB__
+	rev	x8,x8
+	rev	x12,x12
+	rev	x9,x9
+	rev	x13,x13
+#endif
+	and	x4,x8,#0x03ffffff	// base 2^64 -> base 2^26
+	and	x5,x9,#0x03ffffff
+	ubfx	x6,x8,#26,#26
+	ubfx	x7,x9,#26,#26
+	add	x4,x4,x5,lsl#32		// bfi	x4,x5,#32,#32
+	extr	x8,x12,x8,#52
+	extr	x9,x13,x9,#52
+	add	x6,x6,x7,lsl#32		// bfi	x6,x7,#32,#32
+	fmov	d9,x4
+	and	x8,x8,#0x03ffffff
+	and	x9,x9,#0x03ffffff
+	ubfx	x10,x12,#14,#26
+	ubfx	x11,x13,#14,#26
+	add	x12,x3,x12,lsr#40
+	add	x13,x3,x13,lsr#40
+	add	x8,x8,x9,lsl#32		// bfi	x8,x9,#32,#32
+	fmov	d10,x6
+	add	x10,x10,x11,lsl#32	// bfi	x10,x11,#32,#32
+	add	x12,x12,x13,lsl#32	// bfi	x12,x13,#32,#32
+	movi	v31.2d,#-1
+	fmov	d11,x8
+	fmov	d12,x10
+	fmov	d13,x12
+	ushr	v31.2d,v31.2d,#38
+
+	b.ls	.Lskip_loop
+
+.align	4
+.Loop_neon:
+	////////////////////////////////////////////////////////////////
+	// ((inp[0]*r^4+inp[2]*r^2+inp[4])*r^4+inp[6]*r^2
+	// ((inp[1]*r^4+inp[3]*r^2+inp[5])*r^3+inp[7]*r
+	//   ___________________/
+	// ((inp[0]*r^4+inp[2]*r^2+inp[4])*r^4+inp[6]*r^2+inp[8])*r^2
+	// ((inp[1]*r^4+inp[3]*r^2+inp[5])*r^4+inp[7]*r^2+inp[9])*r
+	//   ___________________/ ____________________/
+	//
+	// Note that we start with inp[2:3]*r^2. This is because it
+	// doesn't depend on reduction in previous iteration.
+	////////////////////////////////////////////////////////////////
+	// d4 = h0*r4 + h1*r3   + h2*r2   + h3*r1   + h4*r0
+	// d3 = h0*r3 + h1*r2   + h2*r1   + h3*r0   + h4*5*r4
+	// d2 = h0*r2 + h1*r1   + h2*r0   + h3*5*r4 + h4*5*r3
+	// d1 = h0*r1 + h1*r0   + h2*5*r4 + h3*5*r3 + h4*5*r2
+	// d0 = h0*r0 + h1*5*r4 + h2*5*r3 + h3*5*r2 + h4*5*r1
+
+	subs	x2,x2,#64
+	umull	v23.2d,v14.2s,v7.s[2]
+	csel	x16,x17,x16,lo
+	umull	v22.2d,v14.2s,v5.s[2]
+	umull	v21.2d,v14.2s,v3.s[2]
+	ldp	x8,x12,[x16],#16	// inp[2:3] (or zero)
+	umull	v20.2d,v14.2s,v1.s[2]
+	ldp	x9,x13,[x16],#48
+	umull	v19.2d,v14.2s,v0.s[2]
+#ifdef	__ARMEB__
+	rev	x8,x8
+	rev	x12,x12
+	rev	x9,x9
+	rev	x13,x13
+#endif
+
+	umlal	v23.2d,v15.2s,v5.s[2]
+	and	x4,x8,#0x03ffffff	// base 2^64 -> base 2^26
+	umlal	v22.2d,v15.2s,v3.s[2]
+	and	x5,x9,#0x03ffffff
+	umlal	v21.2d,v15.2s,v1.s[2]
+	ubfx	x6,x8,#26,#26
+	umlal	v20.2d,v15.2s,v0.s[2]
+	ubfx	x7,x9,#26,#26
+	umlal	v19.2d,v15.2s,v8.s[2]
+	add	x4,x4,x5,lsl#32		// bfi	x4,x5,#32,#32
+
+	umlal	v23.2d,v16.2s,v3.s[2]
+	extr	x8,x12,x8,#52
+	umlal	v22.2d,v16.2s,v1.s[2]
+	extr	x9,x13,x9,#52
+	umlal	v21.2d,v16.2s,v0.s[2]
+	add	x6,x6,x7,lsl#32		// bfi	x6,x7,#32,#32
+	umlal	v20.2d,v16.2s,v8.s[2]
+	fmov	d14,x4
+	umlal	v19.2d,v16.2s,v6.s[2]
+	and	x8,x8,#0x03ffffff
+
+	umlal	v23.2d,v17.2s,v1.s[2]
+	and	x9,x9,#0x03ffffff
+	umlal	v22.2d,v17.2s,v0.s[2]
+	ubfx	x10,x12,#14,#26
+	umlal	v21.2d,v17.2s,v8.s[2]
+	ubfx	x11,x13,#14,#26
+	umlal	v20.2d,v17.2s,v6.s[2]
+	add	x8,x8,x9,lsl#32		// bfi	x8,x9,#32,#32
+	umlal	v19.2d,v17.2s,v4.s[2]
+	fmov	d15,x6
+
+	add	v11.2s,v11.2s,v26.2s
+	add	x12,x3,x12,lsr#40
+	umlal	v23.2d,v18.2s,v0.s[2]
+	add	x13,x3,x13,lsr#40
+	umlal	v22.2d,v18.2s,v8.s[2]
+	add	x10,x10,x11,lsl#32	// bfi	x10,x11,#32,#32
+	umlal	v21.2d,v18.2s,v6.s[2]
+	add	x12,x12,x13,lsl#32	// bfi	x12,x13,#32,#32
+	umlal	v20.2d,v18.2s,v4.s[2]
+	fmov	d16,x8
+	umlal	v19.2d,v18.2s,v2.s[2]
+	fmov	d17,x10
+
+	////////////////////////////////////////////////////////////////
+	// (hash+inp[0:1])*r^4 and accumulate
+
+	add	v9.2s,v9.2s,v24.2s
+	fmov	d18,x12
+	umlal	v22.2d,v11.2s,v1.s[0]
+	ldp	x8,x12,[x1],#16	// inp[0:1]
+	umlal	v19.2d,v11.2s,v6.s[0]
+	ldp	x9,x13,[x1],#48
+	umlal	v23.2d,v11.2s,v3.s[0]
+	umlal	v20.2d,v11.2s,v8.s[0]
+	umlal	v21.2d,v11.2s,v0.s[0]
+#ifdef	__ARMEB__
+	rev	x8,x8
+	rev	x12,x12
+	rev	x9,x9
+	rev	x13,x13
+#endif
+
+	add	v10.2s,v10.2s,v25.2s
+	umlal	v22.2d,v9.2s,v5.s[0]
+	umlal	v23.2d,v9.2s,v7.s[0]
+	and	x4,x8,#0x03ffffff	// base 2^64 -> base 2^26
+	umlal	v21.2d,v9.2s,v3.s[0]
+	and	x5,x9,#0x03ffffff
+	umlal	v19.2d,v9.2s,v0.s[0]
+	ubfx	x6,x8,#26,#26
+	umlal	v20.2d,v9.2s,v1.s[0]
+	ubfx	x7,x9,#26,#26
+
+	add	v12.2s,v12.2s,v27.2s
+	add	x4,x4,x5,lsl#32		// bfi	x4,x5,#32,#32
+	umlal	v22.2d,v10.2s,v3.s[0]
+	extr	x8,x12,x8,#52
+	umlal	v23.2d,v10.2s,v5.s[0]
+	extr	x9,x13,x9,#52
+	umlal	v19.2d,v10.2s,v8.s[0]
+	add	x6,x6,x7,lsl#32		// bfi	x6,x7,#32,#32
+	umlal	v21.2d,v10.2s,v1.s[0]
+	fmov	d9,x4
+	umlal	v20.2d,v10.2s,v0.s[0]
+	and	x8,x8,#0x03ffffff
+
+	add	v13.2s,v13.2s,v28.2s
+	and	x9,x9,#0x03ffffff
+	umlal	v22.2d,v12.2s,v0.s[0]
+	ubfx	x10,x12,#14,#26
+	umlal	v19.2d,v12.2s,v4.s[0]
+	ubfx	x11,x13,#14,#26
+	umlal	v23.2d,v12.2s,v1.s[0]
+	add	x8,x8,x9,lsl#32		// bfi	x8,x9,#32,#32
+	umlal	v20.2d,v12.2s,v6.s[0]
+	fmov	d10,x6
+	umlal	v21.2d,v12.2s,v8.s[0]
+	add	x12,x3,x12,lsr#40
+
+	umlal	v22.2d,v13.2s,v8.s[0]
+	add	x13,x3,x13,lsr#40
+	umlal	v19.2d,v13.2s,v2.s[0]
+	add	x10,x10,x11,lsl#32	// bfi	x10,x11,#32,#32
+	umlal	v23.2d,v13.2s,v0.s[0]
+	add	x12,x12,x13,lsl#32	// bfi	x12,x13,#32,#32
+	umlal	v20.2d,v13.2s,v4.s[0]
+	fmov	d11,x8
+	umlal	v21.2d,v13.2s,v6.s[0]
+	fmov	d12,x10
+	fmov	d13,x12
+
+	/////////////////////////////////////////////////////////////////
+	// lazy reduction as discussed in "NEON crypto" by D.J. Bernstein
+	// and P. Schwabe
+	//
+	// [see discussion in poly1305-armv4 module]
+
+	ushr	v29.2d,v22.2d,#26
+	xtn	v27.2s,v22.2d
+	ushr	v30.2d,v19.2d,#26
+	and	v19.16b,v19.16b,v31.16b
+	add	v23.2d,v23.2d,v29.2d	// h3 -> h4
+	bic	v27.2s,#0xfc,lsl#24	// &=0x03ffffff
+	add	v20.2d,v20.2d,v30.2d	// h0 -> h1
+
+	ushr	v29.2d,v23.2d,#26
+	xtn	v28.2s,v23.2d
+	ushr	v30.2d,v20.2d,#26
+	xtn	v25.2s,v20.2d
+	bic	v28.2s,#0xfc,lsl#24
+	add	v21.2d,v21.2d,v30.2d	// h1 -> h2
+
+	add	v19.2d,v19.2d,v29.2d
+	shl	v29.2d,v29.2d,#2
+	shrn	v30.2s,v21.2d,#26
+	xtn	v26.2s,v21.2d
+	add	v19.2d,v19.2d,v29.2d	// h4 -> h0
+	bic	v25.2s,#0xfc,lsl#24
+	add	v27.2s,v27.2s,v30.2s		// h2 -> h3
+	bic	v26.2s,#0xfc,lsl#24
+
+	shrn	v29.2s,v19.2d,#26
+	xtn	v24.2s,v19.2d
+	ushr	v30.2s,v27.2s,#26
+	bic	v27.2s,#0xfc,lsl#24
+	bic	v24.2s,#0xfc,lsl#24
+	add	v25.2s,v25.2s,v29.2s		// h0 -> h1
+	add	v28.2s,v28.2s,v30.2s		// h3 -> h4
+
+	b.hi	.Loop_neon
+
+.Lskip_loop:
+	dup	v16.2d,v16.d[0]
+	add	v11.2s,v11.2s,v26.2s
+
+	////////////////////////////////////////////////////////////////
+	// multiply (inp[0:1]+hash) or inp[2:3] by r^2:r^1
+
+	adds	x2,x2,#32
+	b.ne	.Long_tail
+
+	dup	v16.2d,v11.d[0]
+	add	v14.2s,v9.2s,v24.2s
+	add	v17.2s,v12.2s,v27.2s
+	add	v15.2s,v10.2s,v25.2s
+	add	v18.2s,v13.2s,v28.2s
+
+.Long_tail:
+	dup	v14.2d,v14.d[0]
+	umull2	v19.2d,v16.4s,v6.4s
+	umull2	v22.2d,v16.4s,v1.4s
+	umull2	v23.2d,v16.4s,v3.4s
+	umull2	v21.2d,v16.4s,v0.4s
+	umull2	v20.2d,v16.4s,v8.4s
+
+	dup	v15.2d,v15.d[0]
+	umlal2	v19.2d,v14.4s,v0.4s
+	umlal2	v21.2d,v14.4s,v3.4s
+	umlal2	v22.2d,v14.4s,v5.4s
+	umlal2	v23.2d,v14.4s,v7.4s
+	umlal2	v20.2d,v14.4s,v1.4s
+
+	dup	v17.2d,v17.d[0]
+	umlal2	v19.2d,v15.4s,v8.4s
+	umlal2	v22.2d,v15.4s,v3.4s
+	umlal2	v21.2d,v15.4s,v1.4s
+	umlal2	v23.2d,v15.4s,v5.4s
+	umlal2	v20.2d,v15.4s,v0.4s
+
+	dup	v18.2d,v18.d[0]
+	umlal2	v22.2d,v17.4s,v0.4s
+	umlal2	v23.2d,v17.4s,v1.4s
+	umlal2	v19.2d,v17.4s,v4.4s
+	umlal2	v20.2d,v17.4s,v6.4s
+	umlal2	v21.2d,v17.4s,v8.4s
+
+	umlal2	v22.2d,v18.4s,v8.4s
+	umlal2	v19.2d,v18.4s,v2.4s
+	umlal2	v23.2d,v18.4s,v0.4s
+	umlal2	v20.2d,v18.4s,v4.4s
+	umlal2	v21.2d,v18.4s,v6.4s
+
+	b.eq	.Lshort_tail
+
+	////////////////////////////////////////////////////////////////
+	// (hash+inp[0:1])*r^4:r^3 and accumulate
+
+	add	v9.2s,v9.2s,v24.2s
+	umlal	v22.2d,v11.2s,v1.2s
+	umlal	v19.2d,v11.2s,v6.2s
+	umlal	v23.2d,v11.2s,v3.2s
+	umlal	v20.2d,v11.2s,v8.2s
+	umlal	v21.2d,v11.2s,v0.2s
+
+	add	v10.2s,v10.2s,v25.2s
+	umlal	v22.2d,v9.2s,v5.2s
+	umlal	v19.2d,v9.2s,v0.2s
+	umlal	v23.2d,v9.2s,v7.2s
+	umlal	v20.2d,v9.2s,v1.2s
+	umlal	v21.2d,v9.2s,v3.2s
+
+	add	v12.2s,v12.2s,v27.2s
+	umlal	v22.2d,v10.2s,v3.2s
+	umlal	v19.2d,v10.2s,v8.2s
+	umlal	v23.2d,v10.2s,v5.2s
+	umlal	v20.2d,v10.2s,v0.2s
+	umlal	v21.2d,v10.2s,v1.2s
+
+	add	v13.2s,v13.2s,v28.2s
+	umlal	v22.2d,v12.2s,v0.2s
+	umlal	v19.2d,v12.2s,v4.2s
+	umlal	v23.2d,v12.2s,v1.2s
+	umlal	v20.2d,v12.2s,v6.2s
+	umlal	v21.2d,v12.2s,v8.2s
+
+	umlal	v22.2d,v13.2s,v8.2s
+	umlal	v19.2d,v13.2s,v2.2s
+	umlal	v23.2d,v13.2s,v0.2s
+	umlal	v20.2d,v13.2s,v4.2s
+	umlal	v21.2d,v13.2s,v6.2s
+
+.Lshort_tail:
+	////////////////////////////////////////////////////////////////
+	// horizontal add
+
+	addp	v22.2d,v22.2d,v22.2d
+	ldp	d8,d9,[sp,#16]		// meet ABI requirements
+	addp	v19.2d,v19.2d,v19.2d
+	ldp	d10,d11,[sp,#32]
+	addp	v23.2d,v23.2d,v23.2d
+	ldp	d12,d13,[sp,#48]
+	addp	v20.2d,v20.2d,v20.2d
+	ldp	d14,d15,[sp,#64]
+	addp	v21.2d,v21.2d,v21.2d
+
+	////////////////////////////////////////////////////////////////
+	// lazy reduction, but without narrowing
+
+	ushr	v29.2d,v22.2d,#26
+	and	v22.16b,v22.16b,v31.16b
+	ushr	v30.2d,v19.2d,#26
+	and	v19.16b,v19.16b,v31.16b
+
+	add	v23.2d,v23.2d,v29.2d	// h3 -> h4
+	add	v20.2d,v20.2d,v30.2d	// h0 -> h1
+
+	ushr	v29.2d,v23.2d,#26
+	and	v23.16b,v23.16b,v31.16b
+	ushr	v30.2d,v20.2d,#26
+	and	v20.16b,v20.16b,v31.16b
+	add	v21.2d,v21.2d,v30.2d	// h1 -> h2
+
+	add	v19.2d,v19.2d,v29.2d
+	shl	v29.2d,v29.2d,#2
+	ushr	v30.2d,v21.2d,#26
+	and	v21.16b,v21.16b,v31.16b
+	add	v19.2d,v19.2d,v29.2d	// h4 -> h0
+	add	v22.2d,v22.2d,v30.2d	// h2 -> h3
+
+	ushr	v29.2d,v19.2d,#26
+	and	v19.16b,v19.16b,v31.16b
+	ushr	v30.2d,v22.2d,#26
+	and	v22.16b,v22.16b,v31.16b
+	add	v20.2d,v20.2d,v29.2d	// h0 -> h1
+	add	v23.2d,v23.2d,v30.2d	// h3 -> h4
+
+	////////////////////////////////////////////////////////////////
+	// write the result, can be partially reduced
+
+	st4	{v19.s,v20.s,v21.s,v22.s}[0],[x0],#16
+	st1	{v23.s}[0],[x0]
+
+.Lno_data_neon:
+	ldr	x29,[sp],#80
+	ret
+ENDPROC(poly1305_blocks_neon)
+
+.align	5
+ENTRY(poly1305_emit_neon)
+	ldr	x17,[x0,#24]
+	cbz	x17,poly1305_emit_arm
+
+	ldp	w10,w11,[x0]		// load hash value base 2^26
+	ldp	w12,w13,[x0,#8]
+	ldr	w14,[x0,#16]
+
+	add	x4,x10,x11,lsl#26	// base 2^26 -> base 2^64
+	lsr	x5,x12,#12
+	adds	x4,x4,x12,lsl#52
+	add	x5,x5,x13,lsl#14
+	adc	x5,x5,xzr
+	lsr	x6,x14,#24
+	adds	x5,x5,x14,lsl#40
+	adc	x6,x6,xzr		// can be partially reduced...
+
+	ldp	x10,x11,[x2]	// load nonce
+
+	and	x12,x6,#-4		// ... so reduce
+	add	x12,x12,x6,lsr#2
+	and	x6,x6,#3
+	adds	x4,x4,x12
+	adcs	x5,x5,xzr
+	adc	x6,x6,xzr
+
+	adds	x12,x4,#5		// compare to modulus
+	adcs	x13,x5,xzr
+	adc	x14,x6,xzr
+
+	tst	x14,#-4			// see if it's carried/borrowed
+
+	csel	x4,x4,x12,eq
+	csel	x5,x5,x13,eq
+
+#ifdef	__ARMEB__
+	ror	x10,x10,#32		// flip nonce words
+	ror	x11,x11,#32
+#endif
+	adds	x4,x4,x10		// accumulate nonce
+	adc	x5,x5,x11
+#ifdef	__ARMEB__
+	rev	x4,x4			// flip output bytes
+	rev	x5,x5
+#endif
+	stp	x4,x5,[x1]		// write result
+
+	ret
+ENDPROC(poly1305_emit_neon)
+
+.align	5
+.Lzeros:
+.long	0,0,0,0,0,0,0,0
diff --git a/lib/zinc/poly1305/poly1305.c b/lib/zinc/poly1305/poly1305.c
index 8bf2b95ca615..75032146fd50 100644
--- a/lib/zinc/poly1305/poly1305.c
+++ b/lib/zinc/poly1305/poly1305.c
@@ -17,6 +17,8 @@
 
 #if defined(CONFIG_ZINC_ARCH_X86_64)
 #include "poly1305-x86_64-glue.h"
+#elif defined(CONFIG_ZINC_ARCH_ARM) || defined(CONFIG_ZINC_ARCH_ARM64)
+#include "poly1305-arm-glue.h"
 #else
 static inline bool poly1305_init_arch(void *ctx,
 				      const u8 key[POLY1305_KEY_SIZE])

From patchwork Tue Sep 18 16:16:39 2018
Content-Type: text/plain; charset="utf-8"
MIME-Version: 1.0
Content-Transfer-Encoding: 7bit
X-Patchwork-Submitter: "Jason A. Donenfeld" <jason@zx2c4.com>
X-Patchwork-Id: 146920
Delivered-To: patch@linaro.org
Received: by 2002:aa7:da13:0:0:0:0:0 with SMTP id r19-v6csp3560399eds;
 Tue, 18 Sep 2018 09:20:06 -0700 (PDT)
X-Google-Smtp-Source: ANB0Vdbp2RxMCM5hPxp95ERKNPy/MyoKXrm0BWiPST0aNi5S0L8/aPHtoTMlJw8WEUW5s1ELcqq4
X-Received: by 2002:a65:6109:: with SMTP id
 z9-v6mr29023600pgu.243.1537287605989; 
 Tue, 18 Sep 2018 09:20:05 -0700 (PDT)
ARC-Seal: i=1; a=rsa-sha256; t=1537287605; cv=none;
 d=google.com; s=arc-20160816;
 b=Gqd36mF8vKbgWs9PdcDl3LFOID1xiFsjHjUeYjGBg409RFNstT7AaY7FdPOvrXipYr
 BxQiQ91U9Tz1UqvFn5LA8uxNy2nciZBZN/pHIol4bPF/U9PVyK4BCgUALUv/CcpwWDec
 QGmoifZnBAAOvkk89JhoSkbAgnbq+IuYuU8Br8HTTJy9fw2pM/++yPquCb1eM726wzhe
 kZe9pG/Q5QtFP4UXRSFnUUDIqaOgMqaoeg65dtofO8YbvyK3Yw/C/HKUnGBSMNIDPHi5
 UxGGCq3P+1YcbOGah1fXt66NyMZ0SFPsWqPlkjSSxGoSOzo/kRTkIPC2jpuoIqs1hYb7
 aVug==
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=google.com;
 s=arc-20160816; 
 h=list-id:precedence:sender:content-transfer-encoding:mime-version
 :references:in-reply-to:message-id:date:subject:cc:to:from
 :dkim-signature;
 bh=C+lj2LLks1SSGK/ZPSp5l0eXQO++tRar9d7M+I0Lhdk=;
 b=himoKSOa16BX4zb9WYp96r+KzcvYjzbDR06Aw1hXJPjX54rvh6fIzOXZVlGdqOkF2i
 4nf206APCrslXR0TFk1gSIPuRQjwdfzQB8/s3LlReNiH48iEI+WcDtVqcEEBqbrVeYX3
 GesLCCosQwzzhoi2VVMv4a8EDofNZd3CMYAGaPfqmHxiXKckNke4xWJeWAkrT7FkWmiE
 DBVOYZWqXapAMzdRNrTvm81tgoeNoAf+LzemsQ0/L4rTjJlcPMeKtHhUjrlHOT8nMwh+
 i54Vn2X5f61ir1uihPSxyv7ub1z2XR/G9geJrMMP9f98vpxIEQfuqrGoquF0VUyAault
 Y1jw==
ARC-Authentication-Results: i=1; mx.google.com;
 dkim=pass header.i=@zx2c4.com header.s=mail header.b=MBzyF7G8;
 spf=pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) smtp.mailfrom=netdev-owner@vger.kernel.org; 
 dmarc=pass (p=NONE sp=NONE dis=NONE) header.from=zx2c4.com
Return-Path: <netdev-owner@vger.kernel.org>
Received: from vger.kernel.org (vger.kernel.org. [209.132.180.67])
 by mx.google.com with ESMTP id
 v9-v6si19923535pfg.123.2018.09.18.09.20.05; 
 Tue, 18 Sep 2018 09:20:05 -0700 (PDT)
Received-SPF: pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) client-ip=209.132.180.67; 
Authentication-Results: mx.google.com;
 dkim=pass header.i=@zx2c4.com header.s=mail header.b=MBzyF7G8;
 spf=pass (google.com: best guess record for domain of
 netdev-owner@vger.kernel.org designates 209.132.180.67 as
 permitted sender) smtp.mailfrom=netdev-owner@vger.kernel.org; 
 dmarc=pass (p=NONE sp=NONE dis=NONE) header.from=zx2c4.com
Received: (majordomo@vger.kernel.org) by vger.kernel.org via listexpand
 id S1730441AbeIRVxG (ORCPT <rfc822;naresh.kamboju@linaro.org>
 + 10 others); Tue, 18 Sep 2018 17:53:06 -0400
Received: from frisell.zx2c4.com ([192.95.5.64]:35039 "EHLO frisell.zx2c4.com"
 rhost-flags-OK-OK-OK-OK) by vger.kernel.org with ESMTP
 id S1729739AbeIRVxD (ORCPT <rfc822;netdev@vger.kernel.org>);
 Tue, 18 Sep 2018 17:53:03 -0400
Received: by frisell.zx2c4.com (ZX2C4 Mail Server) with ESMTP id 13bc91d8;
 Tue, 18 Sep 2018 16:01:55 +0000 (UTC)
DKIM-Signature: v=1; a=rsa-sha1; c=relaxed; d=zx2c4.com; h=from:to:cc
 :subject:date:message-id:in-reply-to:references:mime-version
 :content-transfer-encoding; s=mail; bh=pHh9gmwI+JO5GJ8QKYIiCzqd1
 Dg=; b=MBzyF7G8MfjcRYne3zbn4Ya0hBY2H4DnbCn8kRcj2d8/ArWQsFq5j+MCj
 OQVfCv+wohZ1usiuBSVuyxRPHjDDZUbOzv5RObdEXIT8F8T1R4m5psxaF1aNU1DH
 B6o5IHnO+0jVPlzENCtcudeUE3608974gq1rO44kiy41SVd9zNME8G3Lv76lGgx0
 ggvVed0I2vaJOxxHVynrTNfTc9ViqIP3shhgN2N+sxqLU42DFgE8rzmUZ428iS1j
 iHk2NcZ3EN8OSzUnUDvjP2uKFJninIegLJQom2RRdeGswF/Qk2zszrKdufzIz27J
 1tkOYQS5EHLmv/r4DfXpzllKucGPw==
Received: by frisell.zx2c4.com (ZX2C4 Mail Server) with ESMTPSA id b274a25a
 (TLSv1.2:ECDHE-RSA-AES256-GCM-SHA384:256:NO); 
 Tue, 18 Sep 2018 16:01:52 +0000 (UTC)
From: "Jason A. Donenfeld" <Jason@zx2c4.com>
To: linux-kernel@vger.kernel.org, netdev@vger.kernel.org,
 linux-crypto@vger.kernel.org, davem@davemloft.net,
 gregkh@linuxfoundation.org
Cc: "Jason A. Donenfeld" <Jason@zx2c4.com>, Samuel Neves <sneves@dei.uc.pt>,
 Andy Lutomirski <luto@kernel.org>,
 Jean-Philippe Aumasson <jeanphilippe.aumasson@gmail.com>,
 Thomas Gleixner <tglx@linutronix.de>,
 Ingo Molnar <mingo@redhat.com>, x86@kernel.org
Subject: [PATCH net-next v5 13/20] zinc: BLAKE2s x86_64 implementation
Date: Tue, 18 Sep 2018 18:16:39 +0200
Message-Id: <20180918161646.19105-14-Jason@zx2c4.com>
In-Reply-To: <20180918161646.19105-1-Jason@zx2c4.com>
References: <20180918161646.19105-1-Jason@zx2c4.com>
MIME-Version: 1.0
Sender: netdev-owner@vger.kernel.org
Precedence: bulk
List-ID: <netdev.vger.kernel.org>
X-Mailing-List: netdev@vger.kernel.org

These implementations from Samuel Neves support AVX and AVX-512VL.
Originally this used AVX-512F, but Skylake thermal throttling made
AVX-512VL more attractive and possible to do with negligable difference.

Signed-off-by: Jason A. Donenfeld <Jason@zx2c4.com>
Signed-off-by: Samuel Neves <sneves@dei.uc.pt>
Cc: Andy Lutomirski <luto@kernel.org>
Cc: Greg KH <gregkh@linuxfoundation.org>
Cc: Jean-Philippe Aumasson <jeanphilippe.aumasson@gmail.com>
Cc: Thomas Gleixner <tglx@linutronix.de>
Cc: Ingo Molnar <mingo@redhat.com>
Cc: x86@kernel.org
---
 lib/zinc/Makefile                      |   1 +
 lib/zinc/blake2s/blake2s-x86_64-glue.h |  59 +++
 lib/zinc/blake2s/blake2s-x86_64.S      | 685 +++++++++++++++++++++++++
 lib/zinc/blake2s/blake2s.c             |   4 +-
 4 files changed, 748 insertions(+), 1 deletion(-)
 create mode 100644 lib/zinc/blake2s/blake2s-x86_64-glue.h
 create mode 100644 lib/zinc/blake2s/blake2s-x86_64.S

-- 
2.19.0

diff --git a/lib/zinc/Makefile b/lib/zinc/Makefile
index 0e0020f58d27..47607486c39d 100644
--- a/lib/zinc/Makefile
+++ b/lib/zinc/Makefile
@@ -22,4 +22,5 @@ zinc_chacha20poly1305-y := chacha20poly1305.o
 obj-$(CONFIG_ZINC_CHACHA20POLY1305) += zinc_chacha20poly1305.o
 
 zinc_blake2s-y := blake2s/blake2s.o
+zinc_blake2s-$(CONFIG_ZINC_ARCH_X86_64) += blake2s/blake2s-x86_64.o
 obj-$(CONFIG_ZINC_BLAKE2S) += zinc_blake2s.o
diff --git a/lib/zinc/blake2s/blake2s-x86_64-glue.h b/lib/zinc/blake2s/blake2s-x86_64-glue.h
new file mode 100644
index 000000000000..22900ef8e7fe
--- /dev/null
+++ b/lib/zinc/blake2s/blake2s-x86_64-glue.h
@@ -0,0 +1,59 @@
+/* SPDX-License-Identifier: MIT
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ */
+
+#include <asm/cpufeature.h>
+#include <asm/processor.h>
+#include <asm/fpu/api.h>
+#include <asm/simd.h>
+
+#ifdef CONFIG_AS_AVX
+asmlinkage void blake2s_compress_avx(struct blake2s_state *state,
+				     const u8 *block, const size_t nblocks,
+				     const u32 inc);
+#endif
+#ifdef CONFIG_AS_AVX512
+asmlinkage void blake2s_compress_avx512(struct blake2s_state *state,
+					const u8 *block, const size_t nblocks,
+					const u32 inc);
+#endif
+
+static bool blake2s_use_avx __ro_after_init;
+static bool blake2s_use_avx512 __ro_after_init;
+
+static void __init blake2s_fpu_init(void)
+{
+	blake2s_use_avx =
+		boot_cpu_has(X86_FEATURE_AVX) &&
+		cpu_has_xfeatures(XFEATURE_MASK_SSE | XFEATURE_MASK_YMM, NULL);
+	blake2s_use_avx512 =
+		boot_cpu_has(X86_FEATURE_AVX) &&
+		boot_cpu_has(X86_FEATURE_AVX2) &&
+		boot_cpu_has(X86_FEATURE_AVX512F) &&
+		boot_cpu_has(X86_FEATURE_AVX512VL) &&
+		cpu_has_xfeatures(XFEATURE_MASK_SSE | XFEATURE_MASK_YMM |
+				  XFEATURE_MASK_AVX512, NULL);
+}
+
+static inline bool blake2s_arch(struct blake2s_state *state, const u8 *block,
+				size_t nblocks, const u32 inc)
+{
+#ifdef CONFIG_AS_AVX512
+	if (blake2s_use_avx512 && irq_fpu_usable()) {
+		kernel_fpu_begin();
+		blake2s_compress_avx512(state, block, nblocks, inc);
+		kernel_fpu_end();
+		return true;
+	}
+#endif
+#ifdef CONFIG_AS_AVX
+	if (blake2s_use_avx && irq_fpu_usable()) {
+		kernel_fpu_begin();
+		blake2s_compress_avx(state, block, nblocks, inc);
+		kernel_fpu_end();
+		return true;
+	}
+#endif
+	return false;
+}
diff --git a/lib/zinc/blake2s/blake2s-x86_64.S b/lib/zinc/blake2s/blake2s-x86_64.S
new file mode 100644
index 000000000000..360be4818d06
--- /dev/null
+++ b/lib/zinc/blake2s/blake2s-x86_64.S
@@ -0,0 +1,685 @@
+/* SPDX-License-Identifier: MIT
+ *
+ * Copyright (C) 2015-2018 Jason A. Donenfeld <Jason@zx2c4.com>. All Rights Reserved.
+ * Copyright (C) 2017 Samuel Neves <sneves@dei.uc.pt>. All Rights Reserved.
+ */
+
+#include <linux/linkage.h>
+
+.section .rodata.cst32.BLAKE2S_IV, "aM", @progbits, 32
+.align 32
+IV:	.octa 0xA54FF53A3C6EF372BB67AE856A09E667
+	.octa 0x5BE0CD191F83D9AB9B05688C510E527F
+.section .rodata.cst16.ROT16, "aM", @progbits, 16
+.align 16
+ROT16:	.octa 0x0D0C0F0E09080B0A0504070601000302
+.section .rodata.cst16.ROR328, "aM", @progbits, 16
+.align 16
+ROR328:	.octa 0x0C0F0E0D080B0A090407060500030201
+#ifdef CONFIG_AS_AVX512
+.section .rodata.cst64.BLAKE2S_SIGMA, "aM", @progbits, 640
+.align 64
+SIGMA:
+.long 0, 2, 4, 6, 1, 3, 5, 7, 8, 10, 12, 14, 9, 11, 13, 15
+.long 11, 2, 12, 14, 9, 8, 15, 3, 4, 0, 13, 6, 10, 1, 7, 5
+.long 10, 12, 11, 6, 5, 9, 13, 3, 4, 15, 14, 2, 0, 7, 8, 1
+.long 10, 9, 7, 0, 11, 14, 1, 12, 6, 2, 15, 3, 13, 8, 5, 4
+.long 4, 9, 8, 13, 14, 0, 10, 11, 7, 3, 12, 1, 5, 6, 15, 2
+.long 2, 10, 4, 14, 13, 3, 9, 11, 6, 5, 7, 12, 15, 1, 8, 0
+.long 4, 11, 14, 8, 13, 10, 12, 5, 2, 1, 15, 3, 9, 7, 0, 6
+.long 6, 12, 0, 13, 15, 2, 1, 10, 4, 5, 11, 14, 8, 3, 9, 7
+.long 14, 5, 4, 12, 9, 7, 3, 10, 2, 0, 6, 15, 11, 1, 13, 8
+.long 11, 7, 13, 10, 12, 14, 0, 15, 4, 5, 6, 9, 2, 1, 8, 3
+#endif /* CONFIG_AS_AVX512 */
+
+.text
+#ifdef CONFIG_AS_AVX
+ENTRY(blake2s_compress_avx)
+	movl		%ecx, %ecx
+	testq		%rdx, %rdx
+	je		.Lendofloop
+	.align 32
+.Lbeginofloop:
+	addq		%rcx, 32(%rdi)
+	vmovdqu		IV+16(%rip), %xmm1
+	vmovdqu		(%rsi), %xmm4
+	vpxor		32(%rdi), %xmm1, %xmm1
+	vmovdqu		16(%rsi), %xmm3
+	vshufps		$136, %xmm3, %xmm4, %xmm6
+	vmovdqa		ROT16(%rip), %xmm7
+	vpaddd		(%rdi), %xmm6, %xmm6
+	vpaddd		16(%rdi), %xmm6, %xmm6
+	vpxor		%xmm6, %xmm1, %xmm1
+	vmovdqu		IV(%rip), %xmm8
+	vpshufb		%xmm7, %xmm1, %xmm1
+	vmovdqu		48(%rsi), %xmm5
+	vpaddd		%xmm1, %xmm8, %xmm8
+	vpxor		16(%rdi), %xmm8, %xmm9
+	vmovdqu		32(%rsi), %xmm2
+	vpblendw	$12, %xmm3, %xmm5, %xmm13
+	vshufps		$221, %xmm5, %xmm2, %xmm12
+	vpunpckhqdq	%xmm2, %xmm4, %xmm14
+	vpslld		$20, %xmm9, %xmm0
+	vpsrld		$12, %xmm9, %xmm9
+	vpxor		%xmm0, %xmm9, %xmm0
+	vshufps		$221, %xmm3, %xmm4, %xmm9
+	vpaddd		%xmm9, %xmm6, %xmm9
+	vpaddd		%xmm0, %xmm9, %xmm9
+	vpxor		%xmm9, %xmm1, %xmm1
+	vmovdqa		ROR328(%rip), %xmm6
+	vpshufb		%xmm6, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm8, %xmm8
+	vpxor		%xmm8, %xmm0, %xmm0
+	vpshufd		$147, %xmm1, %xmm1
+	vpshufd		$78, %xmm8, %xmm8
+	vpslld		$25, %xmm0, %xmm10
+	vpsrld		$7, %xmm0, %xmm0
+	vpxor		%xmm10, %xmm0, %xmm0
+	vshufps		$136, %xmm5, %xmm2, %xmm10
+	vpshufd		$57, %xmm0, %xmm0
+	vpaddd		%xmm10, %xmm9, %xmm9
+	vpaddd		%xmm0, %xmm9, %xmm9
+	vpxor		%xmm9, %xmm1, %xmm1
+	vpaddd		%xmm12, %xmm9, %xmm9
+	vpblendw	$12, %xmm2, %xmm3, %xmm12
+	vpshufb		%xmm7, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm8, %xmm8
+	vpxor		%xmm8, %xmm0, %xmm10
+	vpslld		$20, %xmm10, %xmm0
+	vpsrld		$12, %xmm10, %xmm10
+	vpxor		%xmm0, %xmm10, %xmm0
+	vpaddd		%xmm0, %xmm9, %xmm9
+	vpxor		%xmm9, %xmm1, %xmm1
+	vpshufb		%xmm6, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm8, %xmm8
+	vpxor		%xmm8, %xmm0, %xmm0
+	vpshufd		$57, %xmm1, %xmm1
+	vpshufd		$78, %xmm8, %xmm8
+	vpslld		$25, %xmm0, %xmm10
+	vpsrld		$7, %xmm0, %xmm0
+	vpxor		%xmm10, %xmm0, %xmm0
+	vpslldq		$4, %xmm5, %xmm10
+	vpblendw	$240, %xmm10, %xmm12, %xmm12
+	vpshufd		$147, %xmm0, %xmm0
+	vpshufd		$147, %xmm12, %xmm12
+	vpaddd		%xmm9, %xmm12, %xmm12
+	vpaddd		%xmm0, %xmm12, %xmm12
+	vpxor		%xmm12, %xmm1, %xmm1
+	vpshufb		%xmm7, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm8, %xmm8
+	vpxor		%xmm8, %xmm0, %xmm11
+	vpslld		$20, %xmm11, %xmm9
+	vpsrld		$12, %xmm11, %xmm11
+	vpxor		%xmm9, %xmm11, %xmm0
+	vpshufd		$8, %xmm2, %xmm9
+	vpblendw	$192, %xmm5, %xmm3, %xmm11
+	vpblendw	$240, %xmm11, %xmm9, %xmm9
+	vpshufd		$177, %xmm9, %xmm9
+	vpaddd		%xmm12, %xmm9, %xmm9
+	vpaddd		%xmm0, %xmm9, %xmm11
+	vpxor		%xmm11, %xmm1, %xmm1
+	vpshufb		%xmm6, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm8, %xmm8
+	vpxor		%xmm8, %xmm0, %xmm9
+	vpshufd		$147, %xmm1, %xmm1
+	vpshufd		$78, %xmm8, %xmm8
+	vpslld		$25, %xmm9, %xmm0
+	vpsrld		$7, %xmm9, %xmm9
+	vpxor		%xmm0, %xmm9, %xmm0
+	vpslldq		$4, %xmm3, %xmm9
+	vpblendw	$48, %xmm9, %xmm2, %xmm9
+	vpblendw	$240, %xmm9, %xmm4, %xmm9
+	vpshufd		$57, %xmm0, %xmm0
+	vpshufd		$177, %xmm9, %xmm9
+	vpaddd		%xmm11, %xmm9, %xmm9
+	vpaddd		%xmm0, %xmm9, %xmm9
+	vpxor		%xmm9, %xmm1, %xmm1
+	vpshufb		%xmm7, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm8, %xmm11
+	vpxor		%xmm11, %xmm0, %xmm0
+	vpslld		$20, %xmm0, %xmm8
+	vpsrld		$12, %xmm0, %xmm0
+	vpxor		%xmm8, %xmm0, %xmm0
+	vpunpckhdq	%xmm3, %xmm4, %xmm8
+	vpblendw	$12, %xmm10, %xmm8, %xmm12
+	vpshufd		$177, %xmm12, %xmm12
+	vpaddd		%xmm9, %xmm12, %xmm9
+	vpaddd		%xmm0, %xmm9, %xmm9
+	vpxor		%xmm9, %xmm1, %xmm1
+	vpshufb		%xmm6, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm11, %xmm11
+	vpxor		%xmm11, %xmm0, %xmm0
+	vpshufd		$57, %xmm1, %xmm1
+	vpshufd		$78, %xmm11, %xmm11
+	vpslld		$25, %xmm0, %xmm12
+	vpsrld		$7, %xmm0, %xmm0
+	vpxor		%xmm12, %xmm0, %xmm0
+	vpunpckhdq	%xmm5, %xmm2, %xmm12
+	vpshufd		$147, %xmm0, %xmm0
+	vpblendw	$15, %xmm13, %xmm12, %xmm12
+	vpslldq		$8, %xmm5, %xmm13
+	vpshufd		$210, %xmm12, %xmm12
+	vpaddd		%xmm9, %xmm12, %xmm9
+	vpaddd		%xmm0, %xmm9, %xmm9
+	vpxor		%xmm9, %xmm1, %xmm1
+	vpshufb		%xmm7, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm11, %xmm11
+	vpxor		%xmm11, %xmm0, %xmm0
+	vpslld		$20, %xmm0, %xmm12
+	vpsrld		$12, %xmm0, %xmm0
+	vpxor		%xmm12, %xmm0, %xmm0
+	vpunpckldq	%xmm4, %xmm2, %xmm12
+	vpblendw	$240, %xmm4, %xmm12, %xmm12
+	vpblendw	$192, %xmm13, %xmm12, %xmm12
+	vpsrldq		$12, %xmm3, %xmm13
+	vpaddd		%xmm12, %xmm9, %xmm9
+	vpaddd		%xmm0, %xmm9, %xmm9
+	vpxor		%xmm9, %xmm1, %xmm1
+	vpshufb		%xmm6, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm11, %xmm11
+	vpxor		%xmm11, %xmm0, %xmm0
+	vpshufd		$147, %xmm1, %xmm1
+	vpshufd		$78, %xmm11, %xmm11
+	vpslld		$25, %xmm0, %xmm12
+	vpsrld		$7, %xmm0, %xmm0
+	vpxor		%xmm12, %xmm0, %xmm0
+	vpblendw	$60, %xmm2, %xmm4, %xmm12
+	vpblendw	$3, %xmm13, %xmm12, %xmm12
+	vpshufd		$57, %xmm0, %xmm0
+	vpshufd		$78, %xmm12, %xmm12
+	vpaddd		%xmm9, %xmm12, %xmm9
+	vpaddd		%xmm0, %xmm9, %xmm9
+	vpxor		%xmm9, %xmm1, %xmm1
+	vpshufb		%xmm7, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm11, %xmm11
+	vpxor		%xmm11, %xmm0, %xmm12
+	vpslld		$20, %xmm12, %xmm13
+	vpsrld		$12, %xmm12, %xmm0
+	vpblendw	$51, %xmm3, %xmm4, %xmm12
+	vpxor		%xmm13, %xmm0, %xmm0
+	vpblendw	$192, %xmm10, %xmm12, %xmm10
+	vpslldq		$8, %xmm2, %xmm12
+	vpshufd		$27, %xmm10, %xmm10
+	vpaddd		%xmm9, %xmm10, %xmm9
+	vpaddd		%xmm0, %xmm9, %xmm9
+	vpxor		%xmm9, %xmm1, %xmm1
+	vpshufb		%xmm6, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm11, %xmm11
+	vpxor		%xmm11, %xmm0, %xmm0
+	vpshufd		$57, %xmm1, %xmm1
+	vpshufd		$78, %xmm11, %xmm11
+	vpslld		$25, %xmm0, %xmm10
+	vpsrld		$7, %xmm0, %xmm0
+	vpxor		%xmm10, %xmm0, %xmm0
+	vpunpckhdq	%xmm2, %xmm8, %xmm10
+	vpshufd		$147, %xmm0, %xmm0
+	vpblendw	$12, %xmm5, %xmm10, %xmm10
+	vpshufd		$210, %xmm10, %xmm10
+	vpaddd		%xmm9, %xmm10, %xmm9
+	vpaddd		%xmm0, %xmm9, %xmm9
+	vpxor		%xmm9, %xmm1, %xmm1
+	vpshufb		%xmm7, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm11, %xmm11
+	vpxor		%xmm11, %xmm0, %xmm10
+	vpslld		$20, %xmm10, %xmm0
+	vpsrld		$12, %xmm10, %xmm10
+	vpxor		%xmm0, %xmm10, %xmm0
+	vpblendw	$12, %xmm4, %xmm5, %xmm10
+	vpblendw	$192, %xmm12, %xmm10, %xmm10
+	vpunpckldq	%xmm2, %xmm4, %xmm12
+	vpshufd		$135, %xmm10, %xmm10
+	vpaddd		%xmm9, %xmm10, %xmm9
+	vpaddd		%xmm0, %xmm9, %xmm9
+	vpxor		%xmm9, %xmm1, %xmm1
+	vpshufb		%xmm6, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm11, %xmm13
+	vpxor		%xmm13, %xmm0, %xmm0
+	vpshufd		$147, %xmm1, %xmm1
+	vpshufd		$78, %xmm13, %xmm13
+	vpslld		$25, %xmm0, %xmm10
+	vpsrld		$7, %xmm0, %xmm0
+	vpxor		%xmm10, %xmm0, %xmm0
+	vpblendw	$15, %xmm3, %xmm4, %xmm10
+	vpblendw	$192, %xmm5, %xmm10, %xmm10
+	vpshufd		$57, %xmm0, %xmm0
+	vpshufd		$198, %xmm10, %xmm10
+	vpaddd		%xmm9, %xmm10, %xmm10
+	vpaddd		%xmm0, %xmm10, %xmm10
+	vpxor		%xmm10, %xmm1, %xmm1
+	vpshufb		%xmm7, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm13, %xmm13
+	vpxor		%xmm13, %xmm0, %xmm9
+	vpslld		$20, %xmm9, %xmm0
+	vpsrld		$12, %xmm9, %xmm9
+	vpxor		%xmm0, %xmm9, %xmm0
+	vpunpckhdq	%xmm2, %xmm3, %xmm9
+	vpunpcklqdq	%xmm12, %xmm9, %xmm15
+	vpunpcklqdq	%xmm12, %xmm8, %xmm12
+	vpblendw	$15, %xmm5, %xmm8, %xmm8
+	vpaddd		%xmm15, %xmm10, %xmm15
+	vpaddd		%xmm0, %xmm15, %xmm15
+	vpxor		%xmm15, %xmm1, %xmm1
+	vpshufd		$141, %xmm8, %xmm8
+	vpshufb		%xmm6, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm13, %xmm13
+	vpxor		%xmm13, %xmm0, %xmm0
+	vpshufd		$57, %xmm1, %xmm1
+	vpshufd		$78, %xmm13, %xmm13
+	vpslld		$25, %xmm0, %xmm10
+	vpsrld		$7, %xmm0, %xmm0
+	vpxor		%xmm10, %xmm0, %xmm0
+	vpunpcklqdq	%xmm2, %xmm3, %xmm10
+	vpshufd		$147, %xmm0, %xmm0
+	vpblendw	$51, %xmm14, %xmm10, %xmm14
+	vpshufd		$135, %xmm14, %xmm14
+	vpaddd		%xmm15, %xmm14, %xmm14
+	vpaddd		%xmm0, %xmm14, %xmm14
+	vpxor		%xmm14, %xmm1, %xmm1
+	vpunpcklqdq	%xmm3, %xmm4, %xmm15
+	vpshufb		%xmm7, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm13, %xmm13
+	vpxor		%xmm13, %xmm0, %xmm0
+	vpslld		$20, %xmm0, %xmm11
+	vpsrld		$12, %xmm0, %xmm0
+	vpxor		%xmm11, %xmm0, %xmm0
+	vpunpckhqdq	%xmm5, %xmm3, %xmm11
+	vpblendw	$51, %xmm15, %xmm11, %xmm11
+	vpunpckhqdq	%xmm3, %xmm5, %xmm15
+	vpaddd		%xmm11, %xmm14, %xmm11
+	vpaddd		%xmm0, %xmm11, %xmm11
+	vpxor		%xmm11, %xmm1, %xmm1
+	vpshufb		%xmm6, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm13, %xmm13
+	vpxor		%xmm13, %xmm0, %xmm0
+	vpshufd		$147, %xmm1, %xmm1
+	vpshufd		$78, %xmm13, %xmm13
+	vpslld		$25, %xmm0, %xmm14
+	vpsrld		$7, %xmm0, %xmm0
+	vpxor		%xmm14, %xmm0, %xmm14
+	vpunpckhqdq	%xmm4, %xmm2, %xmm0
+	vpshufd		$57, %xmm14, %xmm14
+	vpblendw	$51, %xmm15, %xmm0, %xmm15
+	vpaddd		%xmm15, %xmm11, %xmm15
+	vpaddd		%xmm14, %xmm15, %xmm15
+	vpxor		%xmm15, %xmm1, %xmm1
+	vpshufb		%xmm7, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm13, %xmm13
+	vpxor		%xmm13, %xmm14, %xmm14
+	vpslld		$20, %xmm14, %xmm11
+	vpsrld		$12, %xmm14, %xmm14
+	vpxor		%xmm11, %xmm14, %xmm14
+	vpblendw	$3, %xmm2, %xmm4, %xmm11
+	vpslldq		$8, %xmm11, %xmm0
+	vpblendw	$15, %xmm5, %xmm0, %xmm0
+	vpshufd		$99, %xmm0, %xmm0
+	vpaddd		%xmm15, %xmm0, %xmm15
+	vpaddd		%xmm14, %xmm15, %xmm15
+	vpxor		%xmm15, %xmm1, %xmm0
+	vpaddd		%xmm12, %xmm15, %xmm15
+	vpshufb		%xmm6, %xmm0, %xmm0
+	vpaddd		%xmm0, %xmm13, %xmm13
+	vpxor		%xmm13, %xmm14, %xmm14
+	vpshufd		$57, %xmm0, %xmm0
+	vpshufd		$78, %xmm13, %xmm13
+	vpslld		$25, %xmm14, %xmm1
+	vpsrld		$7, %xmm14, %xmm14
+	vpxor		%xmm1, %xmm14, %xmm14
+	vpblendw	$3, %xmm5, %xmm4, %xmm1
+	vpshufd		$147, %xmm14, %xmm14
+	vpaddd		%xmm14, %xmm15, %xmm15
+	vpxor		%xmm15, %xmm0, %xmm0
+	vpshufb		%xmm7, %xmm0, %xmm0
+	vpaddd		%xmm0, %xmm13, %xmm13
+	vpxor		%xmm13, %xmm14, %xmm14
+	vpslld		$20, %xmm14, %xmm12
+	vpsrld		$12, %xmm14, %xmm14
+	vpxor		%xmm12, %xmm14, %xmm14
+	vpsrldq		$4, %xmm2, %xmm12
+	vpblendw	$60, %xmm12, %xmm1, %xmm1
+	vpaddd		%xmm1, %xmm15, %xmm15
+	vpaddd		%xmm14, %xmm15, %xmm15
+	vpxor		%xmm15, %xmm0, %xmm0
+	vpblendw	$12, %xmm4, %xmm3, %xmm1
+	vpshufb		%xmm6, %xmm0, %xmm0
+	vpaddd		%xmm0, %xmm13, %xmm13
+	vpxor		%xmm13, %xmm14, %xmm14
+	vpshufd		$147, %xmm0, %xmm0
+	vpshufd		$78, %xmm13, %xmm13
+	vpslld		$25, %xmm14, %xmm12
+	vpsrld		$7, %xmm14, %xmm14
+	vpxor		%xmm12, %xmm14, %xmm14
+	vpsrldq		$4, %xmm5, %xmm12
+	vpblendw	$48, %xmm12, %xmm1, %xmm1
+	vpshufd		$33, %xmm5, %xmm12
+	vpshufd		$57, %xmm14, %xmm14
+	vpshufd		$108, %xmm1, %xmm1
+	vpblendw	$51, %xmm12, %xmm10, %xmm12
+	vpaddd		%xmm15, %xmm1, %xmm15
+	vpaddd		%xmm14, %xmm15, %xmm15
+	vpxor		%xmm15, %xmm0, %xmm0
+	vpaddd		%xmm12, %xmm15, %xmm15
+	vpshufb		%xmm7, %xmm0, %xmm0
+	vpaddd		%xmm0, %xmm13, %xmm1
+	vpxor		%xmm1, %xmm14, %xmm14
+	vpslld		$20, %xmm14, %xmm13
+	vpsrld		$12, %xmm14, %xmm14
+	vpxor		%xmm13, %xmm14, %xmm14
+	vpslldq		$12, %xmm3, %xmm13
+	vpaddd		%xmm14, %xmm15, %xmm15
+	vpxor		%xmm15, %xmm0, %xmm0
+	vpshufb		%xmm6, %xmm0, %xmm0
+	vpaddd		%xmm0, %xmm1, %xmm1
+	vpxor		%xmm1, %xmm14, %xmm14
+	vpshufd		$57, %xmm0, %xmm0
+	vpshufd		$78, %xmm1, %xmm1
+	vpslld		$25, %xmm14, %xmm12
+	vpsrld		$7, %xmm14, %xmm14
+	vpxor		%xmm12, %xmm14, %xmm14
+	vpblendw	$51, %xmm5, %xmm4, %xmm12
+	vpshufd		$147, %xmm14, %xmm14
+	vpblendw	$192, %xmm13, %xmm12, %xmm12
+	vpaddd		%xmm12, %xmm15, %xmm15
+	vpaddd		%xmm14, %xmm15, %xmm15
+	vpxor		%xmm15, %xmm0, %xmm0
+	vpsrldq		$4, %xmm3, %xmm12
+	vpshufb		%xmm7, %xmm0, %xmm0
+	vpaddd		%xmm0, %xmm1, %xmm1
+	vpxor		%xmm1, %xmm14, %xmm14
+	vpslld		$20, %xmm14, %xmm13
+	vpsrld		$12, %xmm14, %xmm14
+	vpxor		%xmm13, %xmm14, %xmm14
+	vpblendw	$48, %xmm2, %xmm5, %xmm13
+	vpblendw	$3, %xmm12, %xmm13, %xmm13
+	vpshufd		$156, %xmm13, %xmm13
+	vpaddd		%xmm15, %xmm13, %xmm15
+	vpaddd		%xmm14, %xmm15, %xmm15
+	vpxor		%xmm15, %xmm0, %xmm0
+	vpshufb		%xmm6, %xmm0, %xmm0
+	vpaddd		%xmm0, %xmm1, %xmm1
+	vpxor		%xmm1, %xmm14, %xmm14
+	vpshufd		$147, %xmm0, %xmm0
+	vpshufd		$78, %xmm1, %xmm1
+	vpslld		$25, %xmm14, %xmm13
+	vpsrld		$7, %xmm14, %xmm14
+	vpxor		%xmm13, %xmm14, %xmm14
+	vpunpcklqdq	%xmm2, %xmm4, %xmm13
+	vpshufd		$57, %xmm14, %xmm14
+	vpblendw	$12, %xmm12, %xmm13, %xmm12
+	vpshufd		$180, %xmm12, %xmm12
+	vpaddd		%xmm15, %xmm12, %xmm15
+	vpaddd		%xmm14, %xmm15, %xmm15
+	vpxor		%xmm15, %xmm0, %xmm0
+	vpshufb		%xmm7, %xmm0, %xmm0
+	vpaddd		%xmm0, %xmm1, %xmm1
+	vpxor		%xmm1, %xmm14, %xmm14
+	vpslld		$20, %xmm14, %xmm12
+	vpsrld		$12, %xmm14, %xmm14
+	vpxor		%xmm12, %xmm14, %xmm14
+	vpunpckhqdq	%xmm9, %xmm4, %xmm12
+	vpshufd		$198, %xmm12, %xmm12
+	vpaddd		%xmm15, %xmm12, %xmm15
+	vpaddd		%xmm14, %xmm15, %xmm15
+	vpxor		%xmm15, %xmm0, %xmm0
+	vpaddd		%xmm15, %xmm8, %xmm15
+	vpshufb		%xmm6, %xmm0, %xmm0
+	vpaddd		%xmm0, %xmm1, %xmm1
+	vpxor		%xmm1, %xmm14, %xmm14
+	vpshufd		$57, %xmm0, %xmm0
+	vpshufd		$78, %xmm1, %xmm1
+	vpslld		$25, %xmm14, %xmm12
+	vpsrld		$7, %xmm14, %xmm14
+	vpxor		%xmm12, %xmm14, %xmm14
+	vpsrldq		$4, %xmm4, %xmm12
+	vpshufd		$147, %xmm14, %xmm14
+	vpaddd		%xmm14, %xmm15, %xmm15
+	vpxor		%xmm15, %xmm0, %xmm0
+	vpshufb		%xmm7, %xmm0, %xmm0
+	vpaddd		%xmm0, %xmm1, %xmm1
+	vpxor		%xmm1, %xmm14, %xmm14
+	vpslld		$20, %xmm14, %xmm8
+	vpsrld		$12, %xmm14, %xmm14
+	vpxor		%xmm14, %xmm8, %xmm14
+	vpblendw	$48, %xmm5, %xmm2, %xmm8
+	vpblendw	$3, %xmm12, %xmm8, %xmm8
+	vpunpckhqdq	%xmm5, %xmm4, %xmm12
+	vpshufd		$75, %xmm8, %xmm8
+	vpblendw	$60, %xmm10, %xmm12, %xmm10
+	vpaddd		%xmm15, %xmm8, %xmm15
+	vpaddd		%xmm14, %xmm15, %xmm15
+	vpxor		%xmm0, %xmm15, %xmm0
+	vpshufd		$45, %xmm10, %xmm10
+	vpshufb		%xmm6, %xmm0, %xmm0
+	vpaddd		%xmm15, %xmm10, %xmm15
+	vpaddd		%xmm0, %xmm1, %xmm1
+	vpxor		%xmm1, %xmm14, %xmm14
+	vpshufd		$147, %xmm0, %xmm0
+	vpshufd		$78, %xmm1, %xmm1
+	vpslld		$25, %xmm14, %xmm8
+	vpsrld		$7, %xmm14, %xmm14
+	vpxor		%xmm14, %xmm8, %xmm8
+	vpshufd		$57, %xmm8, %xmm8
+	vpaddd		%xmm8, %xmm15, %xmm15
+	vpxor		%xmm0, %xmm15, %xmm0
+	vpshufb		%xmm7, %xmm0, %xmm0
+	vpaddd		%xmm0, %xmm1, %xmm1
+	vpxor		%xmm8, %xmm1, %xmm8
+	vpslld		$20, %xmm8, %xmm10
+	vpsrld		$12, %xmm8, %xmm8
+	vpxor		%xmm8, %xmm10, %xmm10
+	vpunpckldq	%xmm3, %xmm4, %xmm8
+	vpunpcklqdq	%xmm9, %xmm8, %xmm9
+	vpaddd		%xmm9, %xmm15, %xmm9
+	vpaddd		%xmm10, %xmm9, %xmm9
+	vpxor		%xmm0, %xmm9, %xmm8
+	vpshufb		%xmm6, %xmm8, %xmm8
+	vpaddd		%xmm8, %xmm1, %xmm1
+	vpxor		%xmm1, %xmm10, %xmm10
+	vpshufd		$57, %xmm8, %xmm8
+	vpshufd		$78, %xmm1, %xmm1
+	vpslld		$25, %xmm10, %xmm12
+	vpsrld		$7, %xmm10, %xmm10
+	vpxor		%xmm10, %xmm12, %xmm10
+	vpblendw	$48, %xmm4, %xmm3, %xmm12
+	vpshufd		$147, %xmm10, %xmm0
+	vpunpckhdq	%xmm5, %xmm3, %xmm10
+	vpshufd		$78, %xmm12, %xmm12
+	vpunpcklqdq	%xmm4, %xmm10, %xmm10
+	vpblendw	$192, %xmm2, %xmm10, %xmm10
+	vpshufhw	$78, %xmm10, %xmm10
+	vpaddd		%xmm10, %xmm9, %xmm10
+	vpaddd		%xmm0, %xmm10, %xmm10
+	vpxor		%xmm8, %xmm10, %xmm8
+	vpshufb		%xmm7, %xmm8, %xmm8
+	vpaddd		%xmm8, %xmm1, %xmm1
+	vpxor		%xmm0, %xmm1, %xmm9
+	vpslld		$20, %xmm9, %xmm0
+	vpsrld		$12, %xmm9, %xmm9
+	vpxor		%xmm9, %xmm0, %xmm0
+	vpunpckhdq	%xmm5, %xmm4, %xmm9
+	vpblendw	$240, %xmm9, %xmm2, %xmm13
+	vpshufd		$39, %xmm13, %xmm13
+	vpaddd		%xmm10, %xmm13, %xmm10
+	vpaddd		%xmm0, %xmm10, %xmm10
+	vpxor		%xmm8, %xmm10, %xmm8
+	vpblendw	$12, %xmm4, %xmm2, %xmm13
+	vpshufb		%xmm6, %xmm8, %xmm8
+	vpslldq		$4, %xmm13, %xmm13
+	vpblendw	$15, %xmm5, %xmm13, %xmm13
+	vpaddd		%xmm8, %xmm1, %xmm1
+	vpxor		%xmm1, %xmm0, %xmm0
+	vpaddd		%xmm13, %xmm10, %xmm13
+	vpshufd		$147, %xmm8, %xmm8
+	vpshufd		$78, %xmm1, %xmm1
+	vpslld		$25, %xmm0, %xmm14
+	vpsrld		$7, %xmm0, %xmm0
+	vpxor		%xmm0, %xmm14, %xmm14
+	vpshufd		$57, %xmm14, %xmm14
+	vpaddd		%xmm14, %xmm13, %xmm13
+	vpxor		%xmm8, %xmm13, %xmm8
+	vpaddd		%xmm13, %xmm12, %xmm12
+	vpshufb		%xmm7, %xmm8, %xmm8
+	vpaddd		%xmm8, %xmm1, %xmm1
+	vpxor		%xmm14, %xmm1, %xmm14
+	vpslld		$20, %xmm14, %xmm10
+	vpsrld		$12, %xmm14, %xmm14
+	vpxor		%xmm14, %xmm10, %xmm10
+	vpaddd		%xmm10, %xmm12, %xmm12
+	vpxor		%xmm8, %xmm12, %xmm8
+	vpshufb		%xmm6, %xmm8, %xmm8
+	vpaddd		%xmm8, %xmm1, %xmm1
+	vpxor		%xmm1, %xmm10, %xmm0
+	vpshufd		$57, %xmm8, %xmm8
+	vpshufd		$78, %xmm1, %xmm1
+	vpslld		$25, %xmm0, %xmm10
+	vpsrld		$7, %xmm0, %xmm0
+	vpxor		%xmm0, %xmm10, %xmm10
+	vpblendw	$48, %xmm2, %xmm3, %xmm0
+	vpblendw	$15, %xmm11, %xmm0, %xmm0
+	vpshufd		$147, %xmm10, %xmm10
+	vpshufd		$114, %xmm0, %xmm0
+	vpaddd		%xmm12, %xmm0, %xmm0
+	vpaddd		%xmm10, %xmm0, %xmm0
+	vpxor		%xmm8, %xmm0, %xmm8
+	vpshufb		%xmm7, %xmm8, %xmm8
+	vpaddd		%xmm8, %xmm1, %xmm1
+	vpxor		%xmm10, %xmm1, %xmm10
+	vpslld		$20, %xmm10, %xmm11
+	vpsrld		$12, %xmm10, %xmm10
+	vpxor		%xmm10, %xmm11, %xmm10
+	vpslldq		$4, %xmm4, %xmm11
+	vpblendw	$192, %xmm11, %xmm3, %xmm3
+	vpunpckldq	%xmm5, %xmm4, %xmm4
+	vpshufd		$99, %xmm3, %xmm3
+	vpaddd		%xmm0, %xmm3, %xmm3
+	vpaddd		%xmm10, %xmm3, %xmm3
+	vpxor		%xmm8, %xmm3, %xmm11
+	vpunpckldq	%xmm5, %xmm2, %xmm0
+	vpblendw	$192, %xmm2, %xmm5, %xmm2
+	vpshufb		%xmm6, %xmm11, %xmm11
+	vpunpckhqdq	%xmm0, %xmm9, %xmm0
+	vpblendw	$15, %xmm4, %xmm2, %xmm4
+	vpaddd		%xmm11, %xmm1, %xmm1
+	vpxor		%xmm1, %xmm10, %xmm10
+	vpshufd		$147, %xmm11, %xmm11
+	vpshufd		$201, %xmm0, %xmm0
+	vpslld		$25, %xmm10, %xmm8
+	vpsrld		$7, %xmm10, %xmm10
+	vpxor		%xmm10, %xmm8, %xmm10
+	vpshufd		$78, %xmm1, %xmm1
+	vpaddd		%xmm3, %xmm0, %xmm0
+	vpshufd		$27, %xmm4, %xmm4
+	vpshufd		$57, %xmm10, %xmm10
+	vpaddd		%xmm10, %xmm0, %xmm0
+	vpxor		%xmm11, %xmm0, %xmm11
+	vpaddd		%xmm0, %xmm4, %xmm0
+	vpshufb		%xmm7, %xmm11, %xmm7
+	vpaddd		%xmm7, %xmm1, %xmm1
+	vpxor		%xmm10, %xmm1, %xmm10
+	vpslld		$20, %xmm10, %xmm8
+	vpsrld		$12, %xmm10, %xmm10
+	vpxor		%xmm10, %xmm8, %xmm8
+	vpaddd		%xmm8, %xmm0, %xmm0
+	vpxor		%xmm7, %xmm0, %xmm7
+	vpshufb		%xmm6, %xmm7, %xmm6
+	vpaddd		%xmm6, %xmm1, %xmm1
+	vpxor		%xmm1, %xmm8, %xmm8
+	vpshufd		$78, %xmm1, %xmm1
+	vpshufd		$57, %xmm6, %xmm6
+	vpslld		$25, %xmm8, %xmm2
+	vpsrld		$7, %xmm8, %xmm8
+	vpxor		%xmm8, %xmm2, %xmm8
+	vpxor		(%rdi), %xmm1, %xmm1
+	vpshufd		$147, %xmm8, %xmm8
+	vpxor		%xmm0, %xmm1, %xmm0
+	vmovups		%xmm0, (%rdi)
+	vpxor		16(%rdi), %xmm8, %xmm0
+	vpxor		%xmm6, %xmm0, %xmm6
+	vmovups		%xmm6, 16(%rdi)
+	addq		$64, %rsi
+	decq		%rdx
+	jnz .Lbeginofloop
+.Lendofloop:
+	ret
+ENDPROC(blake2s_compress_avx)
+#endif /* CONFIG_AS_AVX */
+
+#ifdef CONFIG_AS_AVX512
+ENTRY(blake2s_compress_avx512)
+	vmovdqu		(%rdi),%xmm0
+	vmovdqu		0x10(%rdi),%xmm1
+	vmovdqu		0x20(%rdi),%xmm4
+	vmovq		%rcx,%xmm5
+	vmovdqa		IV(%rip),%xmm14
+	vmovdqa		IV+16(%rip),%xmm15
+	jmp		.Lblake2s_compress_avx512_mainloop
+.align 32
+.Lblake2s_compress_avx512_mainloop:
+	vmovdqa		%xmm0,%xmm10
+	vmovdqa		%xmm1,%xmm11
+	vpaddq		%xmm5,%xmm4,%xmm4
+	vmovdqa		%xmm14,%xmm2
+	vpxor		%xmm15,%xmm4,%xmm3
+	vmovdqu		(%rsi),%ymm6
+	vmovdqu		0x20(%rsi),%ymm7
+	addq		$0x40,%rsi
+	leaq		SIGMA(%rip),%rax
+	movb		$0xa,%cl
+.Lblake2s_compress_avx512_roundloop:
+	addq		$0x40,%rax
+	vmovdqa		-0x40(%rax),%ymm8
+	vmovdqa		-0x20(%rax),%ymm9
+	vpermi2d	%ymm7,%ymm6,%ymm8
+	vpermi2d	%ymm7,%ymm6,%ymm9
+	vmovdqa		%ymm8,%ymm6
+	vmovdqa		%ymm9,%ymm7
+	vpaddd		%xmm8,%xmm0,%xmm0
+	vpaddd		%xmm1,%xmm0,%xmm0
+	vpxor		%xmm0,%xmm3,%xmm3
+	vprord		$0x10,%xmm3,%xmm3
+	vpaddd		%xmm3,%xmm2,%xmm2
+	vpxor		%xmm2,%xmm1,%xmm1
+	vprord		$0xc,%xmm1,%xmm1
+	vextracti128	$0x1,%ymm8,%xmm8
+	vpaddd		%xmm8,%xmm0,%xmm0
+	vpaddd		%xmm1,%xmm0,%xmm0
+	vpxor		%xmm0,%xmm3,%xmm3
+	vprord		$0x8,%xmm3,%xmm3
+	vpaddd		%xmm3,%xmm2,%xmm2
+	vpxor		%xmm2,%xmm1,%xmm1
+	vprord		$0x7,%xmm1,%xmm1
+	vpshufd		$0x39,%xmm1,%xmm1
+	vpshufd		$0x4e,%xmm2,%xmm2
+	vpshufd		$0x93,%xmm3,%xmm3
+	vpaddd		%xmm9,%xmm0,%xmm0
+	vpaddd		%xmm1,%xmm0,%xmm0
+	vpxor		%xmm0,%xmm3,%xmm3
+	vprord		$0x10,%xmm3,%xmm3
+	vpaddd		%xmm3,%xmm2,%xmm2
+	vpxor		%xmm2,%xmm1,%xmm1
+	vprord		$0xc,%xmm1,%xmm1
+	vextracti128	$0x1,%ymm9,%xmm9
+	vpaddd		%xmm9,%xmm0,%xmm0
+	vpaddd		%xmm1,%xmm0,%xmm0
+	vpxor		%xmm0,%xmm3,%xmm3
+	vprord		$0x8,%xmm3,%xmm3
+	vpaddd		%xmm3,%xmm2,%xmm2
+	vpxor		%xmm2,%xmm1,%xmm1
+	vprord		$0x7,%xmm1,%xmm1
+	vpshufd		$0x93,%xmm1,%xmm1
+	vpshufd		$0x4e,%xmm2,%xmm2
+	vpshufd		$0x39,%xmm3,%xmm3
+	decb		%cl
+	jne		.Lblake2s_compress_avx512_roundloop
+	vpxor		%xmm10,%xmm0,%xmm0
+	vpxor		%xmm11,%xmm1,%xmm1
+	vpxor		%xmm2,%xmm0,%xmm0
+	vpxor		%xmm3,%xmm1,%xmm1
+	decq		%rdx
+	jne		.Lblake2s_compress_avx512_mainloop
+	vmovdqu		%xmm0,(%rdi)
+	vmovdqu		%xmm1,0x10(%rdi)
+	vmovdqu		%xmm4,0x20(%rdi)
+	vzeroupper
+	retq
+ENDPROC(blake2s_compress_avx512)
+#endif /* CONFIG_AS_AVX512 */
diff --git a/lib/zinc/blake2s/blake2s.c b/lib/zinc/blake2s/blake2s.c
index 0b62313267fb..c54f017fccfe 100644
--- a/lib/zinc/blake2s/blake2s.c
+++ b/lib/zinc/blake2s/blake2s.c
@@ -113,7 +113,9 @@ void blake2s_init_key(struct blake2s_state *state, const size_t outlen,
 }
 EXPORT_SYMBOL(blake2s_init_key);
 
-#ifndef HAVE_BLAKE2S_ARCH_IMPLEMENTATION
+#if defined(CONFIG_ZINC_ARCH_X86_64)
+#include "blake2s-x86_64-glue.h"
+#else
 static void __init blake2s_fpu_init(void)
 {
 }