[v6,26/82] target/arm: Implement SVE2 SHRN, RSHRN

Message ID	20210430202610.1136687-27-richard.henderson@linaro.org
State	Superseded
Headers	show Delivered-To: patch@linaro.org Received-SPF: pass (google.com: domain of qemu-devel-bounces+patch=linaro.org@nongnu.org designates 209.51.188.17 as permitted sender) client-ip=209.51.188.17; From: Richard Henderson <richard.henderson@linaro.org> To: qemu-devel@nongnu.org Subject: [PATCH v6 26/82] target/arm: Implement SVE2 SHRN, RSHRN Date: Fri, 30 Apr 2021 13:25:14 -0700 Message-Id: <20210430202610.1136687-27-richard.henderson@linaro.org> In-Reply-To: <20210430202610.1136687-1-richard.henderson@linaro.org> References: <20210430202610.1136687-1-richard.henderson@linaro.org> MIME-Version: 1.0 Content-Transfer-Encoding: 8bit Received-SPF: pass client-ip=2607:f8b0:4864:20::62e; envelope-from=richard.henderson@linaro.org; helo=mail-pl1-x62e.google.com X-Spam_score_int: -20 X-Spam_score: -2.1 X-Spam_bar: -- X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1, RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001, SPF_PASS=-0.001 autolearn=ham autolearn_force=no X-Spam_action: no action Precedence: list Cc: qemu-arm@nongnu.org Errors-To: qemu-devel-bounces+patch=linaro.org@nongnu.org Sender: "Qemu-devel" <qemu-devel-bounces+patch=linaro.org@nongnu.org>
Series	target/arm: Implement SVE2 \| expand [v6,00/82] target/arm: Implement SVE2 [v6,01/82] target/arm: Add ID_AA64ZFR0 fields and isar_feature_aa64_sve2 [v6,02/82] target/arm: Implement SVE2 Integer Multiply - Unpredicated [v6,03/82] target/arm: Implement SVE2 integer pairwise add and accumulate long [v6,04/82] target/arm: Implement SVE2 integer unary operations (predicated) [v6,05/82] target/arm: Split out saturating/rounding shifts from neon [v6,06/82] target/arm: Implement SVE2 saturating/rounding bitwise shift left (predicated) [v6,07/82] target/arm: Implement SVE2 integer halving add/subtract (predicated) [v6,08/82] target/arm: Implement SVE2 integer pairwise arithmetic [v6,09/82] target/arm: Implement SVE2 saturating add/subtract (predicated) [v6,10/82] target/arm: Implement SVE2 integer add/subtract long [v6,11/82] target/arm: Implement SVE2 integer add/subtract interleaved long [v6,12/82] target/arm: Implement SVE2 integer add/subtract wide [v6,13/82] target/arm: Implement SVE2 integer multiply long [v6,14/82] target/arm: Implement PMULLB and PMULLT [v6,15/82] target/arm: Implement SVE2 bitwise shift left long [v6,16/82] target/arm: Implement SVE2 bitwise exclusive-or interleaved [v6,17/82] target/arm: Implement SVE2 bitwise permute [v6,18/82] target/arm: Implement SVE2 complex integer add [v6,19/82] target/arm: Implement SVE2 integer absolute difference and accumulate long [v6,20/82] target/arm: Implement SVE2 integer add/subtract long with carry [v6,21/82] target/arm: Implement SVE2 bitwise shift right and accumulate [v6,22/82] target/arm: Implement SVE2 bitwise shift and insert [v6,23/82] target/arm: Implement SVE2 integer absolute difference and accumulate [v6,24/82] target/arm: Implement SVE2 saturating extract narrow [v6,25/82] target/arm: Implement SVE2 floating-point pairwise [v6,26/82] target/arm: Implement SVE2 SHRN, RSHRN [v6,27/82] target/arm: Implement SVE2 SQSHRUN, SQRSHRUN [v6,28/82] target/arm: Implement SVE2 UQSHRN, UQRSHRN [v6,29/82] target/arm: Implement SVE2 SQSHRN, SQRSHRN [v6,30/82] target/arm: Implement SVE2 WHILEGT, WHILEGE, WHILEHI, WHILEHS [v6,31/82] target/arm: Implement SVE2 WHILERW, WHILEWR [v6,32/82] target/arm: Implement SVE2 bitwise ternary operations [v6,33/82] target/arm: Implement SVE2 MATCH, NMATCH [v6,34/82] target/arm: Implement SVE2 saturating multiply-add long [v6,35/82] target/arm: Implement SVE2 saturating multiply-add high [v6,36/82] target/arm: Implement SVE2 integer multiply-add long [v6,37/82] target/arm: Implement SVE2 complex integer multiply-add [v6,38/82] target/arm: Implement SVE2 ADDHNB, ADDHNT [v6,39/82] target/arm: Implement SVE2 RADDHNB, RADDHNT [v6,40/82] target/arm: Implement SVE2 SUBHNB, SUBHNT [v6,41/82] target/arm: Implement SVE2 RSUBHNB, RSUBHNT [v6,42/82] target/arm: Implement SVE2 HISTCNT, HISTSEG [v6,43/82] target/arm: Implement SVE2 XAR [v6,44/82] target/arm: Implement SVE2 scatter store insns [v6,45/82] target/arm: Implement SVE2 gather load insns [v6,46/82] target/arm: Implement SVE2 FMMLA [v6,47/82] target/arm: Implement SVE2 SPLICE, EXT [v6,48/82] target/arm: Pass separate addend to {U, S}DOT helpers [v6,49/82] target/arm: Pass separate addend to FCMLA helpers [v6,50/82] target/arm: Split out formats for 2 vectors + 1 index [v6,51/82] target/arm: Split out formats for 3 vectors + 1 index [v6,52/82] target/arm: Implement SVE2 integer multiply (indexed) [v6,53/82] target/arm: Implement SVE2 integer multiply-add (indexed) [v6,54/82] target/arm: Implement SVE2 saturating multiply-add high (indexed) [v6,55/82] target/arm: Implement SVE2 saturating multiply-add (indexed) [v6,56/82] target/arm: Implement SVE2 saturating multiply (indexed) [v6,57/82] target/arm: Implement SVE2 signed saturating doubling multiply high [v6,58/82] target/arm: Implement SVE2 saturating multiply high (indexed) [v6,59/82] target/arm: Implement SVE mixed sign dot product (indexed) [v6,60/82] target/arm: Implement SVE mixed sign dot product [v6,61/82] target/arm: Implement SVE2 crypto unary operations [v6,62/82] target/arm: Implement SVE2 crypto destructive binary operations [v6,63/82] target/arm: Implement SVE2 crypto constructive binary operations [v6,64/82] target/arm: Implement SVE2 TBL, TBX [v6,65/82] target/arm: Implement SVE2 FCVTNT [v6,66/82] target/arm: Implement SVE2 FCVTLT [v6,67/82] target/arm: Implement SVE2 FCVTXNT, FCVTX [v6,68/82] target/arm: Implement SVE2 FLOGB [v6,69/82] target/arm: Share table of sve load functions [v6,70/82] target/arm: Implement SVE2 LD1RO [v6,71/82] target/arm: Implement 128-bit ZIP, UZP, TRN [v6,72/82] target/arm: Implement SVE2 bitwise shift immediate [v6,73/82] target/arm: Implement SVE2 fp multiply-add long [v6,74/82] target/arm: Implement aarch64 SUDOT, USDOT [v6,75/82] target/arm: Split out do_neon_ddda_fpst [v6,76/82] target/arm: Remove unused fpst from VDOT_scalar [v6,77/82] target/arm: Fix decode for VDOT (indexed) [v6,78/82] target/arm: Split decode of VSDOT and VUDOT [v6,79/82] target/arm: Implement aarch32 VSUDOT, VUSDOT [v6,80/82] target/arm: Implement integer matrix multiply accumulate [v6,81/82] linux-user/aarch64: Enable hwcap bits for sve2 and related extensions [v6,82/82] target/arm: Enable SVE2 and related extensions

Message ID

20210430202610.1136687-27-richard.henderson@linaro.org

State

Superseded

Headers

Received-SPF: pass (google.com: domain of
	qemu-devel-bounces+patch=linaro.org@nongnu.org designates
	209.51.188.17 as permitted sender) client-ip=209.51.188.17; 
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Subject: [PATCH v6 26/82] target/arm: Implement SVE2 SHRN, RSHRN
Date: Fri, 30 Apr 2021 13:25:14 -0700
Message-Id: <20210430202610.1136687-27-richard.henderson@linaro.org>
In-Reply-To: <20210430202610.1136687-1-richard.henderson@linaro.org>
References: <20210430202610.1136687-1-richard.henderson@linaro.org>
MIME-Version: 1.0
Content-Transfer-Encoding: 8bit
Received-SPF: pass client-ip=2607:f8b0:4864:20::62e;
	envelope-from=richard.henderson@linaro.org;
	helo=mail-pl1-x62e.google.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIM_SIGNED=0.1,
	DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
	RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
	SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.23
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Cc: qemu-arm@nongnu.org
Errors-To: qemu-devel-bounces+patch=linaro.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+patch=linaro.org@nongnu.org>

Series

target/arm: Implement SVE2 | expand

Commit Message

Richard Henderson April 30, 2021, 8:25 p.m. UTC

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>

---
v2: Fix typo in gen_shrnb_vec (laurent desnogues)
v3: Replace DO_RSHR with an inline function
---
 target/arm/helper-sve.h    |  16 ++++
 target/arm/sve.decode      |   8 ++
 target/arm/sve_helper.c    |  54 ++++++++++++-
 target/arm/translate-sve.c | 160 +++++++++++++++++++++++++++++++++++++
 4 files changed, 236 insertions(+), 2 deletions(-)

-- 
2.25.1

Comments

Peter Maydell May 12, 2021, 8:52 a.m. UTC | #1

On Fri, 30 Apr 2021 at 21:49, Richard Henderson
<richard.henderson@linaro.org> wrote:
>

> Signed-off-by: Richard Henderson <richard.henderson@linaro.org>

> ---

> v2: Fix typo in gen_shrnb_vec (laurent desnogues)

> v3: Replace DO_RSHR with an inline function

> ---

>  target/arm/helper-sve.h    |  16 ++++

>  target/arm/sve.decode      |   8 ++

>  target/arm/sve_helper.c    |  54 ++++++++++++-

>  target/arm/translate-sve.c | 160 +++++++++++++++++++++++++++++++++++++

>  4 files changed, 236 insertions(+), 2 deletions(-)


> -#undef DO_SHR

> -#undef DO_SHL


Did we want to move the #undef DO_SHR/DO_SHL rather than just deleting them ?
(I have to admit I'm not sure to what extent undeffing all of these macros is
worth the effort -- I ran into similar minor awkwardness in the MVE
helper .c file.)

>  #undef DO_ASRD

>  #undef DO_ZPZI

>  #undef DO_ZPZI_D

>

> +#define DO_SHRNB(NAME, TYPEW, TYPEN, OP) \

> +void HELPER(NAME)(void *vd, void *vn, uint32_t desc)         \

> +{                                                            \

> +    intptr_t i, opr_sz = simd_oprsz(desc);                   \

> +    int shift = simd_data(desc);                             \

> +    for (i = 0; i < opr_sz; i += sizeof(TYPEW)) {            \

> +        TYPEW nn = *(TYPEW *)(vn + i);                       \

> +        *(TYPEW *)(vd + i) = (TYPEN)OP(nn, shift);           \

> +    }                                                        \

> +}


Doesn't this need some H() macros, the way the T version does ?

> +#define DO_SHRNT(NAME, TYPEW, TYPEN, HW, HN, OP)                  \

> +void HELPER(NAME)(void *vd, void *vn, uint32_t desc)              \

> +{                                                                 \

> +    intptr_t i, opr_sz = simd_oprsz(desc);                        \

> +    int shift = simd_data(desc);                                  \

> +    for (i = 0; i < opr_sz; i += sizeof(TYPEW)) {                 \

> +        TYPEW nn = *(TYPEW *)(vn + HW(i));                        \

> +        *(TYPEN *)(vd + HN(i + sizeof(TYPEN))) = OP(nn, shift);   \

> +    }                                                             \

> +}

> +

> +DO_SHRNB(sve2_shrnb_h, uint16_t, uint8_t, DO_SHR)

> +DO_SHRNB(sve2_shrnb_s, uint32_t, uint16_t, DO_SHR)

> +DO_SHRNB(sve2_shrnb_d, uint64_t, uint32_t, DO_SHR)

> +

> +DO_SHRNT(sve2_shrnt_h, uint16_t, uint8_t, H1_2, H1, DO_SHR)

> +DO_SHRNT(sve2_shrnt_s, uint32_t, uint16_t, H1_4, H1_2, DO_SHR)

> +DO_SHRNT(sve2_shrnt_d, uint64_t, uint32_t,     , H1_4, DO_SHR)

> +

> +DO_SHRNB(sve2_rshrnb_h, uint16_t, uint8_t, do_urshr)

> +DO_SHRNB(sve2_rshrnb_s, uint32_t, uint16_t, do_urshr)

> +DO_SHRNB(sve2_rshrnb_d, uint64_t, uint32_t, do_urshr)

> +

> +DO_SHRNT(sve2_rshrnt_h, uint16_t, uint8_t, H1_2, H1, do_urshr)

> +DO_SHRNT(sve2_rshrnt_s, uint32_t, uint16_t, H1_4, H1_2, do_urshr)

> +DO_SHRNT(sve2_rshrnt_d, uint64_t, uint32_t,     , H1_4, do_urshr)

> +

> +#undef DO_SHRNB

> +#undef DO_SHRNT


Otherwise
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>


thanks
-- PMM

Richard Henderson May 12, 2021, 4:07 p.m. UTC | #2

On 5/12/21 3:52 AM, Peter Maydell wrote:
> On Fri, 30 Apr 2021 at 21:49, Richard Henderson

> <richard.henderson@linaro.org> wrote:

>>

>> Signed-off-by: Richard Henderson <richard.henderson@linaro.org>

>> ---

>> v2: Fix typo in gen_shrnb_vec (laurent desnogues)

>> v3: Replace DO_RSHR with an inline function

>> ---

>>   target/arm/helper-sve.h    |  16 ++++

>>   target/arm/sve.decode      |   8 ++

>>   target/arm/sve_helper.c    |  54 ++++++++++++-

>>   target/arm/translate-sve.c | 160 +++++++++++++++++++++++++++++++++++++

>>   4 files changed, 236 insertions(+), 2 deletions(-)

> 

>> -#undef DO_SHR

>> -#undef DO_SHL

> 

> Did we want to move the #undef DO_SHR/DO_SHL rather than just deleting them ?

> (I have to admit I'm not sure to what extent undeffing all of these macros is

> worth the effort -- I ran into similar minor awkwardness in the MVE

> helper .c file.)


Yeah, I'm not sure.  I've vaguely been thinking that the "operation" defines, 
such as this one, should stay defined
but that the expansion ones, such as...

> 

>>   #undef DO_ASRD

>>   #undef DO_ZPZI

>>   #undef DO_ZPZI_D


... these should only stay for their "scope".  But even that could be 
considered pointless.

AFAIR, DO_SHR/DO_SHL are pre-existing from the SVE1 work?

>> +#define DO_SHRNB(NAME, TYPEW, TYPEN, OP) \

>> +void HELPER(NAME)(void *vd, void *vn, uint32_t desc)         \

>> +{                                                            \

>> +    intptr_t i, opr_sz = simd_oprsz(desc);                   \

>> +    int shift = simd_data(desc);                             \

>> +    for (i = 0; i < opr_sz; i += sizeof(TYPEW)) {            \

>> +        TYPEW nn = *(TYPEW *)(vn + i);                       \

>> +        *(TYPEW *)(vd + i) = (TYPEN)OP(nn, shift);           \

>> +    }                                                        \

>> +}

> 

> Doesn't this need some H() macros, the way the T version does ?


No.  In the "B" version, we're manipulating strict columns (TYPEW in both VN 
and VD), and do not care in which order the columns are processed.

The "T" version reads TYPEW and writes TYPEN, which makes us have to care more 
about addressing.


r~

diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
index a033b5f6b2..2b2ebea631 100644
--- a/target/arm/helper-sve.h
+++ b/target/arm/helper-sve.h
@@ -2444,6 +2444,22 @@  DEF_HELPER_FLAGS_3(sve2_sqxtunt_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 DEF_HELPER_FLAGS_3(sve2_sqxtunt_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 DEF_HELPER_FLAGS_3(sve2_sqxtunt_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_3(sve2_shrnb_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(sve2_shrnb_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(sve2_shrnb_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_3(sve2_shrnt_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(sve2_shrnt_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(sve2_shrnt_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_3(sve2_rshrnb_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(sve2_rshrnb_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(sve2_rshrnb_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_3(sve2_rshrnt_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(sve2_rshrnt_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(sve2_rshrnt_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_6(sve2_faddp_zpzz_h, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_6(sve2_faddp_zpzz_s, TCG_CALL_NO_RWG,
diff --git a/target/arm/sve.decode b/target/arm/sve.decode
index 9c75ac94c0..169486ecb2 100644
--- a/target/arm/sve.decode
+++ b/target/arm/sve.decode
@@ -1285,6 +1285,14 @@  UQXTNT          01000101 .. 1 ..... 010 011 ..... .....  @rd_rn_tszimm_shl
 SQXTUNB         01000101 .. 1 ..... 010 100 ..... .....  @rd_rn_tszimm_shl
 SQXTUNT         01000101 .. 1 ..... 010 101 ..... .....  @rd_rn_tszimm_shl
 
+## SVE2 bitwise shift right narrow
+
+# Bit 23 == 0 is handled by esz > 0 in the translator.
+SHRNB           01000101 .. 1 ..... 00 0100 ..... .....  @rd_rn_tszimm_shr
+SHRNT           01000101 .. 1 ..... 00 0101 ..... .....  @rd_rn_tszimm_shr
+RSHRNB          01000101 .. 1 ..... 00 0110 ..... .....  @rd_rn_tszimm_shr
+RSHRNT          01000101 .. 1 ..... 00 0111 ..... .....  @rd_rn_tszimm_shr
+
 ## SVE2 floating-point pairwise operations
 
 FADDP           01100100 .. 010 00 0 100 ... ..... ..... @rdn_pg_rm
diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index 11f228144c..3f864da3ab 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -1863,6 +1863,17 @@  void HELPER(NAME)(void *vd, void *vn, void *vg, uint32_t desc)  \
    when N is negative, add 2**M-1.  */
 #define DO_ASRD(N, M) ((N + (N < 0 ? ((__typeof(N))1 << M) - 1 : 0)) >> M)
 
+static inline uint64_t do_urshr(uint64_t x, unsigned sh)
+{
+    if (likely(sh < 64)) {
+        return (x >> sh) + ((x >> (sh - 1)) & 1);
+    } else if (sh == 64) {
+        return x >> 63;
+    } else {
+        return 0;
+    }
+}
+
 DO_ZPZI(sve_asr_zpzi_b, int8_t, H1, DO_SHR)
 DO_ZPZI(sve_asr_zpzi_h, int16_t, H1_2, DO_SHR)
 DO_ZPZI(sve_asr_zpzi_s, int32_t, H1_4, DO_SHR)
@@ -1883,12 +1894,51 @@  DO_ZPZI(sve_asrd_h, int16_t, H1_2, DO_ASRD)
 DO_ZPZI(sve_asrd_s, int32_t, H1_4, DO_ASRD)
 DO_ZPZI_D(sve_asrd_d, int64_t, DO_ASRD)
 
-#undef DO_SHR
-#undef DO_SHL
 #undef DO_ASRD
 #undef DO_ZPZI
 #undef DO_ZPZI_D
 
+#define DO_SHRNB(NAME, TYPEW, TYPEN, OP) \
+void HELPER(NAME)(void *vd, void *vn, uint32_t desc)         \
+{                                                            \
+    intptr_t i, opr_sz = simd_oprsz(desc);                   \
+    int shift = simd_data(desc);                             \
+    for (i = 0; i < opr_sz; i += sizeof(TYPEW)) {            \
+        TYPEW nn = *(TYPEW *)(vn + i);                       \
+        *(TYPEW *)(vd + i) = (TYPEN)OP(nn, shift);           \
+    }                                                        \
+}
+
+#define DO_SHRNT(NAME, TYPEW, TYPEN, HW, HN, OP)                  \
+void HELPER(NAME)(void *vd, void *vn, uint32_t desc)              \
+{                                                                 \
+    intptr_t i, opr_sz = simd_oprsz(desc);                        \
+    int shift = simd_data(desc);                                  \
+    for (i = 0; i < opr_sz; i += sizeof(TYPEW)) {                 \
+        TYPEW nn = *(TYPEW *)(vn + HW(i));                        \
+        *(TYPEN *)(vd + HN(i + sizeof(TYPEN))) = OP(nn, shift);   \
+    }                                                             \
+}
+
+DO_SHRNB(sve2_shrnb_h, uint16_t, uint8_t, DO_SHR)
+DO_SHRNB(sve2_shrnb_s, uint32_t, uint16_t, DO_SHR)
+DO_SHRNB(sve2_shrnb_d, uint64_t, uint32_t, DO_SHR)
+
+DO_SHRNT(sve2_shrnt_h, uint16_t, uint8_t, H1_2, H1, DO_SHR)
+DO_SHRNT(sve2_shrnt_s, uint32_t, uint16_t, H1_4, H1_2, DO_SHR)
+DO_SHRNT(sve2_shrnt_d, uint64_t, uint32_t,     , H1_4, DO_SHR)
+
+DO_SHRNB(sve2_rshrnb_h, uint16_t, uint8_t, do_urshr)
+DO_SHRNB(sve2_rshrnb_s, uint32_t, uint16_t, do_urshr)
+DO_SHRNB(sve2_rshrnb_d, uint64_t, uint32_t, do_urshr)
+
+DO_SHRNT(sve2_rshrnt_h, uint16_t, uint8_t, H1_2, H1, do_urshr)
+DO_SHRNT(sve2_rshrnt_s, uint32_t, uint16_t, H1_4, H1_2, do_urshr)
+DO_SHRNT(sve2_rshrnt_d, uint64_t, uint32_t,     , H1_4, do_urshr)
+
+#undef DO_SHRNB
+#undef DO_SHRNT
+
 /* Fully general four-operand expander, controlled by a predicate.
  */
 #define DO_ZPZZZ(NAME, TYPE, H, OP)                           \
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index 1670bcadb1..c1a081acaa 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -6698,6 +6698,166 @@  static bool trans_SQXTUNT(DisasContext *s, arg_rri_esz *a)
     return do_sve2_narrow_extract(s, a, ops);
 }
 
+static bool do_sve2_shr_narrow(DisasContext *s, arg_rri_esz *a,
+                               const GVecGen2i ops[3])
+{
+    if (a->esz < 0 || a->esz > MO_32 || !dc_isar_feature(aa64_sve2, s)) {
+        return false;
+    }
+    assert(a->imm > 0 && a->imm <= (8 << a->esz));
+    if (sve_access_check(s)) {
+        unsigned vsz = vec_full_reg_size(s);
+        tcg_gen_gvec_2i(vec_full_reg_offset(s, a->rd),
+                        vec_full_reg_offset(s, a->rn),
+                        vsz, vsz, a->imm, &ops[a->esz]);
+    }
+    return true;
+}
+
+static void gen_shrnb_i64(unsigned vece, TCGv_i64 d, TCGv_i64 n, int shr)
+{
+    int halfbits = 4 << vece;
+    uint64_t mask = dup_const(vece, MAKE_64BIT_MASK(0, halfbits));
+
+    tcg_gen_shri_i64(d, n, shr);
+    tcg_gen_andi_i64(d, d, mask);
+}
+
+static void gen_shrnb16_i64(TCGv_i64 d, TCGv_i64 n, int64_t shr)
+{
+    gen_shrnb_i64(MO_16, d, n, shr);
+}
+
+static void gen_shrnb32_i64(TCGv_i64 d, TCGv_i64 n, int64_t shr)
+{
+    gen_shrnb_i64(MO_32, d, n, shr);
+}
+
+static void gen_shrnb64_i64(TCGv_i64 d, TCGv_i64 n, int64_t shr)
+{
+    gen_shrnb_i64(MO_64, d, n, shr);
+}
+
+static void gen_shrnb_vec(unsigned vece, TCGv_vec d, TCGv_vec n, int64_t shr)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    int halfbits = 4 << vece;
+    uint64_t mask = MAKE_64BIT_MASK(0, halfbits);
+
+    tcg_gen_shri_vec(vece, n, n, shr);
+    tcg_gen_dupi_vec(vece, t, mask);
+    tcg_gen_and_vec(vece, d, n, t);
+    tcg_temp_free_vec(t);
+}
+
+static bool trans_SHRNB(DisasContext *s, arg_rri_esz *a)
+{
+    static const TCGOpcode vec_list[] = { INDEX_op_shri_vec, 0 };
+    static const GVecGen2i ops[3] = {
+        { .fni8 = gen_shrnb16_i64,
+          .fniv = gen_shrnb_vec,
+          .opt_opc = vec_list,
+          .fno = gen_helper_sve2_shrnb_h,
+          .vece = MO_16 },
+        { .fni8 = gen_shrnb32_i64,
+          .fniv = gen_shrnb_vec,
+          .opt_opc = vec_list,
+          .fno = gen_helper_sve2_shrnb_s,
+          .vece = MO_32 },
+        { .fni8 = gen_shrnb64_i64,
+          .fniv = gen_shrnb_vec,
+          .opt_opc = vec_list,
+          .fno = gen_helper_sve2_shrnb_d,
+          .vece = MO_64 },
+    };
+    return do_sve2_shr_narrow(s, a, ops);
+}
+
+static void gen_shrnt_i64(unsigned vece, TCGv_i64 d, TCGv_i64 n, int shr)
+{
+    int halfbits = 4 << vece;
+    uint64_t mask = dup_const(vece, MAKE_64BIT_MASK(0, halfbits));
+
+    tcg_gen_shli_i64(n, n, halfbits - shr);
+    tcg_gen_andi_i64(n, n, ~mask);
+    tcg_gen_andi_i64(d, d, mask);
+    tcg_gen_or_i64(d, d, n);
+}
+
+static void gen_shrnt16_i64(TCGv_i64 d, TCGv_i64 n, int64_t shr)
+{
+    gen_shrnt_i64(MO_16, d, n, shr);
+}
+
+static void gen_shrnt32_i64(TCGv_i64 d, TCGv_i64 n, int64_t shr)
+{
+    gen_shrnt_i64(MO_32, d, n, shr);
+}
+
+static void gen_shrnt64_i64(TCGv_i64 d, TCGv_i64 n, int64_t shr)
+{
+    tcg_gen_shri_i64(n, n, shr);
+    tcg_gen_deposit_i64(d, d, n, 32, 32);
+}
+
+static void gen_shrnt_vec(unsigned vece, TCGv_vec d, TCGv_vec n, int64_t shr)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    int halfbits = 4 << vece;
+    uint64_t mask = MAKE_64BIT_MASK(0, halfbits);
+
+    tcg_gen_shli_vec(vece, n, n, halfbits - shr);
+    tcg_gen_dupi_vec(vece, t, mask);
+    tcg_gen_bitsel_vec(vece, d, t, d, n);
+    tcg_temp_free_vec(t);
+}
+
+static bool trans_SHRNT(DisasContext *s, arg_rri_esz *a)
+{
+    static const TCGOpcode vec_list[] = { INDEX_op_shli_vec, 0 };
+    static const GVecGen2i ops[3] = {
+        { .fni8 = gen_shrnt16_i64,
+          .fniv = gen_shrnt_vec,
+          .opt_opc = vec_list,
+          .load_dest = true,
+          .fno = gen_helper_sve2_shrnt_h,
+          .vece = MO_16 },
+        { .fni8 = gen_shrnt32_i64,
+          .fniv = gen_shrnt_vec,
+          .opt_opc = vec_list,
+          .load_dest = true,
+          .fno = gen_helper_sve2_shrnt_s,
+          .vece = MO_32 },
+        { .fni8 = gen_shrnt64_i64,
+          .fniv = gen_shrnt_vec,
+          .opt_opc = vec_list,
+          .load_dest = true,
+          .fno = gen_helper_sve2_shrnt_d,
+          .vece = MO_64 },
+    };
+    return do_sve2_shr_narrow(s, a, ops);
+}
+
+static bool trans_RSHRNB(DisasContext *s, arg_rri_esz *a)
+{
+    static const GVecGen2i ops[3] = {
+        { .fno = gen_helper_sve2_rshrnb_h },
+        { .fno = gen_helper_sve2_rshrnb_s },
+        { .fno = gen_helper_sve2_rshrnb_d },
+    };
+    return do_sve2_shr_narrow(s, a, ops);
+}
+
+static bool trans_RSHRNT(DisasContext *s, arg_rri_esz *a)
+{
+    static const GVecGen2i ops[3] = {
+        { .fno = gen_helper_sve2_rshrnt_h },
+        { .fno = gen_helper_sve2_rshrnt_s },
+        { .fno = gen_helper_sve2_rshrnt_d },
+    };
+    return do_sve2_shr_narrow(s, a, ops);
+}
+
 static bool do_sve2_zpzz_fp(DisasContext *s, arg_rprr_esz *a,
                             gen_helper_gvec_4_ptr *fn)
 {

[v6,26/82] target/arm: Implement SVE2 SHRN, RSHRN

Commit Message

Comments

Patch