Extend gather-scatter optimization with prefetch optimization

2014-09-25 15:59:31 +04:00
parent 8ff187a7b7
commit 0a6eb61ad0
9 changed files with 204 additions and 127 deletions
--- a/examples/intrinsics/knc-i1x16.h
+++ b/examples/intrinsics/knc-i1x16.h
@@ -2550,6 +2550,16 @@ static FORCEINLINE void __prefetch_read_uniform_nt(unsigned char *p) {
    // _mm_prefetch(p, _MM_HINT_NTA); // prefetch into L1$ with non-temporal hint
 }

+static FORCEINLINE void __prefetch_read_varying_1_native(uint8_t *base, uint32_t scale,
+    __vec16_i32 offsets, __vec16_i1 mask) {
+    _mm512_mask_prefetch_i32gather_ps (offsets, mask, base, scale, _MM_HINT_T0);
+    offsets = _mm512_permutevar_epi32(_mm512_set_16to16_pi(7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8), offsets);
+    __vec16_i1 copy_mask = _mm512_kmov(mask);
+    _mm512_kswapb(mask, copy_mask);
+    _mm512_mask_prefetch_i32gather_ps (offsets, mask, base, scale, _MM_HINT_T0);
+}
+
+static FORCEINLINE void __prefetch_read_varying_1(__vec16_i64 addr, __vec16_i1 mask) {}
 ///////////////////////////////////////////////////////////////////////////
 // atomics
 ///////////////////////////////////////////////////////////////////////////
--- a/examples/intrinsics/knc.h
+++ b/examples/intrinsics/knc.h
@@ -1926,6 +1926,14 @@ static FORCEINLINE void __prefetch_read_uniform_nt(const char *p) {
    // _mm_prefetch(p, _MM_HINT_NTA); // prefetch into L1$ with non-temporal hint
 }

+static FORCEINLINE void __prefetch_read_varying_1_native(uint8_t *base, uint32_t scale, 
+    __vec16_i32 offsets, __vec16_i1 mask) { 
+    _mm512_prefetch_i32gather_ps(offsets, base, scale, _MM_HINT_T0); 
+    offsets = _mm512_permutevar_epi32(_mm512_set_16to16_pi(0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15), offsets);
+    /* TODO: permutevar mask */ 
+    _mm512_prefetch_i32gather_ps(offsets, base, scale, _MM_HINT_T0); 
+} 
+
 ///////////////////////////////////////////////////////////////////////////
 // atomics
 ///////////////////////////////////////////////////////////////////////////