static WEBP_INLINE uint32_t Select(const uint32_t* const c0, const uint32_t* const c1, const uint32_t* const c2) { const uint8x8_t p0 = vreinterpret_u8_u64(vcreate_u64(*c0)); const uint8x8_t p1 = vreinterpret_u8_u64(vcreate_u64(*c1)); const uint8x8_t p2 = vreinterpret_u8_u64(vcreate_u64(*c2)); const uint8x8_t bc = vabd_u8(p1, p2); // |b-c| const uint8x8_t ac = vabd_u8(p0, p2); // |a-c| const int16x4_t sum_bc = vreinterpret_s16_u16(vpaddl_u8(bc)); const int16x4_t sum_ac = vreinterpret_s16_u16(vpaddl_u8(ac)); const int32x2_t diff = vpaddl_s16(vsub_s16(sum_bc, sum_ac)); const int32_t pa_minus_pb = vget_lane_s32(diff, 0); return (pa_minus_pb <= 0) ? *c0 : *c1; }
static WEBP_INLINE uint32_t Select(const uint32_t* const c0, const uint32_t* const c1, const uint32_t* const c2) { const uint64x1_t C0 = { *c0, 0 }, C1 = { *c1, 0 }, C2 = { *c2, 0 }; const uint8x8_t p0 = vreinterpret_u8_u64(C0); const uint8x8_t p1 = vreinterpret_u8_u64(C1); const uint8x8_t p2 = vreinterpret_u8_u64(C2); const uint8x8_t bc = vabd_u8(p1, p2); // |b-c| const uint8x8_t ac = vabd_u8(p0, p2); // |a-c| const int16x4_t sum_bc = vreinterpret_s16_u16(vpaddl_u8(bc)); const int16x4_t sum_ac = vreinterpret_s16_u16(vpaddl_u8(ac)); const int32x2_t diff = vpaddl_s16(vsub_s16(sum_bc, sum_ac)); int32_t pa_minus_pb; vst1_lane_s32(&pa_minus_pb, diff, 0); return (pa_minus_pb <= 0) ? *c0 : *c1; }
void test_vabdu8 (void) { uint8x8_t out_uint8x8_t; uint8x8_t arg0_uint8x8_t; uint8x8_t arg1_uint8x8_t; out_uint8x8_t = vabd_u8 (arg0_uint8x8_t, arg1_uint8x8_t); }
static INLINE void mbloop_filter_neon(uint8x8_t dblimit, // mblimit uint8x8_t dlimit, // limit uint8x8_t dthresh, // thresh uint8x8_t d3u8, // p2 uint8x8_t d4u8, // p2 uint8x8_t d5u8, // p1 uint8x8_t d6u8, // p0 uint8x8_t d7u8, // q0 uint8x8_t d16u8, // q1 uint8x8_t d17u8, // q2 uint8x8_t d18u8, // q3 uint8x8_t *d0ru8, // p1 uint8x8_t *d1ru8, // p1 uint8x8_t *d2ru8, // p0 uint8x8_t *d3ru8, // q0 uint8x8_t *d4ru8, // q1 uint8x8_t *d5ru8) { // q1 uint32_t flat; uint8x8_t d0u8, d1u8, d2u8, d19u8, d20u8, d21u8, d22u8, d23u8, d24u8; uint8x8_t d25u8, d26u8, d27u8, d28u8, d29u8, d30u8, d31u8; int16x8_t q15s16; uint16x8_t q10u16, q14u16; int8x8_t d21s8, d24s8, d25s8, d26s8, d28s8, d29s8, d30s8; d19u8 = vabd_u8(d3u8, d4u8); d20u8 = vabd_u8(d4u8, d5u8); d21u8 = vabd_u8(d5u8, d6u8); d22u8 = vabd_u8(d16u8, d7u8); d23u8 = vabd_u8(d17u8, d16u8); d24u8 = vabd_u8(d18u8, d17u8); d19u8 = vmax_u8(d19u8, d20u8); d20u8 = vmax_u8(d21u8, d22u8); d25u8 = vabd_u8(d6u8, d4u8); d23u8 = vmax_u8(d23u8, d24u8); d26u8 = vabd_u8(d7u8, d17u8); d19u8 = vmax_u8(d19u8, d20u8); d24u8 = vabd_u8(d6u8, d7u8); d27u8 = vabd_u8(d3u8, d6u8); d28u8 = vabd_u8(d18u8, d7u8); d19u8 = vmax_u8(d19u8, d23u8); d23u8 = vabd_u8(d5u8, d16u8); d24u8 = vqadd_u8(d24u8, d24u8); d19u8 = vcge_u8(dlimit, d19u8); d25u8 = vmax_u8(d25u8, d26u8); d26u8 = vmax_u8(d27u8, d28u8); d23u8 = vshr_n_u8(d23u8, 1); d25u8 = vmax_u8(d25u8, d26u8); d24u8 = vqadd_u8(d24u8, d23u8); d20u8 = vmax_u8(d20u8, d25u8); d23u8 = vdup_n_u8(1); d24u8 = vcge_u8(dblimit, d24u8); d21u8 = vcgt_u8(d21u8, dthresh); d20u8 = vcge_u8(d23u8, d20u8); d19u8 = vand_u8(d19u8, d24u8); d23u8 = vcgt_u8(d22u8, dthresh); d20u8 = vand_u8(d20u8, d19u8); d22u8 = vdup_n_u8(0x80); d23u8 = vorr_u8(d21u8, d23u8); q10u16 = vcombine_u16(vreinterpret_u16_u8(d20u8), vreinterpret_u16_u8(d21u8)); d30u8 = vshrn_n_u16(q10u16, 4); flat = vget_lane_u32(vreinterpret_u32_u8(d30u8), 0); if (flat == 0xffffffff) { // Check for all 1's, power_branch_only d27u8 = vdup_n_u8(3); d21u8 = vdup_n_u8(2); q14u16 = vaddl_u8(d6u8, d7u8); q14u16 = vmlal_u8(q14u16, d3u8, d27u8); q14u16 = vmlal_u8(q14u16, d4u8, d21u8); q14u16 = vaddw_u8(q14u16, d5u8); *d0ru8 = vqrshrn_n_u16(q14u16, 3); q14u16 = vsubw_u8(q14u16, d3u8); q14u16 = vsubw_u8(q14u16, d4u8); q14u16 = vaddw_u8(q14u16, d5u8); q14u16 = vaddw_u8(q14u16, d16u8); *d1ru8 = vqrshrn_n_u16(q14u16, 3); q14u16 = vsubw_u8(q14u16, d3u8); q14u16 = vsubw_u8(q14u16, d5u8); q14u16 = vaddw_u8(q14u16, d6u8); q14u16 = vaddw_u8(q14u16, d17u8); *d2ru8 = vqrshrn_n_u16(q14u16, 3); q14u16 = vsubw_u8(q14u16, d3u8); q14u16 = vsubw_u8(q14u16, d6u8); q14u16 = vaddw_u8(q14u16, d7u8); q14u16 = vaddw_u8(q14u16, d18u8); *d3ru8 = vqrshrn_n_u16(q14u16, 3); q14u16 = vsubw_u8(q14u16, d4u8); q14u16 = vsubw_u8(q14u16, d7u8); q14u16 = vaddw_u8(q14u16, d16u8); q14u16 = vaddw_u8(q14u16, d18u8); *d4ru8 = vqrshrn_n_u16(q14u16, 3); q14u16 = vsubw_u8(q14u16, d5u8); q14u16 = vsubw_u8(q14u16, d16u8); q14u16 = vaddw_u8(q14u16, d17u8); q14u16 = vaddw_u8(q14u16, d18u8); *d5ru8 = vqrshrn_n_u16(q14u16, 3); } else { d21u8 = veor_u8(d7u8, d22u8); d24u8 = veor_u8(d6u8, d22u8); d25u8 = veor_u8(d5u8, d22u8); d26u8 = veor_u8(d16u8, d22u8); d27u8 = vdup_n_u8(3); d28s8 = vsub_s8(vreinterpret_s8_u8(d21u8), vreinterpret_s8_u8(d24u8)); d29s8 = vqsub_s8(vreinterpret_s8_u8(d25u8), vreinterpret_s8_u8(d26u8)); q15s16 = vmull_s8(d28s8, vreinterpret_s8_u8(d27u8)); d29s8 = vand_s8(d29s8, vreinterpret_s8_u8(d23u8)); q15s16 = vaddw_s8(q15s16, d29s8); d29u8 = vdup_n_u8(4); d28s8 = vqmovn_s16(q15s16); d28s8 = vand_s8(d28s8, vreinterpret_s8_u8(d19u8)); d30s8 = vqadd_s8(d28s8, vreinterpret_s8_u8(d27u8)); d29s8 = vqadd_s8(d28s8, vreinterpret_s8_u8(d29u8)); d30s8 = vshr_n_s8(d30s8, 3); d29s8 = vshr_n_s8(d29s8, 3); d24s8 = vqadd_s8(vreinterpret_s8_u8(d24u8), d30s8); d21s8 = vqsub_s8(vreinterpret_s8_u8(d21u8), d29s8); d29s8 = vrshr_n_s8(d29s8, 1); d29s8 = vbic_s8(d29s8, vreinterpret_s8_u8(d23u8)); d25s8 = vqadd_s8(vreinterpret_s8_u8(d25u8), d29s8); d26s8 = vqsub_s8(vreinterpret_s8_u8(d26u8), d29s8); if (flat == 0) { // filter_branch_only *d0ru8 = d4u8; *d1ru8 = veor_u8(vreinterpret_u8_s8(d25s8), d22u8); *d2ru8 = veor_u8(vreinterpret_u8_s8(d24s8), d22u8); *d3ru8 = veor_u8(vreinterpret_u8_s8(d21s8), d22u8); *d4ru8 = veor_u8(vreinterpret_u8_s8(d26s8), d22u8); *d5ru8 = d17u8; return; } d21u8 = veor_u8(vreinterpret_u8_s8(d21s8), d22u8); d24u8 = veor_u8(vreinterpret_u8_s8(d24s8), d22u8); d25u8 = veor_u8(vreinterpret_u8_s8(d25s8), d22u8); d26u8 = veor_u8(vreinterpret_u8_s8(d26s8), d22u8); d23u8 = vdup_n_u8(2); q14u16 = vaddl_u8(d6u8, d7u8); q14u16 = vmlal_u8(q14u16, d3u8, d27u8); q14u16 = vmlal_u8(q14u16, d4u8, d23u8); d0u8 = vbsl_u8(d20u8, dblimit, d4u8); q14u16 = vaddw_u8(q14u16, d5u8); d1u8 = vbsl_u8(d20u8, dlimit, d25u8); d30u8 = vqrshrn_n_u16(q14u16, 3); q14u16 = vsubw_u8(q14u16, d3u8); q14u16 = vsubw_u8(q14u16, d4u8); q14u16 = vaddw_u8(q14u16, d5u8); q14u16 = vaddw_u8(q14u16, d16u8); d2u8 = vbsl_u8(d20u8, dthresh, d24u8); d31u8 = vqrshrn_n_u16(q14u16, 3); q14u16 = vsubw_u8(q14u16, d3u8); q14u16 = vsubw_u8(q14u16, d5u8); q14u16 = vaddw_u8(q14u16, d6u8); q14u16 = vaddw_u8(q14u16, d17u8); *d0ru8 = vbsl_u8(d20u8, d30u8, d0u8); d23u8 = vqrshrn_n_u16(q14u16, 3); q14u16 = vsubw_u8(q14u16, d3u8); q14u16 = vsubw_u8(q14u16, d6u8); q14u16 = vaddw_u8(q14u16, d7u8); *d1ru8 = vbsl_u8(d20u8, d31u8, d1u8); q14u16 = vaddw_u8(q14u16, d18u8); *d2ru8 = vbsl_u8(d20u8, d23u8, d2u8); d22u8 = vqrshrn_n_u16(q14u16, 3); q14u16 = vsubw_u8(q14u16, d4u8); q14u16 = vsubw_u8(q14u16, d7u8); q14u16 = vaddw_u8(q14u16, d16u8); d3u8 = vbsl_u8(d20u8, d3u8, d21u8); q14u16 = vaddw_u8(q14u16, d18u8); d4u8 = vbsl_u8(d20u8, d4u8, d26u8); d6u8 = vqrshrn_n_u16(q14u16, 3); q14u16 = vsubw_u8(q14u16, d5u8); q14u16 = vsubw_u8(q14u16, d16u8); q14u16 = vaddw_u8(q14u16, d17u8); q14u16 = vaddw_u8(q14u16, d18u8); d5u8 = vbsl_u8(d20u8, d5u8, d17u8); d7u8 = vqrshrn_n_u16(q14u16, 3); *d3ru8 = vbsl_u8(d20u8, d22u8, d3u8); *d4ru8 = vbsl_u8(d20u8, d6u8, d4u8); *d5ru8 = vbsl_u8(d20u8, d7u8, d5u8); } return; }
/** * Get the sum of absolute differences for a specific pixel location and disparity * * @param leftImage left image * @param rightImage right image * @param laplacianL laplacian-fitlered left image * @param laplacianR laplacian-filtered right image * @param pxX row pixel location * @param pxY column pixel location * @param state state structure that includes a number of parameters * @param left_interest optional parameter that will be filled with the value for the left interest operation * @param right_interest same as above, for the right image * * @retval scaled sum of absolute differences for this block -- * the value is the sum/numberOfPixels */ int PushbroomStereo::GetSAD(Mat leftImage, Mat rightImage, Mat laplacianL, Mat laplacianR, int pxX, int pxY, int *left_interest, int *right_interest, int *raw_sad) { // top left corner of the SAD box int startX = pxX; int startY = pxY; // bottom right corner of the SAD box #ifndef USE_NEON int endX = pxX + m_iBlockSize - 1; #endif int endY = pxY + m_iBlockSize - 1; #if USE_SAFTEY_CHECKS int flag = false; if (startX < 0) { printf("Warning: startX < 0\n"); flag = true; } if (endX > rightImage.cols) { printf("Warning: endX > leftImage.cols\n"); flag = true; } if (startX + disparity < 0) { printf("Warning: startX + disparity < 0\n"); flag = true; } if (endX + disparity > rightImage.cols) { printf("Warning: endX + disparity > leftImage.cols\n"); flag = true; } if (endX + disparity > rightImage.cols) { printf("Warning: endX + disparity > rightImage.cols\n"); endX = rightImage.cols - disparity; flag = true; } if (startY < 0) { printf("Warning: startY < 0\n"); flag = true; } if (endY > rightImage.rows) { printf("Warning: endY > rightImage.rows\n"); flag = true; } // disparity might be negative as well if (disparity < 0 && startX + disparity < 0) { printf("Warning: disparity < 0 && startX + disparity < 0\n"); startX = -disparity; flag = true; } if (flag == true) { printf("startX = %d, endX = %d, disparity = %d, startY = %d, endY = %d\n", startX, endX, disparity, startY, endY); } startX = max(0, startX); startY = max(0, startY); endX = min(leftImage.cols - disparity, endX); endY = min(leftImage.rows, endY); #endif int leftVal = 0, rightVal = 0; int sad = 0; #ifdef USE_NEON uint16x8_t interest_op_sum_8x_L, interest_op_sum_8x_R, sad_sum_8x; // load zeros into everything interest_op_sum_8x_L = vdupq_n_u16(0); interest_op_sum_8x_R = vdupq_n_u16(0); sad_sum_8x = vdupq_n_u16(0); #endif for (int i=startY;i<=endY;i++) { if(i>=leftImage.rows-1) continue; //Get a pointer for this row uchar *this_rowL = leftImage.ptr<uchar>(i); uchar *this_rowR = rightImage.ptr<uchar>(i); uchar *this_row_laplacianL = laplacianL.ptr<uchar>(i); uchar *this_row_laplacianR = laplacianR.ptr<uchar>(i); #ifdef USE_NEON // load this row into memory uint8x8_t this_row_8x8_L = vld1_u8(this_rowL + startX); uint8x8_t this_row_8x8_R = vld1_u8(this_rowR + startX + disparity); uint8x8_t interest_op_8x8_L = vld1_u8(this_row_laplacianL + startX); uint8x8_t interest_op_8x8_R = vld1_u8(this_row_laplacianR + startX + disparity); // do absolute differencing for the entire row in one operation! uint8x8_t sad_8x = vabd_u8(this_row_8x8_L, this_row_8x8_R); // sum up sad_sum_8x = vaddw_u8(sad_sum_8x, sad_8x); // sum laplacian values interest_op_sum_8x_L = vaddw_u8(interest_op_sum_8x_L, interest_op_8x8_L); interest_op_sum_8x_R = vaddw_u8(interest_op_sum_8x_R, interest_op_8x8_R); #else // USE_NEON for (int j=startX;j<=endX;j++) { // we are now looking at a single pixel value /*uchar pxL = leftImage.at<uchar>(i,j); uchar pxR = rightImage.at<uchar>(i,j + disparity); uchar sL = laplacianL.at<uchar>(i,j); uchar sR = laplacianR.at<uchar>(i,j + disparity); */ uchar sL = this_row_laplacianL[j];//laplacianL.at<uchar>(i,j); uchar sR = this_row_laplacianR[j + m_iDisparity]; //laplacianR.at<uchar>(i,j + disparity); leftVal += sL; rightVal += sR; uchar pxL = this_rowL[j]; uchar pxR = this_rowR[j + m_iDisparity]; sad += abs(pxL - pxR); } #endif // USE_NEON } #ifdef USE_NEON // sum up sad = vgetq_lane_u16(sad_sum_8x, 0) + vgetq_lane_u16(sad_sum_8x, 1) + vgetq_lane_u16(sad_sum_8x, 2) + vgetq_lane_u16(sad_sum_8x, 3) + vgetq_lane_u16(sad_sum_8x, 4);// + vgetq_lane_u16(sad_sum_8x, 5) // + vgetq_lane_u16(sad_sum_8x, 6) + vgetq_lane_u16(sad_sum_8x, 7); leftVal = vgetq_lane_u16(interest_op_sum_8x_L, 0) + vgetq_lane_u16(interest_op_sum_8x_L, 1) + vgetq_lane_u16(interest_op_sum_8x_L, 2) + vgetq_lane_u16(interest_op_sum_8x_L, 3) + vgetq_lane_u16(interest_op_sum_8x_L, 4); rightVal = vgetq_lane_u16(interest_op_sum_8x_R, 0) + vgetq_lane_u16(interest_op_sum_8x_R, 1) + vgetq_lane_u16(interest_op_sum_8x_R, 2) + vgetq_lane_u16(interest_op_sum_8x_R, 3) + vgetq_lane_u16(interest_op_sum_8x_R, 4); #endif //cout << "(" << leftVal << ", " << rightVal << ") vs. (" << leftVal2 << ", " << rightVal2 << ")" << endl; int laplacian_value = leftVal + rightVal; int fThresh = 200; if((leftVal<fThresh)||(rightVal<fThresh)) laplacian_value /= 10; //cout << "sad with neon: " << sad << " without neon: " << sad2 << endl; if (left_interest != NULL) *left_interest = leftVal; if (right_interest != NULL) *right_interest = rightVal; // percentage of total interest value that is different //float diff_score = 100*(float)abs(leftVal - rightVal)/(float)laplacian_value; if (raw_sad != NULL) *raw_sad = sad; if (leftVal < m_iSobelLimit || rightVal < m_iSobelLimit)// || diff_score > state.interest_diff_limit) return -1; // weight laplacian_value into the score //return sobel; return NUMERIC_CONST*(float)sad/(float)laplacian_value; }
inline uint8x8_t vabd(const uint8x8_t & v0, const uint8x8_t & v1) { return vabd_u8 (v0, v1); }
static INLINE void vp9_loop_filter_neon( uint8x8_t dblimit, // flimit uint8x8_t dlimit, // limit uint8x8_t dthresh, // thresh uint8x8_t d3u8, // p3 uint8x8_t d4u8, // p2 uint8x8_t d5u8, // p1 uint8x8_t d6u8, // p0 uint8x8_t d7u8, // q0 uint8x8_t d16u8, // q1 uint8x8_t d17u8, // q2 uint8x8_t d18u8, // q3 uint8x8_t *d4ru8, // p1 uint8x8_t *d5ru8, // p0 uint8x8_t *d6ru8, // q0 uint8x8_t *d7ru8) { // q1 uint8x8_t d19u8, d20u8, d21u8, d22u8, d23u8, d27u8, d28u8; int16x8_t q12s16; int8x8_t d19s8, d20s8, d21s8, d26s8, d27s8, d28s8; d19u8 = vabd_u8(d3u8, d4u8); d20u8 = vabd_u8(d4u8, d5u8); d21u8 = vabd_u8(d5u8, d6u8); d22u8 = vabd_u8(d16u8, d7u8); d3u8 = vabd_u8(d17u8, d16u8); d4u8 = vabd_u8(d18u8, d17u8); d19u8 = vmax_u8(d19u8, d20u8); d20u8 = vmax_u8(d21u8, d22u8); d3u8 = vmax_u8(d3u8, d4u8); d23u8 = vmax_u8(d19u8, d20u8); d17u8 = vabd_u8(d6u8, d7u8); d21u8 = vcgt_u8(d21u8, dthresh); d22u8 = vcgt_u8(d22u8, dthresh); d23u8 = vmax_u8(d23u8, d3u8); d28u8 = vabd_u8(d5u8, d16u8); d17u8 = vqadd_u8(d17u8, d17u8); d23u8 = vcge_u8(dlimit, d23u8); d18u8 = vdup_n_u8(0x80); d5u8 = veor_u8(d5u8, d18u8); d6u8 = veor_u8(d6u8, d18u8); d7u8 = veor_u8(d7u8, d18u8); d16u8 = veor_u8(d16u8, d18u8); d28u8 = vshr_n_u8(d28u8, 1); d17u8 = vqadd_u8(d17u8, d28u8); d19u8 = vdup_n_u8(3); d28s8 = vsub_s8(vreinterpret_s8_u8(d7u8), vreinterpret_s8_u8(d6u8)); d17u8 = vcge_u8(dblimit, d17u8); d27s8 = vqsub_s8(vreinterpret_s8_u8(d5u8), vreinterpret_s8_u8(d16u8)); d22u8 = vorr_u8(d21u8, d22u8); q12s16 = vmull_s8(d28s8, vreinterpret_s8_u8(d19u8)); d27u8 = vand_u8(vreinterpret_u8_s8(d27s8), d22u8); d23u8 = vand_u8(d23u8, d17u8); q12s16 = vaddw_s8(q12s16, vreinterpret_s8_u8(d27u8)); d17u8 = vdup_n_u8(4); d27s8 = vqmovn_s16(q12s16); d27u8 = vand_u8(vreinterpret_u8_s8(d27s8), d23u8); d27s8 = vreinterpret_s8_u8(d27u8); d28s8 = vqadd_s8(d27s8, vreinterpret_s8_u8(d19u8)); d27s8 = vqadd_s8(d27s8, vreinterpret_s8_u8(d17u8)); d28s8 = vshr_n_s8(d28s8, 3); d27s8 = vshr_n_s8(d27s8, 3); d19s8 = vqadd_s8(vreinterpret_s8_u8(d6u8), d28s8); d26s8 = vqsub_s8(vreinterpret_s8_u8(d7u8), d27s8); d27s8 = vrshr_n_s8(d27s8, 1); d27s8 = vbic_s8(d27s8, vreinterpret_s8_u8(d22u8)); d21s8 = vqadd_s8(vreinterpret_s8_u8(d5u8), d27s8); d20s8 = vqsub_s8(vreinterpret_s8_u8(d16u8), d27s8); *d4ru8 = veor_u8(vreinterpret_u8_s8(d21s8), d18u8); *d5ru8 = veor_u8(vreinterpret_u8_s8(d19s8), d18u8); *d6ru8 = veor_u8(vreinterpret_u8_s8(d26s8), d18u8); *d7ru8 = veor_u8(vreinterpret_u8_s8(d20s8), d18u8); return; }