void fp_mul_comba3(fp_int *A, fp_int *B, fp_int *C) { fp_digit c0, c1, c2, at[6]; memcpy(at, A->dp, 3 * sizeof(fp_digit)); memcpy(at+3, B->dp, 3 * sizeof(fp_digit)); COMBA_START; COMBA_CLEAR; /* 0 */ MULADD(at[0], at[3]); COMBA_STORE(C->dp[0]); /* 1 */ COMBA_FORWARD; MULADD(at[0], at[4]); MULADD(at[1], at[3]); COMBA_STORE(C->dp[1]); /* 2 */ COMBA_FORWARD; MULADD(at[0], at[5]); MULADD(at[1], at[4]); MULADD(at[2], at[3]); COMBA_STORE(C->dp[2]); /* 3 */ COMBA_FORWARD; MULADD(at[1], at[5]); MULADD(at[2], at[4]); COMBA_STORE(C->dp[3]); /* 4 */ COMBA_FORWARD; MULADD(at[2], at[5]); COMBA_STORE(C->dp[4]); COMBA_STORE2(C->dp[5]); C->used = 6; C->sign = A->sign ^ B->sign; fp_clamp(C); COMBA_FINI; }
static VALUE bigmul_low_digits(VALUE x, VALUE y, int digits) { int xn = RBIGNUM_LEN(x); if (FIXNUM_P(y)) y = INTVALUE2BIG(y); int yn = RBIGNUM_LEN(y); if (digits > xn + yn) { digits = xn + yn; } VALUE z = rb_big_new(digits, 1); BDIGIT* xds = RBIGNUM_DIGITS(x); BDIGIT* yds = RBIGNUM_DIGITS(y); BDIGIT* zds = RBIGNUM_DIGITS(z); BDIGIT c0,c1,c2; // carry int i, j, k, beg, end; for (k = c0 = c1 = c2 = 0; k < digits; k++) { beg = k >= yn - 1 ? k - yn + 1 : 0; end = k >= xn ? xn - 1 : k; for (i = beg, j = k - beg; i <= end; ++i, --j) MULADD(xds[i], yds[j]); zds[k] = c0; c0 = c1; c1 = c2; c2 = 0; } return rb_big_norm(z); }
/* generic PxQ multiplier */ void fp_mul_comba(fp_int *A, fp_int *B, fp_int *C) { int ix, iy, iz, tx, ty, pa; fp_digit c0, c1, c2, *tmpx, *tmpy; fp_int tmp, *dst; COMBA_START; COMBA_CLEAR; /* get size of output and trim */ pa = A->used + B->used; if (pa >= FP_SIZE) { pa = FP_SIZE-1; } if (A == C || B == C) { fp_zero(&tmp); dst = &tmp; } else { fp_zero(C); dst = C; } for (ix = 0; ix < pa; ix++) { /* get offsets into the two bignums */ ty = MIN(ix, B->used-1); tx = ix - ty; /* setup temp aliases */ tmpx = A->dp + tx; tmpy = B->dp + ty; /* this is the number of times the loop will iterrate, essentially its while (tx++ < a->used && ty-- >= 0) { ... } */ iy = MIN(A->used-tx, ty+1); /* execute loop */ COMBA_FORWARD; for (iz = 0; iz < iy; ++iz) { MULADD(*tmpx++, *tmpy--); } /* store term */ COMBA_STORE(dst->dp[ix]); } COMBA_FINI; dst->used = pa; dst->sign = A->sign ^ B->sign; fp_clamp(dst); fp_copy(dst, C); }
static VALUE bigmul_high_digits(VALUE x, VALUE y, int dontcare, int x_right_shift) { int xn = RBIGNUM_LEN(x); if (FIXNUM_P(y)) y = INTVALUE2BIG(y); int yn = RBIGNUM_LEN(y); BDIGIT* xds = RBIGNUM_DIGITS(x); BDIGIT* yds = RBIGNUM_DIGITS(y); /* in order to avoid rb_big_clone call, let's virtually "shift" x instead of actual shifting */ if (x_right_shift >= xn) { return INT2BIG(0); } else { xds += x_right_shift; xn -= x_right_shift; } int digits = xn + yn; int i, j, k; VALUE z = rb_big_new(digits, 1); BDIGIT* zds = RBIGNUM_DIGITS(z); for (i = 0; i < digits; zds[i++] = 0); int beg, end; BDIGIT c0, c1, c2; for (k = dontcare, c0 = c1 = c2 = 0; k < digits; k++) { beg = k >= yn - 1 ? k - yn + 1 : 0; end = k >= xn ? xn - 1 : k; for (i = beg, j = k - beg; i <= end; ++i, --j) MULADD(xds[i], yds[j]); zds[k] = c0; c0 = c1; c1 = c2; c2 = 0; } return z; }
void ComputePower(double * s, int iSize) { const int static N = iSize; { // store coefficients in registers const double a0 = 0.01f; const double a1 = 0.035f; const double a2 = 0.001f; const double a3 = 0.15f; const double b0 = 0.012f; const double b1 = 0.067f; const double b2 = 0.02f; const double b3 = 0.21f; // 8 independent streams of computations // this helps filling the processing pipeline // 8 data reads double x0 = s[0]; double y0 = s[0]; double z0 = s[0]; double w0 = s[0]; double r0 = s[0]; double t0 = s[0]; double u0 = s[0]; double v0 = s[0]; // compute independently 8 polynomial evaluations with horner's scheme of degree 4N // 4*8*2*N FLOP for (int i=0; i<N; i++) { double gx0 = MULADD(b0, x0, a0); double gy0 = MULADD(b0, y0, a0); double gz0 = MULADD(b0, z0, a0); double gw0 = MULADD(b0, w0, a0); double gr0 = MULADD(b0, r0, a0); double gt0 = MULADD(b0, t0, a0); double gu0 = MULADD(b0, u0, a0); double gv0 = MULADD(b0, v0, a0); double tx0 = MULADD(b1, gx0, a1); double ty0 = MULADD(b1, gy0, a1); double tz0 = MULADD(b1, gz0, a1); double tw0 = MULADD(b1, gw0, a1); double tr0 = MULADD(b1, gr0, a1); double tt0 = MULADD(b1, gt0, a1); double tu0 = MULADD(b1, gu0, a1); double tv0 = MULADD(b1, gv0, a1); double ux0 = MULADD(b2, tx0, a2); double uy0 = MULADD(b2, ty0, a2); double uz0 = MULADD(b2, tz0, a2); double uw0 = MULADD(b2, tw0, a2); double ur0 = MULADD(b2, tr0, a2); double ut0 = MULADD(b2, tt0, a2); double uu0 = MULADD(b2, tu0, a2); double uv0 = MULADD(b2, tv0, a2); x0 = MULADD(b3, ux0, a3); y0 = MULADD(b3, uy0, a3); z0 = MULADD(b3, uz0, a3); w0 = MULADD(b3, uw0, a3); r0 = MULADD(b3, ur0, a3); t0 = MULADD(b3, ut0, a3); u0 = MULADD(b3, uu0, a3); v0 = MULADD(b3, uv0, a3); } // sum the results of the 8 polynomial evaluations // and store in the output array // without this step, the compiler might simplify the code by discarding unused computation and data // 1 data write, 7 FLOP (irrelevant if N is large enough) s[0] = SUM8(x0, y0, z0, w0, r0, t0, u0, v0); } }
void fp_mul_comba17(fp_int *A, fp_int *B, fp_int *C) { fp_digit c0, c1, c2, at[34]; memcpy(at, A->dp, 17 * sizeof(fp_digit)); memcpy(at+17, B->dp, 17 * sizeof(fp_digit)); COMBA_START; COMBA_CLEAR; /* 0 */ MULADD(at[0], at[17]); COMBA_STORE(C->dp[0]); /* 1 */ COMBA_FORWARD; MULADD(at[0], at[18]); MULADD(at[1], at[17]); COMBA_STORE(C->dp[1]); /* 2 */ COMBA_FORWARD; MULADD(at[0], at[19]); MULADD(at[1], at[18]); MULADD(at[2], at[17]); COMBA_STORE(C->dp[2]); /* 3 */ COMBA_FORWARD; MULADD(at[0], at[20]); MULADD(at[1], at[19]); MULADD(at[2], at[18]); MULADD(at[3], at[17]); COMBA_STORE(C->dp[3]); /* 4 */ COMBA_FORWARD; MULADD(at[0], at[21]); MULADD(at[1], at[20]); MULADD(at[2], at[19]); MULADD(at[3], at[18]); MULADD(at[4], at[17]); COMBA_STORE(C->dp[4]); /* 5 */ COMBA_FORWARD; MULADD(at[0], at[22]); MULADD(at[1], at[21]); MULADD(at[2], at[20]); MULADD(at[3], at[19]); MULADD(at[4], at[18]); MULADD(at[5], at[17]); COMBA_STORE(C->dp[5]); /* 6 */ COMBA_FORWARD; MULADD(at[0], at[23]); MULADD(at[1], at[22]); MULADD(at[2], at[21]); MULADD(at[3], at[20]); MULADD(at[4], at[19]); MULADD(at[5], at[18]); MULADD(at[6], at[17]); COMBA_STORE(C->dp[6]); /* 7 */ COMBA_FORWARD; MULADD(at[0], at[24]); MULADD(at[1], at[23]); MULADD(at[2], at[22]); MULADD(at[3], at[21]); MULADD(at[4], at[20]); MULADD(at[5], at[19]); MULADD(at[6], at[18]); MULADD(at[7], at[17]); COMBA_STORE(C->dp[7]); /* 8 */ COMBA_FORWARD; MULADD(at[0], at[25]); MULADD(at[1], at[24]); MULADD(at[2], at[23]); MULADD(at[3], at[22]); MULADD(at[4], at[21]); MULADD(at[5], at[20]); MULADD(at[6], at[19]); MULADD(at[7], at[18]); MULADD(at[8], at[17]); COMBA_STORE(C->dp[8]); /* 9 */ COMBA_FORWARD; MULADD(at[0], at[26]); MULADD(at[1], at[25]); MULADD(at[2], at[24]); MULADD(at[3], at[23]); MULADD(at[4], at[22]); MULADD(at[5], at[21]); MULADD(at[6], at[20]); MULADD(at[7], at[19]); MULADD(at[8], at[18]); MULADD(at[9], at[17]); COMBA_STORE(C->dp[9]); /* 10 */ COMBA_FORWARD; MULADD(at[0], at[27]); MULADD(at[1], at[26]); MULADD(at[2], at[25]); MULADD(at[3], at[24]); MULADD(at[4], at[23]); MULADD(at[5], at[22]); MULADD(at[6], at[21]); MULADD(at[7], at[20]); MULADD(at[8], at[19]); MULADD(at[9], at[18]); MULADD(at[10], at[17]); COMBA_STORE(C->dp[10]); /* 11 */ COMBA_FORWARD; MULADD(at[0], at[28]); MULADD(at[1], at[27]); MULADD(at[2], at[26]); MULADD(at[3], at[25]); MULADD(at[4], at[24]); MULADD(at[5], at[23]); MULADD(at[6], at[22]); MULADD(at[7], at[21]); MULADD(at[8], at[20]); MULADD(at[9], at[19]); MULADD(at[10], at[18]); MULADD(at[11], at[17]); COMBA_STORE(C->dp[11]); /* 12 */ COMBA_FORWARD; MULADD(at[0], at[29]); MULADD(at[1], at[28]); MULADD(at[2], at[27]); MULADD(at[3], at[26]); MULADD(at[4], at[25]); MULADD(at[5], at[24]); MULADD(at[6], at[23]); MULADD(at[7], at[22]); MULADD(at[8], at[21]); MULADD(at[9], at[20]); MULADD(at[10], at[19]); MULADD(at[11], at[18]); MULADD(at[12], at[17]); COMBA_STORE(C->dp[12]); /* 13 */ COMBA_FORWARD; MULADD(at[0], at[30]); MULADD(at[1], at[29]); MULADD(at[2], at[28]); MULADD(at[3], at[27]); MULADD(at[4], at[26]); MULADD(at[5], at[25]); MULADD(at[6], at[24]); MULADD(at[7], at[23]); MULADD(at[8], at[22]); MULADD(at[9], at[21]); MULADD(at[10], at[20]); MULADD(at[11], at[19]); MULADD(at[12], at[18]); MULADD(at[13], at[17]); COMBA_STORE(C->dp[13]); /* 14 */ COMBA_FORWARD; MULADD(at[0], at[31]); MULADD(at[1], at[30]); MULADD(at[2], at[29]); MULADD(at[3], at[28]); MULADD(at[4], at[27]); MULADD(at[5], at[26]); MULADD(at[6], at[25]); MULADD(at[7], at[24]); MULADD(at[8], at[23]); MULADD(at[9], at[22]); MULADD(at[10], at[21]); MULADD(at[11], at[20]); MULADD(at[12], at[19]); MULADD(at[13], at[18]); MULADD(at[14], at[17]); COMBA_STORE(C->dp[14]); /* 15 */ COMBA_FORWARD; MULADD(at[0], at[32]); MULADD(at[1], at[31]); MULADD(at[2], at[30]); MULADD(at[3], at[29]); MULADD(at[4], at[28]); MULADD(at[5], at[27]); MULADD(at[6], at[26]); MULADD(at[7], at[25]); MULADD(at[8], at[24]); MULADD(at[9], at[23]); MULADD(at[10], at[22]); MULADD(at[11], at[21]); MULADD(at[12], at[20]); MULADD(at[13], at[19]); MULADD(at[14], at[18]); MULADD(at[15], at[17]); COMBA_STORE(C->dp[15]); /* 16 */ COMBA_FORWARD; MULADD(at[0], at[33]); MULADD(at[1], at[32]); MULADD(at[2], at[31]); MULADD(at[3], at[30]); MULADD(at[4], at[29]); MULADD(at[5], at[28]); MULADD(at[6], at[27]); MULADD(at[7], at[26]); MULADD(at[8], at[25]); MULADD(at[9], at[24]); MULADD(at[10], at[23]); MULADD(at[11], at[22]); MULADD(at[12], at[21]); MULADD(at[13], at[20]); MULADD(at[14], at[19]); MULADD(at[15], at[18]); MULADD(at[16], at[17]); COMBA_STORE(C->dp[16]); /* 17 */ COMBA_FORWARD; MULADD(at[1], at[33]); MULADD(at[2], at[32]); MULADD(at[3], at[31]); MULADD(at[4], at[30]); MULADD(at[5], at[29]); MULADD(at[6], at[28]); MULADD(at[7], at[27]); MULADD(at[8], at[26]); MULADD(at[9], at[25]); MULADD(at[10], at[24]); MULADD(at[11], at[23]); MULADD(at[12], at[22]); MULADD(at[13], at[21]); MULADD(at[14], at[20]); MULADD(at[15], at[19]); MULADD(at[16], at[18]); COMBA_STORE(C->dp[17]); /* 18 */ COMBA_FORWARD; MULADD(at[2], at[33]); MULADD(at[3], at[32]); MULADD(at[4], at[31]); MULADD(at[5], at[30]); MULADD(at[6], at[29]); MULADD(at[7], at[28]); MULADD(at[8], at[27]); MULADD(at[9], at[26]); MULADD(at[10], at[25]); MULADD(at[11], at[24]); MULADD(at[12], at[23]); MULADD(at[13], at[22]); MULADD(at[14], at[21]); MULADD(at[15], at[20]); MULADD(at[16], at[19]); COMBA_STORE(C->dp[18]); /* 19 */ COMBA_FORWARD; MULADD(at[3], at[33]); MULADD(at[4], at[32]); MULADD(at[5], at[31]); MULADD(at[6], at[30]); MULADD(at[7], at[29]); MULADD(at[8], at[28]); MULADD(at[9], at[27]); MULADD(at[10], at[26]); MULADD(at[11], at[25]); MULADD(at[12], at[24]); MULADD(at[13], at[23]); MULADD(at[14], at[22]); MULADD(at[15], at[21]); MULADD(at[16], at[20]); COMBA_STORE(C->dp[19]); /* 20 */ COMBA_FORWARD; MULADD(at[4], at[33]); MULADD(at[5], at[32]); MULADD(at[6], at[31]); MULADD(at[7], at[30]); MULADD(at[8], at[29]); MULADD(at[9], at[28]); MULADD(at[10], at[27]); MULADD(at[11], at[26]); MULADD(at[12], at[25]); MULADD(at[13], at[24]); MULADD(at[14], at[23]); MULADD(at[15], at[22]); MULADD(at[16], at[21]); COMBA_STORE(C->dp[20]); /* 21 */ COMBA_FORWARD; MULADD(at[5], at[33]); MULADD(at[6], at[32]); MULADD(at[7], at[31]); MULADD(at[8], at[30]); MULADD(at[9], at[29]); MULADD(at[10], at[28]); MULADD(at[11], at[27]); MULADD(at[12], at[26]); MULADD(at[13], at[25]); MULADD(at[14], at[24]); MULADD(at[15], at[23]); MULADD(at[16], at[22]); COMBA_STORE(C->dp[21]); /* 22 */ COMBA_FORWARD; MULADD(at[6], at[33]); MULADD(at[7], at[32]); MULADD(at[8], at[31]); MULADD(at[9], at[30]); MULADD(at[10], at[29]); MULADD(at[11], at[28]); MULADD(at[12], at[27]); MULADD(at[13], at[26]); MULADD(at[14], at[25]); MULADD(at[15], at[24]); MULADD(at[16], at[23]); COMBA_STORE(C->dp[22]); /* 23 */ COMBA_FORWARD; MULADD(at[7], at[33]); MULADD(at[8], at[32]); MULADD(at[9], at[31]); MULADD(at[10], at[30]); MULADD(at[11], at[29]); MULADD(at[12], at[28]); MULADD(at[13], at[27]); MULADD(at[14], at[26]); MULADD(at[15], at[25]); MULADD(at[16], at[24]); COMBA_STORE(C->dp[23]); /* 24 */ COMBA_FORWARD; MULADD(at[8], at[33]); MULADD(at[9], at[32]); MULADD(at[10], at[31]); MULADD(at[11], at[30]); MULADD(at[12], at[29]); MULADD(at[13], at[28]); MULADD(at[14], at[27]); MULADD(at[15], at[26]); MULADD(at[16], at[25]); COMBA_STORE(C->dp[24]); /* 25 */ COMBA_FORWARD; MULADD(at[9], at[33]); MULADD(at[10], at[32]); MULADD(at[11], at[31]); MULADD(at[12], at[30]); MULADD(at[13], at[29]); MULADD(at[14], at[28]); MULADD(at[15], at[27]); MULADD(at[16], at[26]); COMBA_STORE(C->dp[25]); /* 26 */ COMBA_FORWARD; MULADD(at[10], at[33]); MULADD(at[11], at[32]); MULADD(at[12], at[31]); MULADD(at[13], at[30]); MULADD(at[14], at[29]); MULADD(at[15], at[28]); MULADD(at[16], at[27]); COMBA_STORE(C->dp[26]); /* 27 */ COMBA_FORWARD; MULADD(at[11], at[33]); MULADD(at[12], at[32]); MULADD(at[13], at[31]); MULADD(at[14], at[30]); MULADD(at[15], at[29]); MULADD(at[16], at[28]); COMBA_STORE(C->dp[27]); /* 28 */ COMBA_FORWARD; MULADD(at[12], at[33]); MULADD(at[13], at[32]); MULADD(at[14], at[31]); MULADD(at[15], at[30]); MULADD(at[16], at[29]); COMBA_STORE(C->dp[28]); /* 29 */ COMBA_FORWARD; MULADD(at[13], at[33]); MULADD(at[14], at[32]); MULADD(at[15], at[31]); MULADD(at[16], at[30]); COMBA_STORE(C->dp[29]); /* 30 */ COMBA_FORWARD; MULADD(at[14], at[33]); MULADD(at[15], at[32]); MULADD(at[16], at[31]); COMBA_STORE(C->dp[30]); /* 31 */ COMBA_FORWARD; MULADD(at[15], at[33]); MULADD(at[16], at[32]); COMBA_STORE(C->dp[31]); /* 32 */ COMBA_FORWARD; MULADD(at[16], at[33]); COMBA_STORE(C->dp[32]); COMBA_STORE2(C->dp[33]); C->used = 34; C->sign = A->sign ^ B->sign; fp_clamp(C); COMBA_FINI; }
void fp_mul_comba9(fp_int *A, fp_int *B, fp_int *C) { fp_digit c0, c1, c2, at[18]; memcpy(at, A->dp, 9 * sizeof(fp_digit)); memcpy(at+9, B->dp, 9 * sizeof(fp_digit)); COMBA_START; COMBA_CLEAR; /* 0 */ MULADD(at[0], at[9]); COMBA_STORE(C->dp[0]); /* 1 */ COMBA_FORWARD; MULADD(at[0], at[10]); MULADD(at[1], at[9]); COMBA_STORE(C->dp[1]); /* 2 */ COMBA_FORWARD; MULADD(at[0], at[11]); MULADD(at[1], at[10]); MULADD(at[2], at[9]); COMBA_STORE(C->dp[2]); /* 3 */ COMBA_FORWARD; MULADD(at[0], at[12]); MULADD(at[1], at[11]); MULADD(at[2], at[10]); MULADD(at[3], at[9]); COMBA_STORE(C->dp[3]); /* 4 */ COMBA_FORWARD; MULADD(at[0], at[13]); MULADD(at[1], at[12]); MULADD(at[2], at[11]); MULADD(at[3], at[10]); MULADD(at[4], at[9]); COMBA_STORE(C->dp[4]); /* 5 */ COMBA_FORWARD; MULADD(at[0], at[14]); MULADD(at[1], at[13]); MULADD(at[2], at[12]); MULADD(at[3], at[11]); MULADD(at[4], at[10]); MULADD(at[5], at[9]); COMBA_STORE(C->dp[5]); /* 6 */ COMBA_FORWARD; MULADD(at[0], at[15]); MULADD(at[1], at[14]); MULADD(at[2], at[13]); MULADD(at[3], at[12]); MULADD(at[4], at[11]); MULADD(at[5], at[10]); MULADD(at[6], at[9]); COMBA_STORE(C->dp[6]); /* 7 */ COMBA_FORWARD; MULADD(at[0], at[16]); MULADD(at[1], at[15]); MULADD(at[2], at[14]); MULADD(at[3], at[13]); MULADD(at[4], at[12]); MULADD(at[5], at[11]); MULADD(at[6], at[10]); MULADD(at[7], at[9]); COMBA_STORE(C->dp[7]); /* 8 */ COMBA_FORWARD; MULADD(at[0], at[17]); MULADD(at[1], at[16]); MULADD(at[2], at[15]); MULADD(at[3], at[14]); MULADD(at[4], at[13]); MULADD(at[5], at[12]); MULADD(at[6], at[11]); MULADD(at[7], at[10]); MULADD(at[8], at[9]); COMBA_STORE(C->dp[8]); /* 9 */ COMBA_FORWARD; MULADD(at[1], at[17]); MULADD(at[2], at[16]); MULADD(at[3], at[15]); MULADD(at[4], at[14]); MULADD(at[5], at[13]); MULADD(at[6], at[12]); MULADD(at[7], at[11]); MULADD(at[8], at[10]); COMBA_STORE(C->dp[9]); /* 10 */ COMBA_FORWARD; MULADD(at[2], at[17]); MULADD(at[3], at[16]); MULADD(at[4], at[15]); MULADD(at[5], at[14]); MULADD(at[6], at[13]); MULADD(at[7], at[12]); MULADD(at[8], at[11]); COMBA_STORE(C->dp[10]); /* 11 */ COMBA_FORWARD; MULADD(at[3], at[17]); MULADD(at[4], at[16]); MULADD(at[5], at[15]); MULADD(at[6], at[14]); MULADD(at[7], at[13]); MULADD(at[8], at[12]); COMBA_STORE(C->dp[11]); /* 12 */ COMBA_FORWARD; MULADD(at[4], at[17]); MULADD(at[5], at[16]); MULADD(at[6], at[15]); MULADD(at[7], at[14]); MULADD(at[8], at[13]); COMBA_STORE(C->dp[12]); /* 13 */ COMBA_FORWARD; MULADD(at[5], at[17]); MULADD(at[6], at[16]); MULADD(at[7], at[15]); MULADD(at[8], at[14]); COMBA_STORE(C->dp[13]); /* 14 */ COMBA_FORWARD; MULADD(at[6], at[17]); MULADD(at[7], at[16]); MULADD(at[8], at[15]); COMBA_STORE(C->dp[14]); /* 15 */ COMBA_FORWARD; MULADD(at[7], at[17]); MULADD(at[8], at[16]); COMBA_STORE(C->dp[15]); /* 16 */ COMBA_FORWARD; MULADD(at[8], at[17]); COMBA_STORE(C->dp[16]); COMBA_STORE2(C->dp[17]); C->used = 18; C->sign = A->sign ^ B->sign; fp_clamp(C); COMBA_FINI; }
void fp_mul_comba(z *A, z *B, z *C) { int ix, iy, iz, tx, ty, pa, sA, sB; fp_digit c0, c1, c2, *tmpx, *tmpy; z *dst; z loc; COMBA_START; COMBA_CLEAR; /* get size of output and trim */ sA = abs(A->size); sB = abs(B->size); pa = sA + sB; if (A == C || B == C) { zInit(&loc); //dst = &atmp1; dst = &loc; } else { dst = C; } if (dst->alloc < pa) zGrow(dst,pa + LIMB_BLKSZ); zClear(dst); for (ix = 0; ix < pa; ix++) { /* get offsets into the two bignums */ ty = MIN(ix, sB-1); tx = ix - ty; /* setup temp aliases */ tmpx = A->val + tx; tmpy = B->val + ty; /* this is the number of times the loop will iterrate, essentially its while (tx++ < a->used && ty-- >= 0) { ... } */ iy = MIN(sA-tx, ty+1); /* execute loop */ COMBA_FORWARD; for (iz = 0; iz < iy; ++iz) { MULADD(*tmpx++, *tmpy--); } /* store term */ COMBA_STORE(dst->val[ix]); } COMBA_FINI; dst->size = pa; if ((A->size * B->size) < 0) dst->size *= -1; fp_clamp(dst); if (dst != C) { zCopy(dst, C); zFree(&loc); } }