dd/d6c/mullo_8c_source.html

/*

 * LAMMP - Copyright (C) 2025-2026 HJimmyK(Jericho Knox)

 * This file is part of lammp, under the GNU LGPL v2 license.

 * See LICENSE in the project root for the full license text.

 */


#include "../../include/lammp/impl/tmp_alloc.h"

#include "../../include/lammp/lmmpn.h"

#include "../../include/lammp/impl/mparam.h"


void lmmp_mullo_fft_(mp_ptr dst, mp_srcptr numa, mp_srcptr numb, mp_size_t n, mp_ptr scratch) {

    lmmp_param_assert(n > 0);

    mp_size_t hn = lmmp_fft_next_size_((n + n + 1) >> 1);

    lmmp_assert(n + n > hn);

    mp_ptr tp = ALLOC_TYPE(hn + 1, mp_limb_t);


    mp_srcptr amodm = numa;

    mp_size_t nam = n;

    if (n > hn) {

        /*

          Z = B^hb - 1

          amodm = a mod Z

         */

        if (lmmp_add_(scratch, numa, hn, numa + hn, n - hn))

            lmmp_inc(scratch);

        amodm = scratch;

        nam = hn;

    }

    lmmp_mul_mersenne_(scratch, hn, amodm, nam, numb, n);


    mp_srcptr amodp = numa;

    mp_size_t nap = n;

    if (n > hn) {

        /*

          Z = B^hp - 1

          amodp = a mod Z

         */

        tp[hn] = 0;

        if (lmmp_sub_(tp, numa, hn, numa + hn, n - hn))

            lmmp_inc(tp);

        amodp = tp;

        nap = hn + 1;

    }

    lmmp_mul_fermat_(tp, hn, amodp, nap, numb, n);


    mp_limb_t cy = lmmp_shr1add_nc_(scratch, scratch, tp, hn, tp[hn]);

    cy <<= LIMB_BITS - 1;

    scratch[hn - 1] += cy;

    if (scratch[hn - 1] < cy)

        lmmp_inc(scratch);


    if (n == hn) {

        cy = tp[hn] + lmmp_sub_n_(scratch + hn, scratch, tp, hn);

        // cy==1 means [tp,hn+1]!=0, then [dst,hn]!=0

        // cy==2 is impossible since [tp,hn+1] is normalized.

        // so the following dec won't overflow.

        lmmp_dec_1(scratch, cy);

    } else {

        mp_size_t n2 = 2 * n;

        cy = lmmp_sub_n_(scratch + hn, scratch, tp, n2 - hn);

        cy = tp[hn] + lmmp_sub_nc_(tp + n2 - hn, scratch + n2 - hn, tp + n2 - hn, 2 * hn - n2, cy);

        cy = lmmp_sub_1_(scratch, scratch, n2, cy);

    }

    lmmp_free(tp);

    lmmp_copy(dst, scratch, n);

}


/*

       <---t---><---m--->

       |--a1---|---a0---|

       |--b1---|---b0---|


  ,

  |\

  | \

  |  \

  +-----,

  |     |

  |     |\

  |     | \

  |     |  \

  +-----+---`

  ^  m  ^ t ^


 此算法是一种不平衡分块的算法，朴素的想法是计算平衡分块，计算一次完整的乘法，然后两次递归的调用此函数计算低位，

 事实上，我们也可以不平衡的分块，以减少递归深度，具体分析如下：

 取a和b的低位一定宽度为m，高位宽度为t，则有：

 计算一次完整的平衡乘法m，然后递归调用计算mullo，长度为t

 复杂度模型：

   ML(n) = 2*ML(a*n) + M((1-a)*n)

 其中ML为mullo的复杂度，M为mul_n的复杂度

 我们可以假定 M(n)=O(n^e) 即多项式复杂度

 则有：

   ML(n) = C(a) * n^e

   C(a) = a^e / (1-2*(1-a)^e)

 我们希望C(a)尽可能小，即希望ML(n)尽可能小，则有：

   a_opt = 1 - 2^(-1/(e-1))

 e=log(3)/log(2)  [Toom-2] -> a ~= 0.694

 e=log(5)/log(3)  [Toom-3] -> a ~= 0.775

 e=log(7)/log(4)  [Toom-4] -> a ~= 0.820

 e=log(11)/log(6) [Toom-6] -> a ~= 0.871

 e=log(15)/log(8) [Toom-8] -> a ~= 0.899

*/


#define MUL_TOOM66_THRESHOLD MUL_FFT_THRESHOLD

#define MUL_TOOM88_THRESHOLD 5621


void lmmp_mullo_dc_(

    mp_ptr    restrict  dst,

    mp_srcptr restrict numa,

    mp_srcptr restrict numb,

    mp_ptr    restrict   tp,

    mp_size_t             n

) {

    if (n < MULLO_BASECASE_THRESHOLD) {

        lmmp_mul_1_(dst, numa, n, numb[0]);

        for (mp_size_t i = 1; i < n; ++i) {

            lmmp_mul_1_(tp, numa, n - i, numb[i]);

            lmmp_add_n_(dst + i, dst + i, tp, n - i);

        }

        return;

    } else {

        mp_size_t m, t;

        if (n < MUL_TOOM33_THRESHOLD) {

            m = 25 * n / 36;

        } else if (n < MUL_TOOM44_THRESHOLD) {

            m = 31 * n / 40;

        } else if (n < MUL_TOOM66_THRESHOLD) {

            m = 32 * n / 39;

        } else if (n < MUL_TOOM88_THRESHOLD) {

            m = 27 * n / 31;

        } else {

            m = 9 * n / 10;

        }

        t = n - m;


#define a0 (numa)

#define a1 (numa + m)

#define b0 (numb)

#define b1 (numb + m)

#define c0 (dst)

#define c1 (dst + m)

#define lo1 (tp)              // [tp,  2*t]

#define tp1 (tp + 2 * t)      // [tp+2*t, 2*t]

#define lo2 (tp + 2 * t)      // [tp+2*t, 2*t]

#define tp2 (tp + 4 * t)      // [tp+2*t, 2*t]

        lmmp_mul_n_(tp, a0, b0, m);

        lmmp_copy(c0, tp, n);

        lmmp_mullo_dc_(lo1, a1, b0, tp1, t);

        lmmp_mullo_dc_(lo2, a0, b1, tp2, t);

        lmmp_add_n_(c1, c1, lo1, t);

        lmmp_add_n_(c1, c1, lo2, t);

        return;

    }

}


void lmmp_sqrlo_dc_(mp_ptr restrict dst, mp_srcptr restrict numa, mp_ptr restrict tp, mp_size_t n) {

    if (n < MULLO_BASECASE_THRESHOLD) {

        lmmp_mul_1_(dst, numa, n, numa[0]);

        for (mp_size_t i = 1; i < n; ++i) {

            lmmp_mul_1_(tp, numa, n - i, numa[i]);

            lmmp_add_n_(dst + i, dst + i, tp, n - i);

        }

        return;

    } else {

        mp_size_t m, t;

        if (n < MUL_TOOM33_THRESHOLD) {

            m = 25 * n / 36;

        } else if (n < MUL_TOOM44_THRESHOLD) {

            m = 31 * n / 40;

        } else if (n < MUL_TOOM66_THRESHOLD) {

            m = 32 * n / 39;

        } else if (n < MUL_TOOM88_THRESHOLD) {

            m = 27 * n / 31;

        } else {

            m = 9 * n / 10;

        }

        t = n - m;

#define a0 (numa)

#define a1 (numa + m)

#define c0 (dst)

#define c1 (dst + m)

#define lo1 (tp)              // [tp, 2*t]

#define tp1 (tp + 2 * t)      // [tp+2*t, 2*t]

        lmmp_sqr_(tp, a0, m);

        lmmp_copy(c0, tp, n);

        lmmp_mullo_dc_(lo1, a0, a1, tp1, t);

        lmmp_addshl1_n_(c1, c1, lo1, t);

    }

}


void lmmp_mullo_(mp_ptr restrict dst, mp_srcptr restrict numa, mp_srcptr restrict numb, mp_size_t n) {

    lmmp_param_assert(n > 0);

    if (n < MULLO_DC_THRESHOLD) {

        if (numa == numb) {

            TEMP_DECL;

            mp_ptr restrict tp = TALLOC_TYPE(2 * n, mp_limb_t);

            lmmp_sqrlo_dc_(dst, numa, tp, n);

            TEMP_FREE;

            return;

        }

        TEMP_DECL;

        mp_ptr restrict tp = TALLOC_TYPE(2 * n, mp_limb_t);

        lmmp_mullo_dc_(dst, numa, numb, tp, n);

        TEMP_FREE;

        return;

    } else {

        TEMP_DECL;

        mp_ptr restrict tp = TALLOC_TYPE(2 * n, mp_limb_t);

        lmmp_mullo_fft_(dst, numa, numb, n, tp);

        TEMP_FREE;

        return;

    }

}


scratch
#define scratch

mp_ptr
mp_limb_t * mp_ptr
Definition lmmp.h:215

lmmp_copy
#define lmmp_copy(dst, src, n)
Definition lmmp.h:364

mp_size_t
uint64_t mp_size_t
Definition lmmp.h:212

mp_srcptr
const mp_limb_t * mp_srcptr
Definition lmmp.h:216

lmmp_free
void lmmp_free(void *ptr)
内存释放函数（调用lmmp_heap_free_fn）
Definition memory.c:204

mp_limb_t
uint64_t mp_limb_t
Definition lmmp.h:211

lmmp_assert
#define lmmp_assert(x)
Definition lmmp.h:370

LIMB_BITS
#define LIMB_BITS
Definition lmmp.h:221

lmmp_param_assert
#define lmmp_param_assert(x)
Definition lmmp.h:398

lmmp_mul_mersenne_
void lmmp_mul_mersenne_(mp_ptr dst, mp_size_t rn, mp_srcptr numa, mp_size_t na, mp_srcptr numb, mp_size_t nb)
梅森数模乘法 [dst,rn] = [numa,na]*[numb,nb] mod B^rn-1
Definition mul_fft.c:752

lmmp_add_
static mp_limb_t lmmp_add_(mp_ptr dst, mp_srcptr numa, mp_size_t na, mp_srcptr numb, mp_size_t nb)
大数加法静态内联函数 [dst,na]=[numa,na]+[numb,nb]
Definition lmmpn.h:1058

lmmp_shr1add_nc_
mp_limb_t lmmp_shr1add_nc_(mp_ptr dst, mp_srcptr numa, mp_srcptr numb, mp_size_t n, mp_limb_t c)
带进位加法后右移1位 [dst,n] = ([numa,n] + [numb,n] + c) >> 1
Definition shr.c:79

lmmp_inc
#define lmmp_inc(p)
大数加1宏（预期无进位）
Definition lmmpn.h:946

lmmp_sqr_
void lmmp_sqr_(mp_ptr dst, mp_srcptr numa, mp_size_t na)
大数平方操作 [dst,2*na] = [numa,na]^2
Definition sqr.c:10

lmmp_mul_fermat_
void lmmp_mul_fermat_(mp_ptr dst, mp_size_t rn, mp_srcptr numa, mp_size_t na, mp_srcptr numb, mp_size_t nb)
费马数模乘法 [dst,rn+1]=[numa,na]*[numb,nb] mod B^rn+1
Definition mul_fft.c:677

lmmp_mul_n_
void lmmp_mul_n_(mp_ptr dst, mp_srcptr numa, mp_srcptr numb, mp_size_t n)
等长大数乘法操作 [dst,2*n] = [numa,n] * [numb,n]
Definition mul.c:99

lmmp_addshl1_n_
mp_limb_t lmmp_addshl1_n_(mp_ptr dst, mp_srcptr numa, mp_srcptr numb, mp_size_t n)
加法结合左移1位操作 [dst,n] = [numa,n] + ([numb,n] << 1)
Definition shl.c:56

lmmp_fft_next_size_
mp_size_t lmmp_fft_next_size_(mp_size_t n)
计算满足 >=n 的最小费马/梅森乘法可行尺寸
Definition mul_fft.c:84

lmmp_sub_
static mp_limb_t lmmp_sub_(mp_ptr dst, mp_srcptr numa, mp_size_t na, mp_srcptr numb, mp_size_t nb)
大数减法静态内联函数 [dst,na]=[numa,na]-[numb,nb]
Definition lmmpn.h:1072

lmmp_mul_1_
mp_limb_t lmmp_mul_1_(mp_ptr dst, mp_srcptr numa, mp_size_t na, mp_limb_t x)
大数乘以单limb操作 [dst,na] = [numa,na] * x

lmmp_dec_1
#define lmmp_dec_1(p, dec)
大数减指定值宏（预期无借位）
Definition lmmpn.h:985

lmmp_sub_1_
static mp_limb_t lmmp_sub_1_(mp_ptr dst, mp_srcptr numa, mp_size_t na, mp_limb_t x)
大数减单精度数静态内联函数 [dst,na]=[numa,na]-x
Definition lmmpn.h:1122

lmmp_sub_n_
mp_limb_t lmmp_sub_n_(mp_ptr dst, mp_srcptr numa, mp_srcptr numb, mp_size_t n)
无借位的n位减法 [dst,n] = [numa,n] - [numb,n]
Definition sub_n.c:70

lmmp_sub_nc_
mp_limb_t lmmp_sub_nc_(mp_ptr dst, mp_srcptr numa, mp_srcptr numb, mp_size_t n, mp_limb_t c)
带借位的n位减法 [dst,n] = [numa,n] - [numb,n] - c
Definition sub_n.c:9

lmmp_add_n_
mp_limb_t lmmp_add_n_(mp_ptr dst, mp_srcptr numa, mp_srcptr numb, mp_size_t n)
无进位的n位加法 [dst,n] = [numa,n] + [numb,n]
Definition add_n.c:71

MULLO_BASECASE_THRESHOLD
#define MULLO_BASECASE_THRESHOLD
Definition mparam.h:57

MUL_TOOM33_THRESHOLD
#define MUL_TOOM33_THRESHOLD
Definition mparam.h:50

MULLO_DC_THRESHOLD
#define MULLO_DC_THRESHOLD
Definition mparam.h:59

MUL_TOOM44_THRESHOLD
#define MUL_TOOM44_THRESHOLD
Definition mparam.h:52

tp
#define tp

lmmp_mullo_dc_
void lmmp_mullo_dc_(mp_ptr restrict dst, mp_srcptr restrict numa, mp_srcptr restrict numb, mp_ptr restrict tp, mp_size_t n)
Definition mullo.c:108

lo2
#define lo2

b0
#define b0

MUL_TOOM66_THRESHOLD
#define MUL_TOOM66_THRESHOLD
Definition mullo.c:105

b1
#define b1

lmmp_mullo_
void lmmp_mullo_(mp_ptr restrict dst, mp_srcptr restrict numa, mp_srcptr restrict numb, mp_size_t n)
Definition mullo.c:192

tp2
#define tp2

c1
#define c1

tp1
#define tp1

lmmp_sqrlo_dc_
void lmmp_sqrlo_dc_(mp_ptr restrict dst, mp_srcptr restrict numa, mp_ptr restrict tp, mp_size_t n)
Definition mullo.c:157

a0
#define a0

a1
#define a1

lmmp_mullo_fft_
void lmmp_mullo_fft_(mp_ptr dst, mp_srcptr numa, mp_srcptr numb, mp_size_t n, mp_ptr scratch)
低位FFT乘法 [dst,n] = [numa,n] * [numb,n] mod B^n
Definition mullo.c:11

c0
#define c0

MUL_TOOM88_THRESHOLD
#define MUL_TOOM88_THRESHOLD
Definition mullo.c:106

lo1
#define lo1

TEMP_DECL
#define TEMP_DECL
Definition tmp_alloc.h:72

ALLOC_TYPE
#define ALLOC_TYPE(n, type)
Definition tmp_alloc.h:112

TEMP_FREE
#define TEMP_FREE
Definition tmp_alloc.h:93

TALLOC_TYPE
#define TALLOC_TYPE(n, type)
Definition tmp_alloc.h:91