dc/d74/nPr_8c_source.html

/*

 * LAMMP - Copyright (C) 2025-2026 HJimmyK(Jericho Knox)

 * This file is part of lammp, under the GNU LGPL v2 license.

 * See LICENSE in the project root for the full license text.

 */


#include "../../../include/lammp/impl/ele_mul.h"

#include "../../../include/lammp/impl/mparam.h"

#include "../../../include/lammp/impl/prime_table.h"

#include "../../../include/lammp/impl/longlong.h"


#define mul_1(dst, rn, v)                   \

    dst[rn] = lmmp_mul_1_(dst, dst, rn, v); \

    ++rn;                                   \

    rn -= dst[rn - 1] == 0 ? 1 : 0


static const ulong odd_factorial[25] = {1, 1, 3, 3, 15, 45, 315, 315,

                                        2835, 14175, 155925,

                                        467775, 6081075, 42567525,

                                        638512875, 638512875, 10854718875, 97692469875,

                                        1856156927625, 9280784638125, 194896477400625,

                                        2143861251406875, 49308808782358125,

                                        147926426347074375ull, 3698160658676859375ull};


mp_size_t lmmp_nPr_size_(ulong n, ulong r, mp_bitcnt_t* restrict bits) {

    mp_size_t shl = n - lmmp_limb_popcnt_(n);

    shl -= (n - r) - lmmp_limb_popcnt_(n - r);

    *bits = shl;

    if (n < DBL_2POW_MANT_DIG_) {

        double ln_perm = lgamma(n + 1.0) - lgamma(n - r + 1.0);

        double log2_perm = ln_perm / LOG2_;

        mp_size_t rn = ceil(log2_perm / LIMB_BITS) + 2; /* more two limbs */

        return rn;

    } else {

        // nPr = n! / (n-r)! < n^r

        return lmmp_pow_1_size_(n, r);

    }

}


static inline uint count_factors(fac_ptr fac, uint nfactors, uint n, uint r, uint p) {

    uint pn = n;

    uint e = 0;

    ulong inv = MP_ULONG_MAX / p + 1;

    while (pn > 0) {

        _udiv32by32_q_preinv(pn, pn, inv);

        e += pn;

    }

    pn = r;

    while (pn > 0) {

        _udiv32by32_q_preinv(pn, pn, inv);

        e -= pn;

    }

    if (e > 0) {

        fac[nfactors].f = p;

        fac[nfactors++].j = e;

    }

    return nfactors;

}


/**

 * @brief 使用累乘函数计算nPr（奇数部分）

 */


static mp_size_t lmmp_odd_nPr_product_(mp_ptr restrict dst, mp_size_t rn, uint n, uint r) {

    TEMP_DECL;

    ulongp restrict limbs = TALLOC_TYPE(r / 2 + 1, ulong);

    mp_size_t limbn = 0;

    ulong t = 1, v;

    mp_bitcnt_t cnt = 0;

    for (ulong i = n - r + 1; i <= n; ++i) {

        ctz_shl(v, i, cnt);

        t *= v;

        if (t > MP_UINT_MAX) {

            limbs[limbn++] = t;

            t = 1;

        }

    }

    if (t != 1)

        limbs[limbn++] = t;


    mp_ptr restrict tp = TALLOC_TYPE(limbn * 2, mp_limb_t);

    // 这里不能直接乘入dst，因为dst的大小可能小于limbn，导致溢出

    rn = lmmp_elem_mul_ulong_(tp, limbs, limbn, tp + limbn);

    lmmp_copy(dst, tp, rn);

    TEMP_FREE;

    return rn;

}


mp_size_t lmmp_odd_nPr_ushort_(mp_ptr restrict dst, mp_size_t rn, ulong n, ulong r) {

    lmmp_param_assert(n >= r);

    lmmp_param_assert(n <= NPR_SHORT_LIMIT);

    if (n < ODD_FACTORIAL_SIZE) {

        if (n == 0) {

            dst[0] = 1;

        } else if (n == r) {

            dst[0] = odd_factorial[n - 1];

        } else {

            dst[0] = odd_factorial[n - 1] / odd_factorial[n - r - 1];

        }

        return 1;

    } else if (r <= 10) {

        dst[0] = 1;

        rn = 1;

        ulong t = 1, v;

        ulong i = n - r + 1;

        mp_bitcnt_t cnt = 0;

        lmmp_debug_assert(n >= 3);

        for (; i <= (ulong)n - 3; i += 3) {

            t = i * (i + 1) * (i + 2);

            ctz_shl(v, t, cnt);

            mul_1(dst, rn, v);

        }

        t = 1;

        for (; i <= n; ++i) {

            t *= i;

        }

        ctz_shl(v, t, cnt);

        if (v != 1) {

            mul_1(dst, rn, v);

        }

        return rn;

    } else if (n <= MP_UCHAR_MAX) {

        lmmp_debug_assert(n >= 7);

        lmmp_debug_assert(r >= 2);

        dst[0] = 1;

        rn = 1;

        ulong t = 0, v;

        ulong i = n - r + 1;

        mp_bitcnt_t cnt;

        for (; i <= (ulong)n - 7; i += 7) {

            t = i * (i + 1) * (i + 2) * (i + 3) * (i + 4) * (i + 5) * (i + 6);

            ctz_shl(v, t, cnt);

            mul_1(dst, rn, v);

        }

        t = 1;

        for (; i <= n; ++i) {

            t *= i;

        }

        ctz_shl(v, t, cnt);

        if (v != 1) {

            mul_1(dst, rn, v);

        }

        return rn;

    } else if (n <= 0xfff) {

        TEMP_S_DECL;

        ulongp restrict limbs = SALLOC_TYPE(r / 5 + 1, ulong);

        mp_size_t limbn = 0;

        ulong t, v;

        ulong i = n - r + 1;

        mp_bitcnt_t cnt;

        lmmp_debug_assert(n >= 5);

        for (; i <= (ulong)n - 5; i += 5) {

            t = i * (i + 1) * (i + 2) * (i + 3) * (i + 4);

            ctz_shl(v, t, cnt);

            limbs[limbn++] = v;

        }

        t = 1;

        for (; i <= n; ++i) {

            t *= i;

        }

        ctz_shl(v, t, cnt);

        if (v != 1)

            limbs[limbn++] = v;

        mp_ptr restrict tp = SALLOC_TYPE(limbn * 2, mp_limb_t);

        // 这里不能直接乘入dst，因为dst的大小可能小于limbn，导致溢出

        rn = lmmp_elem_mul_ulong_(tp, limbs, limbn, tp + limbn);

        lmmp_copy(dst, tp, rn);

        TEMP_S_FREE;

        return rn;

    } else if (rn < PERMUTATION_USHORT_MUL_THRESHOLD || n >= (PERMUTATION_USHORT_TIMES_THRESHOLD * r)) {

        return lmmp_odd_nPr_product_(dst, rn, n, r);

    } else {

        TEMP_DECL;

        uint primen = lmmp_prime_cnt16_(n);

        uint nfactors = primen;

        fac_ptr restrict fac = TALLOC_TYPE(nfactors, fac_t);

        r = n - r;

        nfactors = 0;

        for (uint i = 1; i < primen; ++i) {

            uint p = prime_short_table[i];

            nfactors = count_factors(fac, nfactors, n, r, p);

        }


        rn = lmmp_factors_mul_(dst, rn, fac, nfactors);


        TEMP_FREE;

        return rn;

    }

}


mp_size_t lmmp_odd_nPr_uint_(mp_ptr restrict dst, mp_size_t rn, ulong n, ulong r) {

    lmmp_param_assert(n >= r);

    lmmp_param_assert(n <= NPR_INT_LIMIT);

    if (r <= 10) {

        dst[0] = 1;

        rn = 1;

        ulong v;

        mp_bitcnt_t cnt;

        for (ulong i = n - r + 1; i <= n; ++i) {

            ctz_shl(v, i, cnt);

            mul_1(dst, rn, v);

        }

        return rn;

    } else if (rn < PERMUTATION_UINT_MUL_THRESHOLD || n >= (PERMUTATION_UINT_TIMES_THRESHOLD * r)) {

        return lmmp_odd_nPr_product_(dst, rn, n, r);

    } else{

        TEMP_B_DECL;


        lmmp_prime_int_table_init_(n);

        uint nfactors = lmmp_prime_size_(n);

        fac_ptr restrict fac = BALLOC_TYPE(nfactors, fac_t);

        r = n - r;

        nfactors = 0;


        prime_cache_t cache;

        lmmp_prime_cache_init_(&cache, n);

        while(cache.is_end == 0) {

            lmmp_prime_cache_next_(&cache);

            for (uint i = 0; i < cache.size; ++i) {

                nfactors = count_factors(fac, nfactors, n, r, cache.pp[i]);

            }

        }

        lmmp_prime_cache_free_(&cache);


        rn = lmmp_factors_mul_(dst, rn, fac, nfactors);


        TEMP_B_FREE;

        return rn;

    }

}


mp_size_t lmmp_odd_nPr_ulong_(mp_ptr restrict dst, mp_size_t rn, ulong n, ulong r) {

    lmmp_param_assert(n >= r);

    TEMP_DECL;

    ulongp restrict limbs = TALLOC_TYPE(r + 1, ulong);

    mp_size_t limbn = 0;

    ulong t, v, m = 1;

    mp_bitcnt_t cnt;

    for (ulong i = 1; i <= r; ++i) {

        t = n - r + i;

        ctz_shl(v, t, cnt);

        if (v != 1)

            limbs[limbn++] = v;

    }

    if (m != 1)

        limbs[limbn++] = m;


    mp_ptr restrict tp = TALLOC_TYPE(limbn * 2, mp_limb_t);

    // 这里不能直接乘入dst，因为dst的大小可能小于limbn，导致溢出

    rn = lmmp_elem_mul_ulong_(tp, limbs, limbn, tp + limbn);

    lmmp_copy(dst, tp, rn);

    TEMP_FREE;

    return rn;

}


mp_size_t lmmp_nPr_(mp_ptr restrict dst, mp_bitcnt_t bits, mp_size_t rn, ulong n, ulong r) {

    lmmp_debug_assert(n >= r);

    mp_size_t shw = bits / LIMB_BITS;

    bits %= LIMB_BITS;

    lmmp_zero(dst, shw);

    if (n <= NPR_SHORT_LIMIT)

        rn = lmmp_odd_nPr_ushort_(dst + shw, rn - shw, n, r);

    else if (n <= NPR_INT_LIMIT)

        rn = lmmp_odd_nPr_uint_(dst + shw, rn - shw, n, r);

    else

        rn = lmmp_odd_nPr_ulong_(dst + shw, rn - shw, n, r);


    if (bits > 0) {

        dst[shw + rn] = lmmp_shl_(dst + shw, dst + shw, rn, bits);

        rn += shw + 1;

        rn -= dst[rn - 1] == 0;

    } else {

        rn += shw;

    }

    return rn;

}


lmmp_elem_mul_ulong_
mp_size_t lmmp_elem_mul_ulong_(mp_ptr dst, const ulongp limbs, mp_size_t n, mp_ptr tp)
计算limbs数组的累乘积

fac_t::f
uint f
Definition ele_mul.h:118

fac_t::j
uint j
Definition ele_mul.h:119

lmmp_factors_mul_
mp_size_t lmmp_factors_mul_(mp_ptr dst, mp_size_t rn, fac_ptr fac, uint nfactors)
计算因子的累乘，并将结果放入dst中

fac_t
Definition ele_mul.h:117

mp_ptr
mp_limb_t * mp_ptr
Definition lmmp.h:215

lmmp_copy
#define lmmp_copy(dst, src, n)
Definition lmmp.h:364

lmmp_zero
#define lmmp_zero(dst, n)
Definition lmmp.h:366

mp_bitcnt_t
size_t mp_bitcnt_t
Definition lmmp.h:217

mp_size_t
uint64_t mp_size_t
Definition lmmp.h:212

lmmp_debug_assert
#define lmmp_debug_assert(x)
Definition lmmp.h:387

mp_limb_t
uint64_t mp_limb_t
Definition lmmp.h:211

LIMB_BITS
#define LIMB_BITS
Definition lmmp.h:221

lmmp_param_assert
#define lmmp_param_assert(x)
Definition lmmp.h:398

lmmp_shl_
mp_limb_t lmmp_shl_(mp_ptr dst, mp_srcptr numa, mp_size_t na, mp_size_t shl)
大数左移操作 [dst,na] = [numa,na]<<shl，dst的低shl位填充0
Definition shl.c:9

lmmp_limb_popcnt_
int lmmp_limb_popcnt_(mp_limb_t x)
计算一个64位无符号整数中1的个数
Definition tiny.c:20

ctz_shl
#define ctz_shl(r, x, cnt)
Definition longlong.h:229

_udiv32by32_q_preinv
#define _udiv32by32_q_preinv(q, n0, dinv)
Definition longlong.h:466

NPR_SHORT_LIMIT
#define NPR_SHORT_LIMIT
Definition mparam.h:154

NPR_INT_LIMIT
#define NPR_INT_LIMIT
Definition mparam.h:155

PERMUTATION_UINT_TIMES_THRESHOLD
#define PERMUTATION_UINT_TIMES_THRESHOLD
Definition mparam.h:122

MP_UINT_MAX
#define MP_UINT_MAX
Definition mparam.h:139

MP_UCHAR_MAX
#define MP_UCHAR_MAX
Definition mparam.h:137

DBL_2POW_MANT_DIG_
#define DBL_2POW_MANT_DIG_
Definition mparam.h:168

LOG2_
#define LOG2_
Definition mparam.h:165

MP_ULONG_MAX
#define MP_ULONG_MAX
Definition mparam.h:140

ODD_FACTORIAL_SIZE
#define ODD_FACTORIAL_SIZE
Definition mparam.h:152

PERMUTATION_USHORT_TIMES_THRESHOLD
#define PERMUTATION_USHORT_TIMES_THRESHOLD
Definition mparam.h:119

tp
#define tp

lmmp_nPr_size_
mp_size_t lmmp_nPr_size_(ulong n, ulong r, mp_bitcnt_t *restrict bits)
Definition nPr.c:25

mul_1
#define mul_1(dst, rn, v)
Definition nPr.c:12

lmmp_odd_nPr_product_
static mp_size_t lmmp_odd_nPr_product_(mp_ptr restrict dst, mp_size_t rn, uint n, uint r)
使用累乘函数计算nPr（奇数部分）
Definition nPr.c:63

lmmp_odd_nPr_ulong_
mp_size_t lmmp_odd_nPr_ulong_(mp_ptr restrict dst, mp_size_t rn, ulong n, ulong r)
Definition nPr.c:231

lmmp_odd_nPr_ushort_
mp_size_t lmmp_odd_nPr_ushort_(mp_ptr restrict dst, mp_size_t rn, ulong n, ulong r)
Definition nPr.c:88

lmmp_odd_nPr_uint_
mp_size_t lmmp_odd_nPr_uint_(mp_ptr restrict dst, mp_size_t rn, ulong n, ulong r)
Definition nPr.c:190

odd_factorial
static const ulong odd_factorial[25]
Definition nPr.c:17

count_factors
static uint count_factors(fac_ptr fac, uint nfactors, uint n, uint r, uint p)
Definition nPr.c:40

lmmp_nPr_
mp_size_t lmmp_nPr_(mp_ptr restrict dst, mp_bitcnt_t bits, mp_size_t rn, ulong n, ulong r)
Definition nPr.c:255

ulongp
uint64_t * ulongp
Definition numth.h:45

uint
uint32_t uint
Definition numth.h:35

lmmp_pow_1_size_
static mp_size_t lmmp_pow_1_size_(mp_limb_t base, ulong exp)
计算幂次方需要的limb缓冲区长度 base ^ exp
Definition numth.h:264

ulong
uint64_t ulong
Definition numth.h:36

lmmp_prime_cache_free_
void lmmp_prime_cache_free_(prime_cache_t *cache)
释放素数表缓存
Definition prime_table.c:253

lmmp_prime_size_
ulong lmmp_prime_size_(ulong n)
估计 n 范围内的素数数量
Definition prime_table.c:11

lmmp_prime_cache_next_
void lmmp_prime_cache_next_(prime_cache_t *cache)
素数表缓存更新（从小到大遍历全局质数表）
Definition prime_table.c:157

prime_cache_t::is_end
int is_end
Definition prime_table.h:76

prime_cache_t::size
uint size
Definition prime_table.h:73

prime_short_table
const ushort prime_short_table[6542]
Definition prime_table.c:306

lmmp_prime_int_table_init_
void lmmp_prime_int_table_init_(uint n)
初始化全局素数表
Definition prime_table.c:70

lmmp_prime_cnt16_
ushort lmmp_prime_cnt16_(ushort n)
计算小于等于 n 的素数数量
Definition prime_table.c:265

lmmp_prime_cache_init_
void lmmp_prime_cache_init_(prime_cache_t *cache, uint n)
初始化素数表缓存
Definition prime_table.c:149

prime_cache_t::pp
uintp pp
Definition prime_table.h:72

prime_cache_t
Definition prime_table.h:71

TEMP_DECL
#define TEMP_DECL
Definition tmp_alloc.h:72

TEMP_FREE
#define TEMP_FREE
Definition tmp_alloc.h:93

SALLOC_TYPE
#define SALLOC_TYPE(n, type)
Definition tmp_alloc.h:87

TEMP_S_DECL
#define TEMP_S_DECL
Definition tmp_alloc.h:76

TALLOC_TYPE
#define TALLOC_TYPE(n, type)
Definition tmp_alloc.h:91

TEMP_B_DECL
#define TEMP_B_DECL
Definition tmp_alloc.h:75

BALLOC_TYPE
#define BALLOC_TYPE(n, type)
Definition tmp_alloc.h:89

TEMP_S_FREE
#define TEMP_S_FREE
Definition tmp_alloc.h:105

TEMP_B_FREE
#define TEMP_B_FREE
Definition tmp_alloc.h:100