我目前正在计算数据数组的唯一排列。尽管以下代码有效,但效率却不如我所愿。一旦超过6或8个项目,它就会变得非常缓慢,并开始遇到内存问题。
这是代码和解释
<?php
function permuteUnique($items, $count = false, $perms = [], &$return = []) {
if ($count && count($return) == $count) return $return;
if (empty($items)) {
$duplicate = false;
foreach ($return as $a) {
if ($a === $perms) {
$duplicate = true;
break;
}
}
if (!$duplicate) $return[] = $perms;
} else {
for ($i = count($items) - 1; $i >= 0; --$i) {
$newitems = $items;
$newperms = $perms;
list($tmp) = array_splice($newitems, $i, 1);
array_unshift($newperms, $tmp);
permuteUnique($newitems, $count, $newperms, $return);
}
return $return;
}
}
function factorial($n) {
$f = 1;
for ($i = 2; $i <= $n; $i++) $f *= $i;
return $f;
}
给定输入,[1, 1, 2]
我收到预期的以下输出
array (size=3)
0 =>
array (size=3)
0 => int 1
1 => int 1
2 => int 2
1 =>
array (size=3)
0 => int 1
1 => int 2
2 => int 1
2 =>
array (size=3)
0 => int 2
1 => int 1
2 => int 1
该$count
参数是这样的,因此我可以将我期望的唯一排列的数量传递给该函数,一旦发现数量众多,它就可以停止计算并返回数据。计算方法为项目总数的阶乘除以所有重复项的阶乘的乘积。我不确定我说的没错,所以让我给你看一个例子。
给定集合[1, 2, 2, 3, 4, 4, 4, 4]
,计算唯一排列的数量是8! / (2!4!) = 840
因为总共有8个项目,其中一个项目重复了两次,而另一个项目重复了4次。
现在,如果我将其翻译为php代码...
<?php
$set = [1, 2, 2, 3, 4, 4, 4, 4];
$divisor = 1;
foreach (array_count_values($set) as $v) {
$divisor *= factorial($v);
}
$count = factorial(count($set)) / $divisor;
$permutations = permuteUnique($set, $count);
这很慢。如果我将一个计数器放入该permuteUnique
函数中,它将运行超过100k次,然后才能找到840个唯一的排列。
我想找到一种减少这种情况的方法,并找到通往唯一排列的最短路径。感谢您提供的任何帮助或建议。
因此,我花了更多时间考虑这一点,这就是我的想法。
<?php
function permuteUnique($items, $perms = [], &$return = []) {
if (empty($items)) {
$return[] = $perms;
} else {
sort($items);
$prev = false;
for ($i = count($items) - 1; $i >= 0; --$i) {
$newitems = $items;
$tmp = array_splice($newitems, $i, 1)[0];
if ($tmp != $prev) {
$prev = $tmp;
$newperms = $perms;
array_unshift($newperms, $tmp);
permuteUnique($newitems, $newperms, $return);
}
}
return $return;
}
}
$permutations = permuteUnique([1, 2, 2, 3, 4, 4, 4, 4]);
以前的统计
Uniques: 840
Calls to permuteUnique: 107,591
Duplicates found: 38737
Execution time (seconds): 4.898668050766
新统计
Uniques: 840
Calls to permuteUnique: 2647
Duplicates found: 0
Execution time (seconds): 0.0095300674438477
因此,我真正要做的就是对数据集进行排序,跟踪上一个项目,如果当前项目与上一个项目匹配,则不计算排列。我也不再需要预先计算唯一性的数量并遍历排列以检查重复项。那改变了世界。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句