正则表达式是什么如何能导致拒绝服务攻击-德赢Vwin官网网

介绍

当您想到拒绝服务攻击时，您会想到什么？可能是一大群机器人试图访问 Web 服务器的资源以使其瘫痪。好吧，这肯定是导致拒绝服务攻击的一种方式。但是，还有一种您可能没有听说过的方式。它被称为 ReDoS，是由正则表达式引起的。

正则表达式？但这怎么可能呢？那不是通过使用过滤器来匹配字符串、将字符串列入白名单和黑名单，从而使我们的工作更轻松吗？是的，但是攻击者也可以利用它来使应用程序（服务器）屈服。让我们了解如何！

正则表达式是什么？

简而言之，正则表达式是一种用于匹配（编程语言中）字符串的模式。让我们通过一个示例来理解它吧，该示例是“用正则表达式在服务器端验证电子邮件地址”。

letregex=newRegExp('[a-z0-9]+@[a-z]+.[a-z]{2,3}');
lettestEmails=["notanemail.com","workingexample@email.com","another_working@somethingelse.org","notworking@1.com"];
testEmails.forEach((address)=>{
console.log(regex.test(address))
});

上面是一段 JavaScript 代码（译者注：不会 JS 也无妨，对阅读本文的影响不大，请继续阅读）。我们在这里使用的正则表达式是 [a-z0–9]+@[a-z]+.[a-z]{2,3}。我们提供了几个电子邮件地址，然后我们需要检查它们是否遵循电子邮件地址的一般模式。让我们分解一下正则表达式。

[a-z0–9]+：表示此处的字符串可以是任何小写字母和数字。末尾的加号 (+) 表示必须至少有一个字符（无论是小写字母还是数字）。
@：表示此处应该有 AT（@）符。
[a-z]+：表示此处字符串应该包含（一个或多个）小写字母的字符
.：表示此处应该有一个点（.）
[a-z]{2,3}：表示此处字符串是由小写字母组成的，但其长度只能是 2 或 3。

让我们将其与我们选择的电子邮件 ID 进行比较。让电子邮件 ID 为 yourremail12@yahooemail.com。

youremail12@ 对应于 [a-z0-9]+@
yahooemail 对应于 [a-z]+
.com 对应于 .[a-z]{2,3}

这通常是正则表达式的工作方式。但这不是会按预期工作吗？这如何能导致拒绝服务攻击呢？让我们了解一下。

正则表达式由正则表达式运算器处理。在 ReDoS 攻击期间，攻击者通过提供输入字符串强制正则表达式运算器陷入循环。当它处于循环中时，正则表达式运算器可能会花费大量时间，并消耗大量资源。这会导致其他合法客户端无法使用资源，并可能导致 Web 服务器和应用程序无响应并最终崩溃。

另一种情况可能是设计不良的正则表达式模式，这可能导致输入验证失败，在正则表达式运算器解析时会消耗大量时间等。

有害正则表达式（Evil Regex）

有害正则表达式模式是攻击者可以利用的正则表达式。根据 Wikipedia，这些是有害正则表达式模式的特征。

正则表达式将重复（+、*）应用于复杂的子表达式。
对于重复的子表达式，存在一个匹配，同时该匹配也是另一个有效匹配的后缀。

这说明了如果已经有一个复杂的子表达式，并且应用一些像 + 或 * 这样的贪婪运算符，可能会导致一个有害的正则表达式。

例如，

我们考虑以下正则表达式：^(a+)+$

^ 和 $ 定义了字符串必须分别以 a 开头和结尾。

如果我们提供 aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa，正则表达式运算器将在几毫秒内处理它并返回 True。

如果我提供 aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa!，你觉得会发生什么！

如果您运行它，则对于所提供的正则表达式，（在返回 False 之前）需要花费大约 2 秒的时间来处理。只是通过添加一个额外的感叹号会导致这么长的时间吗？

让我们从正则表达式运算器的角度来看看它是如何工作的。正则表达式运算器直到达到感叹号之前将会正常工作。由于我们没有指定查找 (!) 标记，因此它会回溯到前面的字母，并查看是否有另一种方法来解析先前的字符，以便可以验证整个字符串。在它最终发现绝不会返回 True 之前，这样的回溯将会一直持续下去。

如您所知，回溯会导致大量时间消耗。攻击者可以使用它来利用有害正则表达式模式。

译者注

看完上述内容后，有些读者可能仍对刚才的示例（回溯）表示不解。为了让读者能够更加清晰地了解其原理，我将上例中正则表达式运算器可能将执行的步骤进行了分解演示。

下列演示的过程只是存在的一种可能（实际情况取决于正则表达式引擎的实现）

回溯次数	解析结果
0	`{aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa}`
1	`{aaaaaaaaaaaaaaaaaaaaaaaaaaaaa}`, `{a}`
2	`{aaaaaaaaaaaaaaaaaaaaaaaaaaaa}`, `{aa}`
3	`{aaaaaaaaaaaaaaaaaaaaaaaaaaaa}`, `{a}`, `{a}`
4	`{aaaaaaaaaaaaaaaaaaaaaaaaaaa}`, `{aaa}`
5	`{aaaaaaaaaaaaaaaaaaaaaaaaaaa}`, `{aa}`, `{a}`
6	`{aaaaaaaaaaaaaaaaaaaaaaaaaaa}`, `{a}`, `{aa}`
7	`{aaaaaaaaaaaaaaaaaaaaaaaaaaa}`, `{a}`, `{a}`, `{a}`
8	`{aaaaaaaaaaaaaaaaaaaaaaaaaa}`, `{aaaa}`
...	`...`
2147483647	`{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`, `{a}`