Pārlūkot izejas kodu

Collapse extra newlines to avoid distorting trigrams.

tags/v0.1^2
Ben Kurtovic pirms 12 gadiem
vecāks
revīzija
33aa1d6744
1 mainītis faili ar 2 papildinājumiem un 1 dzēšanām
  1. +2
    -1
      earwigbot/wiki/copyvios/parsers.py

+ 2
- 1
earwigbot/wiki/copyvios/parsers.py Parādīt failu

@@ -70,7 +70,8 @@ class ArticleTextParser(BaseTextParser):
The actual stripping is handled by :py:mod:`mwparserfromhell`.
"""
wikicode = mwparserfromhell.parse(self.text)
self.clean = wikicode.strip_code(normalize=True)
clean = wikicode.strip_code(normalize=True, collapse=True)
self.clean = clean.replace("\n\n", "\n") # Collapse extra newlines.
return self.clean

def chunk(self, nltk_dir, max_chunks, max_query=256):


Notiek ielāde…
Atcelt
Saglabāt