144 커밋 (63d941aebbcea29cf57f8a58d18c81df0e9fee49)

작성자 SHA1 메시지 날짜
  Ben Kurtovic f52fb06c19 Add a debug message when catching ParserExclusionError. 9 년 전
  Ben Kurtovic c81d1d949d Update global exclusion lists more often than site-specific ones. 9 년 전
  Ben Kurtovic 108eca13ac Finish mirror hinting algorithm. 9 년 전
  Ben Kurtovic 91846ce4fb Refactor out mirror hinting logic in source parsers. 9 년 전
  Ben Kurtovic 147b46f572 A couple more fixes and cleanup. 9 년 전
  Ben Kurtovic 03910b6cb5 Add mirror detection logic to parsers; fixes. 9 년 전
  Ben Kurtovic 81a090c923 Allow content parsers to signal that a source should be excluded. 9 년 전
  Ben Kurtovic bb819c9306 Explicitly include excluded URLs in the result set; mark as excluded. 9 년 전
  Ben Kurtovic e99e1c1ef1 Typo fix. 9 년 전
  Ben Kurtovic 509598d7fc Try merging in templates with parameter values of a certain size (fixes #42) 9 년 전
  Ben Kurtovic d741667c4c Try using pentagrams rather than trigrams for copyvio Markov chains. 9 년 전
  Ben Kurtovic 4e8be871b7 Update copyright year for 2015. 9 년 전
  Ben Kurtovic 09319b1675 Don't die on broken regexes. 9 년 전
  Ben Kurtovic 4cdfafd487 Skip site check. 9 년 전
  Ben Kurtovic 4075d887e9 Fix return. 9 년 전
  Ben Kurtovic a2c10650a8 Add support for User:EranBot/Copyright/Blacklist (closes #52) 9 년 전
  Ben Kurtovic 9ffc3f1bf5 Raise file crawl size limit for PDFs. 10 년 전
  Ben Kurtovic b87d5ac673 Pass parameter to recursive call. 10 년 전
  Ben Kurtovic 170f810735 Allow ExclusionDB to force a sync. 10 년 전
  Ben Kurtovic 901192ec18 Handle errors from UnicodeDamnit. 10 년 전
  Ben Kurtovic 3f2dd1094f Catch HTTPException in opener.open. 10 년 전
  Ben Kurtovic 699f6e3b17 Seems it will sometimes raise AssertionError. 10 년 전
  Ben Kurtovic 12c5170815 Catch another exception thrown by pdfminer. 10 년 전
  Ben Kurtovic 08d02917f2 Strange typo. 10 년 전
  Ben Kurtovic c2a5946874 Fix generating -0.0 as a confidence value. 10 년 전
  Ben Kurtovic 106e58b164 Update confidence function comments. 10 년 전
  Ben Kurtovic b8d55973c9 Tell Yahoo! it's okay to return PDFs. 10 년 전
  Ben Kurtovic 5194525a32 Note when sources might have been missed. 10 년 전
  Ben Kurtovic 065d9ea498 Fix; should always return a float. 10 년 전
  Ben Kurtovic 290f81abed Prevent -0.0 from being a confidence value. 10 년 전
  Ben Kurtovic 932b93572a Simplify function. 10 년 전
  Ben Kurtovic 77514ee925 Add another PDF string substitution. 10 년 전
  Ben Kurtovic 0bdcbca8b0 Rudimentary solution for PDF parsing (closes earwig/copyvios#18) 10 년 전
  Ben Kurtovic 30f72df470 Refactor parsers; fix empty document behavior. 10 년 전
  Ben Kurtovic 5349179088 Fix parsing of plain text documents (earwig/copyvios#3) 10 년 전
  Ben Kurtovic f10908e34e Handle struct.error from GzipFile.read() (Python bug?) 10 년 전
  Ben Kurtovic 693cdc302f Catch errors while searching. 10 년 전
  Ben Kurtovic 303c39c8c7 Add an option to disable short-circuiting. 10 년 전
  Ben Kurtovic f8f4669460 Remove unnecessary key attribute of sources. 10 년 전
  Ben Kurtovic 9fd145da5c Add some docs; better sorting function. 10 년 전
  Ben Kurtovic 7afb484cea Refactor a bunch of copyvio internals. Store all sources with a result object. 10 년 전
  Ben Kurtovic 54ddff049f Make CopyvioSource public; tweaks. 10 년 전
  Ben Kurtovic 0438766ee4 Handle empty URLs better. 10 년 전
  Ben Kurtovic 2147207388 Remove unnecessary variable assign. 10 년 전
  Ben Kurtovic f94a67e0e3 Define num_queries in the proper place. 10 년 전
  Ben Kurtovic 12247dd756 Add no_links and no_searches to copyvio_check(). 10 년 전
  Ben Kurtovic f37621e5ec Use a deque for a FIFO instead of the python list LIFO. 10 년 전
  Ben Kurtovic 8e439e1eea source.join() now blocks when in the middle of processing. 10 년 전
  Ben Kurtovic dbb1ae5483 Handle empty queues correctly. Remove some log messages. 10 년 전
  Ben Kurtovic 2fa8aeba5b Fix a blocking issue. 10 년 전