Ben Kurtovic
|
f52fb06c19
|
Add a debug message when catching ParserExclusionError.
|
9 년 전 |
Ben Kurtovic
|
c81d1d949d
|
Update global exclusion lists more often than site-specific ones.
|
9 년 전 |
Ben Kurtovic
|
108eca13ac
|
Finish mirror hinting algorithm.
|
9 년 전 |
Ben Kurtovic
|
91846ce4fb
|
Refactor out mirror hinting logic in source parsers.
|
9 년 전 |
Ben Kurtovic
|
147b46f572
|
A couple more fixes and cleanup.
|
9 년 전 |
Ben Kurtovic
|
03910b6cb5
|
Add mirror detection logic to parsers; fixes.
|
9 년 전 |
Ben Kurtovic
|
81a090c923
|
Allow content parsers to signal that a source should be excluded.
|
9 년 전 |
Ben Kurtovic
|
bb819c9306
|
Explicitly include excluded URLs in the result set; mark as excluded.
|
9 년 전 |
Ben Kurtovic
|
e99e1c1ef1
|
Typo fix.
|
9 년 전 |
Ben Kurtovic
|
509598d7fc
|
Try merging in templates with parameter values of a certain size (fixes #42)
|
9 년 전 |
Ben Kurtovic
|
d741667c4c
|
Try using pentagrams rather than trigrams for copyvio Markov chains.
|
9 년 전 |
Ben Kurtovic
|
4e8be871b7
|
Update copyright year for 2015.
|
9 년 전 |
Ben Kurtovic
|
09319b1675
|
Don't die on broken regexes.
|
9 년 전 |
Ben Kurtovic
|
4cdfafd487
|
Skip site check.
|
9 년 전 |
Ben Kurtovic
|
4075d887e9
|
Fix return.
|
9 년 전 |
Ben Kurtovic
|
a2c10650a8
|
Add support for User:EranBot/Copyright/Blacklist (closes #52)
|
9 년 전 |
Ben Kurtovic
|
9ffc3f1bf5
|
Raise file crawl size limit for PDFs.
|
10 년 전 |
Ben Kurtovic
|
b87d5ac673
|
Pass parameter to recursive call.
|
10 년 전 |
Ben Kurtovic
|
170f810735
|
Allow ExclusionDB to force a sync.
|
10 년 전 |
Ben Kurtovic
|
901192ec18
|
Handle errors from UnicodeDamnit.
|
10 년 전 |
Ben Kurtovic
|
3f2dd1094f
|
Catch HTTPException in opener.open.
|
10 년 전 |
Ben Kurtovic
|
699f6e3b17
|
Seems it will sometimes raise AssertionError.
|
10 년 전 |
Ben Kurtovic
|
12c5170815
|
Catch another exception thrown by pdfminer.
|
10 년 전 |
Ben Kurtovic
|
08d02917f2
|
Strange typo.
|
10 년 전 |
Ben Kurtovic
|
c2a5946874
|
Fix generating -0.0 as a confidence value.
|
10 년 전 |
Ben Kurtovic
|
106e58b164
|
Update confidence function comments.
|
10 년 전 |
Ben Kurtovic
|
b8d55973c9
|
Tell Yahoo! it's okay to return PDFs.
|
10 년 전 |
Ben Kurtovic
|
5194525a32
|
Note when sources might have been missed.
|
10 년 전 |
Ben Kurtovic
|
065d9ea498
|
Fix; should always return a float.
|
10 년 전 |
Ben Kurtovic
|
290f81abed
|
Prevent -0.0 from being a confidence value.
|
10 년 전 |
Ben Kurtovic
|
932b93572a
|
Simplify function.
|
10 년 전 |
Ben Kurtovic
|
77514ee925
|
Add another PDF string substitution.
|
10 년 전 |
Ben Kurtovic
|
0bdcbca8b0
|
Rudimentary solution for PDF parsing (closes earwig/copyvios#18)
|
10 년 전 |
Ben Kurtovic
|
30f72df470
|
Refactor parsers; fix empty document behavior.
|
10 년 전 |
Ben Kurtovic
|
5349179088
|
Fix parsing of plain text documents (earwig/copyvios#3)
|
10 년 전 |
Ben Kurtovic
|
f10908e34e
|
Handle struct.error from GzipFile.read() (Python bug?)
|
10 년 전 |
Ben Kurtovic
|
693cdc302f
|
Catch errors while searching.
|
10 년 전 |
Ben Kurtovic
|
303c39c8c7
|
Add an option to disable short-circuiting.
|
10 년 전 |
Ben Kurtovic
|
f8f4669460
|
Remove unnecessary key attribute of sources.
|
10 년 전 |
Ben Kurtovic
|
9fd145da5c
|
Add some docs; better sorting function.
|
10 년 전 |
Ben Kurtovic
|
7afb484cea
|
Refactor a bunch of copyvio internals. Store all sources with a result object.
|
10 년 전 |
Ben Kurtovic
|
54ddff049f
|
Make CopyvioSource public; tweaks.
|
10 년 전 |
Ben Kurtovic
|
0438766ee4
|
Handle empty URLs better.
|
10 년 전 |
Ben Kurtovic
|
2147207388
|
Remove unnecessary variable assign.
|
10 년 전 |
Ben Kurtovic
|
f94a67e0e3
|
Define num_queries in the proper place.
|
10 년 전 |
Ben Kurtovic
|
12247dd756
|
Add no_links and no_searches to copyvio_check().
|
10 년 전 |
Ben Kurtovic
|
f37621e5ec
|
Use a deque for a FIFO instead of the python list LIFO.
|
10 년 전 |
Ben Kurtovic
|
8e439e1eea
|
source.join() now blocks when in the middle of processing.
|
10 년 전 |
Ben Kurtovic
|
dbb1ae5483
|
Handle empty queues correctly. Remove some log messages.
|
10 년 전 |
Ben Kurtovic
|
2fa8aeba5b
|
Fix a blocking issue.
|
10 년 전 |