17 Commits (9254158fc56c6d91f3eea6454505ede8ad909a70)

Autor SHA1 Mensaje Fecha
  Ben Kurtovic 4baab6f57c Implement lazy importing of root-level modules and packages. hace 12 años
  Ben Kurtovic 8d8703358c More fixes and tweaks; cleanup; etc. hace 12 años
  Ben Kurtovic f993b847ab Encode URLs as UTF-8 before opening them. hace 12 años
  Ben Kurtovic 570168ed0e Institute a timeout so we don't try to open these suspicious URLs forever. hace 12 años
  Ben Kurtovic 439b855254 Fully implement logging; fix non-unicode log messages. hace 12 años
  Ben Kurtovic a074da853b More work on copyvios, including an exclusions database (#5) hace 12 años
  Ben Kurtovic c260648bdb Finish chunking algorithm, improve !link, other fixes. hace 12 años
  Ben Kurtovic 569c815d99 Implement NLTK for chunking article content (#5). hace 12 años
  Ben Kurtovic 1af4217b63 Update copyright notices and some other improvements. hace 12 años
  Ben Kurtovic d45e342bac DOCUMENT EVERYTHING (#5) hace 12 años
  Ben Kurtovic d87c226417 __repr__ and __str__ for everything per #5 and #22. hace 12 años
  Ben Kurtovic 7dbbe9683c Update imports and exceptions. hace 12 años
  Ben Kurtovic 5ca1d91f3e Use __all__ within e.w.copyvios and shorter imports hace 12 años
  Ben Kurtovic 86a8440730 Moving parsers to own file. hace 12 años
  Ben Kurtovic d4e947b98b earwigbot.wiki.copyvios.search module split hace 12 años
  Ben Kurtovic e6a381f3f7 Restructuring copyvio stuff as its own package. hace 12 años
  Ben Kurtovic 9434a416a1 Moved search engine/credential info into config proper. hace 12 años
  Ben Kurtovic f382ceb38e Pushing some smarter logic for MarkovChains hace 12 años
  Ben Kurtovic 755dff9714 Copyvios: auto-fail very small articles (< 20 chain links) hace 12 años
  Ben Kurtovic 6009c050f9 Minor integer division fix. hace 12 años
  Ben Kurtovic df7868da3e Updates to copyright violation stuff. hace 12 años
  Ben Kurtovic ee2b1133bb Algorithm for comparing article content against a suspected source using MarkovChains hace 12 años
  Ben Kurtovic 2da906109b Copyright update for 2012. hace 12 años
  Ben Kurtovic 13100533b9 CopyrightMixin needs Page._site hace 12 años
  Ben Kurtovic c48073515b #wikipedia-en-afc -> #wikipedia-en-afc-feed hace 12 años
  Ben Kurtovic 24f7eabb77 Some more work on copyvio detection code hace 12 años
  Ben Kurtovic 56e6140284 More work on copyright violation detection code. hace 12 años
  Ben Kurtovic 0b6d5eac5e Some code for copyvio detection, including querying Yahoo! BOSS correctly. hace 12 años