From d1a9ba9a34f544d241b7595655e74a68c5b3f60b Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 1 Dec 2012 13:42:08 -0500
Subject: [PATCH 001/189] Starting tag work.

- Translation dict, contexts, parse_* and handle_* hooks in tokenizer.
---
 mwparserfromhell/nodes/tag.py        | 36 +++++++++++++++++
 mwparserfromhell/parser/contexts.py  | 65 +++++++++++++++++++-----------
 mwparserfromhell/parser/tokenizer.c  |  1 -
 mwparserfromhell/parser/tokenizer.py | 77 +++++++++++++++++++++++++++++++++++-
 4 files changed, 155 insertions(+), 24 deletions(-)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index 5873a49..c32f398 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -73,6 +73,42 @@ class Tag(Node):
     TAGS_INVISIBLE = set((TAG_REF, TAG_GALLERY, TAG_MATH, TAG_NOINCLUDE))
     TAGS_VISIBLE = set(range(300)) - TAGS_INVISIBLE
 
+    TRANSLATIONS = {
+        "i": TAG_ITALIC,
+        "em": TAG_ITALIC,
+        "b": TAG_BOLD,
+        "strong": TAG_BOLD,
+        "u": TAG_UNDERLINE,
+        "s": TAG_STRIKETHROUGH,
+        "ul": TAG_UNORDERED_LIST,
+        "ol": TAG_ORDERED_LIST,
+        "dt": TAG_DEF_TERM,
+        "dd": TAG_DEF_ITEM,
+        "blockquote": TAG_BLOCKQUOTE,
+        "hl": TAG_RULE,
+        "br": TAG_BREAK,
+        "abbr": TAG_ABBR,
+        "pre": TAG_PRE,
+        "tt": TAG_MONOSPACE,
+        "code": TAG_CODE,
+        "span": TAG_SPAN,
+        "div": TAG_DIV,
+        "font": TAG_FONT,
+        "small": TAG_SMALL,
+        "big": TAG_BIG,
+        "center": TAG_CENTER,
+        "ref": TAG_REF,
+        "gallery": TAG_GALLERY,
+        "math": TAG_MATH,
+        "nowiki": TAG_NOWIKI,
+        "noinclude": TAG_NOINCLUDE,
+        "includeonly": TAG_INCLUDEONLY,
+        "onlyinclude": TAG_ONLYINCLUDE,
+        "syntaxhighlight": TAG_SYNTAXHIGHLIGHT,
+        "source": TAG_SYNTAXHIGHLIGHT,
+        "poem": TAG_POEM,
+    }
+
     def __init__(self, type_, tag, contents=None, attrs=None, showtag=True,
                  self_closing=False, open_padding=0, close_padding=0):
         super(Tag, self).__init__()
diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index 9d41870..a67bd76 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -62,35 +62,56 @@ Local (stack-specific) contexts:
 
 * :py:const:`COMMENT`
 
-Global contexts:
+* :py:const:`TAG`
 
-* :py:const:`GL_HEADING`
-"""
+    * :py:const:`TAG_OPEN`
+    * :py:const:`TAG_ATTR`
 
-# Local contexts:
+        * :py:const:`TAG_ATTR_NAME`
+        * :py:const:`TAG_ATTR_BODY`
+        * :py:const:`TAG_ATTR_BODY_QUOTED`
 
-TEMPLATE =              0b00000000000111
-TEMPLATE_NAME =         0b00000000000001
-TEMPLATE_PARAM_KEY =    0b00000000000010
-TEMPLATE_PARAM_VALUE =  0b00000000000100
+    * :py:const:`TAG_BODY`
+    * :py:const:`TAG_CLOSE`
 
-ARGUMENT =              0b00000000011000
-ARGUMENT_NAME =         0b00000000001000
-ARGUMENT_DEFAULT =      0b00000000010000
+Global contexts:
 
-WIKILINK =              0b00000001100000
-WIKILINK_TITLE =        0b00000000100000
-WIKILINK_TEXT =         0b00000001000000
+* :py:const:`GL_HEADING`
+"""
 
-HEADING =               0b01111110000000
-HEADING_LEVEL_1 =       0b00000010000000
-HEADING_LEVEL_2 =       0b00000100000000
-HEADING_LEVEL_3 =       0b00001000000000
-HEADING_LEVEL_4 =       0b00010000000000
-HEADING_LEVEL_5 =       0b00100000000000
-HEADING_LEVEL_6 =       0b01000000000000
+# Local contexts:
 
-COMMENT =               0b10000000000000
+TEMPLATE =              0b00000000000000000111
+TEMPLATE_NAME =         0b00000000000000000001
+TEMPLATE_PARAM_KEY =    0b00000000000000000010
+TEMPLATE_PARAM_VALUE =  0b00000000000000000100
+
+ARGUMENT =              0b00000000000000011000
+ARGUMENT_NAME =         0b00000000000000001000
+ARGUMENT_DEFAULT =      0b00000000000000010000
+
+WIKILINK =              0b00000000000001100000
+WIKILINK_TITLE =        0b00000000000000100000
+WIKILINK_TEXT =         0b00000000000001000000
+
+HEADING =               0b00000001111110000000
+HEADING_LEVEL_1 =       0b00000000000010000000
+HEADING_LEVEL_2 =       0b00000000000100000000
+HEADING_LEVEL_3 =       0b00000000001000000000
+HEADING_LEVEL_4 =       0b00000000010000000000
+HEADING_LEVEL_5 =       0b00000000100000000000
+HEADING_LEVEL_6 =       0b00000001000000000000
+
+COMMENT =               0b00000010000000000000
+
+TAG =                   0b11111100000000000000
+TAG_OPEN =              0b00000100000000000000
+TAG_ATTR =              0b00111000000000000000
+TAG_ATTR_NAME =         0b00001000000000000000
+TAG_ATTR_BODY =         0b00010000000000000000
+TAG_ATTR_BODY_QUOTED =  0b00100000000000000000
+TAG_BODY =              0b01000000000000000000
+TAG_CLOSE =             0b10000000000000000000
 
 
 # Global contexts:
diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index cc1b4dd..71b6cc3 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -767,7 +767,6 @@ Tokenizer_parse_heading(Tokenizer* self)
         self->global ^= GL_HEADING;
         return 0;
     }
-
     level = PyInt_FromSsize_t(heading->level);
     if (!level) {
         Py_DECREF(heading->title);
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 5b0e976..f640aa2 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -27,6 +27,7 @@ import string
 
 from . import contexts
 from . import tokens
+from ..nodes.tag import Tag
 from ..compat import htmlentities
 
 __all__ = ["Tokenizer"]
@@ -420,6 +421,57 @@ class Tokenizer(object):
             self._write(tokens.CommentEnd())
             self._head += 2
 
+    def _parse_tag(self):
+        """Parse an HTML tag at the head of the wikicode string."""
+        self._head += 1
+        reset = self._head
+        self._push()
+        try:
+            t_open, type_, self_close, o_pad = self._parse(contexts.TAG_OPEN)
+            if not self_close:
+                t_body = self._parse(contexts.TAG_BODY)
+                t_close, c_pad = self._parse(contexts.TAG_CLOSE)
+        except BadRoute:
+            self._head = reset
+            self._pop()
+            self._write_text("<")
+        else:
+            self._pop()
+            self._write(tokens.TagOpenOpen(type=type_, showtag=False))
+            self._write_all(t_open)
+            if self_close:
+                self._write(tokens.TagCloseSelfclose(padding=o_pad))
+            else:
+                self._write(tokens.TagCloseOpen(padding=o_pad))
+                self._write_all(t_body)
+                self._write(tokens.TagOpenClose())
+                self._write_all(t_close)
+                self._write(tokens.TagCloseClose(padding=c_pad))
+
+    def _handle_attribute(self):
+        if not self._context & contexts.TAG_ATTR:
+            ## check name is valid
+
+    def _handle_attribute_name(self):
+        ## check if next character is a ", if so, set TAG_ATTR_BODY_QUOTED
+        pass
+
+    def _handle_quoted_attribute_close(self):
+        pass
+
+    def _handle_tag_close_open(self):
+        pass  ## .padding
+
+    def _handle_tag_selfclose(self):
+        pass  ## .padding
+
+    def _handle_tag_close_open(self):
+        pass
+
+    def _handle_tag_close_close(self):
+        ## check that the closing name is the same as the opening name
+        pass  ## .padding
+
     def _parse(self, context=0):
         """Parse the wikicode string, using *context* for when to stop."""
         self._push(context)
@@ -432,7 +484,7 @@ class Tokenizer(object):
             if this is self.END:
                 fail = (contexts.TEMPLATE | contexts.ARGUMENT |
                         contexts.WIKILINK | contexts.HEADING |
-                        contexts.COMMENT)
+                        contexts.COMMENT | contexts.TAG)
                 if self._context & contexts.TEMPLATE_PARAM_KEY:
                     self._pop()
                 if self._context & fail:
@@ -484,6 +536,29 @@ class Tokenizer(object):
                     self._parse_comment()
                 else:
                     self._write_text(this)
+            elif this == "<" and not self._context & (contexts.TAG ^ contexts.TAG_BODY):
+                self._parse_tag()
+            elif this == " " and (self._context & contexts.TAG_OPEN and not
+                                  self._context & contexts.TAG_ATTR_BODY_QUOTED):
+                self._handle_attribute()
+            elif this == "=" and self._context & contexts.TAG_ATTR_NAME:
+                self._handle_attribute_name()
+            elif this == '"' and self._context & contexts.TAG_ATTR_BODY_QUOTED:
+                self._handle_quoted_attribute_close()
+            elif this == "\n" and (self._context & contexts.TAG_OPEN and not
+                                  self._context & contexts.TAG_ATTR_BODY_QUOTED):
+                self._fail_route()
+            elif this == ">" and (self._context & contexts.TAG_ATTR_OPEN and not
+                                  self._context & contexts.TAG_ATTR_BODY_QUOTED):
+                return self._handle_tag_close_open()
+            elif this == "/" and next == ">" and (
+                            self._context & contexts.TAG_ATTR_OPEN and not
+                            self._context & contexts.TAG_ATTR_BODY_QUOTED):
+                return self._handle_tag_selfclose()
+            elif this == "<" and next == "/" and self._context & contexts.TAG_BODY:
+                self._handle_tag_close_open()
+            elif this == ">" and self._context & contexts.TAG_CLOSE:
+                self._handle_tag_close_close()
             else:
                 self._write_text(this)
             self._head += 1

From 05ec7a1a92fdf2549e8722aabd4a36a4825f3227 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 8 Dec 2012 22:04:03 -0500
Subject: [PATCH 002/189] Improve padding support for Tags; more code for tags
 in tokenizer.

---
 mwparserfromhell/nodes/extras/attribute.py |  27 +++++--
 mwparserfromhell/nodes/tag.py              |  18 ++---
 mwparserfromhell/parser/tokenizer.py       | 116 ++++++++++++++++++-----------
 3 files changed, 100 insertions(+), 61 deletions(-)

diff --git a/mwparserfromhell/nodes/extras/attribute.py b/mwparserfromhell/nodes/extras/attribute.py
index 648bca0..58a99a8 100644
--- a/mwparserfromhell/nodes/extras/attribute.py
+++ b/mwparserfromhell/nodes/extras/attribute.py
@@ -36,18 +36,20 @@ class Attribute(StringMixIn):
     whose value is ``"foo"``.
     """
 
-    def __init__(self, name, value=None, quoted=True):
+    def __init__(self, name, value=None, quoted=True, padding=""):
         super(Attribute, self).__init__()
         self._name = name
         self._value = value
         self._quoted = quoted
+        self._padding = padding
 
     def __unicode__(self):
+        base = self.padding + str(self.name)
         if self.value:
             if self.quoted:
-                return str(self.name) + '="' + str(self.value) + '"'
-            return str(self.name) + "=" + str(self.value)
-        return str(self.name)
+                return base + '="' + str(self.value) + '"'
+            return base + "=" + str(self.value)
+        return base
 
     @property
     def name(self):
@@ -64,14 +66,23 @@ class Attribute(StringMixIn):
         """Whether the attribute's value is quoted with double quotes."""
         return self._quoted
 
+    @property
+    def padding(self):
+        """Spacing to insert right before the attribute."""
+        return self._padding
+
     @name.setter
-    def name(self, newval):
-        self._name = parse_anything(newval)
+    def name(self, value):
+        self._name = parse_anything(value)
 
     @value.setter
     def value(self, newval):
         self._value = parse_anything(newval)
 
     @quoted.setter
-    def quoted(self, newval):
-        self._quoted = bool(newval)
+    def quoted(self, value):
+        self._quoted = bool(value)
+
+    @padding.setter
+    def padding(self, value):
+        self._padding = str(value)
diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index c32f398..681a17a 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -110,7 +110,7 @@ class Tag(Node):
     }
 
     def __init__(self, type_, tag, contents=None, attrs=None, showtag=True,
-                 self_closing=False, open_padding=0, close_padding=0):
+                 self_closing=False, open_padding="", close_padding=""):
         super(Tag, self).__init__()
         self._type = type_
         self._tag = tag
@@ -136,10 +136,10 @@ class Tag(Node):
         if self.attrs:
             result += " " + " ".join([str(attr) for attr in self.attrs])
         if self.self_closing:
-            result += " " * self.open_padding + "/>"
+            result += self.open_padding + "/>"
         else:
-            result += " " * self.open_padding + ">" + str(self.contents)
-            result += "</" + str(self.tag) + " " * self.close_padding + ">"
+            result += self.open_padding + ">" + str(self.contents)
+            result += "</" + str(self.tag) + self.close_padding + ">"
         return result
 
     def __iternodes__(self, getter):
@@ -232,17 +232,17 @@ class Tag(Node):
 
     @property
     def self_closing(self):
-        """Whether the tag is self-closing with no content."""
+        """Whether the tag is self-closing with no content (like ``<br/>``)."""
         return self._self_closing
 
     @property
     def open_padding(self):
-        """How much spacing to insert before the first closing >."""
+        """Spacing to insert before the first closing >."""
         return self._open_padding
 
     @property
     def close_padding(self):
-        """How much spacing to insert before the last closing >."""
+        """Spacing to insert before the last closing > (excl. self-closing)."""
         return self._close_padding
 
     @type.setter
@@ -270,8 +270,8 @@ class Tag(Node):
 
     @open_padding.setter
     def open_padding(self, value):
-        self._open_padding = int(value)
+        self._open_padding = str(value)
 
     @close_padding.setter
     def close_padding(self, value):
-        self._close_padding = int(value)
+        self._close_padding = str(value)
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index f640aa2..80d7610 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -425,52 +425,77 @@ class Tokenizer(object):
         """Parse an HTML tag at the head of the wikicode string."""
         self._head += 1
         reset = self._head
-        self._push()
         try:
-            t_open, type_, self_close, o_pad = self._parse(contexts.TAG_OPEN)
-            if not self_close:
-                t_body = self._parse(contexts.TAG_BODY)
-                t_close, c_pad = self._parse(contexts.TAG_CLOSE)
+            tokens = self._parse(contexts.TAG_OPEN)
         except BadRoute:
             self._head = reset
-            self._pop()
             self._write_text("<")
         else:
-            self._pop()
-            self._write(tokens.TagOpenOpen(type=type_, showtag=False))
-            self._write_all(t_open)
-            if self_close:
-                self._write(tokens.TagCloseSelfclose(padding=o_pad))
-            else:
-                self._write(tokens.TagCloseOpen(padding=o_pad))
-                self._write_all(t_body)
-                self._write(tokens.TagOpenClose())
-                self._write_all(t_close)
-                self._write(tokens.TagCloseClose(padding=c_pad))
+            self._write_all(tokens)
 
-    def _handle_attribute(self):
-        if not self._context & contexts.TAG_ATTR:
-            ## check name is valid
+    def _get_tag_type_from_stack(self):
+        self._push_textbuffer()
+        if not self._stack:
+            return None  # Tag has an empty name?
+        text = [tok for tok in self._stack if isinstance(tok, tokens.Text)]
+        text = "".join([token.text for token in text]).strip().lower()
+        try:
+            return Tag.TRANSLATIONS[text]
+        except KeyError:
+            return Tag.TAG_UNKNOWN
+
+    def _handle_tag_close_name(self):
+        tag = self._get_tag_type_from_stack()
+        if tag is None:
+            self._fail_route()
+        self._write(tokens.TagOpenOpen(type=tag, showtag=False))
 
-    def _handle_attribute_name(self):
-        ## check if next character is a ", if so, set TAG_ATTR_BODY_QUOTED
-        pass
+    # def _handle_attribute(self):
+    #     if not self._context & contexts.TAG_ATTR:
+    #         self._handle_tag_close_name()
 
-    def _handle_quoted_attribute_close(self):
-        pass
+    # def _handle_attribute_name(self):
+    #     ## check if next character is a ", if so, set TAG_ATTR_BODY_QUOTED
+    #     pass
+
+    # def _handle_quoted_attribute_close(self):
+    #     pass
 
     def _handle_tag_close_open(self):
-        pass  ## .padding
+        if not self._context & contexts.TAG_ATTR:
+            self._handle_tag_close_name()
+
+        self._context ^= contexts.TAG_OPEN  # also TAG_ATTR_*
+        self._context |= contexts.TAG_BODY
+
+        padding = ""                                                                # TODO
+        self._write(tokens.TagCloseOpen(padding=padding))
 
     def _handle_tag_selfclose(self):
-        pass  ## .padding
+        self._context ^= contexts.TAG_OPEN  # also TAG_ATTR_*
+        self._context |= contexts.TAG_BODY
 
-    def _handle_tag_close_open(self):
-        pass
+        padding = ""                                                                # TODO
+        self._write(tokens.TagCloseSelfclose(padding=padding))
+        self._pop()
+
+    def _handle_tag_open_close(self):
+        self._context ^= contexts.TAG_BODY
+        self._context |= contexts.TAG_CLOSE
+        self._write(tokens.TagOpenClose())
+        self._push()
+        self._head += 1
 
     def _handle_tag_close_close(self):
-        ## check that the closing name is the same as the opening name
-        pass  ## .padding
+        tag = self._get_tag_type_from_stack()
+        closing = self._pop()
+        if tag != self._stack[0].type:
+            # Closing and opening tags are not the same, so fail this route:
+            self._fail_route()
+        self._write_all(closing)
+        padding = ""                                                                # TODO
+        self._write(tokens.TagCloseClose(padding=padding))
+        return self._pop()
 
     def _parse(self, context=0):
         """Parse the wikicode string, using *context* for when to stop."""
@@ -485,7 +510,8 @@ class Tokenizer(object):
                 fail = (contexts.TEMPLATE | contexts.ARGUMENT |
                         contexts.WIKILINK | contexts.HEADING |
                         contexts.COMMENT | contexts.TAG)
-                if self._context & contexts.TEMPLATE_PARAM_KEY:
+                double_fail = contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE
+                if self._context & double_fail:
                     self._pop()
                 if self._context & fail:
                     self._fail_route()
@@ -538,27 +564,29 @@ class Tokenizer(object):
                     self._write_text(this)
             elif this == "<" and not self._context & (contexts.TAG ^ contexts.TAG_BODY):
                 self._parse_tag()
-            elif this == " " and (self._context & contexts.TAG_OPEN and not
-                                  self._context & contexts.TAG_ATTR_BODY_QUOTED):
-                self._handle_attribute()
-            elif this == "=" and self._context & contexts.TAG_ATTR_NAME:
-                self._handle_attribute_name()
-            elif this == '"' and self._context & contexts.TAG_ATTR_BODY_QUOTED:
-                self._handle_quoted_attribute_close()
+            # elif this == " " and (self._context & contexts.TAG_OPEN and not
+            #                       self._context & contexts.TAG_ATTR_BODY_QUOTED):
+            #     self._handle_attribute()
+            # elif this == "=" and self._context & contexts.TAG_ATTR_NAME:
+            #     self._handle_attribute_name()
+            # elif this == '"' and self._context & contexts.TAG_ATTR_BODY_QUOTED:
+            #     self._handle_quoted_attribute_close()
             elif this == "\n" and (self._context & contexts.TAG_OPEN and not
                                   self._context & contexts.TAG_ATTR_BODY_QUOTED):
+                if self._context & contexts.TAG_CLOSE:
+                    self._pop()
                 self._fail_route()
-            elif this == ">" and (self._context & contexts.TAG_ATTR_OPEN and not
+            elif this == ">" and (self._context & contexts.TAG_OPEN and not
                                   self._context & contexts.TAG_ATTR_BODY_QUOTED):
-                return self._handle_tag_close_open()
+                self._handle_tag_close_open()
             elif this == "/" and next == ">" and (
-                            self._context & contexts.TAG_ATTR_OPEN and not
+                            self._context & contexts.TAG_OPEN and not
                             self._context & contexts.TAG_ATTR_BODY_QUOTED):
                 return self._handle_tag_selfclose()
             elif this == "<" and next == "/" and self._context & contexts.TAG_BODY:
-                self._handle_tag_close_open()
+                self._handle_tag_open_close()
             elif this == ">" and self._context & contexts.TAG_CLOSE:
-                self._handle_tag_close_close()
+                return self._handle_tag_close_close()
             else:
                 self._write_text(this)
             self._head += 1

From 7e46601b1d358a09dfa8641b03d6bb2a5eeb63c3 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 9 Dec 2012 00:20:21 -0500
Subject: [PATCH 003/189] Tags should fully work now in tokenizer and builder.

Still need to do attributes.
---
 mwparserfromhell/nodes/tag.py        |  5 +--
 mwparserfromhell/parser/builder.py   |  2 ++
 mwparserfromhell/parser/tokenizer.py | 62 ++++++++++++++++++++----------------
 3 files changed, 39 insertions(+), 30 deletions(-)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index 681a17a..48effa1 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -70,8 +70,9 @@ class Tag(Node):
     TAG_POEM = 202
 
     # Lists of tags:
+    TAGS_ALL = set(range(300))
     TAGS_INVISIBLE = set((TAG_REF, TAG_GALLERY, TAG_MATH, TAG_NOINCLUDE))
-    TAGS_VISIBLE = set(range(300)) - TAGS_INVISIBLE
+    TAGS_VISIBLE = TAGS_ALL - TAGS_INVISIBLE
 
     TRANSLATIONS = {
         "i": TAG_ITALIC,
@@ -248,7 +249,7 @@ class Tag(Node):
     @type.setter
     def type(self, value):
         value = int(value)
-        if value not in self.TAGS_INVISIBLE | self.TAGS_VISIBLE:
+        if value not in self.TAGS_ALL:
             raise ValueError(value)
         self._type = value
 
diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index 61a8209..648842c 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -219,7 +219,9 @@ class Builder(object):
                            self_closing=True, open_padding=token.padding)
             elif isinstance(token, tokens.TagOpenClose):
                 contents = self._pop()
+                self._push()
             elif isinstance(token, tokens.TagCloseClose):
+                self._pop()
                 return Tag(type_, tag, contents, attrs, showtag, False,
                            open_pad, token.padding)
             else:
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 80d7610..2e72951 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -423,8 +423,8 @@ class Tokenizer(object):
 
     def _parse_tag(self):
         """Parse an HTML tag at the head of the wikicode string."""
-        self._head += 1
         reset = self._head
+        self._head += 1
         try:
             tokens = self._parse(contexts.TAG_OPEN)
         except BadRoute:
@@ -444,11 +444,24 @@ class Tokenizer(object):
         except KeyError:
             return Tag.TAG_UNKNOWN
 
-    def _handle_tag_close_name(self):
-        tag = self._get_tag_type_from_stack()
-        if tag is None:
-            self._fail_route()
-        self._write(tokens.TagOpenOpen(type=tag, showtag=False))
+    def _actually_close_tag_opening(self):
+        if self._context & contexts.TAG_ATTR:
+            if self._context & contexts.TAG_ATTR_BODY:
+                self._context ^= contexts.TAG_ATTR_BODY
+                if self._context & contexts.TAG_ATTR_BODY_QUOTED:
+                    self._context ^= contexts.TAG_ATTR_BODY_QUOTED
+            else:
+                self._context ^= contexts.TAG_ATTR_NAME
+        else:
+            tag = self._get_tag_type_from_stack()
+            if tag is None:
+                self._fail_route()
+            self._write_first(tokens.TagOpenOpen(type=tag, showtag=True))
+
+        self._context ^= contexts.TAG_OPEN
+        self._context |= contexts.TAG_BODY
+        padding = ""                                                                # TODO
+        return padding
 
     # def _handle_attribute(self):
     #     if not self._context & contexts.TAG_ATTR:
@@ -462,28 +475,18 @@ class Tokenizer(object):
     #     pass
 
     def _handle_tag_close_open(self):
-        if not self._context & contexts.TAG_ATTR:
-            self._handle_tag_close_name()
-
-        self._context ^= contexts.TAG_OPEN  # also TAG_ATTR_*
-        self._context |= contexts.TAG_BODY
-
-        padding = ""                                                                # TODO
+        padding = self._actually_close_tag_opening()
         self._write(tokens.TagCloseOpen(padding=padding))
 
     def _handle_tag_selfclose(self):
-        self._context ^= contexts.TAG_OPEN  # also TAG_ATTR_*
-        self._context |= contexts.TAG_BODY
-
-        padding = ""                                                                # TODO
+        padding = self._actually_close_tag_opening()
         self._write(tokens.TagCloseSelfclose(padding=padding))
-        self._pop()
+        self._head += 1
+        return self._pop()
 
     def _handle_tag_open_close(self):
-        self._context ^= contexts.TAG_BODY
-        self._context |= contexts.TAG_CLOSE
         self._write(tokens.TagOpenClose())
-        self._push()
+        self._push(contexts.TAG_CLOSE)
         self._head += 1
 
     def _handle_tag_close_close(self):
@@ -562,7 +565,8 @@ class Tokenizer(object):
                     self._parse_comment()
                 else:
                     self._write_text(this)
-            elif this == "<" and not self._context & (contexts.TAG ^ contexts.TAG_BODY):
+            elif this == "<" and next != "/" and (
+                    not self._context & (contexts.TAG ^ contexts.TAG_BODY)):
                 self._parse_tag()
             # elif this == " " and (self._context & contexts.TAG_OPEN and not
             #                       self._context & contexts.TAG_ATTR_BODY_QUOTED):
@@ -571,17 +575,19 @@ class Tokenizer(object):
             #     self._handle_attribute_name()
             # elif this == '"' and self._context & contexts.TAG_ATTR_BODY_QUOTED:
             #     self._handle_quoted_attribute_close()
-            elif this == "\n" and (self._context & contexts.TAG_OPEN and not
-                                  self._context & contexts.TAG_ATTR_BODY_QUOTED):
+            elif this == "\n" and (
+                                self._context & contexts.TAG_OPEN and not
+                                self._context & contexts.TAG_ATTR_BODY_QUOTED):
                 if self._context & contexts.TAG_CLOSE:
                     self._pop()
                 self._fail_route()
-            elif this == ">" and (self._context & contexts.TAG_OPEN and not
-                                  self._context & contexts.TAG_ATTR_BODY_QUOTED):
+            elif this == ">" and (
+                                self._context & contexts.TAG_OPEN and not
+                                self._context & contexts.TAG_ATTR_BODY_QUOTED):
                 self._handle_tag_close_open()
             elif this == "/" and next == ">" and (
-                            self._context & contexts.TAG_OPEN and not
-                            self._context & contexts.TAG_ATTR_BODY_QUOTED):
+                                self._context & contexts.TAG_OPEN and not
+                                self._context & contexts.TAG_ATTR_BODY_QUOTED):
                 return self._handle_tag_selfclose()
             elif this == "<" and next == "/" and self._context & contexts.TAG_BODY:
                 self._handle_tag_open_close()

From f78bcf832a08b81d7a9a03f344d2bd82bf97b6c0 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 9 Dec 2012 00:29:37 -0500
Subject: [PATCH 004/189] Keep .type and .tag synchronized in Tags when using
 their setters.

---
 mwparserfromhell/nodes/tag.py | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index 48effa1..b1eb133 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -252,10 +252,17 @@ class Tag(Node):
         if value not in self.TAGS_ALL:
             raise ValueError(value)
         self._type = value
+        for key in self.TRANSLATIONS:
+            if self.TRANSLATIONS[key] == value:
+                self._tag = parse_anything(key)
 
     @tag.setter
     def tag(self, value):
         self._tag = parse_anything(value)
+        try:
+            self._type = self.TRANSLATIONS[text]
+        except KeyError:
+            self._type = self.TAG_UNKNOWN
 
     @contents.setter
     def contents(self, value):

From 827c544721e223c2f9a5eaf90d5742b2d45de449 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 9 Dec 2012 01:38:45 -0500
Subject: [PATCH 005/189] Should correctly handle closing tags with strange
 spacing.

---
 mwparserfromhell/nodes/tag.py        | 29 ++++++++++++++++++-----------
 mwparserfromhell/parser/builder.py   |  3 +--
 mwparserfromhell/parser/tokenizer.py |  6 +++---
 3 files changed, 22 insertions(+), 16 deletions(-)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index b1eb133..1f3bdf9 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -111,7 +111,7 @@ class Tag(Node):
     }
 
     def __init__(self, type_, tag, contents=None, attrs=None, showtag=True,
-                 self_closing=False, open_padding="", close_padding=""):
+                 self_closing=False, open_padding="", closing_tag=None):
         super(Tag, self).__init__()
         self._type = type_
         self._tag = tag
@@ -123,7 +123,10 @@ class Tag(Node):
         self._showtag = showtag
         self._self_closing = self_closing
         self._open_padding = open_padding
-        self._close_padding = close_padding
+        if closing_tag:
+            self._closing_tag = closing_tag
+        else:
+            self._closing_tag = tag
 
     def __unicode__(self):
         if not self.showtag:
@@ -140,7 +143,7 @@ class Tag(Node):
             result += self.open_padding + "/>"
         else:
             result += self.open_padding + ">" + str(self.contents)
-            result += "</" + str(self.tag) + self.close_padding + ">"
+            result += "</" + self.closing_tag + ">"
         return result
 
     def __iternodes__(self, getter):
@@ -242,9 +245,13 @@ class Tag(Node):
         return self._open_padding
 
     @property
-    def close_padding(self):
-        """Spacing to insert before the last closing > (excl. self-closing)."""
-        return self._close_padding
+    def closing_tag(self):
+        """The closing tag, as a :py:class:`~.Wikicode` object.
+
+        This will usually equal :py:attr:`tag`, unless there is additional
+        spacing, comments, or the like.
+        """
+        return self._closing_tag
 
     @type.setter
     def type(self, value):
@@ -254,11 +261,11 @@ class Tag(Node):
         self._type = value
         for key in self.TRANSLATIONS:
             if self.TRANSLATIONS[key] == value:
-                self._tag = parse_anything(key)
+                self._tag = self._closing_tag = parse_anything(key)
 
     @tag.setter
     def tag(self, value):
-        self._tag = parse_anything(value)
+        self._tag = self._closing_tag = parse_anything(value)
         try:
             self._type = self.TRANSLATIONS[text]
         except KeyError:
@@ -280,6 +287,6 @@ class Tag(Node):
     def open_padding(self, value):
         self._open_padding = str(value)
 
-    @close_padding.setter
-    def close_padding(self, value):
-        self._close_padding = str(value)
+    @closing_tag.setter
+    def closing_tag(self, value):
+        self._closing_tag = parse_anything(value)
diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index 648842c..90274fa 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -221,9 +221,8 @@ class Builder(object):
                 contents = self._pop()
                 self._push()
             elif isinstance(token, tokens.TagCloseClose):
-                self._pop()
                 return Tag(type_, tag, contents, attrs, showtag, False,
-                           open_pad, token.padding)
+                           open_pad, self._pop())
             else:
                 self._write(self._handle_token(token))
 
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 2e72951..9e9465d 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -496,8 +496,7 @@ class Tokenizer(object):
             # Closing and opening tags are not the same, so fail this route:
             self._fail_route()
         self._write_all(closing)
-        padding = ""                                                                # TODO
-        self._write(tokens.TagCloseClose(padding=padding))
+        self._write(tokens.TagCloseClose())
         return self._pop()
 
     def _parse(self, context=0):
@@ -589,7 +588,8 @@ class Tokenizer(object):
                                 self._context & contexts.TAG_OPEN and not
                                 self._context & contexts.TAG_ATTR_BODY_QUOTED):
                 return self._handle_tag_selfclose()
-            elif this == "<" and next == "/" and self._context & contexts.TAG_BODY:
+            elif this == "<" and next == "/" and (
+                                        self._context & contexts.TAG_BODY):
                 self._handle_tag_open_close()
             elif this == ">" and self._context & contexts.TAG_CLOSE:
                 return self._handle_tag_close_close()

From a21c69fa1e0fc6111b98a5028e8c214f21139dd0 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 9 Dec 2012 01:47:41 -0500
Subject: [PATCH 006/189] Split off tag definitions into a new file.

---
 mwparserfromhell/nodes/tag.py | 104 ++-----------------------------------
 mwparserfromhell/tag_defs.py  | 118 ++++++++++++++++++++++++++++++++++++++++++
 2 files changed, 122 insertions(+), 100 deletions(-)
 create mode 100644 mwparserfromhell/tag_defs.py

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index 1f3bdf9..ea98bb6 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -24,92 +24,14 @@ from __future__ import unicode_literals
 
 from . import Node, Text
 from ..compat import str
+from ..tag_defs import TagDefinitions
 from ..utils import parse_anything
 
 __all__ = ["Tag"]
 
-class Tag(Node):
+class Tag(TagDefinitions, Node):
     """Represents an HTML-style tag in wikicode, like ``<ref>``."""
 
-    TAG_UNKNOWN = 0
-
-    # Basic HTML:
-    TAG_ITALIC = 1
-    TAG_BOLD = 2
-    TAG_UNDERLINE = 3
-    TAG_STRIKETHROUGH = 4
-    TAG_UNORDERED_LIST = 5
-    TAG_ORDERED_LIST = 6
-    TAG_DEF_TERM = 7
-    TAG_DEF_ITEM = 8
-    TAG_BLOCKQUOTE = 9
-    TAG_RULE = 10
-    TAG_BREAK = 11
-    TAG_ABBR = 12
-    TAG_PRE = 13
-    TAG_MONOSPACE = 14
-    TAG_CODE = 15
-    TAG_SPAN = 16
-    TAG_DIV = 17
-    TAG_FONT = 18
-    TAG_SMALL = 19
-    TAG_BIG = 20
-    TAG_CENTER = 21
-
-    # MediaWiki parser hooks:
-    TAG_REF = 101
-    TAG_GALLERY = 102
-    TAG_MATH = 103
-    TAG_NOWIKI = 104
-    TAG_NOINCLUDE = 105
-    TAG_INCLUDEONLY = 106
-    TAG_ONLYINCLUDE = 107
-
-    # Additional parser hooks:
-    TAG_SYNTAXHIGHLIGHT = 201
-    TAG_POEM = 202
-
-    # Lists of tags:
-    TAGS_ALL = set(range(300))
-    TAGS_INVISIBLE = set((TAG_REF, TAG_GALLERY, TAG_MATH, TAG_NOINCLUDE))
-    TAGS_VISIBLE = TAGS_ALL - TAGS_INVISIBLE
-
-    TRANSLATIONS = {
-        "i": TAG_ITALIC,
-        "em": TAG_ITALIC,
-        "b": TAG_BOLD,
-        "strong": TAG_BOLD,
-        "u": TAG_UNDERLINE,
-        "s": TAG_STRIKETHROUGH,
-        "ul": TAG_UNORDERED_LIST,
-        "ol": TAG_ORDERED_LIST,
-        "dt": TAG_DEF_TERM,
-        "dd": TAG_DEF_ITEM,
-        "blockquote": TAG_BLOCKQUOTE,
-        "hl": TAG_RULE,
-        "br": TAG_BREAK,
-        "abbr": TAG_ABBR,
-        "pre": TAG_PRE,
-        "tt": TAG_MONOSPACE,
-        "code": TAG_CODE,
-        "span": TAG_SPAN,
-        "div": TAG_DIV,
-        "font": TAG_FONT,
-        "small": TAG_SMALL,
-        "big": TAG_BIG,
-        "center": TAG_CENTER,
-        "ref": TAG_REF,
-        "gallery": TAG_GALLERY,
-        "math": TAG_MATH,
-        "nowiki": TAG_NOWIKI,
-        "noinclude": TAG_NOINCLUDE,
-        "includeonly": TAG_INCLUDEONLY,
-        "onlyinclude": TAG_ONLYINCLUDE,
-        "syntaxhighlight": TAG_SYNTAXHIGHLIGHT,
-        "source": TAG_SYNTAXHIGHLIGHT,
-        "poem": TAG_POEM,
-    }
-
     def __init__(self, type_, tag, contents=None, attrs=None, showtag=True,
                  self_closing=False, open_padding="", closing_tag=None):
         super(Tag, self).__init__()
@@ -130,7 +52,7 @@ class Tag(Node):
 
     def __unicode__(self):
         if not self.showtag:
-            open_, close = self._translate()
+            open_, close = self.WIKICODE[self.type]
             if self.self_closing:
                 return open_
             else:
@@ -188,24 +110,6 @@ class Tag(Node):
             get(self.tag)
             write(">")
 
-    def _translate(self):
-        """If the HTML-style tag has a wikicode representation, return that.
-
-        For example, ``<b>Foo</b>`` can be represented as ``'''Foo'''``. This
-        returns a tuple of the character starting the sequence and the
-        character ending it.
-        """
-        translations = {
-            self.TAG_ITALIC: ("''", "''"),
-            self.TAG_BOLD: ("'''", "'''"),
-            self.TAG_UNORDERED_LIST: ("*", ""),
-            self.TAG_ORDERED_LIST: ("#", ""),
-            self.TAG_DEF_TERM: (";", ""),
-            self.TAG_DEF_ITEM: (":", ""),
-            self.TAG_RULE: ("----", ""),
-        }
-        return translations[self.type]
-
     @property
     def type(self):
         """The tag type."""
@@ -241,7 +145,7 @@ class Tag(Node):
 
     @property
     def open_padding(self):
-        """Spacing to insert before the first closing >."""
+        """Spacing to insert before the first closing ``>``."""
         return self._open_padding
 
     @property
diff --git a/mwparserfromhell/tag_defs.py b/mwparserfromhell/tag_defs.py
new file mode 100644
index 0000000..74d3a81
--- /dev/null
+++ b/mwparserfromhell/tag_defs.py
@@ -0,0 +1,118 @@
+# -*- coding: utf-8  -*-
+#
+# Copyright (C) 2012 Ben Kurtovic <ben.kurtovic@verizon.net>
+#
+# Permission is hereby granted, free of charge, to any person obtaining a copy
+# of this software and associated documentation files (the "Software"), to deal
+# in the Software without restriction, including without limitation the rights
+# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+# copies of the Software, and to permit persons to whom the Software is
+# furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in
+# all copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+# SOFTWARE.
+
+from __future__ import unicode_literals
+
+class TagDefinitions(object):
+    """Contains numerical definitions for valid HTML (and wikicode) tags.
+
+    Base class for :py:class:`~.Tag` objects.
+    """
+
+    TAG_UNKNOWN = 0
+
+    # Basic HTML:
+    TAG_ITALIC = 1
+    TAG_BOLD = 2
+    TAG_UNDERLINE = 3
+    TAG_STRIKETHROUGH = 4
+    TAG_UNORDERED_LIST = 5
+    TAG_ORDERED_LIST = 6
+    TAG_DEF_TERM = 7
+    TAG_DEF_ITEM = 8
+    TAG_BLOCKQUOTE = 9
+    TAG_RULE = 10
+    TAG_BREAK = 11
+    TAG_ABBR = 12
+    TAG_PRE = 13
+    TAG_MONOSPACE = 14
+    TAG_CODE = 15
+    TAG_SPAN = 16
+    TAG_DIV = 17
+    TAG_FONT = 18
+    TAG_SMALL = 19
+    TAG_BIG = 20
+    TAG_CENTER = 21
+
+    # MediaWiki parser hooks:
+    TAG_REF = 101
+    TAG_GALLERY = 102
+    TAG_MATH = 103
+    TAG_NOWIKI = 104
+    TAG_NOINCLUDE = 105
+    TAG_INCLUDEONLY = 106
+    TAG_ONLYINCLUDE = 107
+
+    # Additional parser hooks:
+    TAG_SYNTAXHIGHLIGHT = 201
+    TAG_POEM = 202
+
+    # Lists of tags:
+    TAGS_ALL = set(range(300))
+    TAGS_INVISIBLE = {TAG_REF, TAG_GALLERY, TAG_MATH, TAG_NOINCLUDE}
+    TAGS_VISIBLE = TAGS_ALL - TAGS_INVISIBLE
+
+    TRANSLATIONS = {
+        "i": TAG_ITALIC,
+        "em": TAG_ITALIC,
+        "b": TAG_BOLD,
+        "strong": TAG_BOLD,
+        "u": TAG_UNDERLINE,
+        "s": TAG_STRIKETHROUGH,
+        "ul": TAG_UNORDERED_LIST,
+        "ol": TAG_ORDERED_LIST,
+        "dt": TAG_DEF_TERM,
+        "dd": TAG_DEF_ITEM,
+        "blockquote": TAG_BLOCKQUOTE,
+        "hl": TAG_RULE,
+        "br": TAG_BREAK,
+        "abbr": TAG_ABBR,
+        "pre": TAG_PRE,
+        "tt": TAG_MONOSPACE,
+        "code": TAG_CODE,
+        "span": TAG_SPAN,
+        "div": TAG_DIV,
+        "font": TAG_FONT,
+        "small": TAG_SMALL,
+        "big": TAG_BIG,
+        "center": TAG_CENTER,
+        "ref": TAG_REF,
+        "gallery": TAG_GALLERY,
+        "math": TAG_MATH,
+        "nowiki": TAG_NOWIKI,
+        "noinclude": TAG_NOINCLUDE,
+        "includeonly": TAG_INCLUDEONLY,
+        "onlyinclude": TAG_ONLYINCLUDE,
+        "syntaxhighlight": TAG_SYNTAXHIGHLIGHT,
+        "source": TAG_SYNTAXHIGHLIGHT,
+        "poem": TAG_POEM,
+    }
+
+    WIKICODE = {
+        TAG_ITALIC: ("''", "''"),
+        TAG_BOLD: ("'''", "'''"),
+        TAG_UNORDERED_LIST: ("*", ""),
+        TAG_ORDERED_LIST: ("#", ""),
+        TAG_DEF_TERM: (";", ""),
+        TAG_DEF_ITEM: (":", ""),
+        TAG_RULE: ("----", ""),
+    }

From 252cc13a998d60d8a8daf89dc3aa53e5f9bdde27 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 9 Dec 2012 02:01:23 -0500
Subject: [PATCH 007/189] Move repeated context checks into one block in
 Tokenizer._parse().

---
 mwparserfromhell/parser/tokenizer.py | 26 ++++++++++++--------------
 1 file changed, 12 insertions(+), 14 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 9e9465d..99f5a7b 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -574,20 +574,18 @@ class Tokenizer(object):
             #     self._handle_attribute_name()
             # elif this == '"' and self._context & contexts.TAG_ATTR_BODY_QUOTED:
             #     self._handle_quoted_attribute_close()
-            elif this == "\n" and (
-                                self._context & contexts.TAG_OPEN and not
-                                self._context & contexts.TAG_ATTR_BODY_QUOTED):
-                if self._context & contexts.TAG_CLOSE:
-                    self._pop()
-                self._fail_route()
-            elif this == ">" and (
-                                self._context & contexts.TAG_OPEN and not
-                                self._context & contexts.TAG_ATTR_BODY_QUOTED):
-                self._handle_tag_close_open()
-            elif this == "/" and next == ">" and (
-                                self._context & contexts.TAG_OPEN and not
-                                self._context & contexts.TAG_ATTR_BODY_QUOTED):
-                return self._handle_tag_selfclose()
+            elif self._context & contexts.TAG_OPEN and (
+                            not self._context & contexts.TAG_ATTR_BODY_QUOTED):
+                if this == "\n":
+                    if self._context & contexts.TAG_CLOSE:
+                        self._pop()
+                    self._fail_route()
+                elif this == ">":
+                    self._handle_tag_close_open()
+                elif this == "/":
+                    return self._handle_tag_selfclose()
+                else:
+                    self._write_text(this)
             elif this == "<" and next == "/" and (
                                         self._context & contexts.TAG_BODY):
                 self._handle_tag_open_close()

From d9f23b8faaedb94d667372fb2a892307cf15a38a Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 22 Dec 2012 21:58:21 -0500
Subject: [PATCH 008/189] Really basic, messy, and fragile tag attribute
 support.

---
 mwparserfromhell/parser/contexts.py  | 73 +++++++++++++++++++-----------------
 mwparserfromhell/parser/tokenizer.py | 65 ++++++++++++++++++--------------
 2 files changed, 75 insertions(+), 63 deletions(-)

diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index a67bd76..053c930 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -65,11 +65,13 @@ Local (stack-specific) contexts:
 * :py:const:`TAG`
 
     * :py:const:`TAG_OPEN`
-    * :py:const:`TAG_ATTR`
 
-        * :py:const:`TAG_ATTR_NAME`
-        * :py:const:`TAG_ATTR_BODY`
-        * :py:const:`TAG_ATTR_BODY_QUOTED`
+        * :py:const:`TAG_OPEN_NAME`
+        * :py:const:`TAG_OPEN_ATTR`
+
+            * :py:const:`TAG_OPEN_ATTR_NAME`
+            * :py:const:`TAG_OPEN_ATTR_BODY`
+            * :py:const:`TAG_OPEN_ATTR_BODY_QUOTED`
 
     * :py:const:`TAG_BODY`
     * :py:const:`TAG_CLOSE`
@@ -81,37 +83,38 @@ Global contexts:
 
 # Local contexts:
 
-TEMPLATE =              0b00000000000000000111
-TEMPLATE_NAME =         0b00000000000000000001
-TEMPLATE_PARAM_KEY =    0b00000000000000000010
-TEMPLATE_PARAM_VALUE =  0b00000000000000000100
-
-ARGUMENT =              0b00000000000000011000
-ARGUMENT_NAME =         0b00000000000000001000
-ARGUMENT_DEFAULT =      0b00000000000000010000
-
-WIKILINK =              0b00000000000001100000
-WIKILINK_TITLE =        0b00000000000000100000
-WIKILINK_TEXT =         0b00000000000001000000
-
-HEADING =               0b00000001111110000000
-HEADING_LEVEL_1 =       0b00000000000010000000
-HEADING_LEVEL_2 =       0b00000000000100000000
-HEADING_LEVEL_3 =       0b00000000001000000000
-HEADING_LEVEL_4 =       0b00000000010000000000
-HEADING_LEVEL_5 =       0b00000000100000000000
-HEADING_LEVEL_6 =       0b00000001000000000000
-
-COMMENT =               0b00000010000000000000
-
-TAG =                   0b11111100000000000000
-TAG_OPEN =              0b00000100000000000000
-TAG_ATTR =              0b00111000000000000000
-TAG_ATTR_NAME =         0b00001000000000000000
-TAG_ATTR_BODY =         0b00010000000000000000
-TAG_ATTR_BODY_QUOTED =  0b00100000000000000000
-TAG_BODY =              0b01000000000000000000
-TAG_CLOSE =             0b10000000000000000000
+TEMPLATE =                  0b00000000000000000111
+TEMPLATE_NAME =             0b00000000000000000001
+TEMPLATE_PARAM_KEY =        0b00000000000000000010
+TEMPLATE_PARAM_VALUE =      0b00000000000000000100
+
+ARGUMENT =                  0b00000000000000011000
+ARGUMENT_NAME =             0b00000000000000001000
+ARGUMENT_DEFAULT =          0b00000000000000010000
+
+WIKILINK =                  0b00000000000001100000
+WIKILINK_TITLE =            0b00000000000000100000
+WIKILINK_TEXT =             0b00000000000001000000
+
+HEADING =                   0b00000001111110000000
+HEADING_LEVEL_1 =           0b00000000000010000000
+HEADING_LEVEL_2 =           0b00000000000100000000
+HEADING_LEVEL_3 =           0b00000000001000000000
+HEADING_LEVEL_4 =           0b00000000010000000000
+HEADING_LEVEL_5 =           0b00000000100000000000
+HEADING_LEVEL_6 =           0b00000001000000000000
+
+COMMENT =                   0b00000010000000000000
+
+TAG =                       0b11111100000000000000
+TAG_OPEN =                  0b00111100000000000000
+TAG_OPEN_NAME =             0b00000100000000000000
+TAG_OPEN_ATTR =             0b00111000000000000000
+TAG_OPEN_ATTR_NAME =        0b00001000000000000000
+TAG_OPEN_ATTR_BODY =        0b00010000000000000000
+TAG_OPEN_ATTR_BODY_QUOTED = 0b00100000000000000000
+TAG_BODY =                  0b01000000000000000000
+TAG_CLOSE =                 0b10000000000000000000
 
 
 # Global contexts:
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 99f5a7b..f65cbc1 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -426,7 +426,7 @@ class Tokenizer(object):
         reset = self._head
         self._head += 1
         try:
-            tokens = self._parse(contexts.TAG_OPEN)
+            tokens = self._parse(contexts.TAG_OPEN_NAME)
         except BadRoute:
             self._head = reset
             self._write_text("<")
@@ -438,34 +438,48 @@ class Tokenizer(object):
         if not self._stack:
             return None  # Tag has an empty name?
         text = [tok for tok in self._stack if isinstance(tok, tokens.Text)]
-        text = "".join([token.text for token in text]).strip().lower()
+        text = "".join([token.text for token in text]).rstrip().lower()
         try:
             return Tag.TRANSLATIONS[text]
         except KeyError:
             return Tag.TAG_UNKNOWN
 
     def _actually_close_tag_opening(self):
-        if self._context & contexts.TAG_ATTR:
-            if self._context & contexts.TAG_ATTR_BODY:
-                self._context ^= contexts.TAG_ATTR_BODY
-                if self._context & contexts.TAG_ATTR_BODY_QUOTED:
-                    self._context ^= contexts.TAG_ATTR_BODY_QUOTED
-            else:
-                self._context ^= contexts.TAG_ATTR_NAME
+        if self._context & contexts.TAG_OPEN_ATTR:
+            if self._context & contexts.TAG_OPEN_ATTR_NAME:
+                self._context ^= contexts.TAG_OPEN_ATTR_NAME
+            if self._context & contexts.TAG_OPEN_ATTR_BODY:
+                self._context ^= contexts.TAG_OPEN_ATTR_BODY
+                if self._context & contexts.TAG_OPEN_ATTR_BODY_QUOTED:
+                    self._context ^= contexts.TAG_OPEN_ATTR_BODY_QUOTED
         else:
             tag = self._get_tag_type_from_stack()
-            if tag is None:
+            if not tag:
                 self._fail_route()
             self._write_first(tokens.TagOpenOpen(type=tag, showtag=True))
-
-        self._context ^= contexts.TAG_OPEN
+            self._context ^= contexts.TAG_OPEN_NAME
         self._context |= contexts.TAG_BODY
         padding = ""                                                                # TODO
         return padding
 
-    # def _handle_attribute(self):
-    #     if not self._context & contexts.TAG_ATTR:
-    #         self._handle_tag_close_name()
+    def _handle_tag_chunk(self, text):
+        if " " not in text:
+            self._write_text(text)
+            return
+        chunks = text.split(" ")
+        if self._context & contexts.TAG_OPEN_NAME:
+            self._write_text(chunks.pop(0))
+            tag = self._get_tag_type_from_stack()
+            if not tag:
+                self._fail_route()
+            self._write_first(tokens.TagOpenOpen(type=tag, showtag=True))
+            self._context ^= contexts.TAG_OPEN_NAME
+            self._context |= contexts.TAG_OPEN_ATTR_NAME
+            self._write(tokens.TagAttrStart())
+        for i, chunk in enumerate(chunks):
+            if i > 0:
+                self._write(tokens.TagAttrStart())
+            self._write_text(chunk)
 
     # def _handle_attribute_name(self):
     #     ## check if next character is a ", if so, set TAG_ATTR_BODY_QUOTED
@@ -505,7 +519,10 @@ class Tokenizer(object):
         while True:
             this = self._read()
             if this not in self.MARKERS:
-                self._write_text(this)
+                if self._context & contexts.TAG_OPEN:
+                    self._handle_tag_chunk(this)
+                else:
+                    self._write_text(this)
                 self._head += 1
                 continue
             if this is self.END:
@@ -567,25 +584,17 @@ class Tokenizer(object):
             elif this == "<" and next != "/" and (
                     not self._context & (contexts.TAG ^ contexts.TAG_BODY)):
                 self._parse_tag()
-            # elif this == " " and (self._context & contexts.TAG_OPEN and not
-            #                       self._context & contexts.TAG_ATTR_BODY_QUOTED):
-            #     self._handle_attribute()
-            # elif this == "=" and self._context & contexts.TAG_ATTR_NAME:
-            #     self._handle_attribute_name()
-            # elif this == '"' and self._context & contexts.TAG_ATTR_BODY_QUOTED:
-            #     self._handle_quoted_attribute_close()
-            elif self._context & contexts.TAG_OPEN and (
-                            not self._context & contexts.TAG_ATTR_BODY_QUOTED):
+            elif self._context & (contexts.TAG_OPEN ^ contexts.TAG_OPEN_ATTR_BODY_QUOTED):
                 if this == "\n":
                     if self._context & contexts.TAG_CLOSE:
                         self._pop()
                     self._fail_route()
                 elif this == ">":
                     self._handle_tag_close_open()
-                elif this == "/":
+                elif this == "/" and next == ">":
                     return self._handle_tag_selfclose()
-                else:
-                    self._write_text(this)
+                # elif this == "=":
+                #     self._handle_tag_attr_body()
             elif this == "<" and next == "/" and (
                                         self._context & contexts.TAG_BODY):
                 self._handle_tag_open_close()

From d459899649362773ca0db16da37bebfc1f3ce180 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 23 Dec 2012 18:38:31 -0500
Subject: [PATCH 009/189] More attribute stuff.

---
 mwparserfromhell/parser/builder.py   | 10 +++---
 mwparserfromhell/parser/tokenizer.py | 65 +++++++++++++++++++++++++-----------
 2 files changed, 50 insertions(+), 25 deletions(-)

diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index 90274fa..cb5499f 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -180,9 +180,9 @@ class Builder(object):
             else:
                 self._write(self._handle_token(token))
 
-    def _handle_attribute(self):
+    def _handle_attribute(self, token):
         """Handle a case where a tag attribute is at the head of the tokens."""
-        name, quoted = None, False
+        name, quoted, padding = None, False, token.padding
         self._push()
         while self._tokens:
             token = self._tokens.pop()
@@ -195,8 +195,8 @@ class Builder(object):
                                     tokens.TagCloseOpen)):
                 self._tokens.append(token)
                 if name is not None:
-                    return Attribute(name, self._pop(), quoted)
-                return Attribute(self._pop(), quoted=quoted)
+                    return Attribute(name, self._pop(), quoted, padding)
+                return Attribute(self._pop(), quoted=quoted, padding=padding)
             else:
                 self._write(self._handle_token(token))
 
@@ -208,7 +208,7 @@ class Builder(object):
         while self._tokens:
             token = self._tokens.pop()
             if isinstance(token, tokens.TagAttrStart):
-                attrs.append(self._handle_attribute())
+                attrs.append(self._handle_attribute(token))
             elif isinstance(token, tokens.TagCloseOpen):
                 open_pad = token.padding
                 tag = self._pop()
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index f65cbc1..d3cb40f 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -450,8 +450,6 @@ class Tokenizer(object):
                 self._context ^= contexts.TAG_OPEN_ATTR_NAME
             if self._context & contexts.TAG_OPEN_ATTR_BODY:
                 self._context ^= contexts.TAG_OPEN_ATTR_BODY
-                if self._context & contexts.TAG_OPEN_ATTR_BODY_QUOTED:
-                    self._context ^= contexts.TAG_OPEN_ATTR_BODY_QUOTED
         else:
             tag = self._get_tag_type_from_stack()
             if not tag:
@@ -462,6 +460,20 @@ class Tokenizer(object):
         padding = ""                                                                # TODO
         return padding
 
+    def _actually_handle_chunk(self, chunks, is_new):
+        if is_new:
+            padding = 0
+            while chunks:
+                if chunks[0] == "":
+                    padding += 1
+                    chunks.pop(0)
+                else:
+                    break
+            self._write(tokens.TagAttrStart(padding=" " * padding))
+        if chunks:
+            chunk = chunks.pop(0)
+            self._write_text(chunk)
+
     def _handle_tag_chunk(self, text):
         if " " not in text:
             self._write_text(text)
@@ -475,18 +487,29 @@ class Tokenizer(object):
             self._write_first(tokens.TagOpenOpen(type=tag, showtag=True))
             self._context ^= contexts.TAG_OPEN_NAME
             self._context |= contexts.TAG_OPEN_ATTR_NAME
-            self._write(tokens.TagAttrStart())
-        for i, chunk in enumerate(chunks):
-            if i > 0:
-                self._write(tokens.TagAttrStart())
-            self._write_text(chunk)
-
-    # def _handle_attribute_name(self):
-    #     ## check if next character is a ", if so, set TAG_ATTR_BODY_QUOTED
-    #     pass
-
-    # def _handle_quoted_attribute_close(self):
-    #     pass
+            self._actually_handle_chunk(chunks, True)
+        is_new = False
+        while chunks:
+            self._actually_handle_chunk(chunks, is_new)
+            is_new = True
+
+    def _handle_tag_attribute_body(self):
+        self._context ^= contexts.TAG_OPEN_ATTR_NAME
+        self._context |= contexts.TAG_OPEN_ATTR_BODY
+        self._write(TagAttrEquals())
+        next = self._read(1)
+        if next not in self.MARKERS and next.startswith('"'):
+            if re.search(r'[^\\]"$', next[1:]):
+                if not re.search(r'[^\\]"', next[1:-1]):
+                    self._write(TagAttrQuote())
+                    self._write_text(next[1:-1])
+                    self._head += 1
+            else:
+                if not re.search(r'[^\\]"', next[1:]):
+                    self._push(contexts.TAG_OPEN_ATTR_BODY_QUOTED)
+                    self._write(TagAttrQuote())
+                    self._write_text(next[1:])
+                    self._head += 1
 
     def _handle_tag_close_open(self):
         padding = self._actually_close_tag_opening()
@@ -526,10 +549,12 @@ class Tokenizer(object):
                 self._head += 1
                 continue
             if this is self.END:
-                fail = (contexts.TEMPLATE | contexts.ARGUMENT |
-                        contexts.WIKILINK | contexts.HEADING |
-                        contexts.COMMENT | contexts.TAG)
-                double_fail = contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE
+                fail = (
+                    contexts.TEMPLATE | contexts.ARGUMENT | contexts.WIKILINK |
+                    contexts.HEADING | contexts.COMMENT | contexts.TAG)
+                double_fail = (
+                    contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE |
+                    contexts.TAG_OPEN_ATTR_BODY_QUOTED)
                 if self._context & double_fail:
                     self._pop()
                 if self._context & fail:
@@ -593,8 +618,8 @@ class Tokenizer(object):
                     self._handle_tag_close_open()
                 elif this == "/" and next == ">":
                     return self._handle_tag_selfclose()
-                # elif this == "=":
-                #     self._handle_tag_attr_body()
+                elif this == "=":
+                    self._handle_tag_attribute_body()
             elif this == "<" and next == "/" and (
                                         self._context & contexts.TAG_BODY):
                 self._handle_tag_open_close()

From 26d30f3d1a8c0caca854f7040d07555c6f794b0f Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 23 Dec 2012 19:18:09 -0500
Subject: [PATCH 010/189] Seems to be working for quoted attributes now.

---
 mwparserfromhell/parser/tokenizer.py | 40 ++++++++++++++++++++++++++++--------
 1 file changed, 31 insertions(+), 9 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index d3cb40f..920d1cf 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -461,7 +461,7 @@ class Tokenizer(object):
         return padding
 
     def _actually_handle_chunk(self, chunks, is_new):
-        if is_new:
+        if is_new and not self._context & contexts.TAG_OPEN_ATTR_BODY_QUOTED:
             padding = 0
             while chunks:
                 if chunks[0] == "":
@@ -472,6 +472,15 @@ class Tokenizer(object):
             self._write(tokens.TagAttrStart(padding=" " * padding))
         if chunks:
             chunk = chunks.pop(0)
+            if self._context & contexts.TAG_OPEN_ATTR_BODY:
+                self._context ^= contexts.TAG_OPEN_ATTR_BODY
+                self._context |= contexts.TAG_OPEN_ATTR_NAME
+            if self._context & contexts.TAG_OPEN_ATTR_BODY_QUOTED:
+                if re.search(r'[^\\]"', chunk[:-1]):
+                    self._fail_route()
+                if re.search(r'[^\\]"$', chunk):
+                    self._write_text(chunk[:-1])
+                    return self._pop()  # Back to _handle_tag_attribute_body()
             self._write_text(chunk)
 
     def _handle_tag_chunk(self, text):
@@ -490,26 +499,35 @@ class Tokenizer(object):
             self._actually_handle_chunk(chunks, True)
         is_new = False
         while chunks:
-            self._actually_handle_chunk(chunks, is_new)
+            should_exit = self._actually_handle_chunk(chunks, is_new)
+            if should_exit:
+                return should_exit
             is_new = True
 
     def _handle_tag_attribute_body(self):
         self._context ^= contexts.TAG_OPEN_ATTR_NAME
         self._context |= contexts.TAG_OPEN_ATTR_BODY
-        self._write(TagAttrEquals())
+        self._write(tokens.TagAttrEquals())
         next = self._read(1)
         if next not in self.MARKERS and next.startswith('"'):
             if re.search(r'[^\\]"$', next[1:]):
                 if not re.search(r'[^\\]"', next[1:-1]):
-                    self._write(TagAttrQuote())
+                    self._write(tokens.TagAttrQuote())
                     self._write_text(next[1:-1])
                     self._head += 1
             else:
                 if not re.search(r'[^\\]"', next[1:]):
-                    self._push(contexts.TAG_OPEN_ATTR_BODY_QUOTED)
-                    self._write(TagAttrQuote())
-                    self._write_text(next[1:])
                     self._head += 1
+                    reset = self._head
+                    try:
+                        attr = self._parse(contexts.TAG_OPEN_ATTR_BODY_QUOTED)
+                    except BadRoute:
+                        self._head = reset
+                        self._write_text(next)
+                    else:
+                        self._write(tokens.TagAttrQuote())
+                        self._write_text(next[1:])
+                        self._write_all(attr)
 
     def _handle_tag_close_open(self):
         padding = self._actually_close_tag_opening()
@@ -543,7 +561,9 @@ class Tokenizer(object):
             this = self._read()
             if this not in self.MARKERS:
                 if self._context & contexts.TAG_OPEN:
-                    self._handle_tag_chunk(this)
+                    should_exit = self._handle_tag_chunk(this)
+                    if should_exit:
+                        return should_exit
                 else:
                     self._write_text(this)
                 self._head += 1
@@ -593,6 +613,8 @@ class Tokenizer(object):
             elif this == "=" and not self._global & contexts.GL_HEADING:
                 if self._read(-1) in ("\n", self.START):
                     self._parse_heading()
+                elif self._context & contexts.TAG_OPEN_ATTR_NAME:
+                    self._handle_tag_attribute_body()
                 else:
                     self._write_text("=")
             elif this == "=" and self._context & contexts.HEADING:
@@ -618,7 +640,7 @@ class Tokenizer(object):
                     self._handle_tag_close_open()
                 elif this == "/" and next == ">":
                     return self._handle_tag_selfclose()
-                elif this == "=":
+                elif this == "=" and self._context & contexts.TAG_OPEN_ATTR_NAME:
                     self._handle_tag_attribute_body()
             elif this == "<" and next == "/" and (
                                         self._context & contexts.TAG_BODY):

From ca47305074aa04585d29dd91f346079e57156f53 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 23 Dec 2012 21:35:48 -0500
Subject: [PATCH 011/189] Fix attribute behavior under certain strange
 circumstances.

---
 mwparserfromhell/parser/tokenizer.py | 22 ++++++++++++++++++----
 1 file changed, 18 insertions(+), 4 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 920d1cf..46c4399 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -470,6 +470,7 @@ class Tokenizer(object):
                 else:
                     break
             self._write(tokens.TagAttrStart(padding=" " * padding))
+
         if chunks:
             chunk = chunks.pop(0)
             if self._context & contexts.TAG_OPEN_ATTR_BODY:
@@ -480,7 +481,9 @@ class Tokenizer(object):
                     self._fail_route()
                 if re.search(r'[^\\]"$', chunk):
                     self._write_text(chunk[:-1])
-                    return self._pop()  # Back to _handle_tag_attribute_body()
+                    self._context ^= contexts.TAG_OPEN_ATTR_BODY_QUOTED
+                    self._context |= contexts.TAG_OPEN_ATTR_NAME
+                    return True  # Back to _handle_tag_attribute_body()
             self._write_text(chunk)
 
     def _handle_tag_chunk(self, text):
@@ -497,12 +500,15 @@ class Tokenizer(object):
             self._context ^= contexts.TAG_OPEN_NAME
             self._context |= contexts.TAG_OPEN_ATTR_NAME
             self._actually_handle_chunk(chunks, True)
+
         is_new = False
+        is_quoted = False
         while chunks:
-            should_exit = self._actually_handle_chunk(chunks, is_new)
-            if should_exit:
-                return should_exit
+            result = self._actually_handle_chunk(chunks, is_new)
+            is_quoted = result or is_quoted
             is_new = True
+        if is_quoted:
+            return self._pop()
 
     def _handle_tag_attribute_body(self):
         self._context ^= contexts.TAG_OPEN_ATTR_NAME
@@ -510,6 +516,10 @@ class Tokenizer(object):
         self._write(tokens.TagAttrEquals())
         next = self._read(1)
         if next not in self.MARKERS and next.startswith('"'):
+            chunks = None
+            if " " in next:
+                chunks = next.split(" ")
+                next = chunks.pop(0)
             if re.search(r'[^\\]"$', next[1:]):
                 if not re.search(r'[^\\]"', next[1:-1]):
                     self._write(tokens.TagAttrQuote())
@@ -528,6 +538,10 @@ class Tokenizer(object):
                         self._write(tokens.TagAttrQuote())
                         self._write_text(next[1:])
                         self._write_all(attr)
+            self._context ^= contexts.TAG_OPEN_ATTR_BODY
+            self._context |= contexts.TAG_OPEN_ATTR_NAME
+            while chunks:
+                self._actually_handle_chunk(chunks, True)
 
     def _handle_tag_close_open(self):
         padding = self._actually_close_tag_opening()

From 146d1fd006c32b4a71312cd966c3e124592bce92 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 23 Dec 2012 21:44:56 -0500
Subject: [PATCH 012/189] Fix a bug in rendering Tags; attrs->attributes;
 update documentation.

---
 docs/api/mwparserfromhell.nodes.rst | 1 +
 docs/api/mwparserfromhell.rst       | 6 ++++++
 mwparserfromhell/nodes/tag.py       | 4 ++--
 3 files changed, 9 insertions(+), 2 deletions(-)

diff --git a/docs/api/mwparserfromhell.nodes.rst b/docs/api/mwparserfromhell.nodes.rst
index d1016f9..a093c17 100644
--- a/docs/api/mwparserfromhell.nodes.rst
+++ b/docs/api/mwparserfromhell.nodes.rst
@@ -46,6 +46,7 @@ nodes Package
 
 .. automodule:: mwparserfromhell.nodes.tag
     :members:
+    :undoc-members:
     :show-inheritance:
 
 :mod:`template` Module
diff --git a/docs/api/mwparserfromhell.rst b/docs/api/mwparserfromhell.rst
index 3ca09c9..b682139 100644
--- a/docs/api/mwparserfromhell.rst
+++ b/docs/api/mwparserfromhell.rst
@@ -30,6 +30,12 @@ mwparserfromhell Package
     :members:
     :undoc-members:
 
+:mod:`tag_defs` Module
+----------------------
+
+.. automodule:: mwparserfromhell.tag_defs
+    :members:
+
 :mod:`utils` Module
 -------------------
 
diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index ea98bb6..833b597 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -65,7 +65,7 @@ class Tag(TagDefinitions, Node):
             result += self.open_padding + "/>"
         else:
             result += self.open_padding + ">" + str(self.contents)
-            result += "</" + self.closing_tag + ">"
+            result += "</" + str(self.closing_tag) + ">"
         return result
 
     def __iternodes__(self, getter):
@@ -126,7 +126,7 @@ class Tag(TagDefinitions, Node):
         return self._contents
 
     @property
-    def attrs(self):
+    def attributes(self):
         """The list of attributes affecting the tag.
 
         Each attribute is an instance of :py:class:`~.Attribute`.

From a58c480639119b2cd3c78eee8dfe0893fa6360fc Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 23 Dec 2012 22:23:31 -0500
Subject: [PATCH 013/189] Fix some usage of attrs; shorten a context, fix some
 behavior I broke.

---
 mwparserfromhell/nodes/tag.py        | 11 +++---
 mwparserfromhell/parser/contexts.py  | 68 +++++++++++++++++++-----------------
 mwparserfromhell/parser/tokenizer.py | 29 +++++++++------
 3 files changed, 60 insertions(+), 48 deletions(-)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index 833b597..94f92c5 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -59,8 +59,8 @@ class Tag(TagDefinitions, Node):
                 return open_ + str(self.contents) + close
 
         result = "<" + str(self.tag)
-        if self.attrs:
-            result += " " + " ".join([str(attr) for attr in self.attrs])
+        if self.attributes:
+            result += " " + " ".join([str(attr) for attr in self.attributes])
         if self.self_closing:
             result += self.open_padding + "/>"
         else:
@@ -73,7 +73,7 @@ class Tag(TagDefinitions, Node):
         if self.showtag:
             for child in getter(self.tag):
                 yield self.tag, child
-            for attr in self.attrs:
+            for attr in self.attributes:
                 for child in getter(attr.name):
                     yield attr.name, child
                 if attr.value:
@@ -89,12 +89,13 @@ class Tag(TagDefinitions, Node):
 
     def __showtree__(self, write, get, mark):
         tagnodes = self.tag.nodes
-        if (not self.attrs and len(tagnodes) == 1 and isinstance(tagnodes[0], Text)):
+        if not self.attributes and (len(tagnodes) == 1 and
+                                    isinstance(tagnodes[0], Text)):
             write("<" + str(tagnodes[0]) + ">")
         else:
             write("<")
             get(self.tag)
-            for attr in self.attrs:
+            for attr in self.attributes:
                 get(attr.name)
                 if not attr.value:
                     continue
diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index 053c930..d87da9a 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -71,7 +71,8 @@ Local (stack-specific) contexts:
 
             * :py:const:`TAG_OPEN_ATTR_NAME`
             * :py:const:`TAG_OPEN_ATTR_BODY`
-            * :py:const:`TAG_OPEN_ATTR_BODY_QUOTED`
+            * :py:const:`TAG_OPEN_ATTR_QUOTED`
+            * :py:const:`TAG_OPEN_ATTR_IGNORE`
 
     * :py:const:`TAG_BODY`
     * :py:const:`TAG_CLOSE`
@@ -83,38 +84,39 @@ Global contexts:
 
 # Local contexts:
 
-TEMPLATE =                  0b00000000000000000111
-TEMPLATE_NAME =             0b00000000000000000001
-TEMPLATE_PARAM_KEY =        0b00000000000000000010
-TEMPLATE_PARAM_VALUE =      0b00000000000000000100
-
-ARGUMENT =                  0b00000000000000011000
-ARGUMENT_NAME =             0b00000000000000001000
-ARGUMENT_DEFAULT =          0b00000000000000010000
-
-WIKILINK =                  0b00000000000001100000
-WIKILINK_TITLE =            0b00000000000000100000
-WIKILINK_TEXT =             0b00000000000001000000
-
-HEADING =                   0b00000001111110000000
-HEADING_LEVEL_1 =           0b00000000000010000000
-HEADING_LEVEL_2 =           0b00000000000100000000
-HEADING_LEVEL_3 =           0b00000000001000000000
-HEADING_LEVEL_4 =           0b00000000010000000000
-HEADING_LEVEL_5 =           0b00000000100000000000
-HEADING_LEVEL_6 =           0b00000001000000000000
-
-COMMENT =                   0b00000010000000000000
-
-TAG =                       0b11111100000000000000
-TAG_OPEN =                  0b00111100000000000000
-TAG_OPEN_NAME =             0b00000100000000000000
-TAG_OPEN_ATTR =             0b00111000000000000000
-TAG_OPEN_ATTR_NAME =        0b00001000000000000000
-TAG_OPEN_ATTR_BODY =        0b00010000000000000000
-TAG_OPEN_ATTR_BODY_QUOTED = 0b00100000000000000000
-TAG_BODY =                  0b01000000000000000000
-TAG_CLOSE =                 0b10000000000000000000
+TEMPLATE =             0b000000000000000000111
+TEMPLATE_NAME =        0b000000000000000000001
+TEMPLATE_PARAM_KEY =   0b000000000000000000010
+TEMPLATE_PARAM_VALUE = 0b000000000000000000100
+
+ARGUMENT =             0b000000000000000011000
+ARGUMENT_NAME =        0b000000000000000001000
+ARGUMENT_DEFAULT =     0b000000000000000010000
+
+WIKILINK =             0b000000000000001100000
+WIKILINK_TITLE =       0b000000000000000100000
+WIKILINK_TEXT =        0b000000000000001000000
+
+HEADING =              0b000000001111110000000
+HEADING_LEVEL_1 =      0b000000000000010000000
+HEADING_LEVEL_2 =      0b000000000000100000000
+HEADING_LEVEL_3 =      0b000000000001000000000
+HEADING_LEVEL_4 =      0b000000000010000000000
+HEADING_LEVEL_5 =      0b000000000100000000000
+HEADING_LEVEL_6 =      0b000000001000000000000
+
+COMMENT =              0b000000010000000000000
+
+TAG =                  0b111111100000000000000
+TAG_OPEN =             0b001111100000000000000
+TAG_OPEN_NAME =        0b000000100000000000000
+TAG_OPEN_ATTR =        0b001111000000000000000
+TAG_OPEN_ATTR_NAME =   0b000001000000000000000
+TAG_OPEN_ATTR_BODY =   0b000010000000000000000
+TAG_OPEN_ATTR_QUOTED = 0b000100000000000000000
+TAG_OPEN_ATTR_IGNORE = 0b001000000000000000000
+TAG_BODY =             0b010000000000000000000
+TAG_CLOSE =            0b100000000000000000000
 
 
 # Global contexts:
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 46c4399..1d31fa4 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -457,11 +457,13 @@ class Tokenizer(object):
             self._write_first(tokens.TagOpenOpen(type=tag, showtag=True))
             self._context ^= contexts.TAG_OPEN_NAME
         self._context |= contexts.TAG_BODY
-        padding = ""                                                                # TODO
+
+        ## If the last element was TagAttrStart, remove it, add " " to its padding, then return that
+        padding = ""
         return padding
 
     def _actually_handle_chunk(self, chunks, is_new):
-        if is_new and not self._context & contexts.TAG_OPEN_ATTR_BODY_QUOTED:
+        if is_new and not self._context & contexts.TAG_OPEN_ATTR_QUOTED:
             padding = 0
             while chunks:
                 if chunks[0] == "":
@@ -470,18 +472,24 @@ class Tokenizer(object):
                 else:
                     break
             self._write(tokens.TagAttrStart(padding=" " * padding))
+        elif self._context & contexts.TAG_OPEN_ATTR_IGNORE:
+            self._context ^= contexts.TAG_OPEN_ATTR_IGNORE
+            chunks.pop(0)
+            return
+        elif self._context & contexts.TAG_OPEN_ATTR_QUOTED:
+            self._write_text(" ")  # Quoted chunks don't lose their spaces
 
         if chunks:
             chunk = chunks.pop(0)
             if self._context & contexts.TAG_OPEN_ATTR_BODY:
                 self._context ^= contexts.TAG_OPEN_ATTR_BODY
                 self._context |= contexts.TAG_OPEN_ATTR_NAME
-            if self._context & contexts.TAG_OPEN_ATTR_BODY_QUOTED:
+            if self._context & contexts.TAG_OPEN_ATTR_QUOTED:
                 if re.search(r'[^\\]"', chunk[:-1]):
                     self._fail_route()
                 if re.search(r'[^\\]"$', chunk):
                     self._write_text(chunk[:-1])
-                    self._context ^= contexts.TAG_OPEN_ATTR_BODY_QUOTED
+                    self._context ^= contexts.TAG_OPEN_ATTR_QUOTED
                     self._context |= contexts.TAG_OPEN_ATTR_NAME
                     return True  # Back to _handle_tag_attribute_body()
             self._write_text(chunk)
@@ -491,6 +499,8 @@ class Tokenizer(object):
             self._write_text(text)
             return
         chunks = text.split(" ")
+        is_new = False
+        is_quoted = False
         if self._context & contexts.TAG_OPEN_NAME:
             self._write_text(chunks.pop(0))
             tag = self._get_tag_type_from_stack()
@@ -500,9 +510,7 @@ class Tokenizer(object):
             self._context ^= contexts.TAG_OPEN_NAME
             self._context |= contexts.TAG_OPEN_ATTR_NAME
             self._actually_handle_chunk(chunks, True)
-
-        is_new = False
-        is_quoted = False
+            is_new = True
         while chunks:
             result = self._actually_handle_chunk(chunks, is_new)
             is_quoted = result or is_quoted
@@ -530,7 +538,7 @@ class Tokenizer(object):
                     self._head += 1
                     reset = self._head
                     try:
-                        attr = self._parse(contexts.TAG_OPEN_ATTR_BODY_QUOTED)
+                        attr = self._parse(contexts.TAG_OPEN_ATTR_QUOTED | contexts.TAG_OPEN_ATTR_IGNORE)
                     except BadRoute:
                         self._head = reset
                         self._write_text(next)
@@ -538,6 +546,7 @@ class Tokenizer(object):
                         self._write(tokens.TagAttrQuote())
                         self._write_text(next[1:])
                         self._write_all(attr)
+                        return
             self._context ^= contexts.TAG_OPEN_ATTR_BODY
             self._context |= contexts.TAG_OPEN_ATTR_NAME
             while chunks:
@@ -588,7 +597,7 @@ class Tokenizer(object):
                     contexts.HEADING | contexts.COMMENT | contexts.TAG)
                 double_fail = (
                     contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE |
-                    contexts.TAG_OPEN_ATTR_BODY_QUOTED)
+                    contexts.TAG_OPEN_ATTR_QUOTED)
                 if self._context & double_fail:
                     self._pop()
                 if self._context & fail:
@@ -645,7 +654,7 @@ class Tokenizer(object):
             elif this == "<" and next != "/" and (
                     not self._context & (contexts.TAG ^ contexts.TAG_BODY)):
                 self._parse_tag()
-            elif self._context & (contexts.TAG_OPEN ^ contexts.TAG_OPEN_ATTR_BODY_QUOTED):
+            elif self._context & (contexts.TAG_OPEN ^ contexts.TAG_OPEN_ATTR_QUOTED):
                 if this == "\n":
                     if self._context & contexts.TAG_CLOSE:
                         self._pop()

From eed7c918bfb0741fefd0473f61bbc1e9343ad033 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 23 Dec 2012 22:41:32 -0500
Subject: [PATCH 014/189] Implement padding support for Tags completely;
 open_padding->padding.

---
 mwparserfromhell/nodes/tag.py        | 18 +++++++++---------
 mwparserfromhell/parser/builder.py   |  6 +++---
 mwparserfromhell/parser/tokenizer.py | 15 +++++++++------
 3 files changed, 21 insertions(+), 18 deletions(-)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index 94f92c5..ecf6f2b 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -33,7 +33,7 @@ class Tag(TagDefinitions, Node):
     """Represents an HTML-style tag in wikicode, like ``<ref>``."""
 
     def __init__(self, type_, tag, contents=None, attrs=None, showtag=True,
-                 self_closing=False, open_padding="", closing_tag=None):
+                 self_closing=False, padding="", closing_tag=None):
         super(Tag, self).__init__()
         self._type = type_
         self._tag = tag
@@ -44,7 +44,7 @@ class Tag(TagDefinitions, Node):
             self._attrs = []
         self._showtag = showtag
         self._self_closing = self_closing
-        self._open_padding = open_padding
+        self._padding = padding
         if closing_tag:
             self._closing_tag = closing_tag
         else:
@@ -62,9 +62,9 @@ class Tag(TagDefinitions, Node):
         if self.attributes:
             result += " " + " ".join([str(attr) for attr in self.attributes])
         if self.self_closing:
-            result += self.open_padding + "/>"
+            result += self.padding + "/>"
         else:
-            result += self.open_padding + ">" + str(self.contents)
+            result += self.padding + ">" + str(self.contents)
             result += "</" + str(self.closing_tag) + ">"
         return result
 
@@ -145,9 +145,9 @@ class Tag(TagDefinitions, Node):
         return self._self_closing
 
     @property
-    def open_padding(self):
+    def padding(self):
         """Spacing to insert before the first closing ``>``."""
-        return self._open_padding
+        return self._padding
 
     @property
     def closing_tag(self):
@@ -188,9 +188,9 @@ class Tag(TagDefinitions, Node):
     def self_closing(self, value):
         self._self_closing = bool(value)
 
-    @open_padding.setter
-    def open_padding(self, value):
-        self._open_padding = str(value)
+    @padding.setter
+    def padding(self, value):
+        self._padding = str(value)
 
     @closing_tag.setter
     def closing_tag(self, value):
diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index cb5499f..2d9ea55 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -210,19 +210,19 @@ class Builder(object):
             if isinstance(token, tokens.TagAttrStart):
                 attrs.append(self._handle_attribute(token))
             elif isinstance(token, tokens.TagCloseOpen):
-                open_pad = token.padding
+                padding = token.padding
                 tag = self._pop()
                 self._push()
             elif isinstance(token, tokens.TagCloseSelfclose):
                 tag = self._pop()
                 return Tag(type_, tag, attrs=attrs, showtag=showtag,
-                           self_closing=True, open_padding=token.padding)
+                           self_closing=True, padding=token.padding)
             elif isinstance(token, tokens.TagOpenClose):
                 contents = self._pop()
                 self._push()
             elif isinstance(token, tokens.TagCloseClose):
                 return Tag(type_, tag, contents, attrs, showtag, False,
-                           open_pad, self._pop())
+                           padding, self._pop())
             else:
                 self._write(self._handle_token(token))
 
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 1d31fa4..901e731 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -458,9 +458,9 @@ class Tokenizer(object):
             self._context ^= contexts.TAG_OPEN_NAME
         self._context |= contexts.TAG_BODY
 
-        ## If the last element was TagAttrStart, remove it, add " " to its padding, then return that
-        padding = ""
-        return padding
+        if isinstance(self._stack[-1], tokens.TagAttrStart):
+            return self._stack.pop().padding
+        return ""
 
     def _actually_handle_chunk(self, chunks, is_new):
         if is_new and not self._context & contexts.TAG_OPEN_ATTR_QUOTED:
@@ -538,7 +538,8 @@ class Tokenizer(object):
                     self._head += 1
                     reset = self._head
                     try:
-                        attr = self._parse(contexts.TAG_OPEN_ATTR_QUOTED | contexts.TAG_OPEN_ATTR_IGNORE)
+                        attr = self._parse(contexts.TAG_OPEN_ATTR_QUOTED |
+                                           contexts.TAG_OPEN_ATTR_IGNORE)
                     except BadRoute:
                         self._head = reset
                         self._write_text(next)
@@ -654,7 +655,8 @@ class Tokenizer(object):
             elif this == "<" and next != "/" and (
                     not self._context & (contexts.TAG ^ contexts.TAG_BODY)):
                 self._parse_tag()
-            elif self._context & (contexts.TAG_OPEN ^ contexts.TAG_OPEN_ATTR_QUOTED):
+            elif self._context & (
+                            contexts.TAG_OPEN ^ contexts.TAG_OPEN_ATTR_QUOTED):
                 if this == "\n":
                     if self._context & contexts.TAG_CLOSE:
                         self._pop()
@@ -663,7 +665,8 @@ class Tokenizer(object):
                     self._handle_tag_close_open()
                 elif this == "/" and next == ">":
                     return self._handle_tag_selfclose()
-                elif this == "=" and self._context & contexts.TAG_OPEN_ATTR_NAME:
+                elif this == "=" and (
+                                self._context & contexts.TAG_OPEN_ATTR_NAME):
                     self._handle_tag_attribute_body()
             elif this == "<" and next == "/" and (
                                         self._context & contexts.TAG_BODY):

From 6ea618460fc122dcd60ebebd0ecf02a36f82d8cf Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 31 Dec 2012 03:19:22 -0500
Subject: [PATCH 015/189] _get_tag_type_from_stack() makes more sense now

---
 mwparserfromhell/parser/tokenizer.py | 20 +++++++++-----------
 1 file changed, 9 insertions(+), 11 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 901e731..e83ec5d 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -433,16 +433,18 @@ class Tokenizer(object):
         else:
             self._write_all(tokens)
 
-    def _get_tag_type_from_stack(self):
-        self._push_textbuffer()
-        if not self._stack:
-            return None  # Tag has an empty name?
-        text = [tok for tok in self._stack if isinstance(tok, tokens.Text)]
+    def _get_tag_type_from_stack(self, stack=None):
+        if stack is None:
+            stack = self._stack
+            self._push_textbuffer()
+        if not stack:
+            self._fail_route()  # Tag has an empty name?
+        text = [tok for tok in stack if isinstance(tok, tokens.Text)]
         text = "".join([token.text for token in text]).rstrip().lower()
         try:
             return Tag.TRANSLATIONS[text]
         except KeyError:
-            return Tag.TAG_UNKNOWN
+            self._fail_route()
 
     def _actually_close_tag_opening(self):
         if self._context & contexts.TAG_OPEN_ATTR:
@@ -452,8 +454,6 @@ class Tokenizer(object):
                 self._context ^= contexts.TAG_OPEN_ATTR_BODY
         else:
             tag = self._get_tag_type_from_stack()
-            if not tag:
-                self._fail_route()
             self._write_first(tokens.TagOpenOpen(type=tag, showtag=True))
             self._context ^= contexts.TAG_OPEN_NAME
         self._context |= contexts.TAG_BODY
@@ -504,8 +504,6 @@ class Tokenizer(object):
         if self._context & contexts.TAG_OPEN_NAME:
             self._write_text(chunks.pop(0))
             tag = self._get_tag_type_from_stack()
-            if not tag:
-                self._fail_route()
             self._write_first(tokens.TagOpenOpen(type=tag, showtag=True))
             self._context ^= contexts.TAG_OPEN_NAME
             self._context |= contexts.TAG_OPEN_ATTR_NAME
@@ -569,8 +567,8 @@ class Tokenizer(object):
         self._head += 1
 
     def _handle_tag_close_close(self):
-        tag = self._get_tag_type_from_stack()
         closing = self._pop()
+        tag = self._get_tag_type_from_stack(closing)
         if tag != self._stack[0].type:
             # Closing and opening tags are not the same, so fail this route:
             self._fail_route()

From 0ee505b5a506cfc1c0530935bb01933b94aa14dc Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 24 Jan 2013 01:24:06 -0500
Subject: [PATCH 016/189] Docstrings for new tokenizer methods.

---
 mwparserfromhell/parser/tokenizer.py | 41 ++++++++++++++++++++++++++++++------
 mwparserfromhell/tag_defs.py         |  2 +-
 2 files changed, 36 insertions(+), 7 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index e83ec5d..8ec3355 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -434,6 +434,10 @@ class Tokenizer(object):
             self._write_all(tokens)
 
     def _get_tag_type_from_stack(self, stack=None):
+        """Return the tag type based on the text in *stack*.
+
+        If *stack* is ``None``, we will use the current, topmost one.
+        """
         if stack is None:
             stack = self._stack
             self._push_textbuffer()
@@ -447,6 +451,13 @@ class Tokenizer(object):
             self._fail_route()
 
     def _actually_close_tag_opening(self):
+        """Handle cleanup at the end of a opening tag.
+
+        The current context will be updated and the
+        :py:class:`~.tokens.TagOpenOpen` token will be written. Returns the
+        opening tag's padding to be used in the
+        :py:class:`~.tokens.TagOpenClose` token.
+        """
         if self._context & contexts.TAG_OPEN_ATTR:
             if self._context & contexts.TAG_OPEN_ATTR_NAME:
                 self._context ^= contexts.TAG_OPEN_ATTR_NAME
@@ -463,6 +474,11 @@ class Tokenizer(object):
         return ""
 
     def _actually_handle_chunk(self, chunks, is_new):
+        """Actually handle a chunk of code within a tag's attributes.
+
+        Called by :py:meth:`_handle_tag_chunk` and
+        :py:meth:`_handle_tag_attribute_body`.
+        """
         if is_new and not self._context & contexts.TAG_OPEN_ATTR_QUOTED:
             padding = 0
             while chunks:
@@ -495,6 +511,12 @@ class Tokenizer(object):
             self._write_text(chunk)
 
     def _handle_tag_chunk(self, text):
+        """Handle a chunk of code within a tag's attributes.
+
+        This is called by :py:meth:`_parse`, which intercepts parsing of
+        wikicode when we're inside of an opening tag and no :py:attr:`MARKERS`
+        are present.
+        """
         if " " not in text:
             self._write_text(text)
             return
@@ -517,6 +539,12 @@ class Tokenizer(object):
             return self._pop()
 
     def _handle_tag_attribute_body(self):
+        """Handle the body, or value, of a tag attribute.
+
+        Attribute bodies can usually be handled at once, but sometimes a new
+        stack must be created to keep track of "rich" attribute values that
+        contain, for example, templates.
+        """
         self._context ^= contexts.TAG_OPEN_ATTR_NAME
         self._context |= contexts.TAG_OPEN_ATTR_BODY
         self._write(tokens.TagAttrEquals())
@@ -552,21 +580,25 @@ class Tokenizer(object):
                 self._actually_handle_chunk(chunks, True)
 
     def _handle_tag_close_open(self):
+        """Handle the ending of an open tag (``<foo>``)."""
         padding = self._actually_close_tag_opening()
         self._write(tokens.TagCloseOpen(padding=padding))
 
     def _handle_tag_selfclose(self):
+        """Handle the ending of an tag that closes itself (``<foo />``)."""
         padding = self._actually_close_tag_opening()
         self._write(tokens.TagCloseSelfclose(padding=padding))
         self._head += 1
         return self._pop()
 
     def _handle_tag_open_close(self):
+        """Handle the opening of a closing tag (``</foo>``)."""
         self._write(tokens.TagOpenClose())
         self._push(contexts.TAG_CLOSE)
         self._head += 1
 
     def _handle_tag_close_close(self):
+        """Handle the ending of a closing tag (``</foo>``)."""
         closing = self._pop()
         tag = self._get_tag_type_from_stack(closing)
         if tag != self._stack[0].type:
@@ -653,8 +685,7 @@ class Tokenizer(object):
             elif this == "<" and next != "/" and (
                     not self._context & (contexts.TAG ^ contexts.TAG_BODY)):
                 self._parse_tag()
-            elif self._context & (
-                            contexts.TAG_OPEN ^ contexts.TAG_OPEN_ATTR_QUOTED):
+            elif self._context & (contexts.TAG_OPEN ^ contexts.TAG_OPEN_ATTR_QUOTED):
                 if this == "\n":
                     if self._context & contexts.TAG_CLOSE:
                         self._pop()
@@ -663,11 +694,9 @@ class Tokenizer(object):
                     self._handle_tag_close_open()
                 elif this == "/" and next == ">":
                     return self._handle_tag_selfclose()
-                elif this == "=" and (
-                                self._context & contexts.TAG_OPEN_ATTR_NAME):
+                elif this == "=" and self._context & contexts.TAG_OPEN_ATTR_NAME:
                     self._handle_tag_attribute_body()
-            elif this == "<" and next == "/" and (
-                                        self._context & contexts.TAG_BODY):
+            elif this == "<" and next == "/" and self._context & contexts.TAG_BODY:
                 self._handle_tag_open_close()
             elif this == ">" and self._context & contexts.TAG_CLOSE:
                 return self._handle_tag_close_close()
diff --git a/mwparserfromhell/tag_defs.py b/mwparserfromhell/tag_defs.py
index 74d3a81..b2ee90d 100644
--- a/mwparserfromhell/tag_defs.py
+++ b/mwparserfromhell/tag_defs.py
@@ -1,6 +1,6 @@
 # -*- coding: utf-8  -*-
 #
-# Copyright (C) 2012 Ben Kurtovic <ben.kurtovic@verizon.net>
+# Copyright (C) 2012-2013 Ben Kurtovic <ben.kurtovic@verizon.net>
 #
 # Permission is hereby granted, free of charge, to any person obtaining a copy
 # of this software and associated documentation files (the "Software"), to deal

From d8814968b71fdd9ceea22085c19d43b69101ba38 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 14 Mar 2013 11:02:10 -0400
Subject: [PATCH 017/189] Applying latest commit from develop

---
 mwparserfromhell/parser/__init__.py | 19 +++++++++++--------
 1 file changed, 11 insertions(+), 8 deletions(-)

diff --git a/mwparserfromhell/parser/__init__.py b/mwparserfromhell/parser/__init__.py
index 5baa687..fd8a314 100644
--- a/mwparserfromhell/parser/__init__.py
+++ b/mwparserfromhell/parser/__init__.py
@@ -26,16 +26,16 @@ modules: the :py:mod:`~.tokenizer` and the :py:mod:`~.builder`. This module
 joins them together under one interface.
 """
 
+from .builder import Builder
+from .tokenizer import Tokenizer
 try:
-    from ._builder import CBuilder as Builder
+    from ._tokenizer import CTokenizer
+    use_c = True
 except ImportError:
-    from .builder import Builder
-try:
-    from ._tokenizer import CTokenizer as Tokenizer
-except ImportError:
-    from .tokenizer import Tokenizer
+    CTokenizer = None
+    use_c = False
 
-__all__ = ["Parser"]
+__all__ = ["use_c", "Parser"]
 
 class Parser(object):
     """Represents a parser for wikicode.
@@ -48,7 +48,10 @@ class Parser(object):
 
     def __init__(self, text):
         self.text = text
-        self._tokenizer = Tokenizer()
+        if use_c and CTokenizer:
+            self._tokenizer = CTokenizer()
+        else:
+            self._tokenizer = Tokenizer()
         self._builder = Builder()
 
     def parse(self):

From 61fc5b5eab7dbe9c0466fd07a656c8490d8d04ad Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 19 May 2013 14:41:48 -0400
Subject: [PATCH 018/189] Fix handling of self-closing tags (closes #31)

---
 mwparserfromhell/nodes/tag.py        | 5 +++--
 mwparserfromhell/parser/builder.py   | 4 ++--
 mwparserfromhell/parser/tokenizer.py | 4 ++--
 3 files changed, 7 insertions(+), 6 deletions(-)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index eb5d1ee..d301d85 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -79,8 +79,9 @@ class Tag(TagDefinitions, Node):
                 if attr.value:
                     for child in getter(attr.value):
                         yield attr.value, child
-        for child in getter(self.contents):
-            yield self.contents, child
+        if self.contents:
+            for child in getter(self.contents):
+                yield self.contents, child
 
     def __strip__(self, normalize, collapse):
         if self.type in self.TAGS_VISIBLE:
diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index 60bfaa9..4b468b7 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -191,8 +191,8 @@ class Builder(object):
                 self._push()
             elif isinstance(token, tokens.TagAttrQuote):
                 quoted = True
-            elif isinstance(token, (tokens.TagAttrStart,
-                                    tokens.TagCloseOpen)):
+            elif isinstance(token, (tokens.TagAttrStart, tokens.TagCloseOpen,
+                                    tokens.TagCloseSelfclose)):
                 self._tokens.append(token)
                 if name is not None:
                     return Attribute(name, self._pop(), quoted, padding)
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 82f748c..b466de5 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -26,8 +26,8 @@ import re
 
 from . import contexts
 from . import tokens
-from ..nodes.tag import Tag
 from ..compat import htmlentities
+from ..nodes.tag import Tag
 
 __all__ = ["Tokenizer"]
 
@@ -431,7 +431,7 @@ class Tokenizer(object):
         try:
             return Tag.TRANSLATIONS[text]
         except KeyError:
-            self._fail_route()
+            return Tag.TAG_UNKNOWN
 
     def _actually_close_tag_opening(self):
         """Handle cleanup at the end of a opening tag.

From 1b4c01b4c00d014499d9f5e5ad8ecc01bb20a2b7 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 20 May 2013 03:05:11 -0400
Subject: [PATCH 019/189] Implement assertTagNodeEqual(), start test_tag(), add
 to tags.mwtest.

---
 mwparserfromhell/parser/builder.py |  2 +-
 tests/_test_tree_equality.py       | 19 +++++++-
 tests/test_attribute.py            |  0
 tests/test_builder.py              | 12 +++++-
 tests/test_tag.py                  |  0
 tests/tokenizer/tags.mwtest        | 88 ++++++++++++++++++++++++++++++++++++++
 6 files changed, 117 insertions(+), 4 deletions(-)
 create mode 100644 tests/test_attribute.py
 create mode 100644 tests/test_tag.py
 create mode 100644 tests/tokenizer/tags.mwtest

diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index 4b468b7..5ec0780 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -170,7 +170,7 @@ class Builder(object):
                 self._write(self._handle_token(token))
 
     def _handle_comment(self):
-        """Handle a case where a hidden comment is at the head of the tokens."""
+        """Handle a case where an HTML comment is at the head of the tokens."""
         self._push()
         while self._tokens:
             token = self._tokens.pop()
diff --git a/tests/_test_tree_equality.py b/tests/_test_tree_equality.py
index 52130ed..2828147 100644
--- a/tests/_test_tree_equality.py
+++ b/tests/_test_tree_equality.py
@@ -91,7 +91,24 @@ class TreeEqualityTestCase(TestCase):
 
     def assertTagNodeEqual(self, expected, actual):
         """Assert that two Tag nodes have the same data."""
-        self.fail("Holding this until feature/html_tags is ready.")
+        self.assertEqual(expected.type, actual.type)
+        self.assertWikicodeEqual(expected.tag, actual.tag)
+        if expected.contents is not None:
+            self.assertWikicodeEqual(expected.contents, actual.contents)
+        length = len(expected.attributes)
+        self.assertEqual(length, len(actual.attributes))
+        for i in range(length):
+            exp_attr = expected.attributes[i]
+            act_attr = actual.attributes[i]
+            self.assertWikicodeEqual(exp_attr.name, act_attr.name)
+            if exp_attr.value is not None:
+                self.assertWikicodeEqual(exp_attr.value, act_attr.value)
+            self.assertIs(exp_attr.quoted, act_attr.quoted)
+            self.assertEqual(exp.attr.padding, act_attr.padding)
+        self.assertIs(expected.showtag, actual.showtag)
+        self.assertIs(expected.self_closing, actual.self_closing)
+        self.assertEqual(expected.padding, actual.padding)
+        self.assertWikicodeEqual(expected.closing_tag, actual.closing_tag)
 
     def assertTemplateNodeEqual(self, expected, actual):
         """Assert that two Template nodes have the same data."""
diff --git a/tests/test_attribute.py b/tests/test_attribute.py
new file mode 100644
index 0000000..e69de29
diff --git a/tests/test_builder.py b/tests/test_builder.py
index 903d144..85a8c60 100644
--- a/tests/test_builder.py
+++ b/tests/test_builder.py
@@ -190,10 +190,18 @@ class TestBuilder(TreeEqualityTestCase):
         for test, valid in tests:
             self.assertWikicodeEqual(valid, self.builder.build(test))
 
-    @unittest.skip("holding this until feature/html_tags is ready")
     def test_tag(self):
         """tests for building Tag nodes"""
-        pass
+        tests = [
+            ([tokens.TagOpenOpen(showtag=True, type=101),
+              tokens.Text(text="ref"), tokens.TagCloseOpen(padding=""),
+              tokens.TagOpenClose(), tokens.Text(text="ref"),
+              tokens.TagCloseClose()],
+             wrap([Tag(101, wraptext("ref"), wrap([]), [], True, False, "",
+                       wraptext("ref"))])),
+        ]
+        for test, valid in tests:
+            self.assertWikicodeEqual(valid, self.builder.build(test))
 
     def test_integration(self):
         """a test for building a combination of templates together"""
diff --git a/tests/test_tag.py b/tests/test_tag.py
new file mode 100644
index 0000000..e69de29
diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
new file mode 100644
index 0000000..9a6ce30
--- /dev/null
+++ b/tests/tokenizer/tags.mwtest
@@ -0,0 +1,88 @@
+name:   basic
+label:  a basic tag with an open and close
+input:  "<ref></ref>"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+
+---
+
+name:   basic_selfclosing
+label:  a basic self-closing tag
+input:  "<ref/>"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagCloseSelfclose(padding="")]
+
+---
+
+name:   content
+label:  a tag with some content in the middle
+input:  "<ref>this is a reference</ref>"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagCloseOpen(padding=""), Text(text="this is a reference"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+
+---
+
+name:   padded_open
+label:  a tag with some padding in the open tag
+input:  "<ref ></ref>"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagCloseOpen(padding=" "), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+
+---
+
+name:   padded_close
+label:  a tag with some padding in the close tag
+input:  "<ref></ref >"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref "), TagCloseClose()]
+
+---
+
+name:   padded_selfclosing
+label:  a self-closing tag with padding
+input:  "<ref />"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagCloseSelfclose(padding=" ")]
+
+---
+
+name:   attribute
+label:  a tag with a single attribute
+input:  "<ref name></ref>"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+
+---
+
+name:   attribute_value
+label:  a tag with a single attribute with a value
+input:  "<ref name=foo></ref>"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+
+---
+
+name:   attribute_quoted
+label:  a tag with a single quoted attribute
+input:  "<ref name="foo"></ref>"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+
+---
+
+name:   attribute_hyphen
+label:  a tag with a single attribute, containing a hyphen
+input:  "<ref name=foo-bar></ref>"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+
+---
+
+name:   attribute_quoted_hyphen
+label:  a tag with a single quoted attribute, containing a hyphen
+input:  "<ref name="foo-bar"></ref>"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+
+---
+
+name:   attribute_selfclosing
+label:  a self-closing tag with a single attribute
+input:  "<ref name/>"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagCloseSelfclose(padding="")]
+
+---
+
+name:   attribute_selfclosing_value
+label:  a self-closing tag with a single attribute with a value
+input:  "<ref name=foo/>"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseSelfclose(padding="")]

From 9ea06c283081771833729ec579b9aaee94599fe1 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 28 May 2013 10:58:45 -0400
Subject: [PATCH 020/189] Push the textbuffer to fix a couple broken tests.

---
 mwparserfromhell/parser/tokenizer.py | 1 +
 tests/tokenizer/tags.mwtest          | 7 +++++++
 2 files changed, 8 insertions(+)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index b466de5..b8450fd 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -452,6 +452,7 @@ class Tokenizer(object):
             self._context ^= contexts.TAG_OPEN_NAME
         self._context |= contexts.TAG_BODY
 
+        self._push_textbuffer()
         if isinstance(self._stack[-1], tokens.TagAttrStart):
             return self._stack.pop().padding
         return ""
diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index 9a6ce30..8716e78 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -86,3 +86,10 @@ name:   attribute_selfclosing_value
 label:  a self-closing tag with a single attribute with a value
 input:  "<ref name=foo/>"
 output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseSelfclose(padding="")]
+
+---
+
+name:   attribute_selfclosing_value_quoted
+label:  a self-closing tag with a single quoted attribute
+input:  "<ref name="foo"/>"
+output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseSelfclose(padding="")]

From d2b39546691eda327979b12dbe44c0090868c790 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 1 Jun 2013 17:30:34 -0400
Subject: [PATCH 021/189] Fix remaining broken tests; some refactoring.

---
 mwparserfromhell/parser/tokenizer.py | 34 ++++++++++++++++++++--------------
 1 file changed, 20 insertions(+), 14 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index b8450fd..67a652a 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -476,7 +476,7 @@ class Tokenizer(object):
             self._context ^= contexts.TAG_OPEN_ATTR_IGNORE
             chunks.pop(0)
             return
-        elif self._context & contexts.TAG_OPEN_ATTR_QUOTED:
+        elif is_new and self._context & contexts.TAG_OPEN_ATTR_QUOTED:
             self._write_text(" ")  # Quoted chunks don't lose their spaces
 
         if chunks:
@@ -501,7 +501,7 @@ class Tokenizer(object):
         wikicode when we're inside of an opening tag and no :py:attr:`MARKERS`
         are present.
         """
-        if " " not in text:
+        if " " not in text and not self._context & contexts.TAG_OPEN_ATTR_QUOTED:
             self._write_text(text)
             return
         chunks = text.split(" ")
@@ -603,7 +603,7 @@ class Tokenizer(object):
             elif this == "\n" or this == "[" or this == "}":
                 return False
             return True
-        if context & contexts.TEMPLATE_NAME:
+        elif context & contexts.TEMPLATE_NAME:
             if this == "{" or this == "}" or this == "[":
                 self._context |= contexts.FAIL_NEXT
                 return True
@@ -621,6 +621,8 @@ class Tokenizer(object):
             elif this is self.END or not this.isspace():
                 self._context |= contexts.HAS_TEXT
             return True
+        elif context & contexts.TAG_CLOSE:
+            return this != "<" and this != "\n"
         else:
             if context & contexts.FAIL_ON_EQUALS:
                 if this == "=":
@@ -653,10 +655,12 @@ class Tokenizer(object):
         while True:
             this = self._read()
             unsafe = (contexts.TEMPLATE_NAME | contexts.WIKILINK_TITLE |
-                      contexts.TEMPLATE_PARAM_KEY | contexts.ARGUMENT_NAME)
+                      contexts.TEMPLATE_PARAM_KEY | contexts.ARGUMENT_NAME |
+                      contexts.TAG_CLOSE)
             if self._context & unsafe:
                 if not self._verify_safe(this):
-                    if self._context & contexts.TEMPLATE_PARAM_KEY:
+                    double = (contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE)
+                    if self._context & double:
                         self._pop()
                     self._fail_route()
             if this not in self.MARKERS:
@@ -672,12 +676,12 @@ class Tokenizer(object):
                 fail = (
                     contexts.TEMPLATE | contexts.ARGUMENT | contexts.WIKILINK |
                     contexts.HEADING | contexts.COMMENT | contexts.TAG)
-                double_fail = (
-                    contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE |
-                    contexts.TAG_OPEN_ATTR_QUOTED)
-                if self._context & double_fail:
-                    self._pop()
                 if self._context & fail:
+                    double_fail = (
+                        contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE |
+                        contexts.TAG_OPEN_ATTR_QUOTED)
+                    if self._context & double_fail:
+                        self._pop()
                     self._fail_route()
                 return self._pop()
             next = self._read(1)
@@ -738,10 +742,10 @@ class Tokenizer(object):
             elif this == "<" and next != "/" and (
                     not self._context & (contexts.TAG ^ contexts.TAG_BODY)):
                 self._parse_tag()
-            elif self._context & (contexts.TAG_OPEN ^ contexts.TAG_OPEN_ATTR_QUOTED):
-                if this == "\n":
-                    if self._context & contexts.TAG_CLOSE:
-                        self._pop()
+            elif self._context & contexts.TAG_OPEN:
+                if self._context & contexts.TAG_OPEN_ATTR_QUOTED:
+                    self._handle_tag_chunk(this)
+                elif this == "\n":
                     self._fail_route()
                 elif this == ">":
                     self._handle_tag_close_open()
@@ -749,6 +753,8 @@ class Tokenizer(object):
                     return self._handle_tag_selfclose()
                 elif this == "=" and self._context & contexts.TAG_OPEN_ATTR_NAME:
                     self._handle_tag_attribute_body()
+                else:
+                    self._handle_tag_chunk(this)
             elif this == "<" and next == "/" and self._context & contexts.TAG_BODY:
                 self._handle_tag_open_close()
             elif this == ">" and self._context & contexts.TAG_CLOSE:

From 03e41286c6caf940d9f14ae1bdbd03df4e112493 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 12 Jun 2013 18:29:22 -0400
Subject: [PATCH 022/189] Add a number of tag tests. A couple of these are
 failing.

---
 tests/tokenizer/integration.mwtest |   7 ++
 tests/tokenizer/tags.mwtest        | 140 +++++++++++++++++++++++++++++++++++++
 2 files changed, 147 insertions(+)

diff --git a/tests/tokenizer/integration.mwtest b/tests/tokenizer/integration.mwtest
index d3cb419..ba01c8c 100644
--- a/tests/tokenizer/integration.mwtest
+++ b/tests/tokenizer/integration.mwtest
@@ -33,6 +33,13 @@ output: [Text(text="&n"), CommentStart(), Text(text="foo"), CommentEnd(), Text(t
 
 ---
 
+name:   rich_tags
+label:  a HTML tag with tons of other things in it
+input:  "{{dubious claim}}<ref name={{abc}}  foo="bar {{baz}}" abc={{de}}f ghi=j{{k}}{{l}} mno="{{p}} [[q]] {{r}}">[[Source]]</ref>"
+output: [TemplateOpen(), Text(text="dubious claim"), TemplateClose(), TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TemplateOpen(), Text(text="abc"), TemplateClose(), TagAttrStart(padding=" "), Text(text="foo"), TagAttrEquals(), TagAttrQuote(), Text(text="bar "), TemplateOpen(), Text(text="baz"), TemplateClose(), TagAttrStart(padding=""), Text(text="abc"), TagAttrEquals(), TemplateOpen(), Text(text="de"), TemplateClose(), Text(text="f"), TagAttrStart(padding=""), Text(text="ghi"), TagAttrEquals(), Text(text="j"), TemplateOpen(), Text(text="k"), TemplateClose(), TemplateOpen(), Text(text="l"), TemplateClose(), TagAttrStart(padding=""), Text(text="mno"), TagAttrEquals(), TagAttrQuote(), TemplateOpen(), Text(text="p"), TemplateClose(), Text(text=" "), WikilinkOpen(), Text(text="q"), WikilinkClose(), Text(text=" "), TemplateOpen(), Text(text="r"), TemplateClose(), TagOpenClose(), WikilinkOpen(), Text(text="Source"), WikilinkClose(), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+
+---
+
 name:   wildcard
 label:  a wildcard assortment of various things
 input:  "{{{{{{{{foo}}bar|baz=biz}}buzz}}usr|{{bin}}}}"
diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index 8716e78..5af2074 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -93,3 +93,143 @@ name:   attribute_selfclosing_value_quoted
 label:  a self-closing tag with a single quoted attribute
 input:  "<ref name="foo"/>"
 output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseSelfclose(padding="")]
+
+---
+
+name:   incomplete_lbracket
+label:  incomplete tags: just a left bracket
+input:  "<"
+output: [Text(text="<")]
+
+---
+
+name:   incomplete_lbracket_junk
+label:  incomplete tags: just a left bracket, surrounded by stuff
+input:  "foo<bar"
+output: [Text(text="foo<bar")]
+
+---
+
+name:   incomplete_unclosed_open
+label:  incomplete tags: an unclosed open tag
+input:  "junk <ref"
+output: [Text(text="junk <ref")]
+
+---
+
+name:   incomplete_unclosed_open_space
+label:  incomplete tags: an unclosed open tag, space
+input:  "junk <ref "
+output: [Text(text="junk <ref ")]
+
+---
+
+name:   incomplete_unclosed_open_unnamed_attr
+label:  incomplete tags: an unclosed open tag, unnamed attribute
+input:  "junk <ref name"
+output: [Text(text="junk <ref name")]
+
+---
+
+name:   incomplete_unclosed_open_attr_equals
+label:  incomplete tags: an unclosed open tag, attribute, equal sign
+input:  "junk <ref name="
+output: [Text(text="junk <ref name=")]
+
+---
+
+name:   incomplete_unclosed_open_attr_equals_quoted
+label:  incomplete tags: an unclosed open tag, attribute, equal sign, quote
+input:  "junk <ref name=""
+output: [Text(text="junk <ref name=\"")]
+
+---
+
+name:   incomplete_unclosed_open_attr
+label:  incomplete tags: an unclosed open tag, attribute with a key/value
+input:  "junk <ref name=foo"
+output: [Text(text="junk <ref name=foo")]
+
+---
+
+name:   incomplete_unclosed_open_attr_quoted
+label:  incomplete tags: an unclosed open tag, attribute with a key/value, quoted
+input:  "junk <ref name="foo""
+output: [Text(text="junk <ref name=\"foo\"")]
+
+---
+
+name:   incomplete_open
+label:  incomplete tags: an open tag
+input:  "junk <ref>"
+output: [Text(text="junk <ref>")]
+
+---
+
+name:   incomplete_open_unnamed_attr
+label:  incomplete tags: an open tag, unnamed attribute
+input:  "junk <ref name>"
+output: [Text(text="junk <ref name>")]
+
+---
+
+name:   incomplete_open_attr_equals
+label:  incomplete tags: an open tag, attribute, equal sign
+input:  "junk <ref name=>"
+output: [Text(text="junk <ref name=>")]
+
+---
+
+name:   incomplete_open_attr
+label:  incomplete tags: an open tag, attribute with a key/value
+input:  "junk <ref name=foo>"
+output: [Text(text="junk <ref name=foo>")]
+
+---
+
+name:   incomplete_open_attr_quoted
+label:  incomplete tags: an open tag, attribute with a key/value, quoted
+input:  "junk <ref name="foo">"
+output: [Text(text="junk <ref name=\"foo\">")]
+
+---
+
+name:   incomplete_open_text
+label:  incomplete tags: an open tag, text
+input:  "junk <ref>foo"
+output: [Text(text="junk <ref>foo")]
+
+---
+
+name:   incomplete_open_attr_text
+label:  incomplete tags: an open tag, attribute with a key/value, text
+input:  "junk <ref name=foo>bar"
+output: [Text(text="junk <ref name=foo>bar")]
+
+---
+
+name:   incomplete_open_text_lbracket
+label:  incomplete tags: an open tag, text, left open bracket
+input:  "junk <ref>bar<"
+output: [Text(text="junk <ref>bar<")]
+
+---
+
+name:   incomplete_open_text_lbracket_slash
+label:  incomplete tags: an open tag, text, left bracket, slash
+input:  "junk <ref>bar</"
+output: [Text(text="junk <ref>bar</")]
+
+---
+
+name:   incomplete_open_text_unclosed_close
+label:  incomplete tags: an open tag, text, unclosed close
+input:  "junk <ref>bar</ref"
+output: [Text(text="junk <ref>bar</ref")]
+
+---
+
+name:   incomplete_open_text_wrong_close
+label:  incomplete tags: an open tag, text, wrong close
+input:  "junk <ref>bar</span>"
+output: [Text(text="junk <ref>bar</span>")]

From 58d9194a2c4620e948024bdb819bd1f484071227 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 21 Jun 2013 00:32:26 -0400
Subject: [PATCH 023/189] Version bump for v0.3; fix permissions on compat.py.

---
 CHANGELOG                    | 2 +-
 docs/changelog.rst           | 4 ++--
 docs/index.rst               | 2 +-
 mwparserfromhell/__init__.py | 2 +-
 mwparserfromhell/compat.py   | 0
 5 files changed, 5 insertions(+), 5 deletions(-)
 mode change 100755 => 100644 mwparserfromhell/compat.py

diff --git a/CHANGELOG b/CHANGELOG
index 9772f8b..961d33d 100644
--- a/CHANGELOG
+++ b/CHANGELOG
@@ -1,4 +1,4 @@
-v0.1.1 (19da4d2144) to v0.2:
+v0.1.1 (19da4d2144) to v0.2 (edf6a3a8a6):
 
 - The parser now fully supports Python 3 in addition to Python 2.7.
 - Added a C tokenizer extension that is significantly faster than its Python
diff --git a/docs/changelog.rst b/docs/changelog.rst
index 0e8bbef..0f7347a 100644
--- a/docs/changelog.rst
+++ b/docs/changelog.rst
@@ -4,7 +4,7 @@ Changelog
 v0.2
 ----
 
-19da4d2144_ to master_ (released June 20, 2013)
+19da4d2144_ to edf6a3a8a6_ (released June 20, 2013)
 
 - The parser now fully supports Python 3 in addition to Python 2.7.
 - Added a C tokenizer extension that is significantly faster than its Python
@@ -53,6 +53,6 @@ v0.1
 
 ba94938fe8_ (released August 23, 2012)
 
-.. _master:     https://github.com/earwig/mwparserfromhell/tree/v0.2
+.. _edf6a3a8a6: https://github.com/earwig/mwparserfromhell/tree/v0.2
 .. _19da4d2144: https://github.com/earwig/mwparserfromhell/tree/v0.1.1
 .. _ba94938fe8: https://github.com/earwig/mwparserfromhell/tree/v0.1
diff --git a/docs/index.rst b/docs/index.rst
index 4355b61..f2e3345 100644
--- a/docs/index.rst
+++ b/docs/index.rst
@@ -1,4 +1,4 @@
-MWParserFromHell v0.2 Documentation
+MWParserFromHell v0.3 Documentation
 ===================================
 
 :py:mod:`mwparserfromhell` (the *MediaWiki Parser from Hell*) is a Python
diff --git a/mwparserfromhell/__init__.py b/mwparserfromhell/__init__.py
index 5db2d4c..738d4c2 100644
--- a/mwparserfromhell/__init__.py
+++ b/mwparserfromhell/__init__.py
@@ -31,7 +31,7 @@ from __future__ import unicode_literals
 __author__ = "Ben Kurtovic"
 __copyright__ = "Copyright (C) 2012, 2013 Ben Kurtovic"
 __license__ = "MIT License"
-__version__ = "0.2"
+__version__ = "0.3.dev"
 __email__ = "ben.kurtovic@verizon.net"
 
 from . import compat, nodes, parser, smart_list, string_mixin, utils, wikicode
diff --git a/mwparserfromhell/compat.py b/mwparserfromhell/compat.py
old mode 100755
new mode 100644

From 7b6b46da953948165072832d1979e0377ddece4a Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 22 Jun 2013 22:24:36 -0400
Subject: [PATCH 024/189] Some documentation cleanup.

---
 CHANGELOG          | 12 ++++++++++--
 README.rst         |  4 +++-
 docs/changelog.rst | 20 ++++++++++++++------
 docs/index.rst     |  4 ++--
 4 files changed, 29 insertions(+), 11 deletions(-)

diff --git a/CHANGELOG b/CHANGELOG
index 961d33d..cbe2933 100644
--- a/CHANGELOG
+++ b/CHANGELOG
@@ -1,4 +1,8 @@
-v0.1.1 (19da4d2144) to v0.2 (edf6a3a8a6):
+v0.3 (unreleased):
+
+- Various fixes and cleanup.
+
+v0.2 (released June 20, 2013):
 
 - The parser now fully supports Python 3 in addition to Python 2.7.
 - Added a C tokenizer extension that is significantly faster than its Python
@@ -24,10 +28,14 @@ v0.1.1 (19da4d2144) to v0.2 (edf6a3a8a6):
 - Fixed some broken example code in the README; other copyedits.
 - Other bugfixes and code cleanup.
 
-v0.1 (ba94938fe8) to v0.1.1 (19da4d2144):
+v0.1.1 (released September 21, 2012):
 
 - Added support for Comments (<!-- foo -->) and Wikilinks ([[foo]]).
 - Added corresponding ifilter_links() and filter_links() methods to Wikicode.
 - Fixed a bug when parsing incomplete templates.
 - Fixed strip_code() to affect the contents of headings.
 - Various copyedits in documentation and comments.
+
+v0.1 (released August 23, 2012):
+
+- Initial release.
diff --git a/README.rst b/README.rst
index 77c01eb..df4d732 100644
--- a/README.rst
+++ b/README.rst
@@ -9,7 +9,8 @@ mwparserfromhell
 that provides an easy-to-use and outrageously powerful parser for MediaWiki_
 wikicode. It supports Python 2 and Python 3.
 
-Developed by Earwig_ with help from `Σ`_.
+Developed by Earwig_ with help from `Σ`_. Full documentation is available on
+ReadTheDocs_.
 
 Installation
 ------------
@@ -142,6 +143,7 @@ following code (via the API_)::
         return mwparserfromhell.parse(text)
 
 .. _MediaWiki:              http://mediawiki.org
+.. _ReadTheDocs:            http://mwparserfromhell.readthedocs.org
 .. _Earwig:                 http://en.wikipedia.org/wiki/User:The_Earwig
 .. _Σ:                      http://en.wikipedia.org/wiki/User:%CE%A3
 .. _Python Package Index:   http://pypi.python.org
diff --git a/docs/changelog.rst b/docs/changelog.rst
index 0f7347a..4bf86b7 100644
--- a/docs/changelog.rst
+++ b/docs/changelog.rst
@@ -1,10 +1,19 @@
 Changelog
 =========
 
+v0.3
+----
+
+Unreleased
+(`changes <https://github.com/earwig/mwparserfromhell/compare/v0.2...develop>`__):
+
+- Various fixes and cleanup.
+
 v0.2
 ----
 
-19da4d2144_ to edf6a3a8a6_ (released June 20, 2013)
+`Released June 20, 2013 <https://github.com/earwig/mwparserfromhell/tree/v0.2>`_
+(`changes <https://github.com/earwig/mwparserfromhell/compare/v0.1.1...v0.2>`__):
 
 - The parser now fully supports Python 3 in addition to Python 2.7.
 - Added a C tokenizer extension that is significantly faster than its Python
@@ -38,7 +47,8 @@ v0.2
 v0.1.1
 ------
 
-ba94938fe8_ to 19da4d2144_ (released September 21, 2012)
+`Released September 21, 2012 <https://github.com/earwig/mwparserfromhell/tree/v0.1.1>`_
+(`changes <https://github.com/earwig/mwparserfromhell/compare/v0.1...v0.1.1>`__):
 
 - Added support for :py:class:`Comments <.Comment>` (``<!-- foo -->``) and
   :py:class:`Wikilinks <.Wikilink>` (``[[foo]]``).
@@ -51,8 +61,6 @@ ba94938fe8_ to 19da4d2144_ (released September 21, 2012)
 v0.1
 ----
 
-ba94938fe8_ (released August 23, 2012)
+`Released August 23, 2012 <https://github.com/earwig/mwparserfromhell/tree/v0.1>`_:
 
-.. _edf6a3a8a6: https://github.com/earwig/mwparserfromhell/tree/v0.2
-.. _19da4d2144: https://github.com/earwig/mwparserfromhell/tree/v0.1.1
-.. _ba94938fe8: https://github.com/earwig/mwparserfromhell/tree/v0.1
+- Initial release.
diff --git a/docs/index.rst b/docs/index.rst
index f2e3345..0603daf 100644
--- a/docs/index.rst
+++ b/docs/index.rst
@@ -1,5 +1,5 @@
-MWParserFromHell v0.3 Documentation
-===================================
+MWParserFromHell v\ |version| Documentation
+===========================================
 
 :py:mod:`mwparserfromhell` (the *MediaWiki Parser from Hell*) is a Python
 package that provides an easy-to-use and outrageously powerful parser for

From 2596e697aebc04e25a80e60c0abd7bcd5384be0f Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 26 Jun 2013 16:40:19 -0400
Subject: [PATCH 025/189] Fix a possible compiler warning on some build
 systems.

---
 mwparserfromhell/parser/tokenizer.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index df65d0e..86f2884 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1021,7 +1021,7 @@ Tokenizer_really_parse_entity(Tokenizer* self)
                 break;
             j++;
         }
-        text[i] = this;
+        text[i] = (char) this;
         self->head++;
         i++;
     }

From 6450814729c4725760386ae9e8a24a30c46b7033 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 28 Jun 2013 23:34:24 -0400
Subject: [PATCH 026/189] Remove 'type' attribute from tags; rework tag
 definitions.

---
 mwparserfromhell/nodes/tag.py        |  30 ++-------
 mwparserfromhell/parser/builder.py   |   8 +--
 mwparserfromhell/parser/tokenizer.py |  21 ++----
 mwparserfromhell/tag_defs.py         | 123 ++++++++++-------------------------
 mwparserfromhell/utils.py            |   2 +
 tests/test_builder.py                |   9 ++-
 tests/tokenizer/tags.mwtest          |  28 ++++----
 7 files changed, 72 insertions(+), 149 deletions(-)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index d301d85..cd5d0a2 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -24,18 +24,17 @@ from __future__ import unicode_literals
 
 from . import Node, Text
 from ..compat import str
-from ..tag_defs import TagDefinitions
+from ..tag_defs import get_wikicode, is_visible
 from ..utils import parse_anything
 
 __all__ = ["Tag"]
 
-class Tag(TagDefinitions, Node):
+class Tag(Node):
     """Represents an HTML-style tag in wikicode, like ``<ref>``."""
 
-    def __init__(self, type_, tag, contents=None, attrs=None, showtag=True,
+    def __init__(self, tag, contents=None, attrs=None, showtag=True,
                  self_closing=False, padding="", closing_tag=None):
         super(Tag, self).__init__()
-        self._type = type_
         self._tag = tag
         self._contents = contents
         if attrs:
@@ -52,7 +51,7 @@ class Tag(TagDefinitions, Node):
 
     def __unicode__(self):
         if not self.showtag:
-            open_, close = self.WIKICODE[self.type]
+            open_, close = get_wikicode[self.tag]
             if self.self_closing:
                 return open_
             else:
@@ -84,7 +83,7 @@ class Tag(TagDefinitions, Node):
                 yield self.contents, child
 
     def __strip__(self, normalize, collapse):
-        if self.type in self.TAGS_VISIBLE:
+        if is_visible(self.tag):
             return self.contents.strip_code(normalize, collapse)
         return None
 
@@ -113,11 +112,6 @@ class Tag(TagDefinitions, Node):
             write(">")
 
     @property
-    def type(self):
-        """The tag type."""
-        return self._type
-
-    @property
     def tag(self):
         """The tag itself, as a :py:class:`~.Wikicode` object."""
         return self._tag
@@ -159,23 +153,9 @@ class Tag(TagDefinitions, Node):
         """
         return self._closing_tag
 
-    @type.setter
-    def type(self, value):
-        value = int(value)
-        if value not in self.TAGS_ALL:
-            raise ValueError(value)
-        self._type = value
-        for key in self.TRANSLATIONS:
-            if self.TRANSLATIONS[key] == value:
-                self._tag = self._closing_tag = parse_anything(key)
-
     @tag.setter
     def tag(self, value):
         self._tag = self._closing_tag = parse_anything(value)
-        try:
-            self._type = self.TRANSLATIONS[text]
-        except KeyError:
-            self._type = self.TAG_UNKNOWN
 
     @contents.setter
     def contents(self, value):
diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index 5ec0780..53abe91 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -202,7 +202,7 @@ class Builder(object):
 
     def _handle_tag(self, token):
         """Handle a case where a tag is at the head of the tokens."""
-        type_, showtag = token.type, token.showtag
+        showtag = token.showtag
         attrs = []
         self._push()
         while self._tokens:
@@ -215,14 +215,14 @@ class Builder(object):
                 self._push()
             elif isinstance(token, tokens.TagCloseSelfclose):
                 tag = self._pop()
-                return Tag(type_, tag, attrs=attrs, showtag=showtag,
+                return Tag(tag, attrs=attrs, showtag=showtag,
                            self_closing=True, padding=token.padding)
             elif isinstance(token, tokens.TagOpenClose):
                 contents = self._pop()
                 self._push()
             elif isinstance(token, tokens.TagCloseClose):
-                return Tag(type_, tag, contents, attrs, showtag, False,
-                           padding, self._pop())
+                return Tag(tag, contents, attrs, showtag, False, padding,
+                           self._pop())
             else:
                 self._write(self._handle_token(token))
 
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 67a652a..e7fdb0e 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -27,7 +27,7 @@ import re
 from . import contexts
 from . import tokens
 from ..compat import htmlentities
-from ..nodes.tag import Tag
+from ..tag_defs import is_parsable
 
 __all__ = ["Tokenizer"]
 
@@ -416,8 +416,8 @@ class Tokenizer(object):
         else:
             self._write_all(tokens)
 
-    def _get_tag_type_from_stack(self, stack=None):
-        """Return the tag type based on the text in *stack*.
+    def _get_tag_from_stack(self, stack=None):
+        """Return the tag based on the text in *stack*.
 
         If *stack* is ``None``, we will use the current, topmost one.
         """
@@ -427,11 +427,7 @@ class Tokenizer(object):
         if not stack:
             self._fail_route()  # Tag has an empty name?
         text = [tok for tok in stack if isinstance(tok, tokens.Text)]
-        text = "".join([token.text for token in text]).rstrip().lower()
-        try:
-            return Tag.TRANSLATIONS[text]
-        except KeyError:
-            return Tag.TAG_UNKNOWN
+        return "".join([token.text for token in text]).rstrip().lower()
 
     def _actually_close_tag_opening(self):
         """Handle cleanup at the end of a opening tag.
@@ -447,8 +443,7 @@ class Tokenizer(object):
             if self._context & contexts.TAG_OPEN_ATTR_BODY:
                 self._context ^= contexts.TAG_OPEN_ATTR_BODY
         else:
-            tag = self._get_tag_type_from_stack()
-            self._write_first(tokens.TagOpenOpen(type=tag, showtag=True))
+            self._write_first(tokens.TagOpenOpen(showtag=True))
             self._context ^= contexts.TAG_OPEN_NAME
         self._context |= contexts.TAG_BODY
 
@@ -509,8 +504,7 @@ class Tokenizer(object):
         is_quoted = False
         if self._context & contexts.TAG_OPEN_NAME:
             self._write_text(chunks.pop(0))
-            tag = self._get_tag_type_from_stack()
-            self._write_first(tokens.TagOpenOpen(type=tag, showtag=True))
+            self._write_first(tokens.TagOpenOpen(showtag=True))
             self._context ^= contexts.TAG_OPEN_NAME
             self._context |= contexts.TAG_OPEN_ATTR_NAME
             self._actually_handle_chunk(chunks, True)
@@ -584,8 +578,7 @@ class Tokenizer(object):
     def _handle_tag_close_close(self):
         """Handle the ending of a closing tag (``</foo>``)."""
         closing = self._pop()
-        tag = self._get_tag_type_from_stack(closing)
-        if tag != self._stack[0].type:
+        if self._get_tag_from_stack(closing) != self._get_tag_from_stack():
             # Closing and opening tags are not the same, so fail this route:
             self._fail_route()
         self._write_all(closing)
diff --git a/mwparserfromhell/tag_defs.py b/mwparserfromhell/tag_defs.py
index b2ee90d..369692b 100644
--- a/mwparserfromhell/tag_defs.py
+++ b/mwparserfromhell/tag_defs.py
@@ -20,99 +20,48 @@
 # OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
 # SOFTWARE.
 
-from __future__ import unicode_literals
+"""Contains data regarding certain HTML tags."""
 
-class TagDefinitions(object):
-    """Contains numerical definitions for valid HTML (and wikicode) tags.
+from __future__ import unicode_literals
 
-    Base class for :py:class:`~.Tag` objects.
-    """
+__all__ = ["get_wikicode", "is_parsable", "is_visible"]
 
-    TAG_UNKNOWN = 0
+PARSER_BLACKLIST = [
+    # enwiki extensions @ 2013-06-28
+    "categorytree", "gallery", "hiero", "imagemap", "inputbox", "math",
+    "nowiki", "pre", "score", "section", "source", "syntaxhighlight",
+    "templatedata", "timeline"
+]
 
-    # Basic HTML:
-    TAG_ITALIC = 1
-    TAG_BOLD = 2
-    TAG_UNDERLINE = 3
-    TAG_STRIKETHROUGH = 4
-    TAG_UNORDERED_LIST = 5
-    TAG_ORDERED_LIST = 6
-    TAG_DEF_TERM = 7
-    TAG_DEF_ITEM = 8
-    TAG_BLOCKQUOTE = 9
-    TAG_RULE = 10
-    TAG_BREAK = 11
-    TAG_ABBR = 12
-    TAG_PRE = 13
-    TAG_MONOSPACE = 14
-    TAG_CODE = 15
-    TAG_SPAN = 16
-    TAG_DIV = 17
-    TAG_FONT = 18
-    TAG_SMALL = 19
-    TAG_BIG = 20
-    TAG_CENTER = 21
+INVISIBLE_TAGS = [
+    # enwiki extensions @ 2013-06-28
+    "categorytree", "gallery", "imagemap", "inputbox", "math", "score",
+    "section", "templatedata", "timeline"
+]
 
-    # MediaWiki parser hooks:
-    TAG_REF = 101
-    TAG_GALLERY = 102
-    TAG_MATH = 103
-    TAG_NOWIKI = 104
-    TAG_NOINCLUDE = 105
-    TAG_INCLUDEONLY = 106
-    TAG_ONLYINCLUDE = 107
+# [mediawiki/core.git]/includes/Sanitizer.php @ 87a0aef762
+SINGLE_ONLY = ["br", "hr", "meta", "link", "img"]
+SINGLE = SINGLE_ONLY + ["li", "dt", "dd"]
 
-    # Additional parser hooks:
-    TAG_SYNTAXHIGHLIGHT = 201
-    TAG_POEM = 202
+WIKICODE = {
+    "i": {"open": "''", "close": "''"},
+    "b": {"open": "'''", "close": "'''"},
+    "ul": {"open": "*"},
+    "ol": {"open": "#"},
+    "dt": {"open": ";"},
+    "dd": {"open": ":"},
+    "hr": {"open": "----"},
+}
 
-    # Lists of tags:
-    TAGS_ALL = set(range(300))
-    TAGS_INVISIBLE = {TAG_REF, TAG_GALLERY, TAG_MATH, TAG_NOINCLUDE}
-    TAGS_VISIBLE = TAGS_ALL - TAGS_INVISIBLE
+def get_wikicode(tag):
+    """Return the appropriate wikicode before and after the given *tag*."""
+    data = WIKICODE[tag.lower()]
+    return (data.get("open"), data.get("close"))
 
-    TRANSLATIONS = {
-        "i": TAG_ITALIC,
-        "em": TAG_ITALIC,
-        "b": TAG_BOLD,
-        "strong": TAG_BOLD,
-        "u": TAG_UNDERLINE,
-        "s": TAG_STRIKETHROUGH,
-        "ul": TAG_UNORDERED_LIST,
-        "ol": TAG_ORDERED_LIST,
-        "dt": TAG_DEF_TERM,
-        "dd": TAG_DEF_ITEM,
-        "blockquote": TAG_BLOCKQUOTE,
-        "hl": TAG_RULE,
-        "br": TAG_BREAK,
-        "abbr": TAG_ABBR,
-        "pre": TAG_PRE,
-        "tt": TAG_MONOSPACE,
-        "code": TAG_CODE,
-        "span": TAG_SPAN,
-        "div": TAG_DIV,
-        "font": TAG_FONT,
-        "small": TAG_SMALL,
-        "big": TAG_BIG,
-        "center": TAG_CENTER,
-        "ref": TAG_REF,
-        "gallery": TAG_GALLERY,
-        "math": TAG_MATH,
-        "nowiki": TAG_NOWIKI,
-        "noinclude": TAG_NOINCLUDE,
-        "includeonly": TAG_INCLUDEONLY,
-        "onlyinclude": TAG_ONLYINCLUDE,
-        "syntaxhighlight": TAG_SYNTAXHIGHLIGHT,
-        "source": TAG_SYNTAXHIGHLIGHT,
-        "poem": TAG_POEM,
-    }
+def is_parsable(tag):
+    """Return if the given *tag*'s contents should be passed to the parser."""
+    return tag.lower() not in PARSER_BLACKLIST
 
-    WIKICODE = {
-        TAG_ITALIC: ("''", "''"),
-        TAG_BOLD: ("'''", "'''"),
-        TAG_UNORDERED_LIST: ("*", ""),
-        TAG_ORDERED_LIST: ("#", ""),
-        TAG_DEF_TERM: (";", ""),
-        TAG_DEF_ITEM: (":", ""),
-        TAG_RULE: ("----", ""),
-    }
+def is_visible(tag):
+    """Return whether or not the given *tag* contains visible text."""
+    return tag.lower() not in INVISIBLE_TAGS
diff --git a/mwparserfromhell/utils.py b/mwparserfromhell/utils.py
index b797419..31e5ba0 100644
--- a/mwparserfromhell/utils.py
+++ b/mwparserfromhell/utils.py
@@ -31,6 +31,8 @@ from .compat import bytes, str
 from .nodes import Node
 from .smart_list import SmartList
 
+__all__ = ["parse_anything"]
+
 def parse_anything(value):
     """Return a :py:class:`~.Wikicode` for *value*, allowing multiple types.
 
diff --git a/tests/test_builder.py b/tests/test_builder.py
index 85a8c60..0c635ce 100644
--- a/tests/test_builder.py
+++ b/tests/test_builder.py
@@ -193,11 +193,10 @@ class TestBuilder(TreeEqualityTestCase):
     def test_tag(self):
         """tests for building Tag nodes"""
         tests = [
-            ([tokens.TagOpenOpen(showtag=True, type=101),
-              tokens.Text(text="ref"), tokens.TagCloseOpen(padding=""),
-              tokens.TagOpenClose(), tokens.Text(text="ref"),
-              tokens.TagCloseClose()],
-             wrap([Tag(101, wraptext("ref"), wrap([]), [], True, False, "",
+            ([tokens.TagOpenOpen(showtag=True), tokens.Text(text="ref"),
+              tokens.TagCloseOpen(padding=""), tokens.TagOpenClose(),
+              tokens.Text(text="ref"), tokens.TagCloseClose()],
+             wrap([Tag(wraptext("ref"), wrap([]), [], True, False, "",
                        wraptext("ref"))])),
         ]
         for test, valid in tests:
diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index 5af2074..a76d6b6 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -1,98 +1,98 @@
 name:   basic
 label:  a basic tag with an open and close
 input:  "<ref></ref>"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   basic_selfclosing
 label:  a basic self-closing tag
 input:  "<ref/>"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagCloseSelfclose(padding="")]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseSelfclose(padding="")]
 
 ---
 
 name:   content
 label:  a tag with some content in the middle
 input:  "<ref>this is a reference</ref>"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagCloseOpen(padding=""), Text(text="this is a reference"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseOpen(padding=""), Text(text="this is a reference"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   padded_open
 label:  a tag with some padding in the open tag
 input:  "<ref ></ref>"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagCloseOpen(padding=" "), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseOpen(padding=" "), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   padded_close
 label:  a tag with some padding in the close tag
 input:  "<ref></ref >"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref "), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref "), TagCloseClose()]
 
 ---
 
 name:   padded_selfclosing
 label:  a self-closing tag with padding
 input:  "<ref />"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagCloseSelfclose(padding=" ")]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseSelfclose(padding=" ")]
 
 ---
 
 name:   attribute
 label:  a tag with a single attribute
 input:  "<ref name></ref>"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_value
 label:  a tag with a single attribute with a value
 input:  "<ref name=foo></ref>"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_quoted
 label:  a tag with a single quoted attribute
 input:  "<ref name="foo"></ref>"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_hyphen
 label:  a tag with a single attribute, containing a hyphen
 input:  "<ref name=foo-bar></ref>"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_quoted_hyphen
 label:  a tag with a single quoted attribute, containing a hyphen
 input:  "<ref name="foo-bar"></ref>"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_selfclosing
 label:  a self-closing tag with a single attribute
 input:  "<ref name/>"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagCloseSelfclose(padding="")]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagCloseSelfclose(padding="")]
 
 ---
 
 name:   attribute_selfclosing_value
 label:  a self-closing tag with a single attribute with a value
 input:  "<ref name=foo/>"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseSelfclose(padding="")]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseSelfclose(padding="")]
 
 ---
 
 name:   attribute_selfclosing_value_quoted
 label:  a self-closing tag with a single quoted attribute
 input:  "<ref name="foo"/>"
-output: [TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseSelfclose(padding="")]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseSelfclose(padding="")]
 
 ---
 

From ce27d5d385a4adc14e136b33471216038dfc70a1 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 29 Jun 2013 00:33:41 -0400
Subject: [PATCH 027/189] Fix six failing tests; add three more (all passing).

---
 mwparserfromhell/parser/tokenizer.py | 33 ++++++++++++++++++---------------
 tests/tokenizer/tags.mwtest          | 21 +++++++++++++++++++++
 2 files changed, 39 insertions(+), 15 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index e7fdb0e..93e9a8d 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -21,6 +21,7 @@
 # SOFTWARE.
 
 from __future__ import unicode_literals
+from itertools import takewhile
 from math import log
 import re
 
@@ -416,19 +417,6 @@ class Tokenizer(object):
         else:
             self._write_all(tokens)
 
-    def _get_tag_from_stack(self, stack=None):
-        """Return the tag based on the text in *stack*.
-
-        If *stack* is ``None``, we will use the current, topmost one.
-        """
-        if stack is None:
-            stack = self._stack
-            self._push_textbuffer()
-        if not stack:
-            self._fail_route()  # Tag has an empty name?
-        text = [tok for tok in stack if isinstance(tok, tokens.Text)]
-        return "".join([token.text for token in text]).rstrip().lower()
-
     def _actually_close_tag_opening(self):
         """Handle cleanup at the end of a opening tag.
 
@@ -557,14 +545,27 @@ class Tokenizer(object):
             while chunks:
                 self._actually_handle_chunk(chunks, True)
 
+    def _get_tag_from_stack(self, stack=None):
+        """Return the tag based on the text in *stack*."""
+        if not stack:
+            sentinels = (tokens.TagAttrStart, tokens.TagCloseOpen)
+            func = lambda tok: not isinstance(tok, sentinels)
+            stack = takewhile(func, self._stack)
+        text = [tok.text for tok in stack if isinstance(tok, tokens.Text)]
+        return "".join(text).rstrip().lower()
+
     def _handle_tag_close_open(self):
         """Handle the ending of an open tag (``<foo>``)."""
         padding = self._actually_close_tag_opening()
+        if not self._get_tag_from_stack():  # Tags cannot be blank
+            self._fail_route()
         self._write(tokens.TagCloseOpen(padding=padding))
 
     def _handle_tag_selfclose(self):
         """Handle the ending of an tag that closes itself (``<foo />``)."""
         padding = self._actually_close_tag_opening()
+        if not self._get_tag_from_stack():  # Tags cannot be blank
+            self._fail_route()
         self._write(tokens.TagCloseSelfclose(padding=padding))
         self._head += 1
         return self._pop()
@@ -578,8 +579,10 @@ class Tokenizer(object):
     def _handle_tag_close_close(self):
         """Handle the ending of a closing tag (``</foo>``)."""
         closing = self._pop()
-        if self._get_tag_from_stack(closing) != self._get_tag_from_stack():
-            # Closing and opening tags are not the same, so fail this route:
+        close_tag = self._get_tag_from_stack(closing)
+        open_tag = self._get_tag_from_stack()
+        if not close_tag or close_tag != open_tag:
+            # Closing and opening tags are empty or unequal, so fail this tag:
             self._fail_route()
         self._write_all(closing)
         self._write(tokens.TagCloseClose())
diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index a76d6b6..849a4fd 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -233,3 +233,24 @@ name:   incomplete_open_text_wrong_close
 label:  incomplete tags: an open tag, text, wrong close
 input:  "junk <ref>bar</span>"
 output: [Text(text="junk <ref>bar</span>")]
+
+---
+
+name:   incomplete_no_tag_name_open
+label:  incomplete tags: no tag name within brackets; just an open
+input:  "junk <>"
+output: [Text(text="junk <>")]
+
+---
+
+name:   incomplete_no_tag_name_selfclosing
+label:  incomplete tags: no tag name within brackets; self-closing
+input:  "junk < />"
+output: [Text(text="junk < />")]
+
+---
+
+name:   incomplete_no_tag_name_open_close
+label:  incomplete tags: no tag name within brackets; open and close
+input:  "junk <></>"
+output: [Text(text="junk <></>")]

From c241bff9f50896d83294ed12c72b8d59dc932b2b Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 29 Jun 2013 00:37:29 -0400
Subject: [PATCH 028/189] Remove .type check from assertTagNodeEqual()

---
 tests/_test_tree_equality.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/tests/_test_tree_equality.py b/tests/_test_tree_equality.py
index 2828147..6976a13 100644
--- a/tests/_test_tree_equality.py
+++ b/tests/_test_tree_equality.py
@@ -91,7 +91,6 @@ class TreeEqualityTestCase(TestCase):
 
     def assertTagNodeEqual(self, expected, actual):
         """Assert that two Tag nodes have the same data."""
-        self.assertEqual(expected.type, actual.type)
         self.assertWikicodeEqual(expected.tag, actual.tag)
         if expected.contents is not None:
             self.assertWikicodeEqual(expected.contents, actual.contents)

From 81e8fdd6829c12468f0f12c71d707c452eb9e2bb Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 30 Jun 2013 20:57:54 -0400
Subject: [PATCH 029/189] Give Attributes more attributes for padding data.

---
 mwparserfromhell/nodes/extras/attribute.py | 41 ++++++++++++++++++++++--------
 mwparserfromhell/nodes/tag.py              |  2 +-
 mwparserfromhell/parser/builder.py         | 13 ++++++----
 tests/tokenizer/tags.mwtest                | 16 ++++++------
 4 files changed, 48 insertions(+), 24 deletions(-)

diff --git a/mwparserfromhell/nodes/extras/attribute.py b/mwparserfromhell/nodes/extras/attribute.py
index 33ad851..5888dba 100644
--- a/mwparserfromhell/nodes/extras/attribute.py
+++ b/mwparserfromhell/nodes/extras/attribute.py
@@ -36,19 +36,22 @@ class Attribute(StringMixIn):
     whose value is ``"foo"``.
     """
 
-    def __init__(self, name, value=None, quoted=True, padding=""):
+    def __init__(self, name, value=None, quoted=True, pad_first="",
+                 pad_before_eq="", pad_after_eq=""):
         super(Attribute, self).__init__()
         self._name = name
         self._value = value
         self._quoted = quoted
-        self._padding = padding
+        self._pad_first = pad_first
+        self._pad_before_eq = pad_before_eq
+        self._pad_after_eq = pad_after_eq
 
     def __unicode__(self):
-        base = self.padding + str(self.name)
+        base = self.pad_first + str(self.name) + self.pad_before_eq
         if self.value:
             if self.quoted:
-                return base + '="' + str(self.value) + '"'
-            return base + "=" + str(self.value)
+                return base + '="' + self.pad_after_eq + str(self.value) + '"'
+            return base + "=" + self.pad_after_eq + str(self.value)
         return base
 
     @property
@@ -67,9 +70,19 @@ class Attribute(StringMixIn):
         return self._quoted
 
     @property
-    def padding(self):
+    def pad_first(self):
         """Spacing to insert right before the attribute."""
-        return self._padding
+        return self._pad_first
+
+    @property
+    def pad_before_eq(self):
+        """Spacing to insert right before the equal sign."""
+        return self._pad_before_eq
+
+    @property
+    def pad_after_eq(self):
+        """Spacing to insert right after the equal sign."""
+        return self._pad_after_eq
 
     @name.setter
     def name(self, value):
@@ -83,6 +96,14 @@ class Attribute(StringMixIn):
     def quoted(self, value):
         self._quoted = bool(value)
 
-    @padding.setter
-    def padding(self, value):
-        self._padding = str(value)
+    @pad_first.setter
+    def pad_first(self, value):
+        self._pad_first = str(value)
+
+    @pad_before_eq.setter
+    def pad_before_eq(self, value):
+        self._pad_before_eq = str(value)
+
+    @pad_after_eq.setter
+    def pad_after_eq(self, value):
+        self._pad_after_eq = str(value)
diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index cd5d0a2..76b412c 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -59,7 +59,7 @@ class Tag(Node):
 
         result = "<" + str(self.tag)
         if self.attributes:
-            result += " " + " ".join([str(attr) for attr in self.attributes])
+            result += "".join([str(attr) for attr in self.attributes])
         if self.self_closing:
             result += self.padding + "/>"
         else:
diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index 53abe91..d92b845 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -180,9 +180,9 @@ class Builder(object):
             else:
                 self._write(self._handle_token(token))
 
-    def _handle_attribute(self, token):
+    def _handle_attribute(self, start):
         """Handle a case where a tag attribute is at the head of the tokens."""
-        name, quoted, padding = None, False, token.padding
+        name, quoted = None, False
         self._push()
         while self._tokens:
             token = self._tokens.pop()
@@ -194,9 +194,12 @@ class Builder(object):
             elif isinstance(token, (tokens.TagAttrStart, tokens.TagCloseOpen,
                                     tokens.TagCloseSelfclose)):
                 self._tokens.append(token)
-                if name is not None:
-                    return Attribute(name, self._pop(), quoted, padding)
-                return Attribute(self._pop(), quoted=quoted, padding=padding)
+                if name:
+                    value = self._pop()
+                else:
+                    name, value = self._pop(), None
+                return Attribute(name, value, quoted, start.pad_first,
+                                 start.pad_before_eq, start.pad_after_eq)
             else:
                 self._write(self._handle_token(token))
 
diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index 849a4fd..1dfc1b1 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -43,56 +43,56 @@ output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseSelfclose(padding=
 name:   attribute
 label:  a tag with a single attribute
 input:  "<ref name></ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_value
 label:  a tag with a single attribute with a value
 input:  "<ref name=foo></ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_quoted
 label:  a tag with a single quoted attribute
 input:  "<ref name="foo"></ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_hyphen
 label:  a tag with a single attribute, containing a hyphen
 input:  "<ref name=foo-bar></ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_quoted_hyphen
 label:  a tag with a single quoted attribute, containing a hyphen
 input:  "<ref name="foo-bar"></ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_selfclosing
 label:  a self-closing tag with a single attribute
 input:  "<ref name/>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagCloseSelfclose(padding="")]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagCloseSelfclose(padding="")]
 
 ---
 
 name:   attribute_selfclosing_value
 label:  a self-closing tag with a single attribute with a value
 input:  "<ref name=foo/>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseSelfclose(padding="")]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseSelfclose(padding="")]
 
 ---
 
 name:   attribute_selfclosing_value_quoted
 label:  a self-closing tag with a single quoted attribute
 input:  "<ref name="foo"/>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseSelfclose(padding="")]
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseSelfclose(padding="")]
 
 ---
 

From 5f5a081d9148c584511bffb3d6d3b8f63ea24d43 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 30 Jun 2013 21:02:11 -0400
Subject: [PATCH 030/189] Rewrite tag parser to be cleaner and safer.

All tag tests passing. Still need to finish backslash support and
support for templates and tags within <open> tags.
---
 mwparserfromhell/parser/contexts.py  |  87 ++++-----
 mwparserfromhell/parser/tokenizer.py | 339 ++++++++++++++++-------------------
 2 files changed, 194 insertions(+), 232 deletions(-)

diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index 3c9c798..9e5e568 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -65,15 +65,7 @@ Local (stack-specific) contexts:
 * :py:const:`TAG`
 
     * :py:const:`TAG_OPEN`
-
-        * :py:const:`TAG_OPEN_NAME`
-        * :py:const:`TAG_OPEN_ATTR`
-
-            * :py:const:`TAG_OPEN_ATTR_NAME`
-            * :py:const:`TAG_OPEN_ATTR_BODY`
-            * :py:const:`TAG_OPEN_ATTR_QUOTED`
-            * :py:const:`TAG_OPEN_ATTR_IGNORE`
-
+    * :py:const:`TAG_ATTR`
     * :py:const:`TAG_BODY`
     * :py:const:`TAG_CLOSE`
 
@@ -93,47 +85,42 @@ Global contexts:
 
 # Local contexts:
 
-TEMPLATE =             0b000000000000000000000000111
-TEMPLATE_NAME =        0b000000000000000000000000001
-TEMPLATE_PARAM_KEY =   0b000000000000000000000000010
-TEMPLATE_PARAM_VALUE = 0b000000000000000000000000100
-
-ARGUMENT =             0b000000000000000000000011000
-ARGUMENT_NAME =        0b000000000000000000000001000
-ARGUMENT_DEFAULT =     0b000000000000000000000010000
-
-WIKILINK =             0b000000000000000000001100000
-WIKILINK_TITLE =       0b000000000000000000000100000
-WIKILINK_TEXT =        0b000000000000000000001000000
-
-HEADING =              0b000000000000001111110000000
-HEADING_LEVEL_1 =      0b000000000000000000010000000
-HEADING_LEVEL_2 =      0b000000000000000000100000000
-HEADING_LEVEL_3 =      0b000000000000000001000000000
-HEADING_LEVEL_4 =      0b000000000000000010000000000
-HEADING_LEVEL_5 =      0b000000000000000100000000000
-HEADING_LEVEL_6 =      0b000000000000001000000000000
-
-COMMENT =              0b000000000000010000000000000
-
-TAG =                  0b000000111111100000000000000
-TAG_OPEN =             0b000000001111100000000000000
-TAG_OPEN_NAME =        0b000000000000100000000000000
-TAG_OPEN_ATTR =        0b000000001111000000000000000
-TAG_OPEN_ATTR_NAME =   0b000000000001000000000000000
-TAG_OPEN_ATTR_BODY =   0b000000000010000000000000000
-TAG_OPEN_ATTR_QUOTED = 0b000000000100000000000000000
-TAG_OPEN_ATTR_IGNORE = 0b000000001000000000000000000
-TAG_BODY =             0b000000010000000000000000000
-TAG_CLOSE =            0b000000100000000000000000000
-
-SAFETY_CHECK =         0b111111000000000000000000000
-HAS_TEXT =             0b000001000000000000000000000
-FAIL_ON_TEXT =         0b000010000000000000000000000
-FAIL_NEXT  =           0b000100000000000000000000000
-FAIL_ON_LBRACE =       0b001000000000000000000000000
-FAIL_ON_RBRACE =       0b010000000000000000000000000
-FAIL_ON_EQUALS =       0b100000000000000000000000000
+TEMPLATE =             0b000000000000000000000111
+TEMPLATE_NAME =        0b000000000000000000000001
+TEMPLATE_PARAM_KEY =   0b000000000000000000000010
+TEMPLATE_PARAM_VALUE = 0b000000000000000000000100
+
+ARGUMENT =             0b000000000000000000011000
+ARGUMENT_NAME =        0b000000000000000000001000
+ARGUMENT_DEFAULT =     0b000000000000000000010000
+
+WIKILINK =             0b000000000000000001100000
+WIKILINK_TITLE =       0b000000000000000000100000
+WIKILINK_TEXT =        0b000000000000000001000000
+
+HEADING =              0b000000000001111110000000
+HEADING_LEVEL_1 =      0b000000000000000010000000
+HEADING_LEVEL_2 =      0b000000000000000100000000
+HEADING_LEVEL_3 =      0b000000000000001000000000
+HEADING_LEVEL_4 =      0b000000000000010000000000
+HEADING_LEVEL_5 =      0b000000000000100000000000
+HEADING_LEVEL_6 =      0b000000000001000000000000
+
+COMMENT =              0b000000000010000000000000
+
+TAG =                  0b000000111100000000000000
+TAG_OPEN =             0b000000000100000000000000
+TAG_ATTR =             0b000000001000000000000000
+TAG_BODY =             0b000000010000000000000000
+TAG_CLOSE =            0b000000100000000000000000
+
+SAFETY_CHECK =         0b111111000000000000000000
+HAS_TEXT =             0b000001000000000000000000
+FAIL_ON_TEXT =         0b000010000000000000000000
+FAIL_NEXT  =           0b000100000000000000000000
+FAIL_ON_LBRACE =       0b001000000000000000000000
+FAIL_ON_RBRACE =       0b010000000000000000000000
+FAIL_ON_EQUALS =       0b100000000000000000000000
 
 # Global contexts:
 
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 93e9a8d..a7b9e16 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -37,6 +37,26 @@ class BadRoute(Exception):
     pass
 
 
+class _TagOpenData(object):
+    """Stores data about an HTML open tag, like ``<ref name="foo">``."""
+    CX_NAME =        1 << 0
+    CX_ATTR_READY =  1 << 1
+    CX_ATTR_NAME =   1 << 2
+    CX_ATTR_VALUE =  1 << 3
+    CX_NEED_SPACE =  1 << 4
+    CX_NEED_EQUALS = 1 << 5
+    CX_NEED_QUOTE =  1 << 6
+    CX_ATTR = CX_ATTR_NAME | CX_ATTR_VALUE
+
+    def __init__(self):
+        self.context = self.CX_NAME
+        self.literal = True
+        self.padding_buffer = []
+        self.quote_buffer = []
+        self.reset = 0
+        self.ignore_quote = False
+
+
 class Tokenizer(object):
     """Creates a list of tokens from a string of wikicode."""
     USES_C = False
@@ -47,6 +67,7 @@ class Tokenizer(object):
     MAX_DEPTH = 40
     MAX_CYCLES = 100000
     regex = re.compile(r"([{}\[\]<>|=&#*;:/\-!\n])", flags=re.IGNORECASE)
+    tag_splitter = re.compile(r"([\s\"\\])")
 
     def __init__(self):
         self._text = None
@@ -410,165 +431,145 @@ class Tokenizer(object):
         reset = self._head
         self._head += 1
         try:
-            tokens = self._parse(contexts.TAG_OPEN_NAME)
+            tokens = self._really_parse_tag()
         except BadRoute:
             self._head = reset
             self._write_text("<")
         else:
             self._write_all(tokens)
 
-    def _actually_close_tag_opening(self):
-        """Handle cleanup at the end of a opening tag.
-
-        The current context will be updated and the
-        :py:class:`~.tokens.TagOpenOpen` token will be written. Returns the
-        opening tag's padding to be used in the
-        :py:class:`~.tokens.TagOpenClose` token.
-        """
-        if self._context & contexts.TAG_OPEN_ATTR:
-            if self._context & contexts.TAG_OPEN_ATTR_NAME:
-                self._context ^= contexts.TAG_OPEN_ATTR_NAME
-            if self._context & contexts.TAG_OPEN_ATTR_BODY:
-                self._context ^= contexts.TAG_OPEN_ATTR_BODY
-        else:
-            self._write_first(tokens.TagOpenOpen(showtag=True))
-            self._context ^= contexts.TAG_OPEN_NAME
-        self._context |= contexts.TAG_BODY
-
-        self._push_textbuffer()
-        if isinstance(self._stack[-1], tokens.TagAttrStart):
-            return self._stack.pop().padding
-        return ""
-
-    def _actually_handle_chunk(self, chunks, is_new):
-        """Actually handle a chunk of code within a tag's attributes.
+    def _really_parse_tag(self):
+        """Actually parse an HTML tag, starting with the open (``<foo>``)."""
+        data = _TagOpenData()
+        self._push(contexts.TAG_OPEN)
+        self._write(tokens.TagOpenOpen(showtag=True))
+        while True:
+            this, next = self._read(), self._read(1)
+            if this not in self.MARKERS:
+                for chunk in self.tag_splitter.split(this):
+                    if self._handle_tag_chunk(data, chunk):
+                        continue
+            elif this is self.END:
+                if self._context & contexts.TAG_ATTR:
+                    self._pop()
+                self._fail_route()
+            elif this == ">" and data.literal:
+                if data.context & data.CX_ATTR:
+                    self._push_tag_buffer(data)
+                padding = data.padding_buffer[0] if data.padding_buffer else ""
+                self._write(tokens.TagCloseOpen(padding=padding))
+                self._context = contexts.TAG_BODY
+                self._head += 1
+                return self._parse(push=False)
+            elif this == "/" and next == ">" and data.literal:
+                if data.context & data.CX_ATTR:
+                    self._push_tag_buffer(data)
+                padding = data.padding_buffer[0] if data.padding_buffer else ""
+                self._write(tokens.TagCloseSelfclose(padding=padding))
+                self._head += 1
+                return self._pop()
+            else:
+                for chunk in self.tag_splitter.split(this):
+                    if self._handle_tag_chunk(data, chunk):
+                        continue
+            self._head += 1
 
-        Called by :py:meth:`_handle_tag_chunk` and
-        :py:meth:`_handle_tag_attribute_body`.
-        """
-        if is_new and not self._context & contexts.TAG_OPEN_ATTR_QUOTED:
-            padding = 0
-            while chunks:
-                if chunks[0] == "":
-                    padding += 1
-                    chunks.pop(0)
-                else:
-                    break
-            self._write(tokens.TagAttrStart(padding=" " * padding))
-        elif self._context & contexts.TAG_OPEN_ATTR_IGNORE:
-            self._context ^= contexts.TAG_OPEN_ATTR_IGNORE
-            chunks.pop(0)
+    def _handle_tag_chunk(self, data, chunk):
+        if not chunk:
             return
-        elif is_new and self._context & contexts.TAG_OPEN_ATTR_QUOTED:
-            self._write_text(" ")  # Quoted chunks don't lose their spaces
-
-        if chunks:
-            chunk = chunks.pop(0)
-            if self._context & contexts.TAG_OPEN_ATTR_BODY:
-                self._context ^= contexts.TAG_OPEN_ATTR_BODY
-                self._context |= contexts.TAG_OPEN_ATTR_NAME
-            if self._context & contexts.TAG_OPEN_ATTR_QUOTED:
-                if re.search(r'[^\\]"', chunk[:-1]):
-                    self._fail_route()
-                if re.search(r'[^\\]"$', chunk):
-                    self._write_text(chunk[:-1])
-                    self._context ^= contexts.TAG_OPEN_ATTR_QUOTED
-                    self._context |= contexts.TAG_OPEN_ATTR_NAME
-                    return True  # Back to _handle_tag_attribute_body()
+        if data.context & data.CX_NAME:
+            if chunk != chunk.lstrip():  # Tags cannot start with whitespace
+                self._fail_route()
             self._write_text(chunk)
-
-    def _handle_tag_chunk(self, text):
-        """Handle a chunk of code within a tag's attributes.
-
-        This is called by :py:meth:`_parse`, which intercepts parsing of
-        wikicode when we're inside of an opening tag and no :py:attr:`MARKERS`
-        are present.
-        """
-        if " " not in text and not self._context & contexts.TAG_OPEN_ATTR_QUOTED:
-            self._write_text(text)
-            return
-        chunks = text.split(" ")
-        is_new = False
-        is_quoted = False
-        if self._context & contexts.TAG_OPEN_NAME:
-            self._write_text(chunks.pop(0))
-            self._write_first(tokens.TagOpenOpen(showtag=True))
-            self._context ^= contexts.TAG_OPEN_NAME
-            self._context |= contexts.TAG_OPEN_ATTR_NAME
-            self._actually_handle_chunk(chunks, True)
-            is_new = True
-        while chunks:
-            result = self._actually_handle_chunk(chunks, is_new)
-            is_quoted = result or is_quoted
-            is_new = True
-        if is_quoted:
-            return self._pop()
-
-    def _handle_tag_attribute_body(self):
-        """Handle the body, or value, of a tag attribute.
-
-        Attribute bodies can usually be handled at once, but sometimes a new
-        stack must be created to keep track of "rich" attribute values that
-        contain, for example, templates.
-        """
-        self._context ^= contexts.TAG_OPEN_ATTR_NAME
-        self._context |= contexts.TAG_OPEN_ATTR_BODY
-        self._write(tokens.TagAttrEquals())
-        next = self._read(1)
-        if next not in self.MARKERS and next.startswith('"'):
-            chunks = None
-            if " " in next:
-                chunks = next.split(" ")
-                next = chunks.pop(0)
-            if re.search(r'[^\\]"$', next[1:]):
-                if not re.search(r'[^\\]"', next[1:-1]):
-                    self._write(tokens.TagAttrQuote())
-                    self._write_text(next[1:-1])
-                    self._head += 1
+            data.context = data.CX_NEED_SPACE
+        elif data.context & data.CX_NEED_SPACE:
+            if chunk.isspace():
+                if data.context & data.CX_ATTR_VALUE:
+                    self._push_tag_buffer(data)
+                data.padding_buffer.append(chunk)
+                data.context = data.CX_ATTR_READY
             else:
-                if not re.search(r'[^\\]"', next[1:]):
-                    self._head += 1
-                    reset = self._head
-                    try:
-                        attr = self._parse(contexts.TAG_OPEN_ATTR_QUOTED |
-                                           contexts.TAG_OPEN_ATTR_IGNORE)
-                    except BadRoute:
-                        self._head = reset
-                        self._write_text(next)
-                    else:
-                        self._write(tokens.TagAttrQuote())
-                        self._write_text(next[1:])
-                        self._write_all(attr)
-                        return
-            self._context ^= contexts.TAG_OPEN_ATTR_BODY
-            self._context |= contexts.TAG_OPEN_ATTR_NAME
-            while chunks:
-                self._actually_handle_chunk(chunks, True)
+                if data.context & data.CX_ATTR_VALUE:
+                    data.context ^= data.CX_NEED_SPACE
+                    data.quote_buffer = []
+                    data.ignore_quote = True
+                    self._head = data.reset
+                    return True  # Break out of chunk processing early
+                else:
+                    self._fail_route()
+        elif data.context & data.CX_ATTR_READY:
+            if chunk.isspace():
+                data.padding_buffer.append(chunk)
+            else:
+                data.context = data.CX_ATTR_NAME
+                self._push(contexts.TAG_ATTR)
+                self._write_text(chunk)                        ### hook on here for {, <, etc
+        elif data.context & data.CX_ATTR_NAME:
+            if chunk.isspace():
+                data.padding_buffer.append(chunk)
+                data.context |= data.CX_NEED_EQUALS
+            elif chunk == "=":
+                if not data.context & data.CX_NEED_EQUALS:
+                    data.padding_buffer.append("")  # No padding before equals
+                data.context = data.CX_ATTR_VALUE | data.CX_NEED_QUOTE
+                self._write(tokens.TagAttrEquals())
+            else:
+                if data.context & data.CX_NEED_EQUALS:
+                    self._push_tag_buffer(data)
+                    data.padding_buffer.append("")  # No padding before tag
+                    data.context = data.CX_ATTR_NAME
+                    self._push(contexts.TAG_ATTR)
+                self._write_text(chunk)                        ### hook on here for {, <, etc
+        elif data.context & data.CX_ATTR_VALUE:
+            ### handle backslashes here
+            if data.context & data.CX_NEED_QUOTE:
+                if chunk == '"' and not data.ignore_quote:
+                    data.context ^= data.CX_NEED_QUOTE
+                    data.literal = False
+                    data.reset = self._head
+                elif chunk.isspace():
+                    data.padding_buffer.append(chunk)
+                else:
+                    data.context ^= data.CX_NEED_QUOTE
+                    self._write_text(chunk)                    ### hook on here for {, <, etc
+            elif not data.literal:
+                if chunk == '"':
+                    data.context |= data.CX_NEED_SPACE
+                    data.literal = True
+                else:
+                    data.quote_buffer.append(chunk)
+            elif chunk.isspace():
+                self._push_tag_buffer(data)
+                data.padding_buffer.append(chunk)
+                data.context = data.CX_ATTR_READY
+            else:
+                self._write_text(chunk)                        ### hook on here for {, <, etc
+
+    def _push_tag_buffer(self, data):
+        buf = data.padding_buffer
+        while len(buf) < 3:
+            buf.append("")
+        self._write_first(tokens.TagAttrStart(
+            pad_after_eq=buf.pop(), pad_before_eq=buf.pop(),
+            pad_first=buf.pop()))
+        if data.quote_buffer:
+            self._write(tokens.TagAttrQuote())
+            self._write_text("".join(data.quote_buffer))
+        self._write_all(self._pop())
+        data.padding_buffer, data.quote_buffer = [], []
+        data.ignore_quote = False
 
     def _get_tag_from_stack(self, stack=None):
         """Return the tag based on the text in *stack*."""
         if not stack:
             sentinels = (tokens.TagAttrStart, tokens.TagCloseOpen)
-            func = lambda tok: not isinstance(tok, sentinels)
-            stack = takewhile(func, self._stack)
+            pred = lambda tok: not isinstance(tok, sentinels)
+            stack = takewhile(pred, self._stack)
         text = [tok.text for tok in stack if isinstance(tok, tokens.Text)]
-        return "".join(text).rstrip().lower()
-
-    def _handle_tag_close_open(self):
-        """Handle the ending of an open tag (``<foo>``)."""
-        padding = self._actually_close_tag_opening()
-        if not self._get_tag_from_stack():  # Tags cannot be blank
-            self._fail_route()
-        self._write(tokens.TagCloseOpen(padding=padding))
-
-    def _handle_tag_selfclose(self):
-        """Handle the ending of an tag that closes itself (``<foo />``)."""
-        padding = self._actually_close_tag_opening()
-        if not self._get_tag_from_stack():  # Tags cannot be blank
+        try:
+            return "".join(text).rstrip().lower().split()[0]
+        except IndexError:
             self._fail_route()
-        self._write(tokens.TagCloseSelfclose(padding=padding))
-        self._head += 1
-        return self._pop()
 
     def _handle_tag_open_close(self):
         """Handle the opening of a closing tag (``</foo>``)."""
@@ -579,10 +580,7 @@ class Tokenizer(object):
     def _handle_tag_close_close(self):
         """Handle the ending of a closing tag (``</foo>``)."""
         closing = self._pop()
-        close_tag = self._get_tag_from_stack(closing)
-        open_tag = self._get_tag_from_stack()
-        if not close_tag or close_tag != open_tag:
-            # Closing and opening tags are empty or unequal, so fail this tag:
+        if self._get_tag_from_stack(closing) != self._get_tag_from_stack():
             self._fail_route()
         self._write_all(closing)
         self._write(tokens.TagCloseClose())
@@ -645,37 +643,30 @@ class Tokenizer(object):
                 self._context |= contexts.FAIL_ON_RBRACE
             return True
 
-    def _parse(self, context=0):
+    def _parse(self, context=0, push=True):
         """Parse the wikicode string, using *context* for when to stop."""
-        self._push(context)
+        unsafe = (contexts.TEMPLATE_NAME | contexts.WIKILINK_TITLE |
+                  contexts.TEMPLATE_PARAM_KEY | contexts.ARGUMENT_NAME |
+                  contexts.TAG_CLOSE)
+        fail = (contexts.TEMPLATE | contexts.ARGUMENT | contexts.WIKILINK |
+                contexts.HEADING | contexts.COMMENT | contexts.TAG)
+        double_fail = (contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE)
+
+        if push:
+            self._push(context)
         while True:
             this = self._read()
-            unsafe = (contexts.TEMPLATE_NAME | contexts.WIKILINK_TITLE |
-                      contexts.TEMPLATE_PARAM_KEY | contexts.ARGUMENT_NAME |
-                      contexts.TAG_CLOSE)
             if self._context & unsafe:
                 if not self._verify_safe(this):
-                    double = (contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE)
-                    if self._context & double:
+                    if self._context & double_fail:
                         self._pop()
                     self._fail_route()
             if this not in self.MARKERS:
-                if self._context & contexts.TAG_OPEN:
-                    should_exit = self._handle_tag_chunk(this)
-                    if should_exit:
-                        return should_exit
-                else:
-                    self._write_text(this)
+                self._write_text(this)
                 self._head += 1
                 continue
             if this is self.END:
-                fail = (
-                    contexts.TEMPLATE | contexts.ARGUMENT | contexts.WIKILINK |
-                    contexts.HEADING | contexts.COMMENT | contexts.TAG)
                 if self._context & fail:
-                    double_fail = (
-                        contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE |
-                        contexts.TAG_OPEN_ATTR_QUOTED)
                     if self._context & double_fail:
                         self._pop()
                     self._fail_route()
@@ -720,8 +711,6 @@ class Tokenizer(object):
             elif this == "=" and not self._global & contexts.GL_HEADING:
                 if self._read(-1) in ("\n", self.START):
                     self._parse_heading()
-                elif self._context & contexts.TAG_OPEN_ATTR_NAME:
-                    self._handle_tag_attribute_body()
                 else:
                     self._write_text("=")
             elif this == "=" and self._context & contexts.HEADING:
@@ -735,22 +724,8 @@ class Tokenizer(object):
                     self._parse_comment()
                 else:
                     self._write_text(this)
-            elif this == "<" and next != "/" and (
-                    not self._context & (contexts.TAG ^ contexts.TAG_BODY)):
+            elif this == "<" and next != "/" and not self._context & contexts.TAG_CLOSE:
                 self._parse_tag()
-            elif self._context & contexts.TAG_OPEN:
-                if self._context & contexts.TAG_OPEN_ATTR_QUOTED:
-                    self._handle_tag_chunk(this)
-                elif this == "\n":
-                    self._fail_route()
-                elif this == ">":
-                    self._handle_tag_close_open()
-                elif this == "/" and next == ">":
-                    return self._handle_tag_selfclose()
-                elif this == "=" and self._context & contexts.TAG_OPEN_ATTR_NAME:
-                    self._handle_tag_attribute_body()
-                else:
-                    self._handle_tag_chunk(this)
             elif this == "<" and next == "/" and self._context & contexts.TAG_BODY:
                 self._handle_tag_open_close()
             elif this == ">" and self._context & contexts.TAG_CLOSE:

From 962adcd62c48a426750fd637cfa27a2d74943474 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 30 Jun 2013 22:27:44 -0400
Subject: [PATCH 031/189] Add docstrings for a couple new methods in the
 tokenizer.

---
 mwparserfromhell/parser/tokenizer.py | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index a7b9e16..9817bd9 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -475,6 +475,11 @@ class Tokenizer(object):
             self._head += 1
 
     def _handle_tag_chunk(self, data, chunk):
+        """Handle a *chunk* of text inside a HTML open tag.
+
+        A "chunk" is either a marker, whitespace, or text containing no markers
+        or whitespace. *data* is a :py:class:`_TagOpenData` object.
+        """
         if not chunk:
             return
         if data.context & data.CX_NAME:
@@ -546,6 +551,10 @@ class Tokenizer(object):
                 self._write_text(chunk)                        ### hook on here for {, <, etc
 
     def _push_tag_buffer(self, data):
+        """Write a pending tag attribute from *data* to the stack.
+
+        *data* is a :py:class:`_TagOpenData` object.
+        """
         buf = data.padding_buffer
         while len(buf) < 3:
             buf.append("")

From 43e717cca927009c840ddabb3ebabad834d14adf Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 30 Jun 2013 22:41:19 -0400
Subject: [PATCH 032/189] Add a number of new tag tests.

---
 tests/tokenizer/tags.mwtest | 70 +++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 70 insertions(+)

diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index 1dfc1b1..7d5f338 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -96,6 +96,76 @@ output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" "
 
 ---
 
+name:   invalid_space_begin_open
+label:  invalid tag: a space at the beginning of the open tag
+input:  "< ref>test</ref>"
+output: [Text(text="< ref>test</ref>")]
+
+---
+
+name:   invalid_space_begin_close
+label:  invalid tag: a space at the beginning of the close tag
+input:  "<ref>test</ ref>"
+output: [Text(text="<ref>test</ ref>")]
+
+---
+
+name:   valid_space_end
+label:  valid tag: spaces at the ends of both the open and close tags
+input:  "<ref >test</ref >"
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseOpen(padding=" "), Text(text="test"), TagOpenClose(), Text(text="ref "), TagCloseClose()]
+
+---
+
+name:   invalid_template_ends
+label:  invalid tag: a template at the ends of both the open and close tags
+input:  "<ref {{foo}}>test</ref {{foo}}>"
+output: [Text(text="<ref "), TemplateOpen(), Text(text="foo"), TemplateClose(), Text(text=">test</ref "), TemplateOpen(), Text(text="foo"), TemplateClose(), Text(text=">")]
+
+---
+
+name:   invalid_template_ends_nospace
+label:  invalid tag: a template at the ends of both the open and close tags, without spacing
+input:  "<ref {{foo}}>test</ref{{foo}}>"
+output: [Text(text="<ref "), TemplateOpen(), Text(text="foo"), TemplateClose(), Text(text=">test</ref"), TemplateOpen(), Text(text="foo"), TemplateClose(), Text(text=">")]
+
+---
+
+name:   valid_template_end_open
+label:  valid tag: a template at the end of the open tag
+input:  "<ref {{foo}}>test</ref>"
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), TemplateOpen(), Text(text="foo"), TemplateClose(), TagCloseOpen(padding=""), Text(text="test"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+
+---
+
+name:   valid_template_end_open_space_end_close
+label:  valid tag: a template at the end of the open tag; whitespace at the end of the close tag
+input:  "<ref {{foo}}>test</ref\n>"
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), TemplateOpen(), Text(text="foo"), TemplateClose(), TagCloseOpen(padding=""), Text(text="test"), TagOpenClose(), Text(text="ref\n"), TagCloseClose()]
+
+---
+
+name:   invalid_template_end_open_nospace
+label:  invalid tag: a template at the end of the open tag, without spacing
+input:  "<ref{{foo}}>test</ref>"
+output: [Text(text="<ref"), TemplateOpen(), Text(text="foo"), TemplateClose(), Text(text=">test</ref>")]
+
+---
+
+name:   invalid_template_start_close
+label:  invalid tag: a template at the beginning of the close tag
+input:  "<ref>test</{{foo}}ref>"
+output: [Text(text="<ref>test</"), TemplateOpen(), Text(text="foo"), TemplateClose(), Text(text="ref>")]
+
+---
+
+name:   invalid_template_start_open
+label:  invalid tag: a template at the beginning of the open tag
+input:  "<{{foo}}ref>test</ref>"
+output: [Text(text="<"), TemplateOpen(), Text(text="foo"), TemplateClose(), Text(text="ref>test</ref>")]
+
+---
+
 name:   incomplete_lbracket
 label:  incomplete tags: just a left bracket
 input:  "<"

From 82edc93bbbd1786015a8c61521fd4f698b19724a Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 30 Jun 2013 22:42:26 -0400
Subject: [PATCH 033/189] Pass some tests by simplifying the way tags are read
 from the stack.

Two still fail because templates aren't implemented yet, but those
are otherwise handled correctly.
---
 mwparserfromhell/parser/tokenizer.py | 18 ++++--------------
 1 file changed, 4 insertions(+), 14 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 9817bd9..8c91e4f 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -568,18 +568,6 @@ class Tokenizer(object):
         data.padding_buffer, data.quote_buffer = [], []
         data.ignore_quote = False
 
-    def _get_tag_from_stack(self, stack=None):
-        """Return the tag based on the text in *stack*."""
-        if not stack:
-            sentinels = (tokens.TagAttrStart, tokens.TagCloseOpen)
-            pred = lambda tok: not isinstance(tok, sentinels)
-            stack = takewhile(pred, self._stack)
-        text = [tok.text for tok in stack if isinstance(tok, tokens.Text)]
-        try:
-            return "".join(text).rstrip().lower().split()[0]
-        except IndexError:
-            self._fail_route()
-
     def _handle_tag_open_close(self):
         """Handle the opening of a closing tag (``</foo>``)."""
         self._write(tokens.TagOpenClose())
@@ -588,8 +576,10 @@ class Tokenizer(object):
 
     def _handle_tag_close_close(self):
         """Handle the ending of a closing tag (``</foo>``)."""
+        strip = lambda tok: tok.text.rstrip().lower()
         closing = self._pop()
-        if self._get_tag_from_stack(closing) != self._get_tag_from_stack():
+        if len(closing) != 1 or (not isinstance(closing[0], tokens.Text) or
+                                 strip(closing[0]) != strip(self._stack[1])):
             self._fail_route()
         self._write_all(closing)
         self._write(tokens.TagCloseClose())
@@ -625,7 +615,7 @@ class Tokenizer(object):
                 self._context |= contexts.HAS_TEXT
             return True
         elif context & contexts.TAG_CLOSE:
-            return this != "<" and this != "\n"
+            return this != "<"
         else:
             if context & contexts.FAIL_ON_EQUALS:
                 if this == "=":

From f63480bcf3a21b8eb61c944f30b79d04a04efe40 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 30 Jun 2013 23:48:58 -0400
Subject: [PATCH 034/189] Update the integration.rich_tags test to use the new
 tag tokens.

Remove an now-unused import in the tokenizer.
---
 mwparserfromhell/parser/tokenizer.py | 1 -
 tests/tokenizer/integration.mwtest   | 2 +-
 2 files changed, 1 insertion(+), 2 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 8c91e4f..9207440 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -21,7 +21,6 @@
 # SOFTWARE.
 
 from __future__ import unicode_literals
-from itertools import takewhile
 from math import log
 import re
 
diff --git a/tests/tokenizer/integration.mwtest b/tests/tokenizer/integration.mwtest
index ba01c8c..736ecb1 100644
--- a/tests/tokenizer/integration.mwtest
+++ b/tests/tokenizer/integration.mwtest
@@ -36,7 +36,7 @@ output: [Text(text="&n"), CommentStart(), Text(text="foo"), CommentEnd(), Text(t
 name:   rich_tags
 label:  a HTML tag with tons of other things in it
 input:  "{{dubious claim}}<ref name={{abc}}  foo="bar {{baz}}" abc={{de}}f ghi=j{{k}}{{l}} mno="{{p}} [[q]] {{r}}">[[Source]]</ref>"
-output: [TemplateOpen(), Text(text="dubious claim"), TemplateClose(), TagOpenOpen(showtag=True, type=101), Text(text="ref"), TagAttrStart(padding=""), Text(text="name"), TagAttrEquals(), TemplateOpen(), Text(text="abc"), TemplateClose(), TagAttrStart(padding=" "), Text(text="foo"), TagAttrEquals(), TagAttrQuote(), Text(text="bar "), TemplateOpen(), Text(text="baz"), TemplateClose(), TagAttrStart(padding=""), Text(text="abc"), TagAttrEquals(), TemplateOpen(), Text(text="de"), TemplateClose(), Text(text="f"), TagAttrStart(padding=""), Text(text="ghi"), TagAttrEquals(), Text(text="j"), TemplateOpen(), Text(text="k"), TemplateClose(), TemplateOpen(), Text(text="l"), TemplateClose(), TagAttrStart(padding=""), Text(text="mno"), TagAttrEquals(), TagAttrQuote(), TemplateOpen(), Text(text="p"), TemplateClose(), Text(text=" "), WikilinkOpen(), Text(text="q"), WikilinkClose(), Text(text=" "), TemplateOpen(), Text(text="r"), TemplateClose(), TagOpenClose(), WikilinkOpen(), Text(text="Source"), WikilinkClose(), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TemplateOpen(), Text(text="dubious claim"), TemplateClose(), TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TemplateOpen(), Text(text="abc"), TemplateClose(), TagAttrStart(pad_first=" ", pad_before_eq=" ", pad_after_eq=""), Text(text="foo"), TagAttrEquals(), TagAttrQuote(), Text(text="bar "), TemplateOpen(), Text(text="baz"), TemplateClose(), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="abc"), TagAttrEquals(), TemplateOpen(), Text(text="de"), TemplateClose(), Text(text="f"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="ghi"), TagAttrEquals(), Text(text="j"), TemplateOpen(), Text(text="k"), TemplateClose(), TemplateOpen(), Text(text="l"), TemplateClose(), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="mno"), TagAttrEquals(), TagAttrQuote(), TemplateOpen(), Text(text="p"), TemplateClose(), Text(text=" "), WikilinkOpen(), Text(text="q"), WikilinkClose(), Text(text=" "), TemplateOpen(), Text(text="r"), TemplateClose(), TagCloseOpen(padding=""), WikilinkOpen(), Text(text="Source"), WikilinkClose(), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 

From 6c2898d7bd65517d9aa57385841cdda001c1fc06 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 1 Jul 2013 02:10:02 -0400
Subject: [PATCH 035/189] Make {{|=}} build correctly; add a test for this.

---
 mwparserfromhell/parser/builder.py | 2 +-
 tests/test_builder.py              | 8 ++++++++
 2 files changed, 9 insertions(+), 1 deletion(-)

diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index 2cd7831..e89fb33 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -83,7 +83,7 @@ class Builder(object):
                                     tokens.TemplateClose)):
                 self._tokens.append(token)
                 value = self._pop()
-                if not key:
+                if key is None:
                     key = self._wrap([Text(str(default))])
                 return Parameter(key, value, showkey)
             else:
diff --git a/tests/test_builder.py b/tests/test_builder.py
index 2d44b6c..6b46f71 100644
--- a/tests/test_builder.py
+++ b/tests/test_builder.py
@@ -72,6 +72,14 @@ class TestBuilder(TreeEqualityTestCase):
              wrap([Template(wraptext("foo"), params=[
                  Parameter(wraptext("bar"), wraptext("baz"))])])),
 
+            ([tokens.TemplateOpen(), tokens.TemplateParamSeparator(),
+              tokens.TemplateParamSeparator(), tokens.TemplateParamEquals(),
+              tokens.TemplateParamSeparator(), tokens.TemplateClose()],
+             wrap([Template(wrap([]), params=[
+                 Parameter(wraptext("1"), wrap([]), showkey=False),
+                 Parameter(wrap([]), wrap([]), showkey=True),
+                 Parameter(wraptext("2"), wrap([]), showkey=False)])])),
+
             ([tokens.TemplateOpen(), tokens.Text(text="foo"),
               tokens.TemplateParamSeparator(), tokens.Text(text="bar"),
               tokens.TemplateParamEquals(), tokens.Text(text="baz"),

From dfe100ceb7eecec82d6a3af98d016dfd95d3f9ea Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 1 Jul 2013 20:44:56 -0400
Subject: [PATCH 036/189] Support templates and wikilinks inside <open> tags
 (part 1)

---
 mwparserfromhell/parser/tokenizer.py | 27 +++++++++++++++++++--------
 1 file changed, 19 insertions(+), 8 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 9207440..21d0f2a 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -221,6 +221,8 @@ class Tokenizer(object):
                 self._head += 1
 
         self._write_all(self._pop())
+        if self._context & contexts.FAIL_NEXT:
+            self._context ^= contexts.FAIL_NEXT
 
     def _parse_template(self):
         """Parse a template at the head of the wikicode string."""
@@ -293,6 +295,8 @@ class Tokenizer(object):
             self._head = reset
             self._write_text("[[")
         else:
+            if self._context & contexts.FAIL_NEXT:
+                self._context ^= contexts.FAIL_NEXT
             self._write(tokens.WikilinkOpen())
             self._write_all(wikilink)
             self._write(tokens.WikilinkClose())
@@ -507,7 +511,7 @@ class Tokenizer(object):
             else:
                 data.context = data.CX_ATTR_NAME
                 self._push(contexts.TAG_ATTR)
-                self._write_text(chunk)                        ### hook on here for {, <, etc
+                self._parse_tag_chunk(chunk)
         elif data.context & data.CX_ATTR_NAME:
             if chunk.isspace():
                 data.padding_buffer.append(chunk)
@@ -523,7 +527,7 @@ class Tokenizer(object):
                     data.padding_buffer.append("")  # No padding before tag
                     data.context = data.CX_ATTR_NAME
                     self._push(contexts.TAG_ATTR)
-                self._write_text(chunk)                        ### hook on here for {, <, etc
+                self._parse_tag_chunk(chunk)
         elif data.context & data.CX_ATTR_VALUE:
             ### handle backslashes here
             if data.context & data.CX_NEED_QUOTE:
@@ -535,7 +539,7 @@ class Tokenizer(object):
                     data.padding_buffer.append(chunk)
                 else:
                     data.context ^= data.CX_NEED_QUOTE
-                    self._write_text(chunk)                    ### hook on here for {, <, etc
+                    self._parse_tag_chunk(chunk)
             elif not data.literal:
                 if chunk == '"':
                     data.context |= data.CX_NEED_SPACE
@@ -547,7 +551,18 @@ class Tokenizer(object):
                 data.padding_buffer.append(chunk)
                 data.context = data.CX_ATTR_READY
             else:
-                self._write_text(chunk)                        ### hook on here for {, <, etc
+                self._parse_tag_chunk(chunk)
+
+    def _parse_tag_chunk(self, chunk):
+        next = self._read(1)
+        if not self._can_recurse() or chunk not in self.MARKERS:
+            self._write_text(chunk)
+        elif chunk == next == "{":
+            self._parse_template_or_argument()
+        elif chunk == next == "[":
+            self._parse_wikilink()
+        else:
+            self._write_text(chunk)
 
     def _push_tag_buffer(self, data):
         """Write a pending tag attribute from *data* to the stack.
@@ -678,8 +693,6 @@ class Tokenizer(object):
             elif this == next == "{":
                 if self._can_recurse():
                     self._parse_template_or_argument()
-                    if self._context & contexts.FAIL_NEXT:
-                        self._context ^= contexts.FAIL_NEXT
                 else:
                     self._write_text("{")
             elif this == "|" and self._context & contexts.TEMPLATE:
@@ -698,8 +711,6 @@ class Tokenizer(object):
             elif this == next == "[":
                 if not self._context & contexts.WIKILINK_TITLE and self._can_recurse():
                     self._parse_wikilink()
-                    if self._context & contexts.FAIL_NEXT:
-                        self._context ^= contexts.FAIL_NEXT
                 else:
                     self._write_text("[")
             elif this == "|" and self._context & contexts.WIKILINK_TITLE:

From e34026dabe359ffd16567c8c5002d76f4981fe57 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 1 Jul 2013 22:14:57 -0400
Subject: [PATCH 037/189] Support templates and wikilinks inside <open> tags
 (part 2)

---
 mwparserfromhell/parser/tokenizer.py | 20 +++++++++++++-------
 1 file changed, 13 insertions(+), 7 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 21d0f2a..29c2772 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -51,7 +51,7 @@ class _TagOpenData(object):
         self.context = self.CX_NAME
         self.literal = True
         self.padding_buffer = []
-        self.quote_buffer = []
+        self.quoted = False
         self.reset = 0
         self.ignore_quote = False
 
@@ -454,6 +454,8 @@ class Tokenizer(object):
                         continue
             elif this is self.END:
                 if self._context & contexts.TAG_ATTR:
+                    if data.quoted:
+                        self._pop()
                     self._pop()
                 self._fail_route()
             elif this == ">" and data.literal:
@@ -499,8 +501,9 @@ class Tokenizer(object):
             else:
                 if data.context & data.CX_ATTR_VALUE:
                     data.context ^= data.CX_NEED_SPACE
-                    data.quote_buffer = []
+                    data.quoted = False
                     data.ignore_quote = True
+                    self._pop()
                     self._head = data.reset
                     return True  # Break out of chunk processing early
                 else:
@@ -534,6 +537,8 @@ class Tokenizer(object):
                 if chunk == '"' and not data.ignore_quote:
                     data.context ^= data.CX_NEED_QUOTE
                     data.literal = False
+                    data.quoted = True
+                    self._push(self._context)
                     data.reset = self._head
                 elif chunk.isspace():
                     data.padding_buffer.append(chunk)
@@ -545,7 +550,7 @@ class Tokenizer(object):
                     data.context |= data.CX_NEED_SPACE
                     data.literal = True
                 else:
-                    data.quote_buffer.append(chunk)
+                    self._parse_tag_chunk(chunk)
             elif chunk.isspace():
                 self._push_tag_buffer(data)
                 data.padding_buffer.append(chunk)
@@ -572,14 +577,15 @@ class Tokenizer(object):
         buf = data.padding_buffer
         while len(buf) < 3:
             buf.append("")
+        if data.quoted:
+            data.quoted = False
+            self._write_first(tokens.TagAttrQuote())
+            self._write_all(self._pop())
         self._write_first(tokens.TagAttrStart(
             pad_after_eq=buf.pop(), pad_before_eq=buf.pop(),
             pad_first=buf.pop()))
-        if data.quote_buffer:
-            self._write(tokens.TagAttrQuote())
-            self._write_text("".join(data.quote_buffer))
         self._write_all(self._pop())
-        data.padding_buffer, data.quote_buffer = [], []
+        data.padding_buffer = []
         data.ignore_quote = False
 
     def _handle_tag_open_close(self):

From 9693b6d5e61571dfd1e0ea3a65fb95a46dcad1c7 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 2 Jul 2013 00:48:20 -0400
Subject: [PATCH 038/189] Replace data.literal and data.quoted with a
 data.CX_QUOTED context

---
 mwparserfromhell/parser/tokenizer.py | 34 +++++++++++++++-------------------
 1 file changed, 15 insertions(+), 19 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 29c2772..129c19a 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -42,16 +42,15 @@ class _TagOpenData(object):
     CX_ATTR_READY =  1 << 1
     CX_ATTR_NAME =   1 << 2
     CX_ATTR_VALUE =  1 << 3
-    CX_NEED_SPACE =  1 << 4
-    CX_NEED_EQUALS = 1 << 5
-    CX_NEED_QUOTE =  1 << 6
+    CX_QUOTED =      1 << 4
+    CX_NEED_SPACE =  1 << 5
+    CX_NEED_EQUALS = 1 << 6
+    CX_NEED_QUOTE =  1 << 7
     CX_ATTR = CX_ATTR_NAME | CX_ATTR_VALUE
 
     def __init__(self):
         self.context = self.CX_NAME
-        self.literal = True
         self.padding_buffer = []
-        self.quoted = False
         self.reset = 0
         self.ignore_quote = False
 
@@ -448,17 +447,18 @@ class Tokenizer(object):
         self._write(tokens.TagOpenOpen(showtag=True))
         while True:
             this, next = self._read(), self._read(1)
+            can_exit = not data.context & data.CX_QUOTED or data.context & data.CX_NEED_SPACE
             if this not in self.MARKERS:
                 for chunk in self.tag_splitter.split(this):
                     if self._handle_tag_chunk(data, chunk):
                         continue
             elif this is self.END:
                 if self._context & contexts.TAG_ATTR:
-                    if data.quoted:
+                    if data.context & data.CX_QUOTED:
                         self._pop()
                     self._pop()
                 self._fail_route()
-            elif this == ">" and data.literal:
+            elif this == ">" and can_exit:
                 if data.context & data.CX_ATTR:
                     self._push_tag_buffer(data)
                 padding = data.padding_buffer[0] if data.padding_buffer else ""
@@ -466,7 +466,7 @@ class Tokenizer(object):
                 self._context = contexts.TAG_BODY
                 self._head += 1
                 return self._parse(push=False)
-            elif this == "/" and next == ">" and data.literal:
+            elif this == "/" and next == ">" and can_exit:
                 if data.context & data.CX_ATTR:
                     self._push_tag_buffer(data)
                 padding = data.padding_buffer[0] if data.padding_buffer else ""
@@ -499,9 +499,8 @@ class Tokenizer(object):
                 data.padding_buffer.append(chunk)
                 data.context = data.CX_ATTR_READY
             else:
-                if data.context & data.CX_ATTR_VALUE:
-                    data.context ^= data.CX_NEED_SPACE
-                    data.quoted = False
+                if data.context & data.CX_QUOTED:
+                    data.context ^= data.CX_NEED_SPACE | data.CX_QUOTED
                     data.ignore_quote = True
                     self._pop()
                     self._head = data.reset
@@ -536,8 +535,7 @@ class Tokenizer(object):
             if data.context & data.CX_NEED_QUOTE:
                 if chunk == '"' and not data.ignore_quote:
                     data.context ^= data.CX_NEED_QUOTE
-                    data.literal = False
-                    data.quoted = True
+                    data.context |= data.CX_QUOTED
                     self._push(self._context)
                     data.reset = self._head
                 elif chunk.isspace():
@@ -545,10 +543,9 @@ class Tokenizer(object):
                 else:
                     data.context ^= data.CX_NEED_QUOTE
                     self._parse_tag_chunk(chunk)
-            elif not data.literal:
+            elif data.context & data.CX_QUOTED:
                 if chunk == '"':
                     data.context |= data.CX_NEED_SPACE
-                    data.literal = True
                 else:
                     self._parse_tag_chunk(chunk)
             elif chunk.isspace():
@@ -574,13 +571,12 @@ class Tokenizer(object):
 
         *data* is a :py:class:`_TagOpenData` object.
         """
+        if data.context & data.CX_QUOTED:
+            self._write_first(tokens.TagAttrQuote())
+            self._write_all(self._pop())
         buf = data.padding_buffer
         while len(buf) < 3:
             buf.append("")
-        if data.quoted:
-            data.quoted = False
-            self._write_first(tokens.TagAttrQuote())
-            self._write_all(self._pop())
         self._write_first(tokens.TagAttrStart(
             pad_after_eq=buf.pop(), pad_before_eq=buf.pop(),
             pad_first=buf.pop()))

From dd6bb1637d26fb26085143dd6c13be310d1b04bc Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 2 Jul 2013 01:31:28 -0400
Subject: [PATCH 039/189] Support tag nesting properly; unit tests; recursion
 checks for tags.

---
 mwparserfromhell/parser/tokenizer.py | 16 +++++++++++-----
 tests/tokenizer/tags.mwtest          | 28 ++++++++++++++++++++++++++++
 2 files changed, 39 insertions(+), 5 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 129c19a..2d1245f 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -447,7 +447,8 @@ class Tokenizer(object):
         self._write(tokens.TagOpenOpen(showtag=True))
         while True:
             this, next = self._read(), self._read(1)
-            can_exit = not data.context & data.CX_QUOTED or data.context & data.CX_NEED_SPACE
+            can_exit = (not data.context & (data.CX_QUOTED | data.CX_NAME) or
+                        data.context & data.CX_NEED_SPACE)
             if this not in self.MARKERS:
                 for chunk in self.tag_splitter.split(this):
                     if self._handle_tag_chunk(data, chunk):
@@ -488,8 +489,8 @@ class Tokenizer(object):
         if not chunk:
             return
         if data.context & data.CX_NAME:
-            if chunk != chunk.lstrip():  # Tags cannot start with whitespace
-                self._fail_route()
+            if chunk in self.MARKERS or chunk.isspace():
+                self._fail_route()  # Tags must start with text (not a space)
             self._write_text(chunk)
             data.context = data.CX_NEED_SPACE
         elif data.context & data.CX_NEED_SPACE:
@@ -563,6 +564,8 @@ class Tokenizer(object):
             self._parse_template_or_argument()
         elif chunk == next == "[":
             self._parse_wikilink()
+        elif chunk == "<":
+            self._parse_tag()
         else:
             self._write_text(chunk)
 
@@ -735,10 +738,13 @@ class Tokenizer(object):
                     self._parse_comment()
                 else:
                     self._write_text(this)
-            elif this == "<" and next != "/" and not self._context & contexts.TAG_CLOSE:
-                self._parse_tag()
             elif this == "<" and next == "/" and self._context & contexts.TAG_BODY:
                 self._handle_tag_open_close()
+            elif this == "<":
+                if not self._context & contexts.TAG_CLOSE and self._can_recurse():
+                    self._parse_tag()
+                else:
+                    self._write_text("<")
             elif this == ">" and self._context & contexts.TAG_CLOSE:
                 return self._handle_tag_close_close()
             else:
diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index 7d5f338..17010e9 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -96,6 +96,34 @@ output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" "
 
 ---
 
+name:   nested_tag
+label:  a tag nested within the attributes of another
+input:  "<ref name=<span style="color: red;">foo</span>>citation</ref>"
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagOpenOpen(showtag=True), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), TagAttrQuote(), Text(text="color: red;"), TagCloseOpen(padding=""), Text(text="foo"), TagOpenClose(), Text(text="span"), TagCloseClose(), TagCloseOpen(padding=""), Text(text="citation"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+
+---
+
+name:   nested_tag_quoted
+label:  a tag nested within the attributes of another, quoted
+input:  "<ref name="<span style="color: red;">foo</span>">citation</ref>"
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), TagOpenOpen(showtag=True), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), TagAttrQuote(), Text(text="color: red;"), TagCloseOpen(padding=""), Text(text="foo"), TagOpenClose(), Text(text="span"), TagCloseClose(), TagCloseOpen(padding=""), Text(text="citation"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+
+---
+
+name:   nested_troll_tag
+label:  a bogus tag that appears to be nested within the attributes of another
+input:  "<ref name=</ ><//>>citation</ref>"
+output: [Text(text="<ref name=</ ><//>>citation</ref>")]
+
+---
+
+name:   nested_troll_tag_quoted
+label:  a bogus tag that appears to be nested within the attributes of another, quoted
+input:  "<ref name="</ ><//>">citation</ref>"
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="</ ><//>"), TagCloseOpen(padding=""), Text(text="citation"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+
+---
+
 name:   invalid_space_begin_open
 label:  invalid tag: a space at the beginning of the open tag
 input:  "< ref>test</ref>"

From 5e8794da5eff96fc649956283e5e115582ade86d Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 2 Jul 2013 20:04:28 -0400
Subject: [PATCH 040/189] Refactor more of the tag tokenization process.

---
 mwparserfromhell/parser/tokenizer.py | 39 +++++++++++++++++-------------------
 1 file changed, 18 insertions(+), 21 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 2d1245f..084d94b 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -449,30 +449,18 @@ class Tokenizer(object):
             this, next = self._read(), self._read(1)
             can_exit = (not data.context & (data.CX_QUOTED | data.CX_NAME) or
                         data.context & data.CX_NEED_SPACE)
-            if this not in self.MARKERS:
-                for chunk in self.tag_splitter.split(this):
-                    if self._handle_tag_chunk(data, chunk):
-                        continue
-            elif this is self.END:
+            if this is self.END:
                 if self._context & contexts.TAG_ATTR:
                     if data.context & data.CX_QUOTED:
                         self._pop()
                     self._pop()
                 self._fail_route()
             elif this == ">" and can_exit:
-                if data.context & data.CX_ATTR:
-                    self._push_tag_buffer(data)
-                padding = data.padding_buffer[0] if data.padding_buffer else ""
-                self._write(tokens.TagCloseOpen(padding=padding))
+                self._handle_tag_close_open(data, tokens.TagCloseOpen)
                 self._context = contexts.TAG_BODY
-                self._head += 1
                 return self._parse(push=False)
             elif this == "/" and next == ">" and can_exit:
-                if data.context & data.CX_ATTR:
-                    self._push_tag_buffer(data)
-                padding = data.padding_buffer[0] if data.padding_buffer else ""
-                self._write(tokens.TagCloseSelfclose(padding=padding))
-                self._head += 1
+                self._handle_tag_close_open(data, tokens.TagCloseSelfclose)
                 return self._pop()
             else:
                 for chunk in self.tag_splitter.split(this):
@@ -514,7 +502,7 @@ class Tokenizer(object):
             else:
                 data.context = data.CX_ATTR_NAME
                 self._push(contexts.TAG_ATTR)
-                self._parse_tag_chunk(chunk)
+                self._parse_text_in_tag(chunk)
         elif data.context & data.CX_ATTR_NAME:
             if chunk.isspace():
                 data.padding_buffer.append(chunk)
@@ -530,7 +518,7 @@ class Tokenizer(object):
                     data.padding_buffer.append("")  # No padding before tag
                     data.context = data.CX_ATTR_NAME
                     self._push(contexts.TAG_ATTR)
-                self._parse_tag_chunk(chunk)
+                self._parse_text_in_tag(chunk)
         elif data.context & data.CX_ATTR_VALUE:
             ### handle backslashes here
             if data.context & data.CX_NEED_QUOTE:
@@ -543,20 +531,21 @@ class Tokenizer(object):
                     data.padding_buffer.append(chunk)
                 else:
                     data.context ^= data.CX_NEED_QUOTE
-                    self._parse_tag_chunk(chunk)
+                    self._parse_text_in_tag(chunk)
             elif data.context & data.CX_QUOTED:
                 if chunk == '"':
                     data.context |= data.CX_NEED_SPACE
                 else:
-                    self._parse_tag_chunk(chunk)
+                    self._parse_text_in_tag(chunk)
             elif chunk.isspace():
                 self._push_tag_buffer(data)
                 data.padding_buffer.append(chunk)
                 data.context = data.CX_ATTR_READY
             else:
-                self._parse_tag_chunk(chunk)
+                self._parse_text_in_tag(chunk)
 
-    def _parse_tag_chunk(self, chunk):
+    def _parse_text_in_tag(self, chunk):
+        """Parse a chunk of text in a tag that has no special significance."""
         next = self._read(1)
         if not self._can_recurse() or chunk not in self.MARKERS:
             self._write_text(chunk)
@@ -587,6 +576,14 @@ class Tokenizer(object):
         data.padding_buffer = []
         data.ignore_quote = False
 
+    def _handle_tag_close_open(self, data, token):
+        """Handle the closing of a open tag (``<foo>``)."""
+        if data.context & data.CX_ATTR:
+            self._push_tag_buffer(data)
+        padding = data.padding_buffer[0] if data.padding_buffer else ""
+        self._write(token(padding=padding))
+        self._head += 1
+
     def _handle_tag_open_close(self):
         """Handle the opening of a closing tag (``</foo>``)."""
         self._write(tokens.TagOpenClose())

From e99c9d3038a64c71981fcd9783e2ab3a21f846c6 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 3 Jul 2013 18:29:07 -0400
Subject: [PATCH 041/189] More tag refactoring; fix some bugs.

---
 mwparserfromhell/parser/tokenizer.py | 176 ++++++++++++++++-------------------
 1 file changed, 80 insertions(+), 96 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 084d94b..5bb7059 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -46,13 +46,11 @@ class _TagOpenData(object):
     CX_NEED_SPACE =  1 << 5
     CX_NEED_EQUALS = 1 << 6
     CX_NEED_QUOTE =  1 << 7
-    CX_ATTR = CX_ATTR_NAME | CX_ATTR_VALUE
 
     def __init__(self):
         self.context = self.CX_NAME
         self.padding_buffer = []
         self.reset = 0
-        self.ignore_quote = False
 
 
 class Tokenizer(object):
@@ -452,7 +450,11 @@ class Tokenizer(object):
             if this is self.END:
                 if self._context & contexts.TAG_ATTR:
                     if data.context & data.CX_QUOTED:
+                        # Unclosed attribute quote: reset, don't die
+                        data.context = data.CX_ATTR_VALUE
                         self._pop()
+                        self._head = data.reset
+                        continue
                     self._pop()
                 self._fail_route()
             elif this == ">" and can_exit:
@@ -463,122 +465,104 @@ class Tokenizer(object):
                 self._handle_tag_close_open(data, tokens.TagCloseSelfclose)
                 return self._pop()
             else:
-                for chunk in self.tag_splitter.split(this):
-                    if self._handle_tag_chunk(data, chunk):
-                        continue
+                self._handle_tag_data(data, this)
             self._head += 1
 
-    def _handle_tag_chunk(self, data, chunk):
-        """Handle a *chunk* of text inside a HTML open tag.
+    def _push_tag_buffer(self, data):
+        """Write a pending tag attribute from *data* to the stack."""
+        if data.context & data.CX_QUOTED:
+            self._write_first(tokens.TagAttrQuote())
+            self._write_all(self._pop())
+        buf = data.padding_buffer
+        while len(buf) < 3:
+            buf.append("")
+        self._write_first(tokens.TagAttrStart(pad_after_eq=buf.pop(),
+            pad_before_eq=buf.pop(), pad_first=buf.pop()))
+        self._write_all(self._pop())
+        data.padding_buffer = []
 
-        A "chunk" is either a marker, whitespace, or text containing no markers
-        or whitespace. *data* is a :py:class:`_TagOpenData` object.
-        """
-        if not chunk:
-            return
-        if data.context & data.CX_NAME:
-            if chunk in self.MARKERS or chunk.isspace():
-                self._fail_route()  # Tags must start with text (not a space)
-            self._write_text(chunk)
-            data.context = data.CX_NEED_SPACE
-        elif data.context & data.CX_NEED_SPACE:
-            if chunk.isspace():
-                if data.context & data.CX_ATTR_VALUE:
-                    self._push_tag_buffer(data)
-                data.padding_buffer.append(chunk)
-                data.context = data.CX_ATTR_READY
-            else:
+    def _handle_tag_data(self, data, text):
+        """Handle all sorts of *text* data inside of an HTML open tag."""
+        for chunk in self.tag_splitter.split(text):
+            if not chunk:
+                continue
+            if data.context & data.CX_NAME:
+                if chunk in self.MARKERS or chunk.isspace():
+                    self._fail_route()  # Tags must start with text, not spaces
+                data.context = data.CX_NEED_SPACE
+            elif chunk.isspace():
+                self._handle_tag_space(data, chunk)
+                continue
+            elif data.context & data.CX_NEED_SPACE:
                 if data.context & data.CX_QUOTED:
-                    data.context ^= data.CX_NEED_SPACE | data.CX_QUOTED
-                    data.ignore_quote = True
+                    data.context = data.CX_ATTR_VALUE
                     self._pop()
-                    self._head = data.reset
-                    return True  # Break out of chunk processing early
-                else:
-                    self._fail_route()
-        elif data.context & data.CX_ATTR_READY:
-            if chunk.isspace():
-                data.padding_buffer.append(chunk)
-            else:
+                    self._head = data.reset - 1  # Will be auto-incremented
+                    return  # Break early
+                self._fail_route()
+            elif data.context & data.CX_ATTR_READY:
                 data.context = data.CX_ATTR_NAME
                 self._push(contexts.TAG_ATTR)
-                self._parse_text_in_tag(chunk)
-        elif data.context & data.CX_ATTR_NAME:
-            if chunk.isspace():
-                data.padding_buffer.append(chunk)
-                data.context |= data.CX_NEED_EQUALS
-            elif chunk == "=":
-                if not data.context & data.CX_NEED_EQUALS:
-                    data.padding_buffer.append("")  # No padding before equals
-                data.context = data.CX_ATTR_VALUE | data.CX_NEED_QUOTE
-                self._write(tokens.TagAttrEquals())
-            else:
+            elif data.context & data.CX_ATTR_NAME:
+                if chunk == "=":
+                    if not data.context & data.CX_NEED_EQUALS:
+                        data.padding_buffer.append("")  # No padding before '='
+                    data.context = data.CX_ATTR_VALUE | data.CX_NEED_QUOTE
+                    self._write(tokens.TagAttrEquals())
+                    continue
                 if data.context & data.CX_NEED_EQUALS:
                     self._push_tag_buffer(data)
                     data.padding_buffer.append("")  # No padding before tag
                     data.context = data.CX_ATTR_NAME
                     self._push(contexts.TAG_ATTR)
-                self._parse_text_in_tag(chunk)
-        elif data.context & data.CX_ATTR_VALUE:
-            ### handle backslashes here
-            if data.context & data.CX_NEED_QUOTE:
-                if chunk == '"' and not data.ignore_quote:
+            elif data.context & data.CX_ATTR_VALUE:
+                ### handle backslashes here
+                if data.context & data.CX_NEED_QUOTE:
                     data.context ^= data.CX_NEED_QUOTE
-                    data.context |= data.CX_QUOTED
-                    self._push(self._context)
-                    data.reset = self._head
-                elif chunk.isspace():
-                    data.padding_buffer.append(chunk)
-                else:
-                    data.context ^= data.CX_NEED_QUOTE
-                    self._parse_text_in_tag(chunk)
-            elif data.context & data.CX_QUOTED:
-                if chunk == '"':
-                    data.context |= data.CX_NEED_SPACE
-                else:
-                    self._parse_text_in_tag(chunk)
-            elif chunk.isspace():
-                self._push_tag_buffer(data)
-                data.padding_buffer.append(chunk)
-                data.context = data.CX_ATTR_READY
-            else:
-                self._parse_text_in_tag(chunk)
+                    if chunk == '"':
+                        data.context |= data.CX_QUOTED
+                        self._push(self._context)
+                        data.reset = self._head
+                        continue
+                elif data.context & data.CX_QUOTED:
+                    if chunk == '"':
+                        data.context |= data.CX_NEED_SPACE
+                        continue
+            self._handle_tag_text(chunk)
 
-    def _parse_text_in_tag(self, chunk):
-        """Parse a chunk of text in a tag that has no special significance."""
+    def _handle_tag_space(self, data, text):
+        """Handle whitespace (*text*) inside of an HTML open tag."""
+        ctx = data.context
+        end_of_value = ctx & data.CX_ATTR_VALUE and not ctx & (data.CX_QUOTED | data.CX_NEED_QUOTE)
+        if end_of_value or (ctx & data.CX_QUOTED and ctx & data.CX_NEED_SPACE):
+            self._push_tag_buffer(data)
+            data.context = data.CX_ATTR_READY
+        elif ctx & data.CX_NEED_SPACE:
+            data.context = data.CX_ATTR_READY
+        elif ctx & data.CX_ATTR_NAME:
+            data.context |= data.CX_NEED_EQUALS
+        if ctx & data.CX_QUOTED and not ctx & data.CX_NEED_SPACE:
+            self._write_text(text)
+        else:
+            data.padding_buffer.append(text)
+
+    def _handle_tag_text(self, text):
+        """Handle regular *text* inside of an HTML open tag."""
         next = self._read(1)
-        if not self._can_recurse() or chunk not in self.MARKERS:
-            self._write_text(chunk)
-        elif chunk == next == "{":
+        if not self._can_recurse() or text not in self.MARKERS:
+            self._write_text(text)
+        elif text == next == "{":
             self._parse_template_or_argument()
-        elif chunk == next == "[":
+        elif text == next == "[":
             self._parse_wikilink()
-        elif chunk == "<":
+        elif text == "<":
             self._parse_tag()
         else:
-            self._write_text(chunk)
-
-    def _push_tag_buffer(self, data):
-        """Write a pending tag attribute from *data* to the stack.
-
-        *data* is a :py:class:`_TagOpenData` object.
-        """
-        if data.context & data.CX_QUOTED:
-            self._write_first(tokens.TagAttrQuote())
-            self._write_all(self._pop())
-        buf = data.padding_buffer
-        while len(buf) < 3:
-            buf.append("")
-        self._write_first(tokens.TagAttrStart(
-            pad_after_eq=buf.pop(), pad_before_eq=buf.pop(),
-            pad_first=buf.pop()))
-        self._write_all(self._pop())
-        data.padding_buffer = []
-        data.ignore_quote = False
+            self._write_text(text)
 
     def _handle_tag_close_open(self, data, token):
         """Handle the closing of a open tag (``<foo>``)."""
-        if data.context & data.CX_ATTR:
+        if data.context & (data.CX_ATTR_NAME | data.CX_ATTR_VALUE):
             self._push_tag_buffer(data)
         padding = data.padding_buffer[0] if data.padding_buffer else ""
         self._write(token(padding=padding))

From 17c71e335f35b3c10e572daeaf2cb2c6707ea000 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 3 Jul 2013 18:30:02 -0400
Subject: [PATCH 042/189] Add three tests for invalid attribute quote usage.

---
 tests/tokenizer/tags.mwtest | 21 +++++++++++++++++++++
 1 file changed, 21 insertions(+)

diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index 17010e9..89b2b2e 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -194,6 +194,27 @@ output: [Text(text="<"), TemplateOpen(), Text(text="foo"), TemplateClose(), Text
 
 ---
 
+name:   unclosed_quote
+label:  a quoted attribute that is never closed
+input:  "<span style="foobar>stuff</span>"
+output: [TagOpenOpen(showtag=True), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), Text(text="\"foobar"), TagCloseOpen(padding=""), Text(text="stuff"), TagOpenClose(), Text(text="span"), TagCloseClose()]
+
+---
+
+name:   fake_quote
+label:  a fake quoted attribute
+input:  "<span style="foo"bar>stuff</span>"
+output: [TagOpenOpen(showtag=True), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), Text(text="\"foo\"bar"), TagCloseOpen(padding=""), Text(text="stuff"), TagOpenClose(), Text(text="span"), TagCloseClose()]
+
+---
+
+name:   fake_quote_complex
+label:  a fake quoted attribute, with spaces and templates and links
+input:  "<span style="foo {{bar}}\n[[baz]]"buzz >stuff</span>"
+output: [TagOpenOpen(showtag=True), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), Text(text="\"foo"), TagAttrStart(pad_first=" ", pad_before_eq="\n", pad_after_eq=""), TemplateOpen(), Text(text="bar"), TemplateClose(), TagAttrStart(pad_first="", pad_before_eq=" ", pad_after_eq=""), WikilinkOpen(), Text(text="baz"), WikilinkClose(), Text(text="\"buzz"), TagCloseOpen(padding=""), Text(text="stuff"), TagOpenClose(), Text(text="span"), TagCloseClose()]
+
+---
+
 name:   incomplete_lbracket
 label:  incomplete tags: just a left bracket
 input:  "<"

From 591a0f5ed57f3ccad221a2870749031064003c5c Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 3 Jul 2013 18:46:41 -0400
Subject: [PATCH 043/189] Change 'write' to 'emit'; adjust some other names for
 PEP8.

---
 mwparserfromhell/parser/tokenizer.py | 149 +++++++++++++++++------------------
 1 file changed, 74 insertions(+), 75 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 5bb7059..515a7a2 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -24,8 +24,7 @@ from __future__ import unicode_literals
 from math import log
 import re
 
-from . import contexts
-from . import tokens
+from . import contexts, tokens
 from ..compat import htmlentities
 from ..tag_defs import is_parsable
 
@@ -136,33 +135,33 @@ class Tokenizer(object):
         self._pop()
         raise BadRoute()
 
-    def _write(self, token):
+    def _emit(self, token):
         """Write a token to the end of the current token stack."""
         self._push_textbuffer()
         self._stack.append(token)
 
-    def _write_first(self, token):
+    def _emit_first(self, token):
         """Write a token to the beginning of the current token stack."""
         self._push_textbuffer()
         self._stack.insert(0, token)
 
-    def _write_text(self, text):
+    def _emit_text(self, text):
         """Write text to the current textbuffer."""
         self._textbuffer.append(text)
 
-    def _write_all(self, tokenlist):
+    def _emit_all(self, tokenlist):
         """Write a series of tokens to the current stack at once."""
         if tokenlist and isinstance(tokenlist[0], tokens.Text):
-            self._write_text(tokenlist.pop(0).text)
+            self._emit_text(tokenlist.pop(0).text)
         self._push_textbuffer()
         self._stack.extend(tokenlist)
 
-    def _write_text_then_stack(self, text):
+    def _emit_text_then_stack(self, text):
         """Pop the current stack, write *text*, and then write the stack."""
         stack = self._pop()
-        self._write_text(text)
+        self._emit_text(text)
         if stack:
-            self._write_all(stack)
+            self._emit_all(stack)
         self._head -= 1
 
     def _read(self, delta=0, wrap=False, strict=False):
@@ -198,12 +197,12 @@ class Tokenizer(object):
 
         while braces:
             if braces == 1:
-                return self._write_text_then_stack("{")
+                return self._emit_text_then_stack("{")
             if braces == 2:
                 try:
                     self._parse_template()
                 except BadRoute:
-                    return self._write_text_then_stack("{{")
+                    return self._emit_text_then_stack("{{")
                 break
             try:
                 self._parse_argument()
@@ -213,11 +212,11 @@ class Tokenizer(object):
                     self._parse_template()
                     braces -= 2
                 except BadRoute:
-                    return self._write_text_then_stack("{" * braces)
+                    return self._emit_text_then_stack("{" * braces)
             if braces:
                 self._head += 1
 
-        self._write_all(self._pop())
+        self._emit_all(self._pop())
         if self._context & contexts.FAIL_NEXT:
             self._context ^= contexts.FAIL_NEXT
 
@@ -229,9 +228,9 @@ class Tokenizer(object):
         except BadRoute:
             self._head = reset
             raise
-        self._write_first(tokens.TemplateOpen())
-        self._write_all(template)
-        self._write(tokens.TemplateClose())
+        self._emit_first(tokens.TemplateOpen())
+        self._emit_all(template)
+        self._emit(tokens.TemplateClose())
 
     def _parse_argument(self):
         """Parse an argument at the head of the wikicode string."""
@@ -241,9 +240,9 @@ class Tokenizer(object):
         except BadRoute:
             self._head = reset
             raise
-        self._write_first(tokens.ArgumentOpen())
-        self._write_all(argument)
-        self._write(tokens.ArgumentClose())
+        self._emit_first(tokens.ArgumentOpen())
+        self._emit_all(argument)
+        self._emit(tokens.ArgumentClose())
 
     def _handle_template_param(self):
         """Handle a template parameter at the head of the string."""
@@ -252,22 +251,22 @@ class Tokenizer(object):
         elif self._context & contexts.TEMPLATE_PARAM_VALUE:
             self._context ^= contexts.TEMPLATE_PARAM_VALUE
         elif self._context & contexts.TEMPLATE_PARAM_KEY:
-            self._write_all(self._pop(keep_context=True))
+            self._emit_all(self._pop(keep_context=True))
         self._context |= contexts.TEMPLATE_PARAM_KEY
-        self._write(tokens.TemplateParamSeparator())
+        self._emit(tokens.TemplateParamSeparator())
         self._push(self._context)
 
     def _handle_template_param_value(self):
         """Handle a template parameter's value at the head of the string."""
-        self._write_all(self._pop(keep_context=True))
+        self._emit_all(self._pop(keep_context=True))
         self._context ^= contexts.TEMPLATE_PARAM_KEY
         self._context |= contexts.TEMPLATE_PARAM_VALUE
-        self._write(tokens.TemplateParamEquals())
+        self._emit(tokens.TemplateParamEquals())
 
     def _handle_template_end(self):
         """Handle the end of a template at the head of the string."""
         if self._context & contexts.TEMPLATE_PARAM_KEY:
-            self._write_all(self._pop(keep_context=True))
+            self._emit_all(self._pop(keep_context=True))
         self._head += 1
         return self._pop()
 
@@ -275,7 +274,7 @@ class Tokenizer(object):
         """Handle the separator between an argument's name and default."""
         self._context ^= contexts.ARGUMENT_NAME
         self._context |= contexts.ARGUMENT_DEFAULT
-        self._write(tokens.ArgumentSeparator())
+        self._emit(tokens.ArgumentSeparator())
 
     def _handle_argument_end(self):
         """Handle the end of an argument at the head of the string."""
@@ -290,19 +289,19 @@ class Tokenizer(object):
             wikilink = self._parse(contexts.WIKILINK_TITLE)
         except BadRoute:
             self._head = reset
-            self._write_text("[[")
+            self._emit_text("[[")
         else:
             if self._context & contexts.FAIL_NEXT:
                 self._context ^= contexts.FAIL_NEXT
-            self._write(tokens.WikilinkOpen())
-            self._write_all(wikilink)
-            self._write(tokens.WikilinkClose())
+            self._emit(tokens.WikilinkOpen())
+            self._emit_all(wikilink)
+            self._emit(tokens.WikilinkClose())
 
     def _handle_wikilink_separator(self):
         """Handle the separator between a wikilink's title and its text."""
         self._context ^= contexts.WIKILINK_TITLE
         self._context |= contexts.WIKILINK_TEXT
-        self._write(tokens.WikilinkSeparator())
+        self._emit(tokens.WikilinkSeparator())
 
     def _handle_wikilink_end(self):
         """Handle the end of a wikilink at the head of the string."""
@@ -324,13 +323,13 @@ class Tokenizer(object):
             title, level = self._parse(context)
         except BadRoute:
             self._head = reset + best - 1
-            self._write_text("=" * best)
+            self._emit_text("=" * best)
         else:
-            self._write(tokens.HeadingStart(level=level))
+            self._emit(tokens.HeadingStart(level=level))
             if level < best:
-                self._write_text("=" * (best - level))
-            self._write_all(title)
-            self._write(tokens.HeadingEnd())
+                self._emit_text("=" * (best - level))
+            self._emit_all(title)
+            self._emit(tokens.HeadingEnd())
         finally:
             self._global ^= contexts.GL_HEADING
 
@@ -349,28 +348,28 @@ class Tokenizer(object):
             after, after_level = self._parse(self._context)
         except BadRoute:
             if level < best:
-                self._write_text("=" * (best - level))
+                self._emit_text("=" * (best - level))
             self._head = reset + best - 1
             return self._pop(), level
         else:  # Found another closure
-            self._write_text("=" * best)
-            self._write_all(after)
+            self._emit_text("=" * best)
+            self._emit_all(after)
             return self._pop(), after_level
 
     def _really_parse_entity(self):
         """Actually parse an HTML entity and ensure that it is valid."""
-        self._write(tokens.HTMLEntityStart())
+        self._emit(tokens.HTMLEntityStart())
         self._head += 1
 
         this = self._read(strict=True)
         if this == "#":
             numeric = True
-            self._write(tokens.HTMLEntityNumeric())
+            self._emit(tokens.HTMLEntityNumeric())
             self._head += 1
             this = self._read(strict=True)
             if this[0].lower() == "x":
                 hexadecimal = True
-                self._write(tokens.HTMLEntityHex(char=this[0]))
+                self._emit(tokens.HTMLEntityHex(char=this[0]))
                 this = this[1:]
                 if not this:
                     self._fail_route()
@@ -396,8 +395,8 @@ class Tokenizer(object):
             if this not in htmlentities.entitydefs:
                 self._fail_route()
 
-        self._write(tokens.Text(text=this))
-        self._write(tokens.HTMLEntityEnd())
+        self._emit(tokens.Text(text=this))
+        self._emit(tokens.HTMLEntityEnd())
 
     def _parse_entity(self):
         """Parse an HTML entity at the head of the wikicode string."""
@@ -407,9 +406,9 @@ class Tokenizer(object):
             self._really_parse_entity()
         except BadRoute:
             self._head = reset
-            self._write_text(self._read())
+            self._emit_text(self._read())
         else:
-            self._write_all(self._pop())
+            self._emit_all(self._pop())
 
     def _parse_comment(self):
         """Parse an HTML comment at the head of the wikicode string."""
@@ -419,11 +418,11 @@ class Tokenizer(object):
             comment = self._parse(contexts.COMMENT)
         except BadRoute:
             self._head = reset
-            self._write_text("<!--")
+            self._emit_text("<!--")
         else:
-            self._write(tokens.CommentStart())
-            self._write_all(comment)
-            self._write(tokens.CommentEnd())
+            self._emit(tokens.CommentStart())
+            self._emit_all(comment)
+            self._emit(tokens.CommentEnd())
             self._head += 2
 
     def _parse_tag(self):
@@ -431,18 +430,18 @@ class Tokenizer(object):
         reset = self._head
         self._head += 1
         try:
-            tokens = self._really_parse_tag()
+            tag = self._really_parse_tag()
         except BadRoute:
             self._head = reset
-            self._write_text("<")
+            self._emit_text("<")
         else:
-            self._write_all(tokens)
+            self._emit_all(tag)
 
     def _really_parse_tag(self):
         """Actually parse an HTML tag, starting with the open (``<foo>``)."""
         data = _TagOpenData()
         self._push(contexts.TAG_OPEN)
-        self._write(tokens.TagOpenOpen(showtag=True))
+        self._emit(tokens.TagOpenOpen(showtag=True))
         while True:
             this, next = self._read(), self._read(1)
             can_exit = (not data.context & (data.CX_QUOTED | data.CX_NAME) or
@@ -471,14 +470,14 @@ class Tokenizer(object):
     def _push_tag_buffer(self, data):
         """Write a pending tag attribute from *data* to the stack."""
         if data.context & data.CX_QUOTED:
-            self._write_first(tokens.TagAttrQuote())
-            self._write_all(self._pop())
+            self._emit_first(tokens.TagAttrQuote())
+            self._emit_all(self._pop())
         buf = data.padding_buffer
         while len(buf) < 3:
             buf.append("")
-        self._write_first(tokens.TagAttrStart(pad_after_eq=buf.pop(),
+        self._emit_first(tokens.TagAttrStart(pad_after_eq=buf.pop(),
             pad_before_eq=buf.pop(), pad_first=buf.pop()))
-        self._write_all(self._pop())
+        self._emit_all(self._pop())
         data.padding_buffer = []
 
     def _handle_tag_data(self, data, text):
@@ -508,7 +507,7 @@ class Tokenizer(object):
                     if not data.context & data.CX_NEED_EQUALS:
                         data.padding_buffer.append("")  # No padding before '='
                     data.context = data.CX_ATTR_VALUE | data.CX_NEED_QUOTE
-                    self._write(tokens.TagAttrEquals())
+                    self._emit(tokens.TagAttrEquals())
                     continue
                 if data.context & data.CX_NEED_EQUALS:
                     self._push_tag_buffer(data)
@@ -542,7 +541,7 @@ class Tokenizer(object):
         elif ctx & data.CX_ATTR_NAME:
             data.context |= data.CX_NEED_EQUALS
         if ctx & data.CX_QUOTED and not ctx & data.CX_NEED_SPACE:
-            self._write_text(text)
+            self._emit_text(text)
         else:
             data.padding_buffer.append(text)
 
@@ -550,7 +549,7 @@ class Tokenizer(object):
         """Handle regular *text* inside of an HTML open tag."""
         next = self._read(1)
         if not self._can_recurse() or text not in self.MARKERS:
-            self._write_text(text)
+            self._emit_text(text)
         elif text == next == "{":
             self._parse_template_or_argument()
         elif text == next == "[":
@@ -558,19 +557,19 @@ class Tokenizer(object):
         elif text == "<":
             self._parse_tag()
         else:
-            self._write_text(text)
+            self._emit_text(text)
 
     def _handle_tag_close_open(self, data, token):
         """Handle the closing of a open tag (``<foo>``)."""
         if data.context & (data.CX_ATTR_NAME | data.CX_ATTR_VALUE):
             self._push_tag_buffer(data)
         padding = data.padding_buffer[0] if data.padding_buffer else ""
-        self._write(token(padding=padding))
+        self._emit(token(padding=padding))
         self._head += 1
 
     def _handle_tag_open_close(self):
         """Handle the opening of a closing tag (``</foo>``)."""
-        self._write(tokens.TagOpenClose())
+        self._emit(tokens.TagOpenClose())
         self._push(contexts.TAG_CLOSE)
         self._head += 1
 
@@ -581,8 +580,8 @@ class Tokenizer(object):
         if len(closing) != 1 or (not isinstance(closing[0], tokens.Text) or
                                  strip(closing[0]) != strip(self._stack[1])):
             self._fail_route()
-        self._write_all(closing)
-        self._write(tokens.TagCloseClose())
+        self._emit_all(closing)
+        self._emit(tokens.TagCloseClose())
         return self._pop()
 
     def _verify_safe(self, this):
@@ -661,7 +660,7 @@ class Tokenizer(object):
                         self._pop()
                     self._fail_route()
             if this not in self.MARKERS:
-                self._write_text(this)
+                self._emit_text(this)
                 self._head += 1
                 continue
             if this is self.END:
@@ -675,12 +674,12 @@ class Tokenizer(object):
                 if this == next == "-" and self._read(2) == ">":
                     return self._pop()
                 else:
-                    self._write_text(this)
+                    self._emit_text(this)
             elif this == next == "{":
                 if self._can_recurse():
                     self._parse_template_or_argument()
                 else:
-                    self._write_text("{")
+                    self._emit_text("{")
             elif this == "|" and self._context & contexts.TEMPLATE:
                 self._handle_template_param()
             elif this == "=" and self._context & contexts.TEMPLATE_PARAM_KEY:
@@ -693,12 +692,12 @@ class Tokenizer(object):
                 if self._read(2) == "}":
                     return self._handle_argument_end()
                 else:
-                    self._write_text("}")
+                    self._emit_text("}")
             elif this == next == "[":
                 if not self._context & contexts.WIKILINK_TITLE and self._can_recurse():
                     self._parse_wikilink()
                 else:
-                    self._write_text("[")
+                    self._emit_text("[")
             elif this == "|" and self._context & contexts.WIKILINK_TITLE:
                 self._handle_wikilink_separator()
             elif this == next == "]" and self._context & contexts.WIKILINK:
@@ -707,7 +706,7 @@ class Tokenizer(object):
                 if self._read(-1) in ("\n", self.START):
                     self._parse_heading()
                 else:
-                    self._write_text("=")
+                    self._emit_text("=")
             elif this == "=" and self._context & contexts.HEADING:
                 return self._handle_heading_end()
             elif this == "\n" and self._context & contexts.HEADING:
@@ -718,18 +717,18 @@ class Tokenizer(object):
                 if self._read(2) == self._read(3) == "-":
                     self._parse_comment()
                 else:
-                    self._write_text(this)
+                    self._emit_text(this)
             elif this == "<" and next == "/" and self._context & contexts.TAG_BODY:
                 self._handle_tag_open_close()
             elif this == "<":
                 if not self._context & contexts.TAG_CLOSE and self._can_recurse():
                     self._parse_tag()
                 else:
-                    self._write_text("<")
+                    self._emit_text("<")
             elif this == ">" and self._context & contexts.TAG_CLOSE:
                 return self._handle_tag_close_close()
             else:
-                self._write_text(this)
+                self._emit_text(this)
             self._head += 1
 
     def tokenize(self, text):

From 4c7ed9c6a9d7c7a9eb32811048a0043578a130d8 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 3 Jul 2013 21:04:49 -0400
Subject: [PATCH 044/189] Add seven tests related to backslashes before quotes.

---
 tests/tokenizer/tags.mwtest | 53 +++++++++++++++++++++++++++++++++++++++++++--
 1 file changed, 51 insertions(+), 2 deletions(-)

diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index 89b2b2e..f75488d 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -56,8 +56,8 @@ output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" "
 
 name:   attribute_quoted
 label:  a tag with a single quoted attribute
-input:  "<ref name="foo"></ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+input:  "<ref name="foo bar"></ref>"
+output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
@@ -373,3 +373,52 @@ name:   incomplete_no_tag_name_open_close
 label:  incomplete tags: no tag name within brackets; open and close
 input:  "junk <></>"
 output: [Text(text="junk <></>")]
+
+---
+
+name:   backslash_premature_before
+label:  a backslash before a quote before a space
+input:  "<foo attribute="this is\\" quoted">blah</foo>"
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is\\\" quoted"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+
+---
+
+name:   backslash_premature_after
+label:  a backslash before a quote after a space
+input:  "<foo attribute="this is \\"quoted">blah</foo>"
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is \\\"quoted"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+
+---
+
+name:   backslash_premature_middle
+label:  a backslash before a quote in the middle of a word
+input:  "<foo attribute="this i\\"s quoted">blah</foo>"
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this i\\\"s quoted"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+
+---
+
+name:   backslash_adjacent
+label:  escaped quotes next to unescaped quotes
+input:  "<foo attribute="\\"this is quoted\\"">blah</foo>"
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="\\\"this is quoted\\\""), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+
+---
+
+name:   backslash_endquote
+label:  backslashes before the end quote, causing the attribute to become unquoted
+input:  "<foo attribute="this_is quoted\\">blah</foo>"
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), Text(text="\"this_is"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="quoted\\\""), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+
+---
+
+name:   backslash_double
+label:  two adjacent backslashes, which do *not* affect the quote
+input:  "<foo attribute="this is\\\\" quoted">blah</foo>"
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is\\\\"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="quoted\""), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+
+---
+
+name:   backslash_unaffecting
+label:  backslashes near quotes, but not immediately adjacent, thus having no effect
+input:  "<foo attribute="\\quote\\d" also="quote\\d\\">blah</foo>"
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="\\quote\\d"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="also"), TagAttrEquals(), Text(text="\"quot\\ed\\\""), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]

From ffb554c36f45b6e4e72efad3bfed73e6c95a5b8e Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 4 Jul 2013 14:31:43 -0400
Subject: [PATCH 045/189] Fix broken tests.

---
 tests/tokenizer/tags.mwtest | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index f75488d..37ee50a 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -379,46 +379,46 @@ output: [Text(text="junk <></>")]
 name:   backslash_premature_before
 label:  a backslash before a quote before a space
 input:  "<foo attribute="this is\\" quoted">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is\\\" quoted"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is\\\" quoted"), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   backslash_premature_after
 label:  a backslash before a quote after a space
 input:  "<foo attribute="this is \\"quoted">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is \\\"quoted"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is \\\"quoted"), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   backslash_premature_middle
 label:  a backslash before a quote in the middle of a word
 input:  "<foo attribute="this i\\"s quoted">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this i\\\"s quoted"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this i\\\"s quoted"), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   backslash_adjacent
 label:  escaped quotes next to unescaped quotes
 input:  "<foo attribute="\\"this is quoted\\"">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="\\\"this is quoted\\\""), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="\\\"this is quoted\\\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   backslash_endquote
 label:  backslashes before the end quote, causing the attribute to become unquoted
 input:  "<foo attribute="this_is quoted\\">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), Text(text="\"this_is"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="quoted\\\""), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), Text(text="\"this_is"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="quoted\\\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   backslash_double
 label:  two adjacent backslashes, which do *not* affect the quote
 input:  "<foo attribute="this is\\\\" quoted">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is\\\\"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="quoted\""), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is\\\\"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="quoted\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   backslash_unaffecting
 label:  backslashes near quotes, but not immediately adjacent, thus having no effect
 input:  "<foo attribute="\\quote\\d" also="quote\\d\\">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="\\quote\\d"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="also"), TagAttrEquals(), Text(text="\"quot\\ed\\\""), TagCloseOpen(padding=""), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="\\quote\\d"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="also"), TagAttrEquals(), Text(text="\"quote\\d\\\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]

From a42a704230e15e2397b2987ee01f5d742351773a Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 5 Jul 2013 23:02:10 -0400
Subject: [PATCH 046/189] Support backslash-escaped quotes in tags; CX_NEED_*
 -> CX_NOTE_*

---
 mwparserfromhell/parser/tokenizer.py | 44 ++++++++++++++++++------------------
 1 file changed, 22 insertions(+), 22 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 515a7a2..47c04a9 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -42,9 +42,9 @@ class _TagOpenData(object):
     CX_ATTR_NAME =   1 << 2
     CX_ATTR_VALUE =  1 << 3
     CX_QUOTED =      1 << 4
-    CX_NEED_SPACE =  1 << 5
-    CX_NEED_EQUALS = 1 << 6
-    CX_NEED_QUOTE =  1 << 7
+    CX_NOTE_SPACE =  1 << 5
+    CX_NOTE_EQUALS = 1 << 6
+    CX_NOTE_QUOTE =  1 << 7
 
     def __init__(self):
         self.context = self.CX_NAME
@@ -58,10 +58,10 @@ class Tokenizer(object):
     START = object()
     END = object()
     MARKERS = ["{", "}", "[", "]", "<", ">", "|", "=", "&", "#", "*", ";", ":",
-               "/", "-", "!", "\n", END]
+               "/", "\\", '"', "-", "!", "\n", END]
     MAX_DEPTH = 40
     MAX_CYCLES = 100000
-    regex = re.compile(r"([{}\[\]<>|=&#*;:/\-!\n])", flags=re.IGNORECASE)
+    regex = re.compile(r"([{}\[\]<>|=&#*;:/\\\"\-!\n])", flags=re.IGNORECASE)
     tag_splitter = re.compile(r"([\s\"\\])")
 
     def __init__(self):
@@ -445,7 +445,7 @@ class Tokenizer(object):
         while True:
             this, next = self._read(), self._read(1)
             can_exit = (not data.context & (data.CX_QUOTED | data.CX_NAME) or
-                        data.context & data.CX_NEED_SPACE)
+                        data.context & data.CX_NOTE_SPACE)
             if this is self.END:
                 if self._context & contexts.TAG_ATTR:
                     if data.context & data.CX_QUOTED:
@@ -488,11 +488,11 @@ class Tokenizer(object):
             if data.context & data.CX_NAME:
                 if chunk in self.MARKERS or chunk.isspace():
                     self._fail_route()  # Tags must start with text, not spaces
-                data.context = data.CX_NEED_SPACE
+                data.context = data.CX_NOTE_SPACE
             elif chunk.isspace():
                 self._handle_tag_space(data, chunk)
                 continue
-            elif data.context & data.CX_NEED_SPACE:
+            elif data.context & data.CX_NOTE_SPACE:
                 if data.context & data.CX_QUOTED:
                     data.context = data.CX_ATTR_VALUE
                     self._pop()
@@ -504,43 +504,43 @@ class Tokenizer(object):
                 self._push(contexts.TAG_ATTR)
             elif data.context & data.CX_ATTR_NAME:
                 if chunk == "=":
-                    if not data.context & data.CX_NEED_EQUALS:
+                    if not data.context & data.CX_NOTE_EQUALS:
                         data.padding_buffer.append("")  # No padding before '='
-                    data.context = data.CX_ATTR_VALUE | data.CX_NEED_QUOTE
+                    data.context = data.CX_ATTR_VALUE | data.CX_NOTE_QUOTE
                     self._emit(tokens.TagAttrEquals())
                     continue
-                if data.context & data.CX_NEED_EQUALS:
+                if data.context & data.CX_NOTE_EQUALS:
                     self._push_tag_buffer(data)
                     data.padding_buffer.append("")  # No padding before tag
                     data.context = data.CX_ATTR_NAME
                     self._push(contexts.TAG_ATTR)
             elif data.context & data.CX_ATTR_VALUE:
-                ### handle backslashes here
-                if data.context & data.CX_NEED_QUOTE:
-                    data.context ^= data.CX_NEED_QUOTE
-                    if chunk == '"':
+                escaped = self._read(-1) == "\\" and self._read(-2) != "\\"
+                if data.context & data.CX_NOTE_QUOTE:
+                    data.context ^= data.CX_NOTE_QUOTE
+                    if chunk == '"' and not escaped:
                         data.context |= data.CX_QUOTED
                         self._push(self._context)
                         data.reset = self._head
                         continue
                 elif data.context & data.CX_QUOTED:
-                    if chunk == '"':
-                        data.context |= data.CX_NEED_SPACE
+                    if chunk == '"' and not escaped:
+                        data.context |= data.CX_NOTE_SPACE
                         continue
             self._handle_tag_text(chunk)
 
     def _handle_tag_space(self, data, text):
         """Handle whitespace (*text*) inside of an HTML open tag."""
         ctx = data.context
-        end_of_value = ctx & data.CX_ATTR_VALUE and not ctx & (data.CX_QUOTED | data.CX_NEED_QUOTE)
-        if end_of_value or (ctx & data.CX_QUOTED and ctx & data.CX_NEED_SPACE):
+        end_of_value = ctx & data.CX_ATTR_VALUE and not ctx & (data.CX_QUOTED | data.CX_NOTE_QUOTE)
+        if end_of_value or (ctx & data.CX_QUOTED and ctx & data.CX_NOTE_SPACE):
             self._push_tag_buffer(data)
             data.context = data.CX_ATTR_READY
-        elif ctx & data.CX_NEED_SPACE:
+        elif ctx & data.CX_NOTE_SPACE:
             data.context = data.CX_ATTR_READY
         elif ctx & data.CX_ATTR_NAME:
-            data.context |= data.CX_NEED_EQUALS
-        if ctx & data.CX_QUOTED and not ctx & data.CX_NEED_SPACE:
+            data.context |= data.CX_NOTE_EQUALS
+        if ctx & data.CX_QUOTED and not ctx & data.CX_NOTE_SPACE:
             self._emit_text(text)
         else:
             data.padding_buffer.append(text)

From e5ada4753a889a592d8103fa795234083c5765ce Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 5 Jul 2013 23:02:27 -0400
Subject: [PATCH 047/189] Adding a test for triple backslashes.

---
 tests/tokenizer/tags.mwtest | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index 37ee50a..b534fd2 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -418,6 +418,13 @@ output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" "
 
 ---
 
+name:   backslash_triple
+label:  three adjacent backslashes, which do *not* affect the quote
+input:  "<foo attribute="this is\\\\\\" quoted">blah</foo>"
+output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is\\\\\\"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="quoted\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+
+---
+
 name:   backslash_unaffecting
 label:  backslashes near quotes, but not immediately adjacent, thus having no effect
 input:  "<foo attribute="\\quote\\d" also="quote\\d\\">blah</foo>"

From 4cfa40685ebc355ea366a1be4cd6f77c4e7809c9 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 5 Jul 2013 23:29:14 -0400
Subject: [PATCH 048/189] Clean up the way contexts are defined.

---
 mwparserfromhell/parser/contexts.py | 76 +++++++++++++++++++------------------
 1 file changed, 39 insertions(+), 37 deletions(-)

diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index 9e5e568..211136c 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -85,43 +85,45 @@ Global contexts:
 
 # Local contexts:
 
-TEMPLATE =             0b000000000000000000000111
-TEMPLATE_NAME =        0b000000000000000000000001
-TEMPLATE_PARAM_KEY =   0b000000000000000000000010
-TEMPLATE_PARAM_VALUE = 0b000000000000000000000100
-
-ARGUMENT =             0b000000000000000000011000
-ARGUMENT_NAME =        0b000000000000000000001000
-ARGUMENT_DEFAULT =     0b000000000000000000010000
-
-WIKILINK =             0b000000000000000001100000
-WIKILINK_TITLE =       0b000000000000000000100000
-WIKILINK_TEXT =        0b000000000000000001000000
-
-HEADING =              0b000000000001111110000000
-HEADING_LEVEL_1 =      0b000000000000000010000000
-HEADING_LEVEL_2 =      0b000000000000000100000000
-HEADING_LEVEL_3 =      0b000000000000001000000000
-HEADING_LEVEL_4 =      0b000000000000010000000000
-HEADING_LEVEL_5 =      0b000000000000100000000000
-HEADING_LEVEL_6 =      0b000000000001000000000000
-
-COMMENT =              0b000000000010000000000000
-
-TAG =                  0b000000111100000000000000
-TAG_OPEN =             0b000000000100000000000000
-TAG_ATTR =             0b000000001000000000000000
-TAG_BODY =             0b000000010000000000000000
-TAG_CLOSE =            0b000000100000000000000000
-
-SAFETY_CHECK =         0b111111000000000000000000
-HAS_TEXT =             0b000001000000000000000000
-FAIL_ON_TEXT =         0b000010000000000000000000
-FAIL_NEXT  =           0b000100000000000000000000
-FAIL_ON_LBRACE =       0b001000000000000000000000
-FAIL_ON_RBRACE =       0b010000000000000000000000
-FAIL_ON_EQUALS =       0b100000000000000000000000
+TEMPLATE_NAME =        1 << 0
+TEMPLATE_PARAM_KEY =   1 << 1
+TEMPLATE_PARAM_VALUE = 1 << 2
+TEMPLATE = TEMPLATE_NAME + TEMPLATE_PARAM_KEY + TEMPLATE_PARAM_VALUE
+
+ARGUMENT_NAME =    1 << 3
+ARGUMENT_DEFAULT = 1 << 4
+ARGUMENT = ARGUMENT_NAME + ARGUMENT_DEFAULT
+
+WIKILINK_TITLE = 1 << 5
+WIKILINK_TEXT =  1 << 6
+WIKILINK = WIKILINK_TITLE + WIKILINK_TEXT
+
+HEADING_LEVEL_1 = 1 << 7
+HEADING_LEVEL_2 = 1 << 8
+HEADING_LEVEL_3 = 1 << 9
+HEADING_LEVEL_4 = 1 << 10
+HEADING_LEVEL_5 = 1 << 11
+HEADING_LEVEL_6 = 1 << 12
+HEADING = (HEADING_LEVEL_1 + HEADING_LEVEL_2 + HEADING_LEVEL_3 +
+           HEADING_LEVEL_4 + HEADING_LEVEL_5 + HEADING_LEVEL_6)
+
+COMMENT = 1 << 13
+
+TAG_OPEN =  1 << 14
+TAG_ATTR =  1 << 15
+TAG_BODY =  1 << 16
+TAG_CLOSE = 1 << 17
+TAG = TAG_OPEN + TAG_ATTR + TAG_BODY + TAG_CLOSE
+
+HAS_TEXT =       1 << 18
+FAIL_ON_TEXT =   1 << 19
+FAIL_NEXT  =     1 << 20
+FAIL_ON_LBRACE = 1 << 21
+FAIL_ON_RBRACE = 1 << 22
+FAIL_ON_EQUALS = 1 << 23
+SAFETY_CHECK = (HAS_TEXT + FAIL_ON_TEXT + FAIL_NEXT + FAIL_ON_LBRACE +
+                FAIL_ON_RBRACE + FAIL_ON_EQUALS)
 
 # Global contexts:
 
-GL_HEADING = 0b1
+GL_HEADING = 1 << 0

From 2a71c1889235e729b2c472702b40cfe1e6145ed0 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 5 Jul 2013 23:51:16 -0400
Subject: [PATCH 049/189] Four tests for <nowiki> + friends.

---
 tests/tokenizer/tags.mwtest | 28 ++++++++++++++++++++++++++++
 1 file changed, 28 insertions(+)

diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index b534fd2..00bdf37 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -429,3 +429,31 @@ name:   backslash_unaffecting
 label:  backslashes near quotes, but not immediately adjacent, thus having no effect
 input:  "<foo attribute="\\quote\\d" also="quote\\d\\">blah</foo>"
 output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="\\quote\\d"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="also"), TagAttrEquals(), Text(text="\"quote\\d\\\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+
+---
+
+name:   unparsable
+label:  a tag that should not be put through the normal parser
+input:  "{{t1}}<nowiki>{{t2}}</nowiki>{{t3}}"
+output: [TemplateOpen(), Text(text="t1"), TemplateClose(), TagOpenOpen(showtag=True), Text(text="nowiki"), TagCloseOpen(padding=""), Text(text="{{t2}}"), TagOpenClose(), Text(text="nowiki"), TagCloseClose(), TemplateOpen(), Text(text="t3"), TemplateClose()]
+
+---
+
+name:   unparsable_complex
+label:  a tag that should not be put through the normal parser; lots of stuff inside
+input:  "{{t1}}<pre>{{t2}}\n==Heading==\nThis is some text with a [[page|link]].</pre>{{t3}}"
+output: [TemplateOpen(), Text(text="t1"), TemplateClose(), TagOpenOpen(showtag=True), Text(text="pre"), TagCloseOpen(padding=""), Text(text="{{t2}}\n==Heading==\nThis is some text with a [[page|link]]."), TagOpenClose(), Text(text="pre"), TagCloseClose(), TemplateOpen(), Text(text="t3"), TemplateClose()]
+
+---
+
+name:   unparsable_attributed
+label:  a tag that should not be put through the normal parser; parsed attributes
+input:  "{{t1}}<nowiki attr=val attr2="{{val2}}">{{t2}}</nowiki>{{t3}}"
+output: [TemplateOpen(), Text(text=u't1'), TemplateClose(), TagOpenOpen(showtag=True), Text(text="nowiki"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attr"), TagAttrEquals(), Text(text="val"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attr2"), TagAttrEquals(), TagAttrQuote(), TemplateOpen(), Text(text="val2"), TemplateClose(), TagCloseOpen(padding=""), Text(text="{{t2}}"), TagOpenClose(), Text(text="nowiki"), TagCloseClose(), TemplateOpen(), Text(text="t3"), TemplateClose()]
+
+---
+
+name:   unparsable_incomplete
+label:  a tag that should not be put through the normal parser; incomplete
+input:  "{{t1}}<nowiki>{{t2}}{{t3}}"
+output: [TemplateOpen(), Text(text="t1"), TemplateClose(), Text(text="<nowiki>"), TemplateOpen(), Text(text="t2"), TemplateClose(), TemplateOpen(), Text(text="t3"), TemplateClose()]

From fb92012fcb351c49a39a8535f203921f597e92d8 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 6 Jul 2013 00:12:06 -0400
Subject: [PATCH 050/189] Support parser-blacklisted tags like <nowiki>

---
 mwparserfromhell/parser/tokenizer.py | 17 ++++++++++++++++-
 1 file changed, 16 insertions(+), 1 deletion(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 47c04a9..45dfd01 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -459,7 +459,9 @@ class Tokenizer(object):
             elif this == ">" and can_exit:
                 self._handle_tag_close_open(data, tokens.TagCloseOpen)
                 self._context = contexts.TAG_BODY
-                return self._parse(push=False)
+                if is_parsable(self._stack[1].text):
+                    return self._parse(push=False)
+                return self._handle_blacklisted_tag()
             elif this == "/" and next == ">" and can_exit:
                 self._handle_tag_close_open(data, tokens.TagCloseSelfclose)
                 return self._pop()
@@ -559,6 +561,19 @@ class Tokenizer(object):
         else:
             self._emit_text(text)
 
+    def _handle_blacklisted_tag(self):
+        """Handle the body of an HTML tag that is parser-blacklisted."""
+        while True:
+            this, next = self._read(), self._read(1)
+            self._head += 1
+            if this is self.END:
+                self._fail_route()
+            elif this == "<" and next == "/":
+                self._handle_tag_open_close()
+                return self._parse(push=False)
+            else:
+                self._emit_text(this)
+
     def _handle_tag_close_open(self, data, token):
         """Handle the closing of a open tag (``<foo>``)."""
         if data.context & (data.CX_ATTR_NAME | data.CX_ATTR_VALUE):

From 50beda09143697946886d51756a18e9cf6e1ef89 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 6 Jul 2013 01:47:33 -0400
Subject: [PATCH 051/189] Improve/fix the way padding is handled.

---
 mwparserfromhell/parser/tokenizer.py | 25 +++++++++++--------------
 tests/tokenizer/integration.mwtest   |  4 ++--
 2 files changed, 13 insertions(+), 16 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 45dfd01..7247148 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -48,7 +48,7 @@ class _TagOpenData(object):
 
     def __init__(self):
         self.context = self.CX_NAME
-        self.padding_buffer = []
+        self.padding_buffer = {"first": "", "before_eq": "", "after_eq": ""}
         self.reset = 0
 
 
@@ -62,7 +62,7 @@ class Tokenizer(object):
     MAX_DEPTH = 40
     MAX_CYCLES = 100000
     regex = re.compile(r"([{}\[\]<>|=&#*;:/\\\"\-!\n])", flags=re.IGNORECASE)
-    tag_splitter = re.compile(r"([\s\"\\])")
+    tag_splitter = re.compile(r"([\s\"\\]+)")
 
     def __init__(self):
         self._text = None
@@ -475,12 +475,10 @@ class Tokenizer(object):
             self._emit_first(tokens.TagAttrQuote())
             self._emit_all(self._pop())
         buf = data.padding_buffer
-        while len(buf) < 3:
-            buf.append("")
-        self._emit_first(tokens.TagAttrStart(pad_after_eq=buf.pop(),
-            pad_before_eq=buf.pop(), pad_first=buf.pop()))
+        self._emit_first(tokens.TagAttrStart(pad_first=buf["first"],
+            pad_before_eq=buf["before_eq"], pad_after_eq=buf["after_eq"]))
         self._emit_all(self._pop())
-        data.padding_buffer = []
+        data.padding_buffer = {key: "" for key in data.padding_buffer}
 
     def _handle_tag_data(self, data, text):
         """Handle all sorts of *text* data inside of an HTML open tag."""
@@ -506,14 +504,11 @@ class Tokenizer(object):
                 self._push(contexts.TAG_ATTR)
             elif data.context & data.CX_ATTR_NAME:
                 if chunk == "=":
-                    if not data.context & data.CX_NOTE_EQUALS:
-                        data.padding_buffer.append("")  # No padding before '='
                     data.context = data.CX_ATTR_VALUE | data.CX_NOTE_QUOTE
                     self._emit(tokens.TagAttrEquals())
                     continue
                 if data.context & data.CX_NOTE_EQUALS:
                     self._push_tag_buffer(data)
-                    data.padding_buffer.append("")  # No padding before tag
                     data.context = data.CX_ATTR_NAME
                     self._push(contexts.TAG_ATTR)
             elif data.context & data.CX_ATTR_VALUE:
@@ -542,10 +537,13 @@ class Tokenizer(object):
             data.context = data.CX_ATTR_READY
         elif ctx & data.CX_ATTR_NAME:
             data.context |= data.CX_NOTE_EQUALS
+            data.padding_buffer["before_eq"] += text
         if ctx & data.CX_QUOTED and not ctx & data.CX_NOTE_SPACE:
             self._emit_text(text)
-        else:
-            data.padding_buffer.append(text)
+        elif data.context & data.CX_ATTR_READY:
+            data.padding_buffer["first"] += text
+        elif data.context & data.CX_ATTR_VALUE:
+            data.padding_buffer["after_eq"] += text
 
     def _handle_tag_text(self, text):
         """Handle regular *text* inside of an HTML open tag."""
@@ -578,8 +576,7 @@ class Tokenizer(object):
         """Handle the closing of a open tag (``<foo>``)."""
         if data.context & (data.CX_ATTR_NAME | data.CX_ATTR_VALUE):
             self._push_tag_buffer(data)
-        padding = data.padding_buffer[0] if data.padding_buffer else ""
-        self._emit(token(padding=padding))
+        self._emit(token(padding=data.padding_buffer["first"]))
         self._head += 1
 
     def _handle_tag_open_close(self):
diff --git a/tests/tokenizer/integration.mwtest b/tests/tokenizer/integration.mwtest
index 736ecb1..76e0429 100644
--- a/tests/tokenizer/integration.mwtest
+++ b/tests/tokenizer/integration.mwtest
@@ -35,8 +35,8 @@ output: [Text(text="&n"), CommentStart(), Text(text="foo"), CommentEnd(), Text(t
 
 name:   rich_tags
 label:  a HTML tag with tons of other things in it
-input:  "{{dubious claim}}<ref name={{abc}}  foo="bar {{baz}}" abc={{de}}f ghi=j{{k}}{{l}} mno="{{p}} [[q]] {{r}}">[[Source]]</ref>"
-output: [TemplateOpen(), Text(text="dubious claim"), TemplateClose(), TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TemplateOpen(), Text(text="abc"), TemplateClose(), TagAttrStart(pad_first=" ", pad_before_eq=" ", pad_after_eq=""), Text(text="foo"), TagAttrEquals(), TagAttrQuote(), Text(text="bar "), TemplateOpen(), Text(text="baz"), TemplateClose(), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="abc"), TagAttrEquals(), TemplateOpen(), Text(text="de"), TemplateClose(), Text(text="f"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="ghi"), TagAttrEquals(), Text(text="j"), TemplateOpen(), Text(text="k"), TemplateClose(), TemplateOpen(), Text(text="l"), TemplateClose(), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="mno"), TagAttrEquals(), TagAttrQuote(), TemplateOpen(), Text(text="p"), TemplateClose(), Text(text=" "), WikilinkOpen(), Text(text="q"), WikilinkClose(), Text(text=" "), TemplateOpen(), Text(text="r"), TemplateClose(), TagCloseOpen(padding=""), WikilinkOpen(), Text(text="Source"), WikilinkClose(), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+input:  "{{dubious claim}}<ref name={{abc}}   foo="bar {{baz}}" abc={{de}}f ghi=j{{k}}{{l}} \n mno =  "{{p}} [[q]] {{r}}">[[Source]]</ref>"
+output: [TemplateOpen(), Text(text="dubious claim"), TemplateClose(), TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TemplateOpen(), Text(text="abc"), TemplateClose(), TagAttrStart(pad_first="   ", pad_before_eq="", pad_after_eq=""), Text(text="foo"), TagAttrEquals(), TagAttrQuote(), Text(text="bar "), TemplateOpen(), Text(text="baz"), TemplateClose(), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="abc"), TagAttrEquals(), TemplateOpen(), Text(text="de"), TemplateClose(), Text(text="f"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="ghi"), TagAttrEquals(), Text(text="j"), TemplateOpen(), Text(text="k"), TemplateClose(), TemplateOpen(), Text(text="l"), TemplateClose(), TagAttrStart(pad_first=" \n ", pad_before_eq=" ", pad_after_eq="  "), Text(text="mno"), TagAttrEquals(), TagAttrQuote(), TemplateOpen(), Text(text="p"), TemplateClose(), Text(text=" "), WikilinkOpen(), Text(text="q"), WikilinkClose(), Text(text=" "), TemplateOpen(), Text(text="r"), TemplateClose(), TagCloseOpen(padding=""), WikilinkOpen(), Text(text="Source"), WikilinkClose(), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 

From d3a407888079d25a99acc82dd600df1d1acdb7ba Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 7 Jul 2013 16:47:19 -0400
Subject: [PATCH 052/189] Tests for single and single_only tags.

---
 tests/tokenizer/tags.mwtest | 63 +++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 63 insertions(+)

diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index 00bdf37..a07f6c5 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -355,6 +355,13 @@ output: [Text(text="junk <ref>bar</span>")]
 
 ---
 
+name:   incomplete_close
+label:  incomplete tags: a close tag
+input:  "junk </ref>"
+output: [Text(text="junk </ref>")]
+
+---
+
 name:   incomplete_no_tag_name_open
 label:  incomplete tags: no tag name within brackets; just an open
 input:  "junk <>"
@@ -457,3 +464,59 @@ name:   unparsable_incomplete
 label:  a tag that should not be put through the normal parser; incomplete
 input:  "{{t1}}<nowiki>{{t2}}{{t3}}"
 output: [TemplateOpen(), Text(text="t1"), TemplateClose(), Text(text="<nowiki>"), TemplateOpen(), Text(text="t2"), TemplateClose(), TemplateOpen(), Text(text="t3"), TemplateClose()]
+
+---
+
+name:   single_open_close
+label:  a tag that supports being single; both an open and a close tag
+input:  "foo<li>bar{{baz}}</li>"
+output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="li"), TagCloseOpen(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose(), TagOpenClose(), Text(text="li"), TagCloseClose()]
+
+---
+
+name:   single_open
+label:  a tag that supports being single; just an open tag
+input:  "foo<li>bar{{baz}}"
+output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="li"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+
+---
+
+name:   single_selfclose
+label:  a tag that supports being single; a self-closing tag
+input:  "foo<li/>bar{{baz}}"
+output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="li"), TagCloseSelfclose(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+
+---
+
+name:   single_close
+label:  a tag that supports being single; just a close tag
+input:  "foo</li>bar{{baz}}"
+output: [Text(text="foo</li>bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+
+---
+
+name:   single_only_open_close
+label:  a tag that can only be single; both an open and a close tag
+input:  "foo<br>bar{{baz}}</br>"
+output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose(), TagOpenOpen(showtag=True, invalid=True), Text(text="br"), TagCloseSelfclose(padding="")]
+
+---
+
+name:   single_only_open
+label:  a tag that can only be single; just an open tag
+input:  "foo<br>bar{{baz}}"
+output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+
+---
+
+name:   single_only_selfclose
+label:  a tag that can only be single; a self-closing tag
+input:  "foo<br/>bar{{baz}}"
+output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="br"), TagCloseSelfclose(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+
+---
+
+name:   single_only_close
+label:  a tag that can only be single; just a close tag
+input:  "foo</br>bar{{baz}}"
+output: [Text(text="foo"), TagOpenOpen(showtag=True, invalid=True), Text(text="br"), TagCloseSelfclose(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]

From 7d1a28a249d9c4e0dedc406154a1482a40fed9a2 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 9 Jul 2013 19:38:34 -0400
Subject: [PATCH 053/189] Support single and single-only tags like <br>.

---
 mwparserfromhell/nodes/tag.py      | 79 +++++++++++++++++++++++++-------------
 mwparserfromhell/parser/builder.py | 23 ++++++-----
 mwparserfromhell/parser/tokens.py  |  4 ++
 mwparserfromhell/tag_defs.py       | 11 +++++-
 4 files changed, 81 insertions(+), 36 deletions(-)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index 76b412c..dc78b34 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -33,20 +33,20 @@ class Tag(Node):
     """Represents an HTML-style tag in wikicode, like ``<ref>``."""
 
     def __init__(self, tag, contents=None, attrs=None, showtag=True,
-                 self_closing=False, padding="", closing_tag=None):
+                 self_closing=False, invalid=False, implicit=False, padding="",
+                 closing_tag=None):
         super(Tag, self).__init__()
         self._tag = tag
         self._contents = contents
-        if attrs:
-            self._attrs = attrs
-        else:
-            self._attrs = []
+        self._attrs = attrs if attrs else []
         self._showtag = showtag
         self._self_closing = self_closing
+        self._invalid = invalid
+        self._implicit = implicit
         self._padding = padding
         if closing_tag:
             self._closing_tag = closing_tag
-        else:
+        elif not self_closing:
             self._closing_tag = tag
 
     def __unicode__(self):
@@ -57,11 +57,11 @@ class Tag(Node):
             else:
                 return open_ + str(self.contents) + close
 
-        result = "<" + str(self.tag)
+        result = ("</" if self.invalid else "<") + str(self.tag)
         if self.attributes:
             result += "".join([str(attr) for attr in self.attributes])
         if self.self_closing:
-            result += self.padding + "/>"
+            result += self.padding + (">" if self.implicit else "/>")
         else:
             result += self.padding + ">" + str(self.contents)
             result += "</" + str(self.closing_tag) + ">"
@@ -81,6 +81,9 @@ class Tag(Node):
         if self.contents:
             for child in getter(self.contents):
                 yield self.contents, child
+        if not self.self_closing and self.closing_tag:
+            for child in getter(self.closing_tag):
+                yield self.closing_tag, child
 
     def __strip__(self, normalize, collapse):
         if is_visible(self.tag):
@@ -88,27 +91,22 @@ class Tag(Node):
         return None
 
     def __showtree__(self, write, get, mark):
-        tagnodes = self.tag.nodes
-        if not self.attributes and (len(tagnodes) == 1 and
-                                    isinstance(tagnodes[0], Text)):
-            write("<" + str(tagnodes[0]) + ">")
+        write("</" if self.invalid else "<")
+        get(self.tag)
+        for attr in self.attributes:
+            get(attr.name)
+            if not attr.value:
+                continue
+            write("    = ")
+            mark()
+            get(attr.value)
+        if self.self_closing:
+            write(">" if self.implicit else "/>")
         else:
-            write("<")
-            get(self.tag)
-            for attr in self.attributes:
-                get(attr.name)
-                if not attr.value:
-                    continue
-                write("    = ")
-                mark()
-                get(attr.value)
             write(">")
-        get(self.contents)
-        if len(tagnodes) == 1 and isinstance(tagnodes[0], Text):
-            write("</" + str(tagnodes[0]) + ">")
-        else:
+            get(self.contents)
             write("</")
-            get(self.tag)
+            get(self.closing_tag)
             write(">")
 
     @property
@@ -140,6 +138,27 @@ class Tag(Node):
         return self._self_closing
 
     @property
+    def invalid(self):
+        """Whether the tag starts with a backslash after the opening bracket.
+
+        This makes the tag look like a lone close tag. It is technically
+        invalid and is only parsable Wikicode when the tag itself is
+        single-only, like ``<br>`` and ``<img>``. See
+        :py:func:`tag_defs.is_single_only`.
+        """
+        return self._invalid
+
+    @property
+    def implicit(self):
+        """Whether the tag is implicitly self-closing, with no ending slash.
+
+        This is only possible for specific "single" tags like ``<br>`` and
+        ``<li>``. See :py:func:`tag_defs.is_single`. This field only has an
+        effect if :py:attr:`self_closing` is also ``True``.
+        """
+        return self._implicit
+
+    @property
     def padding(self):
         """Spacing to insert before the first closing ``>``."""
         return self._padding
@@ -169,6 +188,14 @@ class Tag(Node):
     def self_closing(self, value):
         self._self_closing = bool(value)
 
+    @invalid.setter
+    def invalid(self, value):
+        self._invalid = bool(value)
+
+    @implicit.setter
+    def implicit(self, value):
+        self._implicit = bool(value)
+
     @padding.setter
     def padding(self, value):
         self._padding = str(value)
diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index d92b845..6d31060 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -205,8 +205,9 @@ class Builder(object):
 
     def _handle_tag(self, token):
         """Handle a case where a tag is at the head of the tokens."""
-        showtag = token.showtag
-        attrs = []
+        showtag, invalid = token.showtag, token.get("invalid", False)
+        implicit, attrs, contents, closing_tag = False, [], None, None
+        close_tokens = (tokens.TagCloseSelfclose, tokens.TagCloseClose)
         self._push()
         while self._tokens:
             token = self._tokens.pop()
@@ -216,16 +217,20 @@ class Builder(object):
                 padding = token.padding
                 tag = self._pop()
                 self._push()
-            elif isinstance(token, tokens.TagCloseSelfclose):
-                tag = self._pop()
-                return Tag(tag, attrs=attrs, showtag=showtag,
-                           self_closing=True, padding=token.padding)
             elif isinstance(token, tokens.TagOpenClose):
                 contents = self._pop()
                 self._push()
-            elif isinstance(token, tokens.TagCloseClose):
-                return Tag(tag, contents, attrs, showtag, False, padding,
-                           self._pop())
+            elif isinstance(token, close_tokens):
+                if isinstance(token, tokens.TagCloseSelfclose):
+                    tag = self._pop()
+                    self_closing = True
+                    padding = token.padding
+                    implicit = token.get("implicit", False)
+                else:
+                    self_closing = False
+                    closing_tag = self._pop()
+                return Tag(tag, contents, attrs, showtag, self_closing,
+                           invalid, implicit, padding, closing_tag)
             else:
                 self._write(self._handle_token(token))
 
diff --git a/mwparserfromhell/parser/tokens.py b/mwparserfromhell/parser/tokens.py
index b11ca15..f3d89fc 100644
--- a/mwparserfromhell/parser/tokens.py
+++ b/mwparserfromhell/parser/tokens.py
@@ -63,6 +63,10 @@ class Token(object):
     def __delattr__(self, key):
         del self._kwargs[key]
 
+    def get(self, key, default=None):
+        """Same as :py:meth:`__getattr__`, but has a *default* if missing."""
+        return self._kwargs.get(key, default)
+
 
 def make(name):
     """Create a new Token class using ``type()`` and add it to ``__all__``."""
diff --git a/mwparserfromhell/tag_defs.py b/mwparserfromhell/tag_defs.py
index 369692b..73493d3 100644
--- a/mwparserfromhell/tag_defs.py
+++ b/mwparserfromhell/tag_defs.py
@@ -24,7 +24,8 @@
 
 from __future__ import unicode_literals
 
-__all__ = ["get_wikicode", "is_parsable", "is_visible"]
+__all__ = ["get_wikicode", "is_parsable", "is_visible", "is_single",
+           "is_single_only"]
 
 PARSER_BLACKLIST = [
     # enwiki extensions @ 2013-06-28
@@ -65,3 +66,11 @@ def is_parsable(tag):
 def is_visible(tag):
     """Return whether or not the given *tag* contains visible text."""
     return tag.lower() not in INVISIBLE_TAGS
+
+def is_single(tag):
+    """Return whether or not the given *tag* can exist without a close tag."""
+    return tag.lower() in SINGLE
+
+def is_single_only(tag):
+    """Return whether or not the given *tag* must exist without a close tag."""
+    return tag.lower() in SINGLE_ONLY

From b24ddaea1020df3ba0a81413feed981cf34267d8 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 9 Jul 2013 22:23:06 -0400
Subject: [PATCH 054/189] Tokenizer support for implicitly self-closing tags.

---
 mwparserfromhell/parser/tokenizer.py | 35 +++++++++++++++++++++++++----------
 tests/tokenizer/tags.mwtest          |  7 +++++++
 2 files changed, 32 insertions(+), 10 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 7247148..308852d 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -26,7 +26,7 @@ import re
 
 from . import contexts, tokens
 from ..compat import htmlentities
-from ..tag_defs import is_parsable
+from ..tag_defs import is_parsable, is_single, is_single_only
 
 __all__ = ["Tokenizer"]
 
@@ -596,6 +596,29 @@ class Tokenizer(object):
         self._emit(tokens.TagCloseClose())
         return self._pop()
 
+    def _handle_single_end(self):
+        """Handle the steam end when inside a single-supporting HTML tag."""
+        gen = enumerate(self._stack)
+        index = next(i for i, t in gen if isinstance(t, tokens.TagCloseOpen))
+        padding = self._stack[index].padding
+        token = tokens.TagCloseSelfclose(padding=padding, implicit=True)
+        self._stack[index] = token
+        return self._pop()
+
+    def _handle_end(self):
+        """Handle the end of the stream of wikitext."""
+        fail = (contexts.TEMPLATE | contexts.ARGUMENT | contexts.WIKILINK |
+                contexts.HEADING | contexts.COMMENT | contexts.TAG)
+        double_fail = (contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE)
+        if self._context & fail:
+            if self._context & contexts.TAG_BODY:
+                if is_single(self._stack[1].text):
+                    return self._handle_single_end()
+            if self._context & double_fail:
+                self._pop()
+            self._fail_route()
+        return self._pop()
+
     def _verify_safe(self, this):
         """Make sure we are not trying to write an invalid character."""
         context = self._context
@@ -658,10 +681,6 @@ class Tokenizer(object):
         unsafe = (contexts.TEMPLATE_NAME | contexts.WIKILINK_TITLE |
                   contexts.TEMPLATE_PARAM_KEY | contexts.ARGUMENT_NAME |
                   contexts.TAG_CLOSE)
-        fail = (contexts.TEMPLATE | contexts.ARGUMENT | contexts.WIKILINK |
-                contexts.HEADING | contexts.COMMENT | contexts.TAG)
-        double_fail = (contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE)
-
         if push:
             self._push(context)
         while True:
@@ -676,11 +695,7 @@ class Tokenizer(object):
                 self._head += 1
                 continue
             if this is self.END:
-                if self._context & fail:
-                    if self._context & double_fail:
-                        self._pop()
-                    self._fail_route()
-                return self._pop()
+                return self._handle_end()
             next = self._read(1)
             if self._context & contexts.COMMENT:
                 if this == next == "-" and self._read(2) == ">":
diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index a07f6c5..6dd67ff 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -520,3 +520,10 @@ name:   single_only_close
 label:  a tag that can only be single; just a close tag
 input:  "foo</br>bar{{baz}}"
 output: [Text(text="foo"), TagOpenOpen(showtag=True, invalid=True), Text(text="br"), TagCloseSelfclose(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+
+---
+
+name:   single_only_double
+label:  a tag that can only be single; a tag with backslashes at the beginning and end
+input:  "foo</br/>bar{{baz}}"
+output: [Text(text="foo"), TagOpenOpen(showtag=True, invalid=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]

From dcdd07253b0d42708a66fde77188ef4d93112009 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 9 Jul 2013 23:19:05 -0400
Subject: [PATCH 055/189] Correctly tokenize single-only HTML tags, part one.

---
 mwparserfromhell/parser/tokenizer.py | 16 +++++++++++++---
 1 file changed, 13 insertions(+), 3 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 308852d..3873f58 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -459,6 +459,8 @@ class Tokenizer(object):
             elif this == ">" and can_exit:
                 self._handle_tag_close_open(data, tokens.TagCloseOpen)
                 self._context = contexts.TAG_BODY
+                if is_single_only(self._stack[1].text):
+                    return self._handle_single_only_tag()
                 if is_parsable(self._stack[1].text):
                     return self._parse(push=False)
                 return self._handle_blacklisted_tag()
@@ -596,8 +598,16 @@ class Tokenizer(object):
         self._emit(tokens.TagCloseClose())
         return self._pop()
 
-    def _handle_single_end(self):
-        """Handle the steam end when inside a single-supporting HTML tag."""
+    def _handle_single_only_tag(self):
+        """Handle the end of an implicitly closing single-only HTML tag."""
+        padding = self._stack.pop().padding
+        token = tokens.TagCloseSelfclose(padding=padding, implicit=True)
+        self._stack.append(token)
+        self._head -= 1
+        return self._pop()
+
+    def _handle_single_tag_end(self):
+        """Handle the stream end when inside a single-supporting HTML tag."""
         gen = enumerate(self._stack)
         index = next(i for i, t in gen if isinstance(t, tokens.TagCloseOpen))
         padding = self._stack[index].padding
@@ -613,7 +623,7 @@ class Tokenizer(object):
         if self._context & fail:
             if self._context & contexts.TAG_BODY:
                 if is_single(self._stack[1].text):
-                    return self._handle_single_end()
+                    return self._handle_single_tag_end()
             if self._context & double_fail:
                 self._pop()
             self._fail_route()

From 929fa25e1fcd89d7e9e1d456aac0404c284906c8 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 10 Jul 2013 01:05:08 -0400
Subject: [PATCH 056/189] Correctly tokenize single-only HTML tags, part two.

---
 mwparserfromhell/parser/tokenizer.py | 34 ++++++++++++++++++++++++++--------
 tests/tokenizer/tags.mwtest          |  6 +++---
 2 files changed, 29 insertions(+), 11 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 3873f58..4192cc4 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -460,7 +460,7 @@ class Tokenizer(object):
                 self._handle_tag_close_open(data, tokens.TagCloseOpen)
                 self._context = contexts.TAG_BODY
                 if is_single_only(self._stack[1].text):
-                    return self._handle_single_only_tag()
+                    return self._handle_single_only_tag_end()
                 if is_parsable(self._stack[1].text):
                     return self._parse(push=False)
                 return self._handle_blacklisted_tag()
@@ -598,12 +598,26 @@ class Tokenizer(object):
         self._emit(tokens.TagCloseClose())
         return self._pop()
 
-    def _handle_single_only_tag(self):
+    def _handle_invalid_tag_start(self):
+        """Handle the (possible) start of an implicitly closing single tag."""
+        reset = self._head + 1
+        self._head += 2
+        try:
+            if not is_single_only(self.tag_splitter.split(self._read())[0]):
+                raise BadRoute()
+            tag = self._really_parse_tag()
+        except BadRoute:
+            self._head = reset
+            self._emit_text("</")
+        else:
+            tag[0].invalid = True  # Set flag of TagOpenOpen
+            self._emit_all(tag)
+
+    def _handle_single_only_tag_end(self):
         """Handle the end of an implicitly closing single-only HTML tag."""
         padding = self._stack.pop().padding
-        token = tokens.TagCloseSelfclose(padding=padding, implicit=True)
-        self._stack.append(token)
-        self._head -= 1
+        self._emit(tokens.TagCloseSelfclose(padding=padding, implicit=True))
+        self._head -= 1  # Offset displacement done by _handle_tag_close_open
         return self._pop()
 
     def _handle_single_tag_end(self):
@@ -691,13 +705,14 @@ class Tokenizer(object):
         unsafe = (contexts.TEMPLATE_NAME | contexts.WIKILINK_TITLE |
                   contexts.TEMPLATE_PARAM_KEY | contexts.ARGUMENT_NAME |
                   contexts.TAG_CLOSE)
+        double_unsafe = (contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE)
         if push:
             self._push(context)
         while True:
             this = self._read()
             if self._context & unsafe:
                 if not self._verify_safe(this):
-                    if self._context & double_fail:
+                    if self._context & double_unsafe:
                         self._pop()
                     self._fail_route()
             if this not in self.MARKERS:
@@ -755,8 +770,11 @@ class Tokenizer(object):
                     self._parse_comment()
                 else:
                     self._emit_text(this)
-            elif this == "<" and next == "/" and self._context & contexts.TAG_BODY:
-                self._handle_tag_open_close()
+            elif this == "<" and next == "/" and self._read(2) is not self.END:
+                if self._context & contexts.TAG_BODY:
+                    self._handle_tag_open_close()
+                else:
+                    self._handle_invalid_tag_start()
             elif this == "<":
                 if not self._context & contexts.TAG_CLOSE and self._can_recurse():
                     self._parse_tag()
diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index 6dd67ff..6c232bb 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -498,7 +498,7 @@ output: [Text(text="foo</li>bar"), TemplateOpen(), Text(text="baz"), TemplateClo
 name:   single_only_open_close
 label:  a tag that can only be single; both an open and a close tag
 input:  "foo<br>bar{{baz}}</br>"
-output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose(), TagOpenOpen(showtag=True, invalid=True), Text(text="br"), TagCloseSelfclose(padding="")]
+output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose(), TagOpenOpen(showtag=True, invalid=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True)]
 
 ---
 
@@ -519,11 +519,11 @@ output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="br"), TagCloseS
 name:   single_only_close
 label:  a tag that can only be single; just a close tag
 input:  "foo</br>bar{{baz}}"
-output: [Text(text="foo"), TagOpenOpen(showtag=True, invalid=True), Text(text="br"), TagCloseSelfclose(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+output: [Text(text="foo"), TagOpenOpen(showtag=True, invalid=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
 
 ---
 
 name:   single_only_double
 label:  a tag that can only be single; a tag with backslashes at the beginning and end
 input:  "foo</br/>bar{{baz}}"
-output: [Text(text="foo"), TagOpenOpen(showtag=True, invalid=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+output: [Text(text="foo"), TagOpenOpen(showtag=True, invalid=True), Text(text="br"), TagCloseSelfclose(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]

From 5018d9d323f2494838b2e8d12ba72586c133270b Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 10 Jul 2013 01:33:45 -0400
Subject: [PATCH 057/189] Make showtag=True implicit.

---
 mwparserfromhell/parser/builder.py   |  5 ++-
 mwparserfromhell/parser/tokenizer.py |  2 +-
 tests/test_builder.py                |  2 +-
 tests/tokenizer/integration.mwtest   |  2 +-
 tests/tokenizer/tags.mwtest          | 84 ++++++++++++++++++------------------
 5 files changed, 48 insertions(+), 47 deletions(-)

diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index 6d31060..5822678 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -205,9 +205,10 @@ class Builder(object):
 
     def _handle_tag(self, token):
         """Handle a case where a tag is at the head of the tokens."""
-        showtag, invalid = token.showtag, token.get("invalid", False)
-        implicit, attrs, contents, closing_tag = False, [], None, None
         close_tokens = (tokens.TagCloseSelfclose, tokens.TagCloseClose)
+        implicit, attrs, contents, closing_tag = False, [], None, None
+        showtag = token.get("showtag", True)
+        invalid = token.get("invalid", False)
         self._push()
         while self._tokens:
             token = self._tokens.pop()
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 4192cc4..c53b022 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -441,7 +441,7 @@ class Tokenizer(object):
         """Actually parse an HTML tag, starting with the open (``<foo>``)."""
         data = _TagOpenData()
         self._push(contexts.TAG_OPEN)
-        self._emit(tokens.TagOpenOpen(showtag=True))
+        self._emit(tokens.TagOpenOpen())
         while True:
             this, next = self._read(), self._read(1)
             can_exit = (not data.context & (data.CX_QUOTED | data.CX_NAME) or
diff --git a/tests/test_builder.py b/tests/test_builder.py
index 0c635ce..2be1e5e 100644
--- a/tests/test_builder.py
+++ b/tests/test_builder.py
@@ -193,7 +193,7 @@ class TestBuilder(TreeEqualityTestCase):
     def test_tag(self):
         """tests for building Tag nodes"""
         tests = [
-            ([tokens.TagOpenOpen(showtag=True), tokens.Text(text="ref"),
+            ([tokens.TagOpenOpen(), tokens.Text(text="ref"),
               tokens.TagCloseOpen(padding=""), tokens.TagOpenClose(),
               tokens.Text(text="ref"), tokens.TagCloseClose()],
              wrap([Tag(wraptext("ref"), wrap([]), [], True, False, "",
diff --git a/tests/tokenizer/integration.mwtest b/tests/tokenizer/integration.mwtest
index 76e0429..0277a51 100644
--- a/tests/tokenizer/integration.mwtest
+++ b/tests/tokenizer/integration.mwtest
@@ -36,7 +36,7 @@ output: [Text(text="&n"), CommentStart(), Text(text="foo"), CommentEnd(), Text(t
 name:   rich_tags
 label:  a HTML tag with tons of other things in it
 input:  "{{dubious claim}}<ref name={{abc}}   foo="bar {{baz}}" abc={{de}}f ghi=j{{k}}{{l}} \n mno =  "{{p}} [[q]] {{r}}">[[Source]]</ref>"
-output: [TemplateOpen(), Text(text="dubious claim"), TemplateClose(), TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TemplateOpen(), Text(text="abc"), TemplateClose(), TagAttrStart(pad_first="   ", pad_before_eq="", pad_after_eq=""), Text(text="foo"), TagAttrEquals(), TagAttrQuote(), Text(text="bar "), TemplateOpen(), Text(text="baz"), TemplateClose(), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="abc"), TagAttrEquals(), TemplateOpen(), Text(text="de"), TemplateClose(), Text(text="f"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="ghi"), TagAttrEquals(), Text(text="j"), TemplateOpen(), Text(text="k"), TemplateClose(), TemplateOpen(), Text(text="l"), TemplateClose(), TagAttrStart(pad_first=" \n ", pad_before_eq=" ", pad_after_eq="  "), Text(text="mno"), TagAttrEquals(), TagAttrQuote(), TemplateOpen(), Text(text="p"), TemplateClose(), Text(text=" "), WikilinkOpen(), Text(text="q"), WikilinkClose(), Text(text=" "), TemplateOpen(), Text(text="r"), TemplateClose(), TagCloseOpen(padding=""), WikilinkOpen(), Text(text="Source"), WikilinkClose(), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TemplateOpen(), Text(text="dubious claim"), TemplateClose(), TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TemplateOpen(), Text(text="abc"), TemplateClose(), TagAttrStart(pad_first="   ", pad_before_eq="", pad_after_eq=""), Text(text="foo"), TagAttrEquals(), TagAttrQuote(), Text(text="bar "), TemplateOpen(), Text(text="baz"), TemplateClose(), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="abc"), TagAttrEquals(), TemplateOpen(), Text(text="de"), TemplateClose(), Text(text="f"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="ghi"), TagAttrEquals(), Text(text="j"), TemplateOpen(), Text(text="k"), TemplateClose(), TemplateOpen(), Text(text="l"), TemplateClose(), TagAttrStart(pad_first=" \n ", pad_before_eq=" ", pad_after_eq="  "), Text(text="mno"), TagAttrEquals(), TagAttrQuote(), TemplateOpen(), Text(text="p"), TemplateClose(), Text(text=" "), WikilinkOpen(), Text(text="q"), WikilinkClose(), Text(text=" "), TemplateOpen(), Text(text="r"), TemplateClose(), TagCloseOpen(padding=""), WikilinkOpen(), Text(text="Source"), WikilinkClose(), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index 6c232bb..50c844e 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -1,112 +1,112 @@
 name:   basic
 label:  a basic tag with an open and close
 input:  "<ref></ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   basic_selfclosing
 label:  a basic self-closing tag
 input:  "<ref/>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseSelfclose(padding="")]
+output: [TagOpenOpen(), Text(text="ref"), TagCloseSelfclose(padding="")]
 
 ---
 
 name:   content
 label:  a tag with some content in the middle
 input:  "<ref>this is a reference</ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseOpen(padding=""), Text(text="this is a reference"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagCloseOpen(padding=""), Text(text="this is a reference"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   padded_open
 label:  a tag with some padding in the open tag
 input:  "<ref ></ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseOpen(padding=" "), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagCloseOpen(padding=" "), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   padded_close
 label:  a tag with some padding in the close tag
 input:  "<ref></ref >"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref "), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref "), TagCloseClose()]
 
 ---
 
 name:   padded_selfclosing
 label:  a self-closing tag with padding
 input:  "<ref />"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseSelfclose(padding=" ")]
+output: [TagOpenOpen(), Text(text="ref"), TagCloseSelfclose(padding=" ")]
 
 ---
 
 name:   attribute
 label:  a tag with a single attribute
 input:  "<ref name></ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_value
 label:  a tag with a single attribute with a value
 input:  "<ref name=foo></ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_quoted
 label:  a tag with a single quoted attribute
 input:  "<ref name="foo bar"></ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_hyphen
 label:  a tag with a single attribute, containing a hyphen
 input:  "<ref name=foo-bar></ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_quoted_hyphen
 label:  a tag with a single quoted attribute, containing a hyphen
 input:  "<ref name="foo-bar"></ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo-bar"), TagCloseOpen(padding=""), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   attribute_selfclosing
 label:  a self-closing tag with a single attribute
 input:  "<ref name/>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagCloseSelfclose(padding="")]
+output: [TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagCloseSelfclose(padding="")]
 
 ---
 
 name:   attribute_selfclosing_value
 label:  a self-closing tag with a single attribute with a value
 input:  "<ref name=foo/>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseSelfclose(padding="")]
+output: [TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), Text(text="foo"), TagCloseSelfclose(padding="")]
 
 ---
 
 name:   attribute_selfclosing_value_quoted
 label:  a self-closing tag with a single quoted attribute
 input:  "<ref name="foo"/>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseSelfclose(padding="")]
+output: [TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="foo"), TagCloseSelfclose(padding="")]
 
 ---
 
 name:   nested_tag
 label:  a tag nested within the attributes of another
 input:  "<ref name=<span style="color: red;">foo</span>>citation</ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagOpenOpen(showtag=True), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), TagAttrQuote(), Text(text="color: red;"), TagCloseOpen(padding=""), Text(text="foo"), TagOpenClose(), Text(text="span"), TagCloseClose(), TagCloseOpen(padding=""), Text(text="citation"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagOpenOpen(), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), TagAttrQuote(), Text(text="color: red;"), TagCloseOpen(padding=""), Text(text="foo"), TagOpenClose(), Text(text="span"), TagCloseClose(), TagCloseOpen(padding=""), Text(text="citation"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   nested_tag_quoted
 label:  a tag nested within the attributes of another, quoted
 input:  "<ref name="<span style="color: red;">foo</span>">citation</ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), TagOpenOpen(showtag=True), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), TagAttrQuote(), Text(text="color: red;"), TagCloseOpen(padding=""), Text(text="foo"), TagOpenClose(), Text(text="span"), TagCloseClose(), TagCloseOpen(padding=""), Text(text="citation"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), TagOpenOpen(), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), TagAttrQuote(), Text(text="color: red;"), TagCloseOpen(padding=""), Text(text="foo"), TagOpenClose(), Text(text="span"), TagCloseClose(), TagCloseOpen(padding=""), Text(text="citation"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
@@ -120,7 +120,7 @@ output: [Text(text="<ref name=</ ><//>>citation</ref>")]
 name:   nested_troll_tag_quoted
 label:  a bogus tag that appears to be nested within the attributes of another, quoted
 input:  "<ref name="</ ><//>">citation</ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="</ ><//>"), TagCloseOpen(padding=""), Text(text="citation"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="name"), TagAttrEquals(), TagAttrQuote(), Text(text="</ ><//>"), TagCloseOpen(padding=""), Text(text="citation"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
@@ -141,7 +141,7 @@ output: [Text(text="<ref>test</ ref>")]
 name:   valid_space_end
 label:  valid tag: spaces at the ends of both the open and close tags
 input:  "<ref >test</ref >"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagCloseOpen(padding=" "), Text(text="test"), TagOpenClose(), Text(text="ref "), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagCloseOpen(padding=" "), Text(text="test"), TagOpenClose(), Text(text="ref "), TagCloseClose()]
 
 ---
 
@@ -162,14 +162,14 @@ output: [Text(text="<ref "), TemplateOpen(), Text(text="foo"), TemplateClose(),
 name:   valid_template_end_open
 label:  valid tag: a template at the end of the open tag
 input:  "<ref {{foo}}>test</ref>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), TemplateOpen(), Text(text="foo"), TemplateClose(), TagCloseOpen(padding=""), Text(text="test"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), TemplateOpen(), Text(text="foo"), TemplateClose(), TagCloseOpen(padding=""), Text(text="test"), TagOpenClose(), Text(text="ref"), TagCloseClose()]
 
 ---
 
 name:   valid_template_end_open_space_end_close
 label:  valid tag: a template at the end of the open tag; whitespace at the end of the close tag
 input:  "<ref {{foo}}>test</ref\n>"
-output: [TagOpenOpen(showtag=True), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), TemplateOpen(), Text(text="foo"), TemplateClose(), TagCloseOpen(padding=""), Text(text="test"), TagOpenClose(), Text(text="ref\n"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="ref"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), TemplateOpen(), Text(text="foo"), TemplateClose(), TagCloseOpen(padding=""), Text(text="test"), TagOpenClose(), Text(text="ref\n"), TagCloseClose()]
 
 ---
 
@@ -197,21 +197,21 @@ output: [Text(text="<"), TemplateOpen(), Text(text="foo"), TemplateClose(), Text
 name:   unclosed_quote
 label:  a quoted attribute that is never closed
 input:  "<span style="foobar>stuff</span>"
-output: [TagOpenOpen(showtag=True), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), Text(text="\"foobar"), TagCloseOpen(padding=""), Text(text="stuff"), TagOpenClose(), Text(text="span"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), Text(text="\"foobar"), TagCloseOpen(padding=""), Text(text="stuff"), TagOpenClose(), Text(text="span"), TagCloseClose()]
 
 ---
 
 name:   fake_quote
 label:  a fake quoted attribute
 input:  "<span style="foo"bar>stuff</span>"
-output: [TagOpenOpen(showtag=True), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), Text(text="\"foo\"bar"), TagCloseOpen(padding=""), Text(text="stuff"), TagOpenClose(), Text(text="span"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), Text(text="\"foo\"bar"), TagCloseOpen(padding=""), Text(text="stuff"), TagOpenClose(), Text(text="span"), TagCloseClose()]
 
 ---
 
 name:   fake_quote_complex
 label:  a fake quoted attribute, with spaces and templates and links
 input:  "<span style="foo {{bar}}\n[[baz]]"buzz >stuff</span>"
-output: [TagOpenOpen(showtag=True), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), Text(text="\"foo"), TagAttrStart(pad_first=" ", pad_before_eq="\n", pad_after_eq=""), TemplateOpen(), Text(text="bar"), TemplateClose(), TagAttrStart(pad_first="", pad_before_eq=" ", pad_after_eq=""), WikilinkOpen(), Text(text="baz"), WikilinkClose(), Text(text="\"buzz"), TagCloseOpen(padding=""), Text(text="stuff"), TagOpenClose(), Text(text="span"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="span"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="style"), TagAttrEquals(), Text(text="\"foo"), TagAttrStart(pad_first=" ", pad_before_eq="\n", pad_after_eq=""), TemplateOpen(), Text(text="bar"), TemplateClose(), TagAttrStart(pad_first="", pad_before_eq=" ", pad_after_eq=""), WikilinkOpen(), Text(text="baz"), WikilinkClose(), Text(text="\"buzz"), TagCloseOpen(padding=""), Text(text="stuff"), TagOpenClose(), Text(text="span"), TagCloseClose()]
 
 ---
 
@@ -386,77 +386,77 @@ output: [Text(text="junk <></>")]
 name:   backslash_premature_before
 label:  a backslash before a quote before a space
 input:  "<foo attribute="this is\\" quoted">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is\\\" quoted"), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is\\\" quoted"), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   backslash_premature_after
 label:  a backslash before a quote after a space
 input:  "<foo attribute="this is \\"quoted">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is \\\"quoted"), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is \\\"quoted"), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   backslash_premature_middle
 label:  a backslash before a quote in the middle of a word
 input:  "<foo attribute="this i\\"s quoted">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this i\\\"s quoted"), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this i\\\"s quoted"), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   backslash_adjacent
 label:  escaped quotes next to unescaped quotes
 input:  "<foo attribute="\\"this is quoted\\"">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="\\\"this is quoted\\\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="\\\"this is quoted\\\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   backslash_endquote
 label:  backslashes before the end quote, causing the attribute to become unquoted
 input:  "<foo attribute="this_is quoted\\">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), Text(text="\"this_is"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="quoted\\\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), Text(text="\"this_is"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="quoted\\\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   backslash_double
 label:  two adjacent backslashes, which do *not* affect the quote
 input:  "<foo attribute="this is\\\\" quoted">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is\\\\"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="quoted\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is\\\\"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="quoted\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   backslash_triple
 label:  three adjacent backslashes, which do *not* affect the quote
 input:  "<foo attribute="this is\\\\\\" quoted">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is\\\\\\"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="quoted\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="this is\\\\\\"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="quoted\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   backslash_unaffecting
 label:  backslashes near quotes, but not immediately adjacent, thus having no effect
 input:  "<foo attribute="\\quote\\d" also="quote\\d\\">blah</foo>"
-output: [TagOpenOpen(showtag=True), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="\\quote\\d"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="also"), TagAttrEquals(), Text(text="\"quote\\d\\\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
+output: [TagOpenOpen(), Text(text="foo"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attribute"), TagAttrEquals(), TagAttrQuote(), Text(text="\\quote\\d"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="also"), TagAttrEquals(), Text(text="\"quote\\d\\\""), TagCloseOpen(padding=""), Text(text="blah"), TagOpenClose(), Text(text="foo"), TagCloseClose()]
 
 ---
 
 name:   unparsable
 label:  a tag that should not be put through the normal parser
 input:  "{{t1}}<nowiki>{{t2}}</nowiki>{{t3}}"
-output: [TemplateOpen(), Text(text="t1"), TemplateClose(), TagOpenOpen(showtag=True), Text(text="nowiki"), TagCloseOpen(padding=""), Text(text="{{t2}}"), TagOpenClose(), Text(text="nowiki"), TagCloseClose(), TemplateOpen(), Text(text="t3"), TemplateClose()]
+output: [TemplateOpen(), Text(text="t1"), TemplateClose(), TagOpenOpen(), Text(text="nowiki"), TagCloseOpen(padding=""), Text(text="{{t2}}"), TagOpenClose(), Text(text="nowiki"), TagCloseClose(), TemplateOpen(), Text(text="t3"), TemplateClose()]
 
 ---
 
 name:   unparsable_complex
 label:  a tag that should not be put through the normal parser; lots of stuff inside
 input:  "{{t1}}<pre>{{t2}}\n==Heading==\nThis is some text with a [[page|link]].</pre>{{t3}}"
-output: [TemplateOpen(), Text(text="t1"), TemplateClose(), TagOpenOpen(showtag=True), Text(text="pre"), TagCloseOpen(padding=""), Text(text="{{t2}}\n==Heading==\nThis is some text with a [[page|link]]."), TagOpenClose(), Text(text="pre"), TagCloseClose(), TemplateOpen(), Text(text="t3"), TemplateClose()]
+output: [TemplateOpen(), Text(text="t1"), TemplateClose(), TagOpenOpen(), Text(text="pre"), TagCloseOpen(padding=""), Text(text="{{t2}}\n==Heading==\nThis is some text with a [[page|link]]."), TagOpenClose(), Text(text="pre"), TagCloseClose(), TemplateOpen(), Text(text="t3"), TemplateClose()]
 
 ---
 
 name:   unparsable_attributed
 label:  a tag that should not be put through the normal parser; parsed attributes
 input:  "{{t1}}<nowiki attr=val attr2="{{val2}}">{{t2}}</nowiki>{{t3}}"
-output: [TemplateOpen(), Text(text=u't1'), TemplateClose(), TagOpenOpen(showtag=True), Text(text="nowiki"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attr"), TagAttrEquals(), Text(text="val"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attr2"), TagAttrEquals(), TagAttrQuote(), TemplateOpen(), Text(text="val2"), TemplateClose(), TagCloseOpen(padding=""), Text(text="{{t2}}"), TagOpenClose(), Text(text="nowiki"), TagCloseClose(), TemplateOpen(), Text(text="t3"), TemplateClose()]
+output: [TemplateOpen(), Text(text=u't1'), TemplateClose(), TagOpenOpen(), Text(text="nowiki"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attr"), TagAttrEquals(), Text(text="val"), TagAttrStart(pad_first=" ", pad_before_eq="", pad_after_eq=""), Text(text="attr2"), TagAttrEquals(), TagAttrQuote(), TemplateOpen(), Text(text="val2"), TemplateClose(), TagCloseOpen(padding=""), Text(text="{{t2}}"), TagOpenClose(), Text(text="nowiki"), TagCloseClose(), TemplateOpen(), Text(text="t3"), TemplateClose()]
 
 ---
 
@@ -470,21 +470,21 @@ output: [TemplateOpen(), Text(text="t1"), TemplateClose(), Text(text="<nowiki>")
 name:   single_open_close
 label:  a tag that supports being single; both an open and a close tag
 input:  "foo<li>bar{{baz}}</li>"
-output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="li"), TagCloseOpen(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose(), TagOpenClose(), Text(text="li"), TagCloseClose()]
+output: [Text(text="foo"), TagOpenOpen(), Text(text="li"), TagCloseOpen(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose(), TagOpenClose(), Text(text="li"), TagCloseClose()]
 
 ---
 
 name:   single_open
 label:  a tag that supports being single; just an open tag
 input:  "foo<li>bar{{baz}}"
-output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="li"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+output: [Text(text="foo"), TagOpenOpen(), Text(text="li"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
 
 ---
 
 name:   single_selfclose
 label:  a tag that supports being single; a self-closing tag
 input:  "foo<li/>bar{{baz}}"
-output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="li"), TagCloseSelfclose(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+output: [Text(text="foo"), TagOpenOpen(), Text(text="li"), TagCloseSelfclose(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
 
 ---
 
@@ -498,32 +498,32 @@ output: [Text(text="foo</li>bar"), TemplateOpen(), Text(text="baz"), TemplateClo
 name:   single_only_open_close
 label:  a tag that can only be single; both an open and a close tag
 input:  "foo<br>bar{{baz}}</br>"
-output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose(), TagOpenOpen(showtag=True, invalid=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True)]
+output: [Text(text="foo"), TagOpenOpen(), Text(text="br"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose(), TagOpenOpen(invalid=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True)]
 
 ---
 
 name:   single_only_open
 label:  a tag that can only be single; just an open tag
 input:  "foo<br>bar{{baz}}"
-output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+output: [Text(text="foo"), TagOpenOpen(), Text(text="br"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
 
 ---
 
 name:   single_only_selfclose
 label:  a tag that can only be single; a self-closing tag
 input:  "foo<br/>bar{{baz}}"
-output: [Text(text="foo"), TagOpenOpen(showtag=True), Text(text="br"), TagCloseSelfclose(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+output: [Text(text="foo"), TagOpenOpen(), Text(text="br"), TagCloseSelfclose(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
 
 ---
 
 name:   single_only_close
 label:  a tag that can only be single; just a close tag
 input:  "foo</br>bar{{baz}}"
-output: [Text(text="foo"), TagOpenOpen(showtag=True, invalid=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+output: [Text(text="foo"), TagOpenOpen(invalid=True), Text(text="br"), TagCloseSelfclose(padding="", implicit=True), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
 
 ---
 
 name:   single_only_double
 label:  a tag that can only be single; a tag with backslashes at the beginning and end
 input:  "foo</br/>bar{{baz}}"
-output: [Text(text="foo"), TagOpenOpen(showtag=True, invalid=True), Text(text="br"), TagCloseSelfclose(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+output: [Text(text="foo"), TagOpenOpen(invalid=True), Text(text="br"), TagCloseSelfclose(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]

From f67cf46900aebf3bc07c8fb2814ec06c9701e05b Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 10 Jul 2013 03:58:47 -0400
Subject: [PATCH 058/189] Start C port of tag tokenization; refactor the init
 func.

---
 mwparserfromhell/parser/tokenizer.c | 101 +++++++++++++++++++++++++++---------
 mwparserfromhell/parser/tokenizer.h |  78 ++++++++++++++++------------
 2 files changed, 121 insertions(+), 58 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 99f8c9c..e575d2e 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -35,6 +35,22 @@ static int heading_level_from_context(int n)
     return level;
 }
 
+/*
+    Call the given function in tag_defs, using 'tag' as a parameter, and return
+    its output as a bool.
+*/
+static int
+call_tag_def_func(const char* funcname, PyObject* tag)
+{
+    PyObject* func = PyObject_GetAttrString(tag_defs, funcname);
+    PyObject* result = PyObject_CallFunctionObjArgs(func, tag, NULL);
+    int ans = (result == Py_True) ? 1 : 0;
+
+    Py_DECREF(func);
+    Py_DECREF(result);
+    return ans;
+}
+
 static PyObject*
 Tokenizer_new(PyTypeObject* type, PyObject* args, PyObject* kwds)
 {
@@ -1418,22 +1434,11 @@ Tokenizer_tokenize(Tokenizer* self, PyObject* args)
     return Tokenizer_parse(self, 0);
 }
 
-PyMODINIT_FUNC
-init_tokenizer(void)
+static void
+load_entitydefs(void)
 {
-    PyObject *module, *tempmod, *defmap, *deflist, *globals, *locals,
-             *fromlist, *modname;
+    PyObject *tempmod, *defmap, *deflist;
     unsigned numdefs, i;
-    char *name;
-
-    TokenizerType.tp_new = PyType_GenericNew;
-    if (PyType_Ready(&TokenizerType) < 0)
-        return;
-    module = Py_InitModule("_tokenizer", module_methods);
-    Py_INCREF(&TokenizerType);
-    PyModule_AddObject(module, "CTokenizer", (PyObject*) &TokenizerType);
-    Py_INCREF(Py_True);
-    PyDict_SetItemString(TokenizerType.tp_dict, "USES_C", Py_True);
 
     tempmod = PyImport_ImportModule("htmlentitydefs");
     if (!tempmod)
@@ -1451,18 +1456,19 @@ init_tokenizer(void)
     for (i = 0; i < numdefs; i++)
         entitydefs[i] = PyBytes_AsString(PyList_GET_ITEM(deflist, i));
     Py_DECREF(deflist);
+}
 
-    EMPTY = PyUnicode_FromString("");
-    NOARGS = PyTuple_New(0);
-
-    name = "mwparserfromhell.parser";
-    globals = PyEval_GetGlobals();
-    locals = PyEval_GetLocals();
-    fromlist = PyList_New(1);
-    if (!fromlist)
-        return;
-    modname = PyBytes_FromString("tokens");
-    if (!modname)
+static void
+load_tokens(void)
+{
+    PyObject *tempmod, *tokens,
+             *globals = PyEval_GetGlobals(),
+             *locals = PyEval_GetLocals(),
+             *fromlist = PyList_New(1),
+             *modname = PyBytes_FromString("tokens");
+    char *name = "mwparserfromhell.parser";
+
+    if (!fromlist || !modname)
         return;
     PyList_SET_ITEM(fromlist, 0, modname);
     tempmod = PyImport_ImportModuleLevel(name, globals, locals, fromlist, 0);
@@ -1508,4 +1514,49 @@ init_tokenizer(void)
     TagCloseSelfclose = PyObject_GetAttrString(tokens, "TagCloseSelfclose");
     TagOpenClose = PyObject_GetAttrString(tokens, "TagOpenClose");
     TagCloseClose = PyObject_GetAttrString(tokens, "TagCloseClose");
+
+    Py_DECREF(tokens);
+}
+
+static void
+load_tag_defs(void)
+{
+    PyObject *tempmod,
+             *globals = PyEval_GetGlobals(),
+             *locals = PyEval_GetLocals(),
+             *fromlist = PyList_New(1),
+             *modname = PyBytes_FromString("tag_defs");
+    char *name = "mwparserfromhell";
+
+    if (!fromlist || !modname)
+        return;
+    PyList_SET_ITEM(fromlist, 0, modname);
+    tempmod = PyImport_ImportModuleLevel(name, globals, locals, fromlist, 0);
+    Py_DECREF(fromlist);
+    if (!tempmod)
+        return;
+    tag_defs = PyObject_GetAttrString(tempmod, "tag_defs");
+    Py_DECREF(tempmod);
+}
+
+PyMODINIT_FUNC
+init_tokenizer(void)
+{
+    PyObject *module;
+
+    TokenizerType.tp_new = PyType_GenericNew;
+    if (PyType_Ready(&TokenizerType) < 0)
+        return;
+    module = Py_InitModule("_tokenizer", module_methods);
+    Py_INCREF(&TokenizerType);
+    PyModule_AddObject(module, "CTokenizer", (PyObject*) &TokenizerType);
+    Py_INCREF(Py_True);
+    PyDict_SetItemString(TokenizerType.tp_dict, "USES_C", Py_True);
+
+    EMPTY = PyUnicode_FromString("");
+    NOARGS = PyTuple_New(0);
+
+    load_entitydefs();
+    load_tokens();
+    load_tag_defs();
 }
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 1f58c49..c81c0bf 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -60,10 +60,10 @@ static char** entitydefs;
 
 static PyObject* EMPTY;
 static PyObject* NOARGS;
-static PyObject* tokens;
+static PyObject* tag_defs;
 
 
-/* Tokens */
+/* Tokens: */
 
 static PyObject* Text;
 
@@ -102,36 +102,42 @@ static PyObject* TagCloseClose;
 
 /* Local contexts: */
 
-#define LC_TEMPLATE             0x00007
-#define LC_TEMPLATE_NAME        0x00001
-#define LC_TEMPLATE_PARAM_KEY   0x00002
-#define LC_TEMPLATE_PARAM_VALUE 0x00004
-
-#define LC_ARGUMENT             0x00018
-#define LC_ARGUMENT_NAME        0x00008
-#define LC_ARGUMENT_DEFAULT     0x00010
-
-#define LC_WIKILINK             0x00060
-#define LC_WIKILINK_TITLE       0x00020
-#define LC_WIKILINK_TEXT        0x00040
-
-#define LC_HEADING              0x01F80
-#define LC_HEADING_LEVEL_1      0x00080
-#define LC_HEADING_LEVEL_2      0x00100
-#define LC_HEADING_LEVEL_3      0x00200
-#define LC_HEADING_LEVEL_4      0x00400
-#define LC_HEADING_LEVEL_5      0x00800
-#define LC_HEADING_LEVEL_6      0x01000
-
-#define LC_COMMENT              0x02000
-
-#define LC_SAFETY_CHECK         0xFC000
-#define LC_HAS_TEXT             0x04000
-#define LC_FAIL_ON_TEXT         0x08000
-#define LC_FAIL_NEXT            0x10000
-#define LC_FAIL_ON_LBRACE       0x20000
-#define LC_FAIL_ON_RBRACE       0x40000
-#define LC_FAIL_ON_EQUALS       0x80000
+#define LC_TEMPLATE             0x000007
+#define LC_TEMPLATE_NAME        0x000001
+#define LC_TEMPLATE_PARAM_KEY   0x000002
+#define LC_TEMPLATE_PARAM_VALUE 0x000004
+
+#define LC_ARGUMENT             0x000018
+#define LC_ARGUMENT_NAME        0x000008
+#define LC_ARGUMENT_DEFAULT     0x000010
+
+#define LC_WIKILINK             0x000060
+#define LC_WIKILINK_TITLE       0x000020
+#define LC_WIKILINK_TEXT        0x000040
+
+#define LC_HEADING              0x001F80
+#define LC_HEADING_LEVEL_1      0x000080
+#define LC_HEADING_LEVEL_2      0x000100
+#define LC_HEADING_LEVEL_3      0x000200
+#define LC_HEADING_LEVEL_4      0x000400
+#define LC_HEADING_LEVEL_5      0x000800
+#define LC_HEADING_LEVEL_6      0x001000
+
+#define LC_COMMENT              0x002000
+
+#define LC_TAG                  0x03C000
+#define LC_TAG_OPEN             0x004000
+#define LC_TAG_ATTR             0x008000
+#define LC_TAG_BODY             0x010000
+#define LC_TAG_CLOSE            0x020000
+
+#define LC_SAFETY_CHECK         0xFC0000
+#define LC_HAS_TEXT             0x040000
+#define LC_FAIL_ON_TEXT         0x080000
+#define LC_FAIL_NEXT            0x100000
+#define LC_FAIL_ON_LBRACE       0x200000
+#define LC_FAIL_ON_RBRACE       0x400000
+#define LC_FAIL_ON_EQUALS       0x800000
 
 /* Global contexts: */
 
@@ -179,9 +185,15 @@ typedef struct {
 #define Tokenizer_CAN_RECURSE(self) (self->depth < MAX_DEPTH && self->cycles < MAX_CYCLES)
 
 
+/* Macros for accessing HTML tag definitions: */
+
+#define IS_PARSABLE(tag) (call_tag_def_func("is_parsable", tag))
+#define IS_SINGLE(tag) (call_tag_def_func("is_single", tag))
+#define IS_SINGLE_ONLY(tag) (call_tag_def_func("is_single_only", tag))
+
+
 /* Function prototypes: */
 
-static int heading_level_from_context(int);
 static PyObject* Tokenizer_new(PyTypeObject*, PyObject*, PyObject*);
 static struct Textbuffer* Textbuffer_new(void);
 static void Tokenizer_dealloc(Tokenizer*);

From aca0f78cd781a73fed81f151fb72257b7645ccb4 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 10 Jul 2013 15:28:58 -0400
Subject: [PATCH 059/189] Port more Python tokenizer updates to C.

---
 mwparserfromhell/parser/tokenizer.c | 134 ++++++++++++++++++------------------
 mwparserfromhell/parser/tokenizer.h |  38 +++++++---
 2 files changed, 97 insertions(+), 75 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index e575d2e..cab52b6 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -58,10 +58,10 @@ Tokenizer_new(PyTypeObject* type, PyObject* args, PyObject* kwds)
     return (PyObject*) self;
 }
 
-static struct Textbuffer*
+static Textbuffer*
 Textbuffer_new(void)
 {
-    struct Textbuffer* buffer = malloc(sizeof(struct Textbuffer));
+    Textbuffer* buffer = malloc(sizeof(Textbuffer));
     if (!buffer) {
         PyErr_NoMemory();
         return NULL;
@@ -80,7 +80,7 @@ Textbuffer_new(void)
 static void
 Tokenizer_dealloc(Tokenizer* self)
 {
-    struct Stack *this = self->topstack, *next;
+    Stack *this = self->topstack, *next;
     Py_XDECREF(self->text);
 
     while (this) {
@@ -94,9 +94,9 @@ Tokenizer_dealloc(Tokenizer* self)
 }
 
 static void
-Textbuffer_dealloc(struct Textbuffer* this)
+Textbuffer_dealloc(Textbuffer* this)
 {
-    struct Textbuffer* next;
+    Textbuffer* next;
     while (this) {
         free(this->data);
         next = this->next;
@@ -126,7 +126,7 @@ Tokenizer_init(Tokenizer* self, PyObject* args, PyObject* kwds)
 static int
 Tokenizer_push(Tokenizer* self, int context)
 {
-    struct Stack* top = malloc(sizeof(struct Stack));
+    Stack* top = malloc(sizeof(Stack));
     if (!top) {
         PyErr_NoMemory();
         return -1;
@@ -147,7 +147,7 @@ Tokenizer_push(Tokenizer* self, int context)
     Return the contents of the textbuffer as a Python Unicode object.
 */
 static PyObject*
-Textbuffer_render(struct Textbuffer* self)
+Textbuffer_render(Textbuffer* self)
 {
     PyObject *result = PyUnicode_FromUnicode(self->data, self->size);
     PyObject *left, *concat;
@@ -169,7 +169,7 @@ static int
 Tokenizer_push_textbuffer(Tokenizer* self)
 {
     PyObject *text, *kwargs, *token;
-    struct Textbuffer* buffer = self->topstack->textbuffer;
+    Textbuffer* buffer = self->topstack->textbuffer;
     if (buffer->size == 0 && !buffer->next)
         return 0;
     text = Textbuffer_render(buffer);
@@ -204,7 +204,7 @@ Tokenizer_push_textbuffer(Tokenizer* self)
 static void
 Tokenizer_delete_top_of_stack(Tokenizer* self)
 {
-    struct Stack* top = self->topstack;
+    Stack* top = self->topstack;
     Py_DECREF(top->stack);
     Textbuffer_dealloc(top->textbuffer);
     self->topstack = top->next;
@@ -263,7 +263,7 @@ Tokenizer_fail_route(Tokenizer* self)
     Write a token to the end of the current token stack.
 */
 static int
-Tokenizer_write(Tokenizer* self, PyObject* token)
+Tokenizer_emit(Tokenizer* self, PyObject* token)
 {
     if (Tokenizer_push_textbuffer(self))
         return -1;
@@ -276,7 +276,7 @@ Tokenizer_write(Tokenizer* self, PyObject* token)
     Write a token to the beginning of the current token stack.
 */
 static int
-Tokenizer_write_first(Tokenizer* self, PyObject* token)
+Tokenizer_emit_first(Tokenizer* self, PyObject* token)
 {
     if (Tokenizer_push_textbuffer(self))
         return -1;
@@ -289,11 +289,11 @@ Tokenizer_write_first(Tokenizer* self, PyObject* token)
     Write text to the current textbuffer.
 */
 static int
-Tokenizer_write_text(Tokenizer* self, Py_UNICODE text)
+Tokenizer_emit_text(Tokenizer* self, Py_UNICODE text)
 {
-    struct Textbuffer* buf = self->topstack->textbuffer;
+    Textbuffer* buf = self->topstack->textbuffer;
     if (buf->size == TEXTBUFFER_BLOCKSIZE) {
-        struct Textbuffer* new = Textbuffer_new();
+        Textbuffer* new = Textbuffer_new();
         if (!new)
             return -1;
         new->next = buf;
@@ -309,11 +309,11 @@ Tokenizer_write_text(Tokenizer* self, Py_UNICODE text)
     Write a series of tokens to the current stack at once.
 */
 static int
-Tokenizer_write_all(Tokenizer* self, PyObject* tokenlist)
+Tokenizer_emit_all(Tokenizer* self, PyObject* tokenlist)
 {
     int pushed = 0;
     PyObject *stack, *token, *left, *right, *text;
-    struct Textbuffer* buffer;
+    Textbuffer* buffer;
     Py_ssize_t size;
 
     if (PyList_GET_SIZE(tokenlist) > 0) {
@@ -368,14 +368,14 @@ Tokenizer_write_all(Tokenizer* self, PyObject* tokenlist)
     NULL-terminated array of chars.
 */
 static int
-Tokenizer_write_text_then_stack(Tokenizer* self, const char* text)
+Tokenizer_emit_text_then_stack(Tokenizer* self, const char* text)
 {
     PyObject* stack = Tokenizer_pop(self);
     int i = 0;
     while (1) {
         if (!text[i])
             break;
-        if (Tokenizer_write_text(self, (Py_UNICODE) text[i])) {
+        if (Tokenizer_emit_text(self, (Py_UNICODE) text[i])) {
             Py_XDECREF(stack);
             return -1;
         }
@@ -383,7 +383,7 @@ Tokenizer_write_text_then_stack(Tokenizer* self, const char* text)
     }
     if (stack) {
         if (PyList_GET_SIZE(stack) > 0) {
-            if (Tokenizer_write_all(self, stack)) {
+            if (Tokenizer_emit_all(self, stack)) {
                 Py_DECREF(stack);
                 return -1;
             }
@@ -437,7 +437,7 @@ Tokenizer_parse_template_or_argument(Tokenizer* self)
         return -1;
     while (braces) {
         if (braces == 1) {
-            if (Tokenizer_write_text_then_stack(self, "{"))
+            if (Tokenizer_emit_text_then_stack(self, "{"))
                 return -1;
             return 0;
         }
@@ -447,7 +447,7 @@ Tokenizer_parse_template_or_argument(Tokenizer* self)
 
             if (BAD_ROUTE) {
                 RESET_ROUTE();
-                if (Tokenizer_write_text_then_stack(self, "{{"))
+                if (Tokenizer_emit_text_then_stack(self, "{{"))
                     return -1;
                 return 0;
             }
@@ -464,7 +464,7 @@ Tokenizer_parse_template_or_argument(Tokenizer* self)
                 RESET_ROUTE();
                 for (i = 0; i < braces; i++) text[i] = *"{";
                 text[braces] = *"";
-                if (Tokenizer_write_text_then_stack(self, text)) {
+                if (Tokenizer_emit_text_then_stack(self, text)) {
                     Py_XDECREF(text);
                     return -1;
                 }
@@ -482,7 +482,7 @@ Tokenizer_parse_template_or_argument(Tokenizer* self)
     tokenlist = Tokenizer_pop(self);
     if (!tokenlist)
         return -1;
-    if (Tokenizer_write_all(self, tokenlist)) {
+    if (Tokenizer_emit_all(self, tokenlist)) {
         Py_DECREF(tokenlist);
         return -1;
     }
@@ -511,13 +511,13 @@ Tokenizer_parse_template(Tokenizer* self)
         Py_DECREF(template);
         return -1;
     }
-    if (Tokenizer_write_first(self, token)) {
+    if (Tokenizer_emit_first(self, token)) {
         Py_DECREF(token);
         Py_DECREF(template);
         return -1;
     }
     Py_DECREF(token);
-    if (Tokenizer_write_all(self, template)) {
+    if (Tokenizer_emit_all(self, template)) {
         Py_DECREF(template);
         return -1;
     }
@@ -525,7 +525,7 @@ Tokenizer_parse_template(Tokenizer* self)
     token = PyObject_CallObject(TemplateClose, NULL);
     if (!token)
         return -1;
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         return -1;
     }
@@ -554,13 +554,13 @@ Tokenizer_parse_argument(Tokenizer* self)
         Py_DECREF(argument);
         return -1;
     }
-    if (Tokenizer_write_first(self, token)) {
+    if (Tokenizer_emit_first(self, token)) {
         Py_DECREF(token);
         Py_DECREF(argument);
         return -1;
     }
     Py_DECREF(token);
-    if (Tokenizer_write_all(self, argument)) {
+    if (Tokenizer_emit_all(self, argument)) {
         Py_DECREF(argument);
         return -1;
     }
@@ -568,7 +568,7 @@ Tokenizer_parse_argument(Tokenizer* self)
     token = PyObject_CallObject(ArgumentClose, NULL);
     if (!token)
         return -1;
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         return -1;
     }
@@ -592,7 +592,7 @@ Tokenizer_handle_template_param(Tokenizer* self)
         stack = Tokenizer_pop_keeping_context(self);
         if (!stack)
             return -1;
-        if (Tokenizer_write_all(self, stack)) {
+        if (Tokenizer_emit_all(self, stack)) {
             Py_DECREF(stack);
             return -1;
         }
@@ -604,7 +604,7 @@ Tokenizer_handle_template_param(Tokenizer* self)
     token = PyObject_CallObject(TemplateParamSeparator, NULL);
     if (!token)
         return -1;
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         return -1;
     }
@@ -625,7 +625,7 @@ Tokenizer_handle_template_param_value(Tokenizer* self)
     stack = Tokenizer_pop_keeping_context(self);
     if (!stack)
         return -1;
-    if (Tokenizer_write_all(self, stack)) {
+    if (Tokenizer_emit_all(self, stack)) {
         Py_DECREF(stack);
         return -1;
     }
@@ -635,7 +635,7 @@ Tokenizer_handle_template_param_value(Tokenizer* self)
     token = PyObject_CallObject(TemplateParamEquals, NULL);
     if (!token)
         return -1;
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         return -1;
     }
@@ -655,7 +655,7 @@ Tokenizer_handle_template_end(Tokenizer* self)
         stack = Tokenizer_pop_keeping_context(self);
         if (!stack)
             return NULL;
-        if (Tokenizer_write_all(self, stack)) {
+        if (Tokenizer_emit_all(self, stack)) {
             Py_DECREF(stack);
             return NULL;
         }
@@ -678,7 +678,7 @@ Tokenizer_handle_argument_separator(Tokenizer* self)
     token = PyObject_CallObject(ArgumentSeparator, NULL);
     if (!token)
         return -1;
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         return -1;
     }
@@ -714,7 +714,7 @@ Tokenizer_parse_wikilink(Tokenizer* self)
         RESET_ROUTE();
         self->head = reset;
         for (i = 0; i < 2; i++) {
-            if (Tokenizer_write_text(self, *"["))
+            if (Tokenizer_emit_text(self, *"["))
                 return -1;
         }
         return 0;
@@ -726,13 +726,13 @@ Tokenizer_parse_wikilink(Tokenizer* self)
         Py_DECREF(wikilink);
         return -1;
     }
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         Py_DECREF(wikilink);
         return -1;
     }
     Py_DECREF(token);
-    if (Tokenizer_write_all(self, wikilink)) {
+    if (Tokenizer_emit_all(self, wikilink)) {
         Py_DECREF(wikilink);
         return -1;
     }
@@ -740,7 +740,7 @@ Tokenizer_parse_wikilink(Tokenizer* self)
     token = PyObject_CallObject(WikilinkClose, NULL);
     if (!token)
         return -1;
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         return -1;
     }
@@ -760,7 +760,7 @@ Tokenizer_handle_wikilink_separator(Tokenizer* self)
     token = PyObject_CallObject(WikilinkSeparator, NULL);
     if (!token)
         return -1;
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         return -1;
     }
@@ -802,7 +802,7 @@ Tokenizer_parse_heading(Tokenizer* self)
         RESET_ROUTE();
         self->head = reset + best - 1;
         for (i = 0; i < best; i++) {
-            if (Tokenizer_write_text(self, *"="))
+            if (Tokenizer_emit_text(self, *"="))
                 return -1;
         }
         self->global ^= GL_HEADING;
@@ -830,7 +830,7 @@ Tokenizer_parse_heading(Tokenizer* self)
         free(heading);
         return -1;
     }
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         Py_DECREF(heading->title);
         free(heading);
@@ -840,14 +840,14 @@ Tokenizer_parse_heading(Tokenizer* self)
     if (heading->level < best) {
         diff = best - heading->level;
         for (i = 0; i < diff; i++) {
-            if (Tokenizer_write_text(self, *"=")) {
+            if (Tokenizer_emit_text(self, *"=")) {
                 Py_DECREF(heading->title);
                 free(heading);
                 return -1;
             }
         }
     }
-    if (Tokenizer_write_all(self, heading->title)) {
+    if (Tokenizer_emit_all(self, heading->title)) {
         Py_DECREF(heading->title);
         free(heading);
         return -1;
@@ -857,7 +857,7 @@ Tokenizer_parse_heading(Tokenizer* self)
     token = PyObject_CallObject(HeadingEnd, NULL);
     if (!token)
         return -1;
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         return -1;
     }
@@ -892,7 +892,7 @@ Tokenizer_handle_heading_end(Tokenizer* self)
         if (level < best) {
             diff = best - level;
             for (i = 0; i < diff; i++) {
-                if (Tokenizer_write_text(self, *"="))
+                if (Tokenizer_emit_text(self, *"="))
                     return NULL;
             }
         }
@@ -900,13 +900,13 @@ Tokenizer_handle_heading_end(Tokenizer* self)
     }
     else {
         for (i = 0; i < best; i++) {
-            if (Tokenizer_write_text(self, *"=")) {
+            if (Tokenizer_emit_text(self, *"=")) {
                 Py_DECREF(after->title);
                 free(after);
                 return NULL;
             }
         }
-        if (Tokenizer_write_all(self, after->title)) {
+        if (Tokenizer_emit_all(self, after->title)) {
             Py_DECREF(after->title);
             free(after);
             return NULL;
@@ -948,7 +948,7 @@ Tokenizer_really_parse_entity(Tokenizer* self)
     token = PyObject_CallObject(HTMLEntityStart, NULL);
     if (!token)
         return -1;
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         return -1;
     }
@@ -964,7 +964,7 @@ Tokenizer_really_parse_entity(Tokenizer* self)
         token = PyObject_CallObject(HTMLEntityNumeric, NULL);
         if (!token)
             return -1;
-        if (Tokenizer_write(self, token)) {
+        if (Tokenizer_emit(self, token)) {
             Py_DECREF(token);
             return -1;
         }
@@ -985,7 +985,7 @@ Tokenizer_really_parse_entity(Tokenizer* self)
             Py_DECREF(kwargs);
             if (!token)
                 return -1;
-            if (Tokenizer_write(self, token)) {
+            if (Tokenizer_emit(self, token)) {
                 Py_DECREF(token);
                 return -1;
             }
@@ -1086,7 +1086,7 @@ Tokenizer_really_parse_entity(Tokenizer* self)
     Py_DECREF(kwargs);
     if (!token)
         return -1;
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         return -1;
     }
@@ -1094,7 +1094,7 @@ Tokenizer_really_parse_entity(Tokenizer* self)
     token = PyObject_CallObject(HTMLEntityEnd, NULL);
     if (!token)
         return -1;
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         return -1;
     }
@@ -1118,14 +1118,14 @@ Tokenizer_parse_entity(Tokenizer* self)
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset;
-        if (Tokenizer_write_text(self, *"&"))
+        if (Tokenizer_emit_text(self, *"&"))
             return -1;
         return 0;
     }
     tokenlist = Tokenizer_pop(self);
     if (!tokenlist)
         return -1;
-    if (Tokenizer_write_all(self, tokenlist)) {
+    if (Tokenizer_emit_all(self, tokenlist)) {
         Py_DECREF(tokenlist);
         return -1;
     }
@@ -1153,7 +1153,7 @@ Tokenizer_parse_comment(Tokenizer* self)
         while (1) {
             if (!text[i])
                 return 0;
-            if (Tokenizer_write_text(self, (Py_UNICODE) text[i])) {
+            if (Tokenizer_emit_text(self, (Py_UNICODE) text[i])) {
                 Py_XDECREF(text);
                 return -1;
             }
@@ -1168,13 +1168,13 @@ Tokenizer_parse_comment(Tokenizer* self)
         Py_DECREF(comment);
         return -1;
     }
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         Py_DECREF(comment);
         return -1;
     }
     Py_DECREF(token);
-    if (Tokenizer_write_all(self, comment)) {
+    if (Tokenizer_emit_all(self, comment)) {
         Py_DECREF(comment);
         return -1;
     }
@@ -1182,7 +1182,7 @@ Tokenizer_parse_comment(Tokenizer* self)
     token = PyObject_CallObject(CommentEnd, NULL);
     if (!token)
         return -1;
-    if (Tokenizer_write(self, token)) {
+    if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
         return -1;
     }
@@ -1303,7 +1303,7 @@ Tokenizer_parse(Tokenizer* self, int context)
             }
         }
         if (!is_marker) {
-            Tokenizer_write_text(self, this);
+            Tokenizer_emit_text(self, this);
             self->head++;
             continue;
         }
@@ -1322,7 +1322,7 @@ Tokenizer_parse(Tokenizer* self, int context)
                 if (Tokenizer_READ(self, 2) == *">")
                     return Tokenizer_pop(self);
             }
-            Tokenizer_write_text(self, this);
+            Tokenizer_emit_text(self, this);
         }
         else if (this == next && next == *"{") {
             if (Tokenizer_CAN_RECURSE(self)) {
@@ -1332,7 +1332,7 @@ Tokenizer_parse(Tokenizer* self, int context)
                     self->topstack->context ^= LC_FAIL_NEXT;
             }
             else
-                Tokenizer_write_text(self, this);
+                Tokenizer_emit_text(self, this);
         }
         else if (this == *"|" && this_context & LC_TEMPLATE) {
             if (Tokenizer_handle_template_param(self))
@@ -1352,7 +1352,7 @@ Tokenizer_parse(Tokenizer* self, int context)
             if (Tokenizer_READ(self, 2) == *"}") {
                 return Tokenizer_handle_argument_end(self);
             }
-            Tokenizer_write_text(self, this);
+            Tokenizer_emit_text(self, this);
         }
         else if (this == next && next == *"[") {
             if (!(this_context & LC_WIKILINK_TITLE) &&
@@ -1363,7 +1363,7 @@ Tokenizer_parse(Tokenizer* self, int context)
                     self->topstack->context ^= LC_FAIL_NEXT;
             }
             else
-                Tokenizer_write_text(self, this);
+                Tokenizer_emit_text(self, this);
         }
         else if (this == *"|" && this_context & LC_WIKILINK_TITLE) {
             if (Tokenizer_handle_wikilink_separator(self))
@@ -1378,7 +1378,7 @@ Tokenizer_parse(Tokenizer* self, int context)
                     return NULL;
             }
             else
-                Tokenizer_write_text(self, this);
+                Tokenizer_emit_text(self, this);
         }
         else if (this == *"=" && this_context & LC_HEADING)
             return (PyObject*) Tokenizer_handle_heading_end(self);
@@ -1395,10 +1395,10 @@ Tokenizer_parse(Tokenizer* self, int context)
                     return NULL;
             }
             else
-                Tokenizer_write_text(self, this);
+                Tokenizer_emit_text(self, this);
         }
         else
-            Tokenizer_write_text(self, this);
+            Tokenizer_emit_text(self, this);
         self->head++;
     }
 }
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index c81c0bf..bf7a4ed 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -41,10 +41,10 @@ SOFTWARE.
 #define ALPHANUM  "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
 
 static const char* MARKERS[] = {
-    "{",  "}", "[", "]", "<", ">", "|", "=", "&", "#", "*", ";", ":", "/", "-",
-    "!", "\n", ""};
+    "{",  "}", "[", "]", "<", ">", "|", "=", "&", "#", "*", ";", ":", "/",
+    "\\", "\"", "-", "!", "\n", ""};
 
-#define NUM_MARKERS 18
+#define NUM_MARKERS 20
 #define TEXTBUFFER_BLOCKSIZE 1024
 #define MAX_DEPTH 40
 #define MAX_CYCLES 100000
@@ -143,6 +143,17 @@ static PyObject* TagCloseClose;
 
 #define GL_HEADING 0x1
 
+/* Tag contexts: */
+
+#define TAG_NAME        0x01
+#define TAG_ATTR_READY  0x02
+#define TAG_ATTR_NAME   0x04
+#define TAG_ATTR_VALUE  0x08
+#define TAG_QUOTED      0x10
+#define TAG_NOTE_SPACE  0x20
+#define TAG_NOTE_EQUALS 0x40
+#define TAG_NOTE_QUOTE  0x80
+
 
 /* Miscellaneous structs: */
 
@@ -164,6 +175,17 @@ typedef struct {
     int level;
 } HeadingData;
 
+typedef struct {
+    int context;
+    struct Textbuffer* padding_first;
+    struct Textbuffer* padding_before_eq;
+    struct Textbuffer* padding_after_eq;
+    Py_ssize_t reset;
+} TagOpenData;
+
+typedef struct Textbuffer Textbuffer;
+typedef struct Stack Stack;
+
 
 /* Tokenizer object definition: */
 
@@ -206,11 +228,11 @@ static void Tokenizer_delete_top_of_stack(Tokenizer*);
 static PyObject* Tokenizer_pop(Tokenizer*);
 static PyObject* Tokenizer_pop_keeping_context(Tokenizer*);
 static void* Tokenizer_fail_route(Tokenizer*);
-static int Tokenizer_write(Tokenizer*, PyObject*);
-static int Tokenizer_write_first(Tokenizer*, PyObject*);
-static int Tokenizer_write_text(Tokenizer*, Py_UNICODE);
-static int Tokenizer_write_all(Tokenizer*, PyObject*);
-static int Tokenizer_write_text_then_stack(Tokenizer*, const char*);
+static int Tokenizer_emit(Tokenizer*, PyObject*);
+static int Tokenizer_emit_first(Tokenizer*, PyObject*);
+static int Tokenizer_emit_text(Tokenizer*, Py_UNICODE);
+static int Tokenizer_emit_all(Tokenizer*, PyObject*);
+static int Tokenizer_emit_text_then_stack(Tokenizer*, const char*);
 static PyObject* Tokenizer_read(Tokenizer*, Py_ssize_t);
 static PyObject* Tokenizer_read_backwards(Tokenizer*, Py_ssize_t);
 static int Tokenizer_parse_template_or_argument(Tokenizer*);

From 653071379b7cd5d3c99931b4c43a7a45e112dca1 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 10 Jul 2013 18:48:12 -0400
Subject: [PATCH 060/189] Finish porting misc changes; add prototypes for
 remaining functions.

---
 mwparserfromhell/parser/tokenizer.c | 231 +++++++++++++++++++++++++++++++-----
 mwparserfromhell/parser/tokenizer.h |  18 ++-
 2 files changed, 217 insertions(+), 32 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index cab52b6..acb75e1 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -487,6 +487,8 @@ Tokenizer_parse_template_or_argument(Tokenizer* self)
         return -1;
     }
     Py_DECREF(tokenlist);
+    if (self->topstack->context & LC_FAIL_NEXT)
+        self->topstack->context ^= LC_FAIL_NEXT;
     return 0;
 }
 
@@ -499,7 +501,7 @@ Tokenizer_parse_template(Tokenizer* self)
     PyObject *template, *token;
     Py_ssize_t reset = self->head;
 
-    template = Tokenizer_parse(self, LC_TEMPLATE_NAME);
+    template = Tokenizer_parse(self, LC_TEMPLATE_NAME, 1);
     if (BAD_ROUTE) {
         self->head = reset;
         return 0;
@@ -542,7 +544,7 @@ Tokenizer_parse_argument(Tokenizer* self)
     PyObject *argument, *token;
     Py_ssize_t reset = self->head;
 
-    argument = Tokenizer_parse(self, LC_ARGUMENT_NAME);
+    argument = Tokenizer_parse(self, LC_ARGUMENT_NAME, 1);
     if (BAD_ROUTE) {
         self->head = reset;
         return 0;
@@ -709,7 +711,7 @@ Tokenizer_parse_wikilink(Tokenizer* self)
 
     self->head += 2;
     reset = self->head - 1;
-    wikilink = Tokenizer_parse(self, LC_WIKILINK_TITLE);
+    wikilink = Tokenizer_parse(self, LC_WIKILINK_TITLE, 1);
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset;
@@ -745,6 +747,8 @@ Tokenizer_parse_wikilink(Tokenizer* self)
         return -1;
     }
     Py_DECREF(token);
+    if (self->topstack->context & LC_FAIL_NEXT)
+        self->topstack->context ^= LC_FAIL_NEXT;
     return 0;
 }
 
@@ -797,7 +801,7 @@ Tokenizer_parse_heading(Tokenizer* self)
         self->head++;
     }
     context = LC_HEADING_LEVEL_1 << (best > 5 ? 5 : best - 1);
-    heading = (HeadingData*) Tokenizer_parse(self, context);
+    heading = (HeadingData*) Tokenizer_parse(self, context, 1);
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset + best - 1;
@@ -886,7 +890,7 @@ Tokenizer_handle_heading_end(Tokenizer* self)
     current = heading_level_from_context(self->topstack->context);
     level = current > best ? (best > 6 ? 6 : best) :
                              (current > 6 ? 6 : current);
-    after = (HeadingData*) Tokenizer_parse(self, self->topstack->context);
+    after = (HeadingData*) Tokenizer_parse(self, self->topstack->context, 1);
     if (BAD_ROUTE) {
         RESET_ROUTE();
         if (level < best) {
@@ -1144,7 +1148,7 @@ Tokenizer_parse_comment(Tokenizer* self)
     int i;
 
     self->head += 4;
-    comment = Tokenizer_parse(self, LC_COMMENT);
+    comment = Tokenizer_parse(self, LC_COMMENT, 1);
     if (BAD_ROUTE) {
         const char* text = "<!--";
         RESET_ROUTE();
@@ -1192,6 +1196,156 @@ Tokenizer_parse_comment(Tokenizer* self)
 }
 
 /*
+    Parse an HTML tag at the head of the wikicode string.
+*/
+static int
+Tokenizer_parse_tag(Tokenizer* self)
+{
+    return 0;
+}
+
+/*
+    Actually parse an HTML tag, starting with the open (<foo>).
+*/
+static PyObject*
+Tokenizer_really_parse_tag(Tokenizer* self)
+{
+    return NULL;
+}
+
+/*
+    Write a pending tag attribute from data to the stack.
+*/
+static int
+Tokenizer_push_tag_buffer(Tokenizer* self, TagOpenData* data)
+{
+    return 0;
+}
+
+/*
+    Handle all sorts of text data inside of an HTML open tag.
+*/
+static int
+Tokenizer_handle_tag_data(Tokenizer* self, TagOpenData* data, Py_UNICODE text)
+{
+    return 0;
+}
+
+/*
+    Handle whitespace inside of an HTML open tag.
+*/
+static int
+Tokenizer_handle_tag_space(Tokenizer* self, TagOpenData* data, Py_UNICODE text)
+{
+    return 0;
+}
+
+/*
+    Handle regular text inside of an HTML open tag.
+*/
+static int
+Tokenizer_handle_tag_text(Tokenizer* self, Py_UNICODE text)
+{
+    return 0;
+}
+
+/*
+    Handle the body of an HTML tag that is parser-blacklisted.
+*/
+static PyObject*
+Tokenizer_handle_blacklisted_tag(Tokenizer* self)
+{
+    return NULL;
+}
+
+/*
+    Handle the closing of a open tag (<foo>).
+*/
+static int
+Tokenizer_handle_tag_close_open(Tokenizer* self, TagOpenData* data,
+                                PyObject* token)
+{
+    return 0;
+}
+
+/*
+    Handle the opening of a closing tag (</foo>).
+*/
+static int
+Tokenizer_handle_tag_open_close(Tokenizer* self)
+{
+    return 0;
+}
+
+/*
+    Handle the ending of a closing tag (</foo>).
+*/
+static PyObject*
+Tokenizer_handle_tag_close_close(Tokenizer* self)
+{
+    return NULL;
+}
+
+/*
+    Handle the (possible) start of an implicitly closing single tag.
+*/
+static int
+Tokenizer_handle_invalid_tag_start(Tokenizer* self)
+{
+    return 0;
+}
+
+/*
+    Handle the end of an implicitly closing single-only HTML tag.
+*/
+static PyObject*
+Tokenizer_handle_single_only_tag_end(Tokenizer* self)
+{
+    return NULL;
+}
+
+/*
+    Handle the stream end when inside a single-supporting HTML tag.
+*/
+static PyObject*
+Tokenizer_handle_single_tag_end(Tokenizer* self)
+{
+    return NULL;
+}
+
+/*
+    Handle the end of the stream of wikitext.
+*/
+static PyObject*
+Tokenizer_handle_end(Tokenizer* self, int context)
+{
+    static int fail_contexts = (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK |
+                                LC_HEADING | LC_COMMENT);
+    static int double_fail = (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE);
+    PyObject *token, *text, *trash;
+    int single;
+
+    if (context & fail_contexts) {
+        if (context & LC_TAG_BODY) {
+            token = PyList_GET_ITEM(self->topstack->stack, 1);
+            text = PyObject_GetAttrString(token, "text");
+            if (!text)
+                return NULL;
+            single = IS_SINGLE(text);
+            Py_DECREF(text);
+            if (single)
+                return Tokenizer_handle_single_tag_end(self);
+        }
+        else if (context & double_fail) {
+            trash = Tokenizer_pop(self);
+            Py_XDECREF(trash);
+        }
+        return Tokenizer_fail_route(self);
+    }
+    return Tokenizer_pop(self);
+}
+
+/*
     Make sure we are not trying to write an invalid character. Return 0 if
     everything is safe, or -1 if the route must be failed.
 */
@@ -1208,6 +1362,11 @@ Tokenizer_verify_safe(Tokenizer* self, int context, Py_UNICODE data)
             return -1;
         return 0;
     }
+    if (context & LC_TAG_CLOSE) {
+        if (data == *"<")
+            return -1;
+        return 0;
+    }
     if (context & LC_TEMPLATE_NAME) {
         if (data == *"{" || data == *"}" || data == *"[") {
             self->topstack->context |= LC_FAIL_NEXT;
@@ -1267,32 +1426,33 @@ Tokenizer_verify_safe(Tokenizer* self, int context, Py_UNICODE data)
 }
 
 /*
-    Parse the wikicode string, using context for when to stop.
+    Parse the wikicode string, using context for when to stop. If push is true,
+    we will push a new context, otherwise we won't and context will be ignored.
 */
 static PyObject*
-Tokenizer_parse(Tokenizer* self, int context)
+Tokenizer_parse(Tokenizer* self, int context, int push)
 {
-    static int fail_contexts = (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK |
-                                LC_HEADING | LC_COMMENT);
     static int unsafe_contexts = (LC_TEMPLATE_NAME | LC_WIKILINK_TITLE |
                                   LC_TEMPLATE_PARAM_KEY | LC_ARGUMENT_NAME);
+    static int double_unsafe = (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE);
     int this_context, is_marker, i;
     Py_UNICODE this, next, next_next, last;
-    PyObject *trash;
+    PyObject* trash;
 
-    if (Tokenizer_push(self, context))
-        return NULL;
+    if (push) {
+        if (Tokenizer_push(self, context))
+            return NULL;
+    }
     while (1) {
         this = Tokenizer_READ(self, 0);
         this_context = self->topstack->context;
         if (this_context & unsafe_contexts) {
             if (Tokenizer_verify_safe(self, this_context, this) < 0) {
-                if (this_context & LC_TEMPLATE_PARAM_KEY) {
+                if (this_context & double_unsafe) {
                     trash = Tokenizer_pop(self);
                     Py_XDECREF(trash);
                 }
-                Tokenizer_fail_route(self);
-                return NULL;
+                return Tokenizer_fail_route(self);
             }
         }
         is_marker = 0;
@@ -1307,15 +1467,8 @@ Tokenizer_parse(Tokenizer* self, int context)
             self->head++;
             continue;
         }
-        if (this == *"") {
-            if (this_context & LC_TEMPLATE_PARAM_KEY) {
-                trash = Tokenizer_pop(self);
-                Py_XDECREF(trash);
-            }
-            if (this_context & fail_contexts)
-                return Tokenizer_fail_route(self);
-            return Tokenizer_pop(self);
-        }
+        if (this == *"")
+            return Tokenizer_handle_end(self, this_context);
         next = Tokenizer_READ(self, 1);
         if (this_context & LC_COMMENT) {
             if (this == next && next == *"-") {
@@ -1328,8 +1481,6 @@ Tokenizer_parse(Tokenizer* self, int context)
             if (Tokenizer_CAN_RECURSE(self)) {
                 if (Tokenizer_parse_template_or_argument(self))
                     return NULL;
-                if (self->topstack->context & LC_FAIL_NEXT)
-                    self->topstack->context ^= LC_FAIL_NEXT;
             }
             else
                 Tokenizer_emit_text(self, this);
@@ -1359,8 +1510,6 @@ Tokenizer_parse(Tokenizer* self, int context)
                                                 Tokenizer_CAN_RECURSE(self)) {
                 if (Tokenizer_parse_wikilink(self))
                     return NULL;
-                if (self->topstack->context & LC_FAIL_NEXT)
-                    self->topstack->context ^= LC_FAIL_NEXT;
             }
             else
                 Tokenizer_emit_text(self, this);
@@ -1397,6 +1546,28 @@ Tokenizer_parse(Tokenizer* self, int context)
             else
                 Tokenizer_emit_text(self, this);
         }
+        else if (this == *"<" && next == *"/" &&
+                                            Tokenizer_READ(self, 2) != *"") {
+            if (this_context & LC_TAG_BODY) {
+                if (Tokenizer_handle_tag_open_close(self))
+                    return NULL;
+            }
+            else {
+                if (Tokenizer_handle_invalid_tag_start(self))
+                    return NULL;
+            }
+        }
+        else if (this == *"<") {
+            if (!(this_context & LC_TAG_CLOSE) &&
+                                                Tokenizer_CAN_RECURSE(self)) {
+                if (Tokenizer_parse_tag(self))
+                    return NULL;
+            }
+            else
+                Tokenizer_emit_text(self, this);
+        }
+        else if (this == *">" && this_context & LC_TAG_CLOSE)
+            return Tokenizer_handle_tag_close_close(self);
         else
             Tokenizer_emit_text(self, this);
         self->head++;
@@ -1431,7 +1602,7 @@ Tokenizer_tokenize(Tokenizer* self, PyObject* args)
         self->text = PySequence_Fast(text, "expected a sequence");
     }
     self->length = PyList_GET_SIZE(self->text);
-    return Tokenizer_parse(self, 0);
+    return Tokenizer_parse(self, 0, 1);
 }
 
 static void
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index bf7a4ed..6247f95 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -192,7 +192,7 @@ typedef struct Stack Stack;
 typedef struct {
     PyObject_HEAD
     PyObject* text;         /* text to tokenize */
-    struct Stack* topstack; /* topmost stack */
+    Stack* topstack;        /* topmost stack */
     Py_ssize_t head;        /* current position in text */
     Py_ssize_t length;      /* length of text */
     int global;             /* global context */
@@ -251,8 +251,22 @@ static HeadingData* Tokenizer_handle_heading_end(Tokenizer*);
 static int Tokenizer_really_parse_entity(Tokenizer*);
 static int Tokenizer_parse_entity(Tokenizer*);
 static int Tokenizer_parse_comment(Tokenizer*);
+static int Tokenizer_parse_tag(Tokenizer*);
+static PyObject* Tokenizer_really_parse_tag(Tokenizer*);
+static int Tokenizer_push_tag_buffer(Tokenizer*, TagOpenData*);
+static int Tokenizer_handle_tag_data(Tokenizer*, TagOpenData*, Py_UNICODE);
+static int Tokenizer_handle_tag_space(Tokenizer*, TagOpenData*, Py_UNICODE);
+static int Tokenizer_handle_tag_text(Tokenizer*, Py_UNICODE);
+static PyObject* Tokenizer_handle_blacklisted_tag(Tokenizer*);
+static int Tokenizer_handle_tag_close_open(Tokenizer*, TagOpenData*, PyObject*);
+static int Tokenizer_handle_tag_open_close(Tokenizer*);
+static PyObject* Tokenizer_handle_tag_close_close(Tokenizer*);
+static int Tokenizer_handle_invalid_tag_start(Tokenizer*);
+static PyObject* Tokenizer_handle_single_only_tag_end(Tokenizer*);
+static PyObject* Tokenizer_handle_single_tag_end(Tokenizer*);
+static PyObject* Tokenizer_handle_end(Tokenizer*, int);
 static int Tokenizer_verify_safe(Tokenizer*, int, Py_UNICODE);
-static PyObject* Tokenizer_parse(Tokenizer*, int);
+static PyObject* Tokenizer_parse(Tokenizer*, int, int);
 static PyObject* Tokenizer_tokenize(Tokenizer*, PyObject*);
 
 

From c42f67ed5ed0197d8342d72457d9cc5851700216 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 10 Jul 2013 22:27:45 -0400
Subject: [PATCH 061/189] Implement Tokenizer_parse_tag(),
 Tokenizer_really_parse_tag()

---
 mwparserfromhell/parser/tokenizer.c | 101 +++++++++++++++++++++++++++++++++++-
 1 file changed, 100 insertions(+), 1 deletion(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index acb75e1..afaaf5a 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1201,6 +1201,20 @@ Tokenizer_parse_comment(Tokenizer* self)
 static int
 Tokenizer_parse_tag(Tokenizer* self)
 {
+    Py_ssize_t reset = self->head;
+    PyObject* tag;
+
+    self->head++;
+    tag = Tokenizer_really_parse_tag(self);
+    if (!tag) {
+        return -1;
+    }
+    if (BAD_ROUTE) {
+        self->head = reset;
+        return Tokenizer_emit_text(self, *"<");
+    }
+    Tokenizer_emit_all(self, tag);
+    Py_DECREF(tag);
     return 0;
 }
 
@@ -1210,7 +1224,92 @@ Tokenizer_parse_tag(Tokenizer* self)
 static PyObject*
 Tokenizer_really_parse_tag(Tokenizer* self)
 {
-    return NULL;
+    TagOpenData *data = malloc(sizeof(TagOpenData));
+    PyObject *token, *text, *trash;
+    Py_UNICODE this, next;
+    int can_exit;
+
+    if (!data)
+        return NULL;
+    data->padding_first = Textbuffer_new();
+    data->padding_before_eq = Textbuffer_new();
+    data->padding_after_eq = Textbuffer_new();
+    if (!data->padding_first || !data->padding_before_eq ||
+                                !data->padding_after_eq) {
+        free(data);
+        return NULL;
+    }
+    Tokenizer_push(self, LC_TAG_OPEN);
+    token = PyObject_CallObject(TagOpenOpen, NULL);
+    if (!token) {
+        free(data);
+        return NULL;
+    }
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
+        free(data);
+        return NULL;
+    }
+    Py_DECREF(token);
+    while (1) {
+        this = Tokenizer_READ(self, 0);
+        next = Tokenizer_READ(self, 1);
+        can_exit = (!(data->context & (TAG_QUOTED | TAG_NAME)) ||
+                    data->context & TAG_NOTE_SPACE);
+        if (this == *"") {
+            if (self->topstack->context & LC_TAG_ATTR) {
+                if (data->context & TAG_QUOTED) {
+                    // Unclosed attribute quote: reset, don't die
+                    data->context = TAG_ATTR_VALUE;
+                    trash = Tokenizer_pop(self);
+                    Py_XDECREF(trash);
+                    self->head = data->reset;
+                    continue;
+                }
+                trash = Tokenizer_pop(self);
+                Py_XDECREF(trash);
+            }
+            free(data);
+            return Tokenizer_fail_route(self);
+        }
+        else if (this == *">" && can_exit) {
+            if (Tokenizer_handle_tag_close_open(self, data, TagCloseOpen)) {
+                free(data);
+                return NULL;
+            }
+            free(data);
+            self->topstack->context = LC_TAG_BODY;
+            token = PyList_GET_ITEM(self->topstack->stack, 1);
+            text = PyObject_GetAttrString(token, "text");
+            if (!text)
+                return NULL;
+            if (IS_SINGLE_ONLY(text)) {
+                Py_DECREF(text);
+                return Tokenizer_handle_single_only_tag_end(self);
+            }
+            if (IS_PARSABLE(text)) {
+                Py_DECREF(text);
+                return Tokenizer_parse(self, 0, 0);
+            }
+            Py_DECREF(text);
+            return Tokenizer_handle_blacklisted_tag(self);
+        }
+        else if (this == *"/" && next == *">" && can_exit) {
+            if (Tokenizer_handle_tag_close_open(self, data, TagCloseSelfclose)) {
+                free(data);
+                return NULL;
+            }
+            free(data);
+            return Tokenizer_pop(self);
+        }
+        else {
+            if (Tokenizer_handle_tag_data(self, data, this)) {
+                free(data);
+                return NULL;
+            }
+        }
+        self->head++;
+    }
 }
 
 /*

From e636bf77cf20262eff467747a2d0236fb0eef52b Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 11 Jul 2013 03:01:02 -0400
Subject: [PATCH 062/189] Implement Tokenizer_push_tag_buffer()

---
 mwparserfromhell/parser/tokenizer.c | 69 ++++++++++++++++++++++++++++++++++---
 mwparserfromhell/parser/tokenizer.h |  6 ++--
 2 files changed, 67 insertions(+), 8 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index afaaf5a..37736d5 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1231,11 +1231,10 @@ Tokenizer_really_parse_tag(Tokenizer* self)
 
     if (!data)
         return NULL;
-    data->padding_first = Textbuffer_new();
-    data->padding_before_eq = Textbuffer_new();
-    data->padding_after_eq = Textbuffer_new();
-    if (!data->padding_first || !data->padding_before_eq ||
-                                !data->padding_after_eq) {
+    data->pad_first = Textbuffer_new();
+    data->pad_before_eq = Textbuffer_new();
+    data->pad_after_eq = Textbuffer_new();
+    if (!data->pad_first || !data->pad_before_eq || !data->pad_after_eq) {
         free(data);
         return NULL;
     }
@@ -1318,6 +1317,66 @@ Tokenizer_really_parse_tag(Tokenizer* self)
 static int
 Tokenizer_push_tag_buffer(Tokenizer* self, TagOpenData* data)
 {
+    PyObject *token, *tokens, *kwargs, *pad_first, *pad_before_eq,
+             *pad_after_eq;
+
+    if (data->context & TAG_QUOTED) {
+        token = PyObject_CallObject(TagAttrQuote, NULL);
+        if (!token)
+            return -1;
+        if (Tokenizer_emit_first(self, token)) {
+            Py_DECREF(token);
+            return -1;
+        }
+        Py_DECREF(token);
+        tokens = Tokenizer_pop(self);
+        if (!tokens)
+            return -1;
+        if (Tokenizer_emit_all(self, tokens)) {
+            Py_DECREF(tokens);
+            return -1;
+        }
+        Py_DECREF(tokens);
+    }
+    pad_first = Textbuffer_render(data->pad_first);
+    pad_before_eq = Textbuffer_render(data->pad_before_eq);
+    pad_after_eq = Textbuffer_render(data->pad_after_eq);
+    if (!pad_first || !pad_before_eq || !pad_after_eq)
+        return -1;
+    kwargs = PyDict_New();
+    if (!kwargs)
+        return -1;
+    PyDict_SetItemString(kwargs, "pad_first", pad_first);
+    PyDict_SetItemString(kwargs, "pad_before_eq", pad_before_eq);
+    PyDict_SetItemString(kwargs, "pad_after_eq", pad_after_eq);
+    Py_DECREF(pad_first);
+    Py_DECREF(pad_before_eq);
+    Py_DECREF(pad_after_eq);
+    token = PyObject_Call(TagAttrStart, NOARGS, kwargs);
+    Py_DECREF(kwargs);
+    if (!token)
+        return -1;
+    if (Tokenizer_emit_first(self, token)) {
+        Py_DECREF(token);
+        return -1;
+    }
+    Py_DECREF(token);
+    tokens = Tokenizer_pop(self);
+    if (!tokens)
+        return -1;
+    if (Tokenizer_emit_all(self, tokens)) {
+        Py_DECREF(tokens);
+        return -1;
+    }
+    Py_DECREF(tokens);
+    Textbuffer_dealloc(data->pad_first);
+    Textbuffer_dealloc(data->pad_before_eq);
+    Textbuffer_dealloc(data->pad_after_eq);
+    data->pad_first = Textbuffer_new();
+    data->pad_before_eq = Textbuffer_new();
+    data->pad_after_eq = Textbuffer_new();
+    if (!data->pad_first || !data->pad_before_eq || !data->pad_after_eq)
+        return -1;
     return 0;
 }
 
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 6247f95..6ad0ab6 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -177,9 +177,9 @@ typedef struct {
 
 typedef struct {
     int context;
-    struct Textbuffer* padding_first;
-    struct Textbuffer* padding_before_eq;
-    struct Textbuffer* padding_after_eq;
+    struct Textbuffer* pad_first;
+    struct Textbuffer* pad_before_eq;
+    struct Textbuffer* pad_after_eq;
     Py_ssize_t reset;
 } TagOpenData;
 

From 9365fcf6e4c9ab07274833e5bcc67fa0ae86616b Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 16 Jul 2013 23:22:14 -0400
Subject: [PATCH 063/189] Implement Tokenizer_handle_tag_data(); add a
 read-backwards macro.

---
 mwparserfromhell/parser/tokenizer.c | 99 ++++++++++++++++++++++++++++++++++---
 mwparserfromhell/parser/tokenizer.h |  2 +
 2 files changed, 93 insertions(+), 8 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 37736d5..6e21756 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1206,13 +1206,13 @@ Tokenizer_parse_tag(Tokenizer* self)
 
     self->head++;
     tag = Tokenizer_really_parse_tag(self);
-    if (!tag) {
-        return -1;
-    }
     if (BAD_ROUTE) {
         self->head = reset;
         return Tokenizer_emit_text(self, *"<");
     }
+    if (!tag) {
+        return -1;
+    }
     Tokenizer_emit_all(self, tag);
     Py_DECREF(tag);
     return 0;
@@ -1238,7 +1238,10 @@ Tokenizer_really_parse_tag(Tokenizer* self)
         free(data);
         return NULL;
     }
-    Tokenizer_push(self, LC_TAG_OPEN);
+    if (Tokenizer_push(self, LC_TAG_OPEN)) {
+        free(data);
+        return NULL;
+    }
     token = PyObject_CallObject(TagOpenOpen, NULL);
     if (!token) {
         free(data);
@@ -1302,7 +1305,7 @@ Tokenizer_really_parse_tag(Tokenizer* self)
             return Tokenizer_pop(self);
         }
         else {
-            if (Tokenizer_handle_tag_data(self, data, this)) {
+            if (Tokenizer_handle_tag_data(self, data, this) || BAD_ROUTE) {
                 free(data);
                 return NULL;
             }
@@ -1384,9 +1387,89 @@ Tokenizer_push_tag_buffer(Tokenizer* self, TagOpenData* data)
     Handle all sorts of text data inside of an HTML open tag.
 */
 static int
-Tokenizer_handle_tag_data(Tokenizer* self, TagOpenData* data, Py_UNICODE text)
+Tokenizer_handle_tag_data(Tokenizer* self, TagOpenData* data, Py_UNICODE chunk)
 {
-    return 0;
+    PyObject *trash, *token;
+    int first_time, i, is_marker = 0, escaped;
+
+    if (data->context & TAG_NAME) {
+        first_time = !(data->context & TAG_NOTE_SPACE);
+        for (i = 0; i < NUM_MARKERS; i++) {
+            if (*MARKERS[i] == chunk) {
+                is_marker = 1;
+                break;
+            }
+        }
+        if (is_marker || (Py_UNICODE_ISSPACE(chunk) && first_time)) {
+            // Tags must start with text, not spaces
+            Tokenizer_fail_route(self);
+            return 0;
+        }
+        else if (first_time)
+            data->context |= TAG_NOTE_SPACE;
+        else if (Py_UNICODE_ISSPACE(chunk))
+            data->context = TAG_ATTR_READY;
+    }
+    else if (Py_UNICODE_ISSPACE(chunk))
+        return Tokenizer_handle_tag_space(self, data, chunk);
+    else if (data->context & TAG_NOTE_SPACE) {
+        if (data->context & TAG_QUOTED) {
+            data->context = TAG_ATTR_VALUE;
+            trash = Tokenizer_pop(self);
+            Py_XDECREF(trash);
+            self->head = data->reset - 1;  // Will be auto-incremented
+        }
+        else
+            Tokenizer_fail_route(self);
+        return 0;
+    }
+    else if (data->context & TAG_ATTR_READY) {
+        data->context = TAG_ATTR_NAME;
+        if (Tokenizer_push(self, LC_TAG_ATTR))
+            return -1;
+    }
+    else if (data->context & TAG_ATTR_NAME) {
+        if (chunk == *"=") {
+            data->context = TAG_ATTR_VALUE | TAG_NOTE_QUOTE;
+            token = PyObject_CallObject(TagAttrEquals, NULL);
+            if (!token)
+                return -1;
+            if (Tokenizer_emit(self, token)) {
+                Py_DECREF(token);
+                return -1;
+            }
+            Py_DECREF(token);
+            return 0;
+        }
+        if (data->context & TAG_NOTE_EQUALS) {
+            if (Tokenizer_push_tag_buffer(self, data))
+                return -1;
+            data->context = TAG_ATTR_NAME;
+            if (Tokenizer_push(self, LC_TAG_ATTR))
+                return -1;
+        }
+    }
+    else if (data->context & TAG_ATTR_VALUE) {
+        escaped = (Tokenizer_READ_BACKWARDS(self, 1) == *"\\" &&
+                   Tokenizer_READ_BACKWARDS(self, 2) != *"\\");
+        if (data->context & TAG_NOTE_QUOTE) {
+            data->context ^= TAG_NOTE_QUOTE;
+            if (chunk == *"\"" && !escaped) {
+                data->context |= TAG_QUOTED;
+                if (Tokenizer_push(self, self->topstack->context))
+                    return -1;
+                data->reset = self->head;
+                return 0;
+            }
+        }
+        else if (data->context & TAG_QUOTED) {
+            if (chunk == *"\"" && !escaped) {
+                data->context |= TAG_NOTE_SPACE;
+                return 0;
+            }
+        }
+    }
+    return Tokenizer_handle_tag_text(self, chunk);
 }
 
 /*
@@ -1679,7 +1762,7 @@ Tokenizer_parse(Tokenizer* self, int context, int push)
         else if (this == next && next == *"]" && this_context & LC_WIKILINK)
             return Tokenizer_handle_wikilink_end(self);
         else if (this == *"=" && !(self->global & GL_HEADING)) {
-            last = *PyUnicode_AS_UNICODE(Tokenizer_read_backwards(self, 1));
+            last = Tokenizer_READ_BACKWARDS(self, 1);
             if (last == *"\n" || last == *"") {
                 if (Tokenizer_parse_heading(self))
                     return NULL;
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 6ad0ab6..e52b147 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -204,6 +204,8 @@ typedef struct {
 /* Macros for accessing Tokenizer data: */
 
 #define Tokenizer_READ(self, delta) (*PyUnicode_AS_UNICODE(Tokenizer_read(self, delta)))
+#define Tokenizer_READ_BACKWARDS(self, delta) \
+                (*PyUnicode_AS_UNICODE(Tokenizer_read_backwards(self, delta)))
 #define Tokenizer_CAN_RECURSE(self) (self->depth < MAX_DEPTH && self->cycles < MAX_CYCLES)
 
 

From d02a6da81e2a626b5f488094012f8c9e8658297f Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 17 Jul 2013 20:52:25 -0400
Subject: [PATCH 064/189] Implement Tokenizer_handle_tag_space(); refactor
 textbuffer writing.

- Add a test for very long strings of text.
---
 mwparserfromhell/parser/tokenizer.c | 164 ++++++++++++++++++++++--------------
 mwparserfromhell/parser/tokenizer.h |   8 +-
 tests/tokenizer/text.mwtest         |   7 ++
 3 files changed, 111 insertions(+), 68 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 6e21756..a0574c1 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -51,13 +51,6 @@ call_tag_def_func(const char* funcname, PyObject* tag)
     return ans;
 }
 
-static PyObject*
-Tokenizer_new(PyTypeObject* type, PyObject* args, PyObject* kwds)
-{
-    Tokenizer* self = (Tokenizer*) type->tp_alloc(type, 0);
-    return (PyObject*) self;
-}
-
 static Textbuffer*
 Textbuffer_new(void)
 {
@@ -78,6 +71,63 @@ Textbuffer_new(void)
 }
 
 static void
+Textbuffer_dealloc(Textbuffer* self)
+{
+    Textbuffer* next;
+    while (self) {
+        free(self->data);
+        next = self->next;
+        free(self);
+        self = next;
+    }
+}
+
+/*
+    Write text to the given textbuffer.
+*/
+static int
+Textbuffer_write(Textbuffer** this, Py_UNICODE text)
+{
+    Textbuffer* self = *this;
+    if (self->size == TEXTBUFFER_BLOCKSIZE) {
+        Textbuffer* new = Textbuffer_new();
+        if (!new)
+            return -1;
+        new->next = self;
+        *this = self = new;
+    }
+    self->data[self->size] = text;
+    self->size++;
+    return 0;
+}
+
+/*
+    Return the contents of the textbuffer as a Python Unicode object.
+*/
+static PyObject*
+Textbuffer_render(Textbuffer* self)
+{
+    PyObject *result = PyUnicode_FromUnicode(self->data, self->size);
+    PyObject *left, *concat;
+    while (self->next) {
+        self = self->next;
+        left = PyUnicode_FromUnicode(self->data, self->size);
+        concat = PyUnicode_Concat(left, result);
+        Py_DECREF(left);
+        Py_DECREF(result);
+        result = concat;
+    }
+    return result;
+}
+
+static PyObject*
+Tokenizer_new(PyTypeObject* type, PyObject* args, PyObject* kwds)
+{
+    Tokenizer* self = (Tokenizer*) type->tp_alloc(type, 0);
+    return (PyObject*) self;
+}
+
+static void
 Tokenizer_dealloc(Tokenizer* self)
 {
     Stack *this = self->topstack, *next;
@@ -93,18 +143,6 @@ Tokenizer_dealloc(Tokenizer* self)
     self->ob_type->tp_free((PyObject*) self);
 }
 
-static void
-Textbuffer_dealloc(Textbuffer* this)
-{
-    Textbuffer* next;
-    while (this) {
-        free(this->data);
-        next = this->next;
-        free(this);
-        this = next;
-    }
-}
-
 static int
 Tokenizer_init(Tokenizer* self, PyObject* args, PyObject* kwds)
 {
@@ -144,25 +182,6 @@ Tokenizer_push(Tokenizer* self, int context)
 }
 
 /*
-    Return the contents of the textbuffer as a Python Unicode object.
-*/
-static PyObject*
-Textbuffer_render(Textbuffer* self)
-{
-    PyObject *result = PyUnicode_FromUnicode(self->data, self->size);
-    PyObject *left, *concat;
-    while (self->next) {
-        self = self->next;
-        left = PyUnicode_FromUnicode(self->data, self->size);
-        concat = PyUnicode_Concat(left, result);
-        Py_DECREF(left);
-        Py_DECREF(result);
-        result = concat;
-    }
-    return result;
-}
-
-/*
     Push the textbuffer onto the stack as a Text node and clear it.
 */
 static int
@@ -291,18 +310,7 @@ Tokenizer_emit_first(Tokenizer* self, PyObject* token)
 static int
 Tokenizer_emit_text(Tokenizer* self, Py_UNICODE text)
 {
-    Textbuffer* buf = self->topstack->textbuffer;
-    if (buf->size == TEXTBUFFER_BLOCKSIZE) {
-        Textbuffer* new = Textbuffer_new();
-        if (!new)
-            return -1;
-        new->next = buf;
-        self->topstack->textbuffer = new;
-        buf = new;
-    }
-    buf->data[buf->size] = text;
-    buf->size++;
-    return 0;
+    return Textbuffer_write(&(self->topstack->textbuffer), text);
 }
 
 /*
@@ -1478,6 +1486,29 @@ Tokenizer_handle_tag_data(Tokenizer* self, TagOpenData* data, Py_UNICODE chunk)
 static int
 Tokenizer_handle_tag_space(Tokenizer* self, TagOpenData* data, Py_UNICODE text)
 {
+    int ctx = data->context;
+    int end_of_value = (ctx & TAG_ATTR_VALUE &&
+                        !(ctx & (TAG_QUOTED | TAG_NOTE_QUOTE)));
+
+    if (end_of_value || (ctx & TAG_QUOTED && ctx & TAG_NOTE_SPACE)) {
+        if (Tokenizer_push_tag_buffer(self, data))
+            return -1;
+        data->context = TAG_ATTR_READY;
+    }
+    else if (ctx & TAG_NOTE_SPACE)
+        data->context = TAG_ATTR_READY;
+    else if (ctx & TAG_ATTR_NAME) {
+        data->context |= TAG_NOTE_EQUALS;
+        Textbuffer_write(&(data->pad_before_eq), text);
+    }
+    if (ctx & TAG_QUOTED && !(ctx & TAG_NOTE_SPACE)) {
+        if (Tokenizer_emit_text(self, text))
+            return -1;
+    }
+    else if (data->context & TAG_ATTR_READY)
+        Textbuffer_write(&(data->pad_first), text);
+    else if (data->context & TAG_ATTR_VALUE)
+        Textbuffer_write(&(data->pad_after_eq), text);
     return 0;
 }
 
@@ -1704,7 +1735,8 @@ Tokenizer_parse(Tokenizer* self, int context, int push)
             }
         }
         if (!is_marker) {
-            Tokenizer_emit_text(self, this);
+            if (Tokenizer_emit_text(self, this))
+                return NULL;
             self->head++;
             continue;
         }
@@ -1716,15 +1748,16 @@ Tokenizer_parse(Tokenizer* self, int context, int push)
                 if (Tokenizer_READ(self, 2) == *">")
                     return Tokenizer_pop(self);
             }
-            Tokenizer_emit_text(self, this);
+            if (Tokenizer_emit_text(self, this))
+                return NULL;
         }
         else if (this == next && next == *"{") {
             if (Tokenizer_CAN_RECURSE(self)) {
                 if (Tokenizer_parse_template_or_argument(self))
                     return NULL;
             }
-            else
-                Tokenizer_emit_text(self, this);
+            else if (Tokenizer_emit_text(self, this))
+                return NULL;
         }
         else if (this == *"|" && this_context & LC_TEMPLATE) {
             if (Tokenizer_handle_template_param(self))
@@ -1744,7 +1777,8 @@ Tokenizer_parse(Tokenizer* self, int context, int push)
             if (Tokenizer_READ(self, 2) == *"}") {
                 return Tokenizer_handle_argument_end(self);
             }
-            Tokenizer_emit_text(self, this);
+            if (Tokenizer_emit_text(self, this))
+                return NULL;
         }
         else if (this == next && next == *"[") {
             if (!(this_context & LC_WIKILINK_TITLE) &&
@@ -1752,8 +1786,8 @@ Tokenizer_parse(Tokenizer* self, int context, int push)
                 if (Tokenizer_parse_wikilink(self))
                     return NULL;
             }
-            else
-                Tokenizer_emit_text(self, this);
+            else if (Tokenizer_emit_text(self, this))
+                return NULL;
         }
         else if (this == *"|" && this_context & LC_WIKILINK_TITLE) {
             if (Tokenizer_handle_wikilink_separator(self))
@@ -1767,8 +1801,8 @@ Tokenizer_parse(Tokenizer* self, int context, int push)
                 if (Tokenizer_parse_heading(self))
                     return NULL;
             }
-            else
-                Tokenizer_emit_text(self, this);
+            else if (Tokenizer_emit_text(self, this))
+                return NULL;
         }
         else if (this == *"=" && this_context & LC_HEADING)
             return (PyObject*) Tokenizer_handle_heading_end(self);
@@ -1784,8 +1818,8 @@ Tokenizer_parse(Tokenizer* self, int context, int push)
                 if (Tokenizer_parse_comment(self))
                     return NULL;
             }
-            else
-                Tokenizer_emit_text(self, this);
+            else if (Tokenizer_emit_text(self, this))
+                return NULL;
         }
         else if (this == *"<" && next == *"/" &&
                                             Tokenizer_READ(self, 2) != *"") {
@@ -1804,13 +1838,13 @@ Tokenizer_parse(Tokenizer* self, int context, int push)
                 if (Tokenizer_parse_tag(self))
                     return NULL;
             }
-            else
-                Tokenizer_emit_text(self, this);
+            else if (Tokenizer_emit_text(self, this))
+                return NULL;
         }
         else if (this == *">" && this_context & LC_TAG_CLOSE)
             return Tokenizer_handle_tag_close_close(self);
-        else
-            Tokenizer_emit_text(self, this);
+        else if (Tokenizer_emit_text(self, this))
+            return NULL;
         self->head++;
     }
 }
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index e52b147..7440924 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -218,13 +218,15 @@ typedef struct {
 
 /* Function prototypes: */
 
-static PyObject* Tokenizer_new(PyTypeObject*, PyObject*, PyObject*);
 static struct Textbuffer* Textbuffer_new(void);
+static void Textbuffer_dealloc(Textbuffer*);
+static int Textbuffer_write(Textbuffer**, Py_UNICODE);
+static PyObject* Textbuffer_render(Textbuffer*);
+
+static PyObject* Tokenizer_new(PyTypeObject*, PyObject*, PyObject*);
 static void Tokenizer_dealloc(Tokenizer*);
-static void Textbuffer_dealloc(struct Textbuffer*);
 static int Tokenizer_init(Tokenizer*, PyObject*, PyObject*);
 static int Tokenizer_push(Tokenizer*, int);
-static PyObject* Textbuffer_render(struct Textbuffer*);
 static int Tokenizer_push_textbuffer(Tokenizer*);
 static void Tokenizer_delete_top_of_stack(Tokenizer*);
 static PyObject* Tokenizer_pop(Tokenizer*);
diff --git a/tests/tokenizer/text.mwtest b/tests/tokenizer/text.mwtest
index 77d5f50..040c677 100644
--- a/tests/tokenizer/text.mwtest
+++ b/tests/tokenizer/text.mwtest
@@ -23,3 +23,10 @@ name:   unicode2
 label:  additional unicode check for non-BMP codepoints
 input:  "𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰"
 output: [Text(text="𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰")]
+
+---
+
+name:   large
+label:  a lot of text, requiring multiple textbuffer blocks in the C tokenizer
+input:  "ZWfsZYcZyhGbkDYJiguJuuhsNyHGFkFhnjkbLJyXIygTHqcXdhsDkEOTSIKYlBiohLIkiXxvyebUyCGvvBcYqFdtcftGmaAanKXEIyYSEKlTfEEbdGhdePVwVImOyKiHSzAEuGyEVRIKPZaNjQsYqpqARIQfvAklFtQyTJVGlLwjJIxYkiqmHBmdOvTyNqJRbMvouoqXRyOhYDwowtkcZGSOcyzVxibQdnzhDYbrgbatUrlOMRvFSzmLWHRihtXnddwYadPgFWUOxAzAgddJVDXHerawdkrRuWaEXfuwQSkQUmLEJUmrgXDVlXCpciaisfuOUjBldElygamkkXbewzLucKRnAEBimIIotXeslRRhnqQjrypnLQvvdCsKFWPVTZaHvzJMFEahDHWcCbyXgxFvknWjhVfiLSDuFhGoFxqSvhjnnRZLmCMhmWeOgSoanDEInKTWHnbpKyUlabLppITDFFxyWKAnUYJQIcmYnrvMmzmtYvsbCYbebgAhMFVVFAKUSvlkLFYluDpbpBaNFWyfXTaOdSBrfiHDTWGBTUCXMqVvRCIMrEjWpQaGsABkioGnveQWqBTDdRQlxQiUipwfyqAocMddXqdvTHhEwjEzMkOSWVPjJvDtClhYwpvRztPmRKCSpGIpXQqrYtTLmShFdpKtOxGtGOZYIdyUGPjdmyvhJTQMtgYJWUUZnecRjBfQXsyWQWikyONySLzLEqRFqcJYdRNFcGwWZtfZasfFWcvdsHRXoqKlKYihRAOJdrPBDdxksXFwKceQVncmFXfUfBsNgjKzoObVExSnRnjegeEhqxXzPmFcuiasViAFeaXrAxXhSfSyCILkKYpjxNeKynUmdcGAbwRwRnlAFbOSCafmzXddiNpLCFTHBELvArdXFpKUGpSHRekhrMedMRNkQzmSyFKjVwiWwCvbNWjgxJRzYeRxHiCCRMXktmKBxbxGZvOpvZIJOwvGIxcBLzsMFlDqAMLtScdsJtrbIUAvKfcdChXGnBzIxGxXMgxJhayrziaCswdpjJJJhkaYnGhHXqZwOzHFdhhUIEtfjERdLaSPRTDDMHpQtonNaIgXUYhjdbnnKppfMBxgNSOOXJAPtFjfAKnrRDrumZBpNhxMstqjTGBViRkDqbTdXYUirsedifGYzZpQkvdNhtFTOPgsYXYCwZHLcSLSfwfpQKtWfZuRUUryHJsbVsAOQcIJdSKKlOvCeEjUQNRPHKXuBJUjPuaAJJxcDMqyaufqfVwUmHLdjeYZzSiiGLHOTCInpVAalbXXTMLugLiwFiyPSuSFiyJUKVrWjbZAHaJtZnQmnvorRrxdPKThqXzNgTjszQiCoMczRnwGYJMERUWGXFyrSbAqsHmLwLlnJOJoXNsjVehQjVOpQOQJAZWwFZBlgyVIplzLTlFwumPgBLYrUIAJAcmvHPGfHfWQguCjfTYzxYfbohaLFAPwxFRrNuCdCzLlEbuhyYjCmuDBTJDMCdLpNRVqEALjnPSaBPsKWRCKNGwEMFpiEWbYZRwaMopjoUuBUvMpvyLfsPKDrfQLiFOQIWPtLIMoijUEUYfhykHrSKbTtrvjwIzHdWZDVwLIpNkloCqpzIsErxxKAFuFEjikWNYChqYqVslXMtoSWzNhbMuxYbzLfJIcPGoUeGPkGyPQNhDyrjgdKekzftFrRPTuyLYqCArkDcWHTrjPQHfoThBNnTQyMwLEWxEnBXLtzJmFVLGEPrdbEwlXpgYfnVnWoNXgPQKKyiXifpvrmJATzQOzYwFhliiYxlbnsEPKbHYUfJLrwYPfSUwTIHiEvBFMrEtVmqJobfcwsiiEudTIiAnrtuywgKLOiMYbEIOAOJdOXqroPjWnQQcTNxFvkIEIsuHLyhSqSphuSmlvknzydQEnebOreeZwOouXYKlObAkaWHhOdTFLoMCHOWrVKeXjcniaxtgCziKEqWOZUWHJQpcDJzYnnduDZrmxgjZroBRwoPBUTJMYipsgJwbTSlvMyXXdAmiEWGMiQxhGvHGPLOKeTxNaLnFVbWpiYIVyqN"
+output: [Text(text="ZWfsZYcZyhGbkDYJiguJuuhsNyHGFkFhnjkbLJyXIygTHqcXdhsDkEOTSIKYlBiohLIkiXxvyebUyCGvvBcYqFdtcftGmaAanKXEIyYSEKlTfEEbdGhdePVwVImOyKiHSzAEuGyEVRIKPZaNjQsYqpqARIQfvAklFtQyTJVGlLwjJIxYkiqmHBmdOvTyNqJRbMvouoqXRyOhYDwowtkcZGSOcyzVxibQdnzhDYbrgbatUrlOMRvFSzmLWHRihtXnddwYadPgFWUOxAzAgddJVDXHerawdkrRuWaEXfuwQSkQUmLEJUmrgXDVlXCpciaisfuOUjBldElygamkkXbewzLucKRnAEBimIIotXeslRRhnqQjrypnLQvvdCsKFWPVTZaHvzJMFEahDHWcCbyXgxFvknWjhVfiLSDuFhGoFxqSvhjnnRZLmCMhmWeOgSoanDEInKTWHnbpKyUlabLppITDFFxyWKAnUYJQIcmYnrvMmzmtYvsbCYbebgAhMFVVFAKUSvlkLFYluDpbpBaNFWyfXTaOdSBrfiHDTWGBTUCXMqVvRCIMrEjWpQaGsABkioGnveQWqBTDdRQlxQiUipwfyqAocMddXqdvTHhEwjEzMkOSWVPjJvDtClhYwpvRztPmRKCSpGIpXQqrYtTLmShFdpKtOxGtGOZYIdyUGPjdmyvhJTQMtgYJWUUZnecRjBfQXsyWQWikyONySLzLEqRFqcJYdRNFcGwWZtfZasfFWcvdsHRXoqKlKYihRAOJdrPBDdxksXFwKceQVncmFXfUfBsNgjKzoObVExSnRnjegeEhqxXzPmFcuiasViAFeaXrAxXhSfSyCILkKYpjxNeKynUmdcGAbwRwRnlAFbOSCafmzXddiNpLCFTHBELvArdXFpKUGpSHRekhrMedMRNkQzmSyFKjVwiWwCvbNWjgxJRzYeRxHiCCRMXktmKBxbxGZvOpvZIJOwvGIxcBLzsMFlDqAMLtScdsJtrbIUAvKfcdChXGnBzIxGxXMgxJhayrziaCswdpjJJJhkaYnGhHXqZwOzHFdhhUIEtfjERdLaSPRTDDMHpQtonNaIgXUYhjdbnnKppfMBxgNSOOXJAPtFjfAKnrRDrumZBpNhxMstqjTGBViRkDqbTdXYUirsedifGYzZpQkvdNhtFTOPgsYXYCwZHLcSLSfwfpQKtWfZuRUUryHJsbVsAOQcIJdSKKlOvCeEjUQNRPHKXuBJUjPuaAJJxcDMqyaufqfVwUmHLdjeYZzSiiGLHOTCInpVAalbXXTMLugLiwFiyPSuSFiyJUKVrWjbZAHaJtZnQmnvorRrxdPKThqXzNgTjszQiCoMczRnwGYJMERUWGXFyrSbAqsHmLwLlnJOJoXNsjVehQjVOpQOQJAZWwFZBlgyVIplzLTlFwumPgBLYrUIAJAcmvHPGfHfWQguCjfTYzxYfbohaLFAPwxFRrNuCdCzLlEbuhyYjCmuDBTJDMCdLpNRVqEALjnPSaBPsKWRCKNGwEMFpiEWbYZRwaMopjoUuBUvMpvyLfsPKDrfQLiFOQIWPtLIMoijUEUYfhykHrSKbTtrvjwIzHdWZDVwLIpNkloCqpzIsErxxKAFuFEjikWNYChqYqVslXMtoSWzNhbMuxYbzLfJIcPGoUeGPkGyPQNhDyrjgdKekzftFrRPTuyLYqCArkDcWHTrjPQHfoThBNnTQyMwLEWxEnBXLtzJmFVLGEPrdbEwlXpgYfnVnWoNXgPQKKyiXifpvrmJATzQOzYwFhliiYxlbnsEPKbHYUfJLrwYPfSUwTIHiEvBFMrEtVmqJobfcwsiiEudTIiAnrtuywgKLOiMYbEIOAOJdOXqroPjWnQQcTNxFvkIEIsuHLyhSqSphuSmlvknzydQEnebOreeZwOouXYKlObAkaWHhOdTFLoMCHOWrVKeXjcniaxtgCziKEqWOZUWHJQpcDJzYnnduDZrmxgjZroBRwoPBUTJMYipsgJwbTSlvMyXXdAmiEWGMiQxhGvHGPLOKeTxNaLnFVbWpiYIVyqN")]

From b3f7728c313a18e7a10e6dd2a22cf518c1d39b17 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 17 Jul 2013 21:48:11 -0400
Subject: [PATCH 065/189] Implement Tokenizer_handle_tag_text(),
 Tokenizer_handle_blacklisted_tag()

---
 mwparserfromhell/parser/tokenizer.c | 43 ++++++++++++++++++++++++++++++++-----
 1 file changed, 38 insertions(+), 5 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index a0574c1..6766780 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1499,16 +1499,17 @@ Tokenizer_handle_tag_space(Tokenizer* self, TagOpenData* data, Py_UNICODE text)
         data->context = TAG_ATTR_READY;
     else if (ctx & TAG_ATTR_NAME) {
         data->context |= TAG_NOTE_EQUALS;
-        Textbuffer_write(&(data->pad_before_eq), text);
+        if (Textbuffer_write(&(data->pad_before_eq), text))
+            return -1;
     }
     if (ctx & TAG_QUOTED && !(ctx & TAG_NOTE_SPACE)) {
         if (Tokenizer_emit_text(self, text))
             return -1;
     }
     else if (data->context & TAG_ATTR_READY)
-        Textbuffer_write(&(data->pad_first), text);
+        return Textbuffer_write(&(data->pad_first), text);
     else if (data->context & TAG_ATTR_VALUE)
-        Textbuffer_write(&(data->pad_after_eq), text);
+        return Textbuffer_write(&(data->pad_after_eq), text);
     return 0;
 }
 
@@ -1518,7 +1519,24 @@ Tokenizer_handle_tag_space(Tokenizer* self, TagOpenData* data, Py_UNICODE text)
 static int
 Tokenizer_handle_tag_text(Tokenizer* self, Py_UNICODE text)
 {
-    return 0;
+    Py_UNICODE next = Tokenizer_READ(self, 1);
+    int i, is_marker = 0;
+
+    for (i = 0; i < NUM_MARKERS; i++) {
+        if (*MARKERS[i] == text) {
+            is_marker = 1;
+            break;
+        }
+    }
+    if (!is_marker || !Tokenizer_CAN_RECURSE(self))
+        return Tokenizer_emit_text(self, text);
+    else if (text == next && next == *"{")
+        return Tokenizer_parse_template_or_argument(self);
+    else if (text == next && next == *"[")
+        return Tokenizer_parse_wikilink(self);
+    else if (text == *"<")
+        return Tokenizer_parse_tag(self);
+    return Tokenizer_emit_text(self, text);
 }
 
 /*
@@ -1527,7 +1545,22 @@ Tokenizer_handle_tag_text(Tokenizer* self, Py_UNICODE text)
 static PyObject*
 Tokenizer_handle_blacklisted_tag(Tokenizer* self)
 {
-    return NULL;
+    Py_UNICODE this, next;
+
+    while (1) {
+        this = Tokenizer_READ(self, 0);
+        next = Tokenizer_READ(self, 1);
+        self->head++;
+        if (this == *"")
+            return Tokenizer_fail_route(self);
+        else if (this == *"<" && next == *"/") {
+            if (Tokenizer_handle_tag_open_close(self))
+                return NULL;
+            return Tokenizer_parse(self, 0, 0);
+        }
+        if (Tokenizer_emit_text(self, this))
+            return NULL;
+    }
 }
 
 /*

From e6b5c46d9c5b6fd4ccb14da8276293b88f867a4d Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 18 Jul 2013 17:11:48 -0400
Subject: [PATCH 066/189] Implement Tokenizer_handle_tag_close_open()

---
 mwparserfromhell/parser/tokenizer.c | 26 ++++++++++++++++++++++++++
 1 file changed, 26 insertions(+)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 6766780..b6842b0 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1570,6 +1570,32 @@ static int
 Tokenizer_handle_tag_close_open(Tokenizer* self, TagOpenData* data,
                                 PyObject* token)
 {
+    PyObject *padding, *kwargs, *tok;
+
+    if (data->context & (TAG_ATTR_NAME | TAG_ATTR_VALUE)) {
+        if (Tokenizer_push_tag_buffer(self, data))
+            return -1;
+    }
+    padding = Textbuffer_render(data->pad_first);
+    if (!padding)
+        return -1;
+    kwargs = PyDict_New();
+    if (!kwargs) {
+        Py_DECREF(padding);
+        return -1;
+    }
+    PyDict_SetItemString(kwargs, "padding", padding);
+    Py_DECREF(padding);
+    tok = PyObject_Call(token, NOARGS, kwargs);
+    Py_DECREF(kwargs);
+    if (!tok)
+        return -1;
+    if (Tokenizer_emit(self, tok)) {
+        Py_DECREF(tok);
+        return -1;
+    }
+    Py_DECREF(tok);
+    self->head++;
     return 0;
 }
 

From b900f8442032313cc8c4453b13927780675fd3fa Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 18 Jul 2013 17:18:06 -0400
Subject: [PATCH 067/189] Implement Tokenizer_handle_tag_open_close()

---
 mwparserfromhell/parser/tokenizer.c | 17 ++++++++++++++++-
 1 file changed, 16 insertions(+), 1 deletion(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index b6842b0..cb2ecc1 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1237,8 +1237,10 @@ Tokenizer_really_parse_tag(Tokenizer* self)
     Py_UNICODE this, next;
     int can_exit;
 
-    if (!data)
+    if (!data) {
+        PyErr_NoMemory();
         return NULL;
+    }
     data->pad_first = Textbuffer_new();
     data->pad_before_eq = Textbuffer_new();
     data->pad_after_eq = Textbuffer_new();
@@ -1605,6 +1607,19 @@ Tokenizer_handle_tag_close_open(Tokenizer* self, TagOpenData* data,
 static int
 Tokenizer_handle_tag_open_close(Tokenizer* self)
 {
+    PyObject* token;
+
+    token = PyObject_CallObject(TagOpenClose, NULL);
+    if (!token)
+        return -1;
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
+        return -1;
+    }
+    Py_DECREF(token);
+    if (Tokenizer_push(self, LC_TAG_CLOSE))
+        return -1;
+    self->head++;
     return 0;
 }
 

From c0f83fc80359bba55fda4416f02d1aae99191ee9 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 21 Jul 2013 09:48:33 -0400
Subject: [PATCH 068/189] Implement Tokenizer_handle_tag_close_close()

---
 mwparserfromhell/parser/tokenizer.c | 71 ++++++++++++++++++++++++++++++++++++-
 1 file changed, 70 insertions(+), 1 deletion(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index cb2ecc1..062d05b 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -51,6 +51,26 @@ call_tag_def_func(const char* funcname, PyObject* tag)
     return ans;
 }
 
+/*
+    Sanitize the name of a tag so it can be compared with others for equality.
+*/
+static PyObject*
+strip_tag_name(PyObject* token)
+{
+    PyObject *text, *rstripped, *lowered;
+
+    text = PyObject_GetAttrString(token, "text");
+    if (!text)
+        return NULL;
+    rstripped = PyObject_CallMethod(text, "rstrip", NULL);
+    Py_DECREF(text);
+    if (!rstripped)
+        return NULL;
+    lowered = PyObject_CallMethod(rstripped, "rstrip", NULL);
+    Py_DECREF(rstripped);
+    return lowered;
+}
+
 static Textbuffer*
 Textbuffer_new(void)
 {
@@ -1629,7 +1649,56 @@ Tokenizer_handle_tag_open_close(Tokenizer* self)
 static PyObject*
 Tokenizer_handle_tag_close_close(Tokenizer* self)
 {
-    return NULL;
+    PyObject *closing, *first, *so, *sc, *token;
+    int valid = 1;
+
+    closing = Tokenizer_pop(self);
+    if (!closing)
+        return NULL;
+    if (PyList_GET_SIZE(closing) != 1)
+        valid = 0;
+    else {
+        first = PyList_GET_ITEM(closing, 0);
+        switch (PyObject_IsInstance(first, Text)) {
+            case 0:
+                valid = 0;
+                break;
+            case 1: {
+                so = strip_tag_name(first);
+                sc = strip_tag_name(PyList_GET_ITEM(self->topstack->stack, 1));
+                if (so && sc) {
+                    if (PyUnicode_Compare(so, sc))
+                        valid = 0;
+                    Py_DECREF(so);
+                    Py_DECREF(sc);
+                    break;
+                }
+                Py_XDECREF(so);
+                Py_XDECREF(sc);
+            }
+            case -1:
+                Py_DECREF(closing);
+                return NULL;
+        }
+    }
+    if (!valid) {
+        Py_DECREF(closing);
+        return Tokenizer_fail_route(self);
+    }
+    if (Tokenizer_emit_all(self, closing)) {
+        Py_DECREF(closing);
+        return NULL;
+    }
+    Py_DECREF(closing);
+    token = PyObject_CallObject(TagCloseClose, NULL);
+    if (!token)
+        return NULL;
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
+        return NULL;
+    }
+    Py_DECREF(token);
+    return Tokenizer_pop(self);
 }
 
 /*

From 4c5cfe57b86e767cc0603ca6fccc2e9af27f0957 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 21 Jul 2013 10:37:23 -0400
Subject: [PATCH 069/189] Implement Tokenizer_handle_invalid_tag_start()

---
 mwparserfromhell/parser/tokenizer.c | 46 ++++++++++++++++++++++++++++++++++++-
 1 file changed, 45 insertions(+), 1 deletion(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 062d05b..37c5639 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1707,7 +1707,51 @@ Tokenizer_handle_tag_close_close(Tokenizer* self)
 static int
 Tokenizer_handle_invalid_tag_start(Tokenizer* self)
 {
-    return 0;
+    Py_ssize_t reset = self->head + 1, pos = 0;
+    Textbuffer* buf;
+    PyObject *name, *tag;
+    Py_UNICODE this;
+    int is_marker, i;
+
+    self->head += 2;
+    buf = Textbuffer_new();
+    if (!buf)
+        return -1;
+    while (1) {
+        this = Tokenizer_READ(self, pos);
+        is_marker = 0;
+        for (i = 0; i < NUM_MARKERS; i++) {
+            if (*MARKERS[i] == this) {
+                is_marker = 1;
+                break;
+            }
+        }
+        if (is_marker) {
+            name = Textbuffer_render(buf);
+            if (!name) {
+                Textbuffer_dealloc(buf);
+                return -1;
+            }
+            if (!IS_SINGLE_ONLY(name))
+                FAIL_ROUTE();
+            break;
+        }
+        pos++;
+    }
+    if (!BAD_ROUTE) {
+        tag = Tokenizer_really_parse_tag(self);
+        if (!tag)
+            return -1;
+    }
+    if (BAD_ROUTE) {
+        self->head = reset;
+        return (Tokenizer_emit_text(self, *"<") ||
+                Tokenizer_emit_text(self, *"/"));
+    }
+    // Set invalid=True flag of TagOpenOpen
+    if (PyObject_SetAttrString(PyList_GET_ITEM(tag, 0), "invalid", Py_True))
+        return -1;
+    return Tokenizer_emit_all(self, tag);
 }
 
 /*

From fd8a530259173ac6bcd38a7134e41427e5949d1e Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 21 Jul 2013 11:14:49 -0400
Subject: [PATCH 070/189] Implement Tokenizer_handle_single_only_tag_end(),
 Tokenizer_handle_single_tag_end()

---
 mwparserfromhell/parser/tokenizer.c | 66 +++++++++++++++++++++++++++++++++++--
 1 file changed, 64 insertions(+), 2 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 37c5639..b1c92f8 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1760,7 +1760,34 @@ Tokenizer_handle_invalid_tag_start(Tokenizer* self)
 static PyObject*
 Tokenizer_handle_single_only_tag_end(Tokenizer* self)
 {
-    return NULL;
+    PyObject *top, *padding, *kwargs, *token;
+
+    top = PyObject_CallMethod(self->topstack->stack, "pop", NULL);
+    if (!top)
+        return NULL;
+    padding = PyObject_GetAttrString(top, "padding");
+    Py_DECREF(top);
+    if (!padding)
+        return NULL;
+    kwargs = PyDict_New();
+    if (!kwargs) {
+        Py_DECREF(padding);
+        return NULL;
+    }
+    PyDict_SetItemString(kwargs, "padding", padding);
+    PyDict_SetItemString(kwargs, "implicit", Py_True);
+    Py_DECREF(padding);
+    token = PyObject_Call(TagCloseSelfclose, NOARGS, kwargs);
+    Py_DECREF(kwargs);
+    if (!token)
+        return NULL;
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
+        return NULL;
+    }
+    Py_DECREF(token);
+    self->head--;  // Offset displacement done by handle_tag_close_open
+    return Tokenizer_pop(self);
 }
 
 /*
@@ -1769,7 +1796,42 @@ Tokenizer_handle_single_only_tag_end(Tokenizer* self)
 static PyObject*
 Tokenizer_handle_single_tag_end(Tokenizer* self)
 {
-    return NULL;
+    PyObject *token = 0, *padding, *kwargs;
+    Py_ssize_t len, index;
+    int is_instance;
+
+    len = PyList_GET_SIZE(self->topstack->stack);
+    for (index = 0; index < len; index++) {
+        token = PyList_GET_ITEM(self->topstack->stack, index);
+        is_instance = PyObject_IsInstance(token, TagCloseOpen);
+        if (is_instance == -1)
+            return NULL;
+        else if (is_instance == 1)
+            break;
+    }
+    if (!token)
+        return NULL;
+    padding = PyObject_GetAttrString(token, "padding");
+    if (!padding)
+        return NULL;
+    kwargs = PyDict_New();
+    if (!kwargs) {
+        Py_DECREF(padding);
+        return NULL;
+    }
+    PyDict_SetItemString(kwargs, "padding", padding);
+    PyDict_SetItemString(kwargs, "implicit", Py_True);
+    Py_DECREF(padding);
+    token = PyObject_Call(TagCloseSelfclose, NOARGS, kwargs);
+    Py_DECREF(kwargs);
+    if (!token)
+        return NULL;
+    if (PyList_SetItem(self->topstack->stack, index, token)) {
+        Py_DECREF(token);
+        return NULL;
+    }
+    Py_DECREF(token);
+    return Tokenizer_pop(self);
 }
 
 /*

From e32063ef4a0aee66b6478e028aa85c3c7323f131 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 23 Jul 2013 16:31:56 -0400
Subject: [PATCH 071/189] Reset routes properly.

---
 mwparserfromhell/parser/tokenizer.c | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index b1c92f8..5649803 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -472,7 +472,6 @@ Tokenizer_parse_template_or_argument(Tokenizer* self)
         if (braces == 2) {
             if (Tokenizer_parse_template(self))
                 return -1;
-
             if (BAD_ROUTE) {
                 RESET_ROUTE();
                 if (Tokenizer_emit_text_then_stack(self, "{{"))
@@ -1235,6 +1234,7 @@ Tokenizer_parse_tag(Tokenizer* self)
     self->head++;
     tag = Tokenizer_really_parse_tag(self);
     if (BAD_ROUTE) {
+        RESET_ROUTE();
         self->head = reset;
         return Tokenizer_emit_text(self, *"<");
     }
@@ -1336,6 +1336,7 @@ Tokenizer_really_parse_tag(Tokenizer* self)
         }
         else {
             if (Tokenizer_handle_tag_data(self, data, this) || BAD_ROUTE) {
+                RESET_ROUTE();
                 free(data);
                 return NULL;
             }
@@ -1744,6 +1745,7 @@ Tokenizer_handle_invalid_tag_start(Tokenizer* self)
             return -1;
     }
     if (BAD_ROUTE) {
+        RESET_ROUTE();
         self->head = reset;
         return (Tokenizer_emit_text(self, *"<") ||
                 Tokenizer_emit_text(self, *"/"));

From 30c3f27b0e056afcbf326c20351e62927d453664 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 23 Jul 2013 16:58:28 -0400
Subject: [PATCH 072/189] Correctly set TagOpenData's default values.

---
 mwparserfromhell/parser/tokenizer.c | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 5649803..a02b053 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1261,6 +1261,7 @@ Tokenizer_really_parse_tag(Tokenizer* self)
         PyErr_NoMemory();
         return NULL;
     }
+    data->context = TAG_NAME;
     data->pad_first = Textbuffer_new();
     data->pad_before_eq = Textbuffer_new();
     data->pad_after_eq = Textbuffer_new();
@@ -1268,6 +1269,7 @@ Tokenizer_really_parse_tag(Tokenizer* self)
         free(data);
         return NULL;
     }
+    data->reset = 0;
     if (Tokenizer_push(self, LC_TAG_OPEN)) {
         free(data);
         return NULL;

From e3fc27c9e3ee35ed2a918a711fb0ea9a002e1704 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 23 Jul 2013 17:34:19 -0400
Subject: [PATCH 073/189] Refactor TagData code into dedicated functions.

---
 mwparserfromhell/parser/tokenizer.c | 117 +++++++++++++++++++++++-------------
 mwparserfromhell/parser/tokenizer.h |  16 +++--
 2 files changed, 86 insertions(+), 47 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index a02b053..b8d2ad1 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -140,6 +140,58 @@ Textbuffer_render(Textbuffer* self)
     return result;
 }
 
+static TagData*
+TagData_new(void)
+{
+    TagData *self = malloc(sizeof(TagData));
+
+    #define ALLOC_BUFFER(name)     \
+        name = Textbuffer_new();   \
+        if (!name) {               \
+            TagData_dealloc(self); \
+            return NULL;           \
+        }
+
+    if (!self) {
+        PyErr_NoMemory();
+        return NULL;
+    }
+    self->context = TAG_NAME;
+    ALLOC_BUFFER(self->pad_first)
+    ALLOC_BUFFER(self->pad_before_eq)
+    ALLOC_BUFFER(self->pad_after_eq)
+    self->reset = 0;
+    return self;
+}
+
+static void
+TagData_dealloc(TagData* self)
+{
+    #define DEALLOC_BUFFER(name) \
+        if (name)                \
+            Textbuffer_dealloc(name);
+
+    DEALLOC_BUFFER(self->pad_first);
+    DEALLOC_BUFFER(self->pad_before_eq);
+    DEALLOC_BUFFER(self->pad_after_eq);
+    free(self);
+}
+
+static int
+TagData_reset_buffers(TagData* self)
+{
+    #define RESET_BUFFER(name)    \
+        Textbuffer_dealloc(name); \
+        name = Textbuffer_new();  \
+        if (!name)                \
+            return -1;
+
+    RESET_BUFFER(self->pad_first)
+    RESET_BUFFER(self->pad_before_eq)
+    RESET_BUFFER(self->pad_after_eq)
+    return 0;
+}
+
 static PyObject*
 Tokenizer_new(PyTypeObject* type, PyObject* args, PyObject* kwds)
 {
@@ -1252,36 +1304,25 @@ Tokenizer_parse_tag(Tokenizer* self)
 static PyObject*
 Tokenizer_really_parse_tag(Tokenizer* self)
 {
-    TagOpenData *data = malloc(sizeof(TagOpenData));
+    TagData *data = TagData_new();
     PyObject *token, *text, *trash;
     Py_UNICODE this, next;
     int can_exit;
 
-    if (!data) {
-        PyErr_NoMemory();
+    if (!data)
         return NULL;
-    }
-    data->context = TAG_NAME;
-    data->pad_first = Textbuffer_new();
-    data->pad_before_eq = Textbuffer_new();
-    data->pad_after_eq = Textbuffer_new();
-    if (!data->pad_first || !data->pad_before_eq || !data->pad_after_eq) {
-        free(data);
-        return NULL;
-    }
-    data->reset = 0;
     if (Tokenizer_push(self, LC_TAG_OPEN)) {
-        free(data);
+        TagData_dealloc(data);
         return NULL;
     }
     token = PyObject_CallObject(TagOpenOpen, NULL);
     if (!token) {
-        free(data);
+        TagData_dealloc(data);
         return NULL;
     }
     if (Tokenizer_emit(self, token)) {
         Py_DECREF(token);
-        free(data);
+        TagData_dealloc(data);
         return NULL;
     }
     Py_DECREF(token);
@@ -1303,15 +1344,15 @@ Tokenizer_really_parse_tag(Tokenizer* self)
                 trash = Tokenizer_pop(self);
                 Py_XDECREF(trash);
             }
-            free(data);
+            TagData_dealloc(data);
             return Tokenizer_fail_route(self);
         }
         else if (this == *">" && can_exit) {
             if (Tokenizer_handle_tag_close_open(self, data, TagCloseOpen)) {
-                free(data);
+                TagData_dealloc(data);
                 return NULL;
             }
-            free(data);
+            TagData_dealloc(data);
             self->topstack->context = LC_TAG_BODY;
             token = PyList_GET_ITEM(self->topstack->stack, 1);
             text = PyObject_GetAttrString(token, "text");
@@ -1329,17 +1370,18 @@ Tokenizer_really_parse_tag(Tokenizer* self)
             return Tokenizer_handle_blacklisted_tag(self);
         }
         else if (this == *"/" && next == *">" && can_exit) {
-            if (Tokenizer_handle_tag_close_open(self, data, TagCloseSelfclose)) {
-                free(data);
+            if (Tokenizer_handle_tag_close_open(self, data,
+                                                TagCloseSelfclose)) {
+                TagData_dealloc(data);
                 return NULL;
             }
-            free(data);
+            TagData_dealloc(data);
             return Tokenizer_pop(self);
         }
         else {
             if (Tokenizer_handle_tag_data(self, data, this) || BAD_ROUTE) {
                 RESET_ROUTE();
-                free(data);
+                TagData_dealloc(data);
                 return NULL;
             }
         }
@@ -1351,7 +1393,7 @@ Tokenizer_really_parse_tag(Tokenizer* self)
     Write a pending tag attribute from data to the stack.
 */
 static int
-Tokenizer_push_tag_buffer(Tokenizer* self, TagOpenData* data)
+Tokenizer_push_tag_buffer(Tokenizer* self, TagData* data)
 {
     PyObject *token, *tokens, *kwargs, *pad_first, *pad_before_eq,
              *pad_after_eq;
@@ -1405,13 +1447,7 @@ Tokenizer_push_tag_buffer(Tokenizer* self, TagOpenData* data)
         return -1;
     }
     Py_DECREF(tokens);
-    Textbuffer_dealloc(data->pad_first);
-    Textbuffer_dealloc(data->pad_before_eq);
-    Textbuffer_dealloc(data->pad_after_eq);
-    data->pad_first = Textbuffer_new();
-    data->pad_before_eq = Textbuffer_new();
-    data->pad_after_eq = Textbuffer_new();
-    if (!data->pad_first || !data->pad_before_eq || !data->pad_after_eq)
+    if (TagData_reset_buffers(data))
         return -1;
     return 0;
 }
@@ -1420,7 +1456,7 @@ Tokenizer_push_tag_buffer(Tokenizer* self, TagOpenData* data)
     Handle all sorts of text data inside of an HTML open tag.
 */
 static int
-Tokenizer_handle_tag_data(Tokenizer* self, TagOpenData* data, Py_UNICODE chunk)
+Tokenizer_handle_tag_data(Tokenizer* self, TagData* data, Py_UNICODE chunk)
 {
     PyObject *trash, *token;
     int first_time, i, is_marker = 0, escaped;
@@ -1509,7 +1545,7 @@ Tokenizer_handle_tag_data(Tokenizer* self, TagOpenData* data, Py_UNICODE chunk)
     Handle whitespace inside of an HTML open tag.
 */
 static int
-Tokenizer_handle_tag_space(Tokenizer* self, TagOpenData* data, Py_UNICODE text)
+Tokenizer_handle_tag_space(Tokenizer* self, TagData* data, Py_UNICODE text)
 {
     int ctx = data->context;
     int end_of_value = (ctx & TAG_ATTR_VALUE &&
@@ -1592,10 +1628,9 @@ Tokenizer_handle_blacklisted_tag(Tokenizer* self)
     Handle the closing of a open tag (<foo>).
 */
 static int
-Tokenizer_handle_tag_close_open(Tokenizer* self, TagOpenData* data,
-                                PyObject* token)
+Tokenizer_handle_tag_close_open(Tokenizer* self, TagData* data, PyObject* cls)
 {
-    PyObject *padding, *kwargs, *tok;
+    PyObject *padding, *kwargs, *token;
 
     if (data->context & (TAG_ATTR_NAME | TAG_ATTR_VALUE)) {
         if (Tokenizer_push_tag_buffer(self, data))
@@ -1611,15 +1646,15 @@ Tokenizer_handle_tag_close_open(Tokenizer* self, TagOpenData* data,
     }
     PyDict_SetItemString(kwargs, "padding", padding);
     Py_DECREF(padding);
-    tok = PyObject_Call(token, NOARGS, kwargs);
+    token = PyObject_Call(cls, NOARGS, kwargs);
     Py_DECREF(kwargs);
-    if (!tok)
+    if (!token)
         return -1;
-    if (Tokenizer_emit(self, tok)) {
-        Py_DECREF(tok);
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
         return -1;
     }
-    Py_DECREF(tok);
+    Py_DECREF(token);
     self->head++;
     return 0;
 }
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 7440924..20934fa 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -181,7 +181,7 @@ typedef struct {
     struct Textbuffer* pad_before_eq;
     struct Textbuffer* pad_after_eq;
     Py_ssize_t reset;
-} TagOpenData;
+} TagData;
 
 typedef struct Textbuffer Textbuffer;
 typedef struct Stack Stack;
@@ -218,11 +218,15 @@ typedef struct {
 
 /* Function prototypes: */
 
-static struct Textbuffer* Textbuffer_new(void);
+static Textbuffer* Textbuffer_new(void);
 static void Textbuffer_dealloc(Textbuffer*);
 static int Textbuffer_write(Textbuffer**, Py_UNICODE);
 static PyObject* Textbuffer_render(Textbuffer*);
 
+static TagData* TagData_new(void);
+static void TagData_dealloc(TagData*);
+static int TagData_reset_buffers(TagData*);
+
 static PyObject* Tokenizer_new(PyTypeObject*, PyObject*, PyObject*);
 static void Tokenizer_dealloc(Tokenizer*);
 static int Tokenizer_init(Tokenizer*, PyObject*, PyObject*);
@@ -257,12 +261,12 @@ static int Tokenizer_parse_entity(Tokenizer*);
 static int Tokenizer_parse_comment(Tokenizer*);
 static int Tokenizer_parse_tag(Tokenizer*);
 static PyObject* Tokenizer_really_parse_tag(Tokenizer*);
-static int Tokenizer_push_tag_buffer(Tokenizer*, TagOpenData*);
-static int Tokenizer_handle_tag_data(Tokenizer*, TagOpenData*, Py_UNICODE);
-static int Tokenizer_handle_tag_space(Tokenizer*, TagOpenData*, Py_UNICODE);
+static int Tokenizer_push_tag_buffer(Tokenizer*, TagData*);
+static int Tokenizer_handle_tag_data(Tokenizer*, TagData*, Py_UNICODE);
+static int Tokenizer_handle_tag_space(Tokenizer*, TagData*, Py_UNICODE);
 static int Tokenizer_handle_tag_text(Tokenizer*, Py_UNICODE);
 static PyObject* Tokenizer_handle_blacklisted_tag(Tokenizer*);
-static int Tokenizer_handle_tag_close_open(Tokenizer*, TagOpenData*, PyObject*);
+static int Tokenizer_handle_tag_close_open(Tokenizer*, TagData*, PyObject*);
 static int Tokenizer_handle_tag_open_close(Tokenizer*);
 static PyObject* Tokenizer_handle_tag_close_close(Tokenizer*);
 static int Tokenizer_handle_invalid_tag_start(Tokenizer*);

From 90ef3206f3b547867e0044bf4ebc7609a2bbab7b Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 23 Jul 2013 17:40:09 -0400
Subject: [PATCH 074/189] Properly handle the first space after a tag name.

---
 mwparserfromhell/parser/tokenizer.c | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index b8d2ad1..36a97b0 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1476,8 +1476,10 @@ Tokenizer_handle_tag_data(Tokenizer* self, TagData* data, Py_UNICODE chunk)
         }
         else if (first_time)
             data->context |= TAG_NOTE_SPACE;
-        else if (Py_UNICODE_ISSPACE(chunk))
+        else if (Py_UNICODE_ISSPACE(chunk)) {
             data->context = TAG_ATTR_READY;
+            return Tokenizer_handle_tag_space(self, data, chunk);
+        }
     }
     else if (Py_UNICODE_ISSPACE(chunk))
         return Tokenizer_handle_tag_space(self, data, chunk);

From 2f55654f01b29fb38400c3140e2208b307d3389a Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 23 Jul 2013 17:51:55 -0400
Subject: [PATCH 075/189] Route failure shouldn't be consumed before it reaches
 Tokenizer_parse_tag().

---
 mwparserfromhell/parser/tokenizer.c | 1 -
 1 file changed, 1 deletion(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 36a97b0..05f0d74 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1380,7 +1380,6 @@ Tokenizer_really_parse_tag(Tokenizer* self)
         }
         else {
             if (Tokenizer_handle_tag_data(self, data, this) || BAD_ROUTE) {
-                RESET_ROUTE();
                 TagData_dealloc(data);
                 return NULL;
             }

From bb4cf03e98eceea8f89c5725c0ae44a07d2efd4b Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 23 Jul 2013 18:02:42 -0400
Subject: [PATCH 076/189] Fix unsafe context definitions.

---
 mwparserfromhell/parser/tokenizer.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 05f0d74..6f7b3ab 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1881,7 +1881,7 @@ static PyObject*
 Tokenizer_handle_end(Tokenizer* self, int context)
 {
     static int fail_contexts = (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK |
-                                LC_HEADING | LC_COMMENT);
+                                LC_HEADING | LC_COMMENT | LC_TAG);
     static int double_fail = (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE);
     PyObject *token, *text, *trash;
     int single;

From 41d66a4a7f3af69e5d612dca3f4e2760724c814f Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 23 Jul 2013 18:11:37 -0400
Subject: [PATCH 077/189] Don't decrement refcount with PyList_SetItem().

---
 mwparserfromhell/parser/tokenizer.c | 1 -
 1 file changed, 1 deletion(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 6f7b3ab..4a0f3f7 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1870,7 +1870,6 @@ Tokenizer_handle_single_tag_end(Tokenizer* self)
         Py_DECREF(token);
         return NULL;
     }
-    Py_DECREF(token);
     return Tokenizer_pop(self);
 }
 

From 9a2556b9fa8218bb2f2571ff6a29ad9202799a10 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 23 Jul 2013 18:21:56 -0400
Subject: [PATCH 078/189] Actually write to buffer with invalid tag starts.

---
 mwparserfromhell/parser/tokenizer.c | 1 +
 1 file changed, 1 insertion(+)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 4a0f3f7..3d6b849 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1775,6 +1775,7 @@ Tokenizer_handle_invalid_tag_start(Tokenizer* self)
                 FAIL_ROUTE();
             break;
         }
+        Textbuffer_write(&buf, this);
         pos++;
     }
     if (!BAD_ROUTE) {

From e83f32134026c433e6e3cc93994f7d2291ef821e Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 26 Jul 2013 23:19:38 -0400
Subject: [PATCH 079/189] Rearrange functions; remove useless prototypes.

---
 mwparserfromhell/parser/tokenizer.c  | 848 ++++++++++++++++-------------------
 mwparserfromhell/parser/tokenizer.h  |  46 --
 mwparserfromhell/parser/tokenizer.py | 260 +++++------
 3 files changed, 525 insertions(+), 629 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 3d6b849..c1d05e5 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -39,8 +39,7 @@ static int heading_level_from_context(int n)
     Call the given function in tag_defs, using 'tag' as a parameter, and return
     its output as a bool.
 */
-static int
-call_tag_def_func(const char* funcname, PyObject* tag)
+static int call_tag_def_func(const char* funcname, PyObject* tag)
 {
     PyObject* func = PyObject_GetAttrString(tag_defs, funcname);
     PyObject* result = PyObject_CallFunctionObjArgs(func, tag, NULL);
@@ -54,8 +53,7 @@ call_tag_def_func(const char* funcname, PyObject* tag)
 /*
     Sanitize the name of a tag so it can be compared with others for equality.
 */
-static PyObject*
-strip_tag_name(PyObject* token)
+static PyObject* strip_tag_name(PyObject* token)
 {
     PyObject *text, *rstripped, *lowered;
 
@@ -71,8 +69,7 @@ strip_tag_name(PyObject* token)
     return lowered;
 }
 
-static Textbuffer*
-Textbuffer_new(void)
+static Textbuffer* Textbuffer_new(void)
 {
     Textbuffer* buffer = malloc(sizeof(Textbuffer));
     if (!buffer) {
@@ -90,8 +87,7 @@ Textbuffer_new(void)
     return buffer;
 }
 
-static void
-Textbuffer_dealloc(Textbuffer* self)
+static void Textbuffer_dealloc(Textbuffer* self)
 {
     Textbuffer* next;
     while (self) {
@@ -105,8 +101,7 @@ Textbuffer_dealloc(Textbuffer* self)
 /*
     Write text to the given textbuffer.
 */
-static int
-Textbuffer_write(Textbuffer** this, Py_UNICODE text)
+static int Textbuffer_write(Textbuffer** this, Py_UNICODE text)
 {
     Textbuffer* self = *this;
     if (self->size == TEXTBUFFER_BLOCKSIZE) {
@@ -124,8 +119,7 @@ Textbuffer_write(Textbuffer** this, Py_UNICODE text)
 /*
     Return the contents of the textbuffer as a Python Unicode object.
 */
-static PyObject*
-Textbuffer_render(Textbuffer* self)
+static PyObject* Textbuffer_render(Textbuffer* self)
 {
     PyObject *result = PyUnicode_FromUnicode(self->data, self->size);
     PyObject *left, *concat;
@@ -140,8 +134,7 @@ Textbuffer_render(Textbuffer* self)
     return result;
 }
 
-static TagData*
-TagData_new(void)
+static TagData* TagData_new(void)
 {
     TagData *self = malloc(sizeof(TagData));
 
@@ -164,8 +157,7 @@ TagData_new(void)
     return self;
 }
 
-static void
-TagData_dealloc(TagData* self)
+static void TagData_dealloc(TagData* self)
 {
     #define DEALLOC_BUFFER(name) \
         if (name)                \
@@ -177,8 +169,7 @@ TagData_dealloc(TagData* self)
     free(self);
 }
 
-static int
-TagData_reset_buffers(TagData* self)
+static int TagData_reset_buffers(TagData* self)
 {
     #define RESET_BUFFER(name)    \
         Textbuffer_dealloc(name); \
@@ -199,8 +190,7 @@ Tokenizer_new(PyTypeObject* type, PyObject* args, PyObject* kwds)
     return (PyObject*) self;
 }
 
-static void
-Tokenizer_dealloc(Tokenizer* self)
+static void Tokenizer_dealloc(Tokenizer* self)
 {
     Stack *this = self->topstack, *next;
     Py_XDECREF(self->text);
@@ -215,8 +205,7 @@ Tokenizer_dealloc(Tokenizer* self)
     self->ob_type->tp_free((PyObject*) self);
 }
 
-static int
-Tokenizer_init(Tokenizer* self, PyObject* args, PyObject* kwds)
+static int Tokenizer_init(Tokenizer* self, PyObject* args, PyObject* kwds)
 {
     static char* kwlist[] = {NULL};
     if (!PyArg_ParseTupleAndKeywords(args, kwds, "", kwlist))
@@ -233,8 +222,7 @@ Tokenizer_init(Tokenizer* self, PyObject* args, PyObject* kwds)
 /*
     Add a new token stack, context, and textbuffer to the list.
 */
-static int
-Tokenizer_push(Tokenizer* self, int context)
+static int Tokenizer_push(Tokenizer* self, int context)
 {
     Stack* top = malloc(sizeof(Stack));
     if (!top) {
@@ -256,8 +244,7 @@ Tokenizer_push(Tokenizer* self, int context)
 /*
     Push the textbuffer onto the stack as a Text node and clear it.
 */
-static int
-Tokenizer_push_textbuffer(Tokenizer* self)
+static int Tokenizer_push_textbuffer(Tokenizer* self)
 {
     PyObject *text, *kwargs, *token;
     Textbuffer* buffer = self->topstack->textbuffer;
@@ -292,8 +279,7 @@ Tokenizer_push_textbuffer(Tokenizer* self)
 /*
     Pop and deallocate the top token stack/context/textbuffer.
 */
-static void
-Tokenizer_delete_top_of_stack(Tokenizer* self)
+static void Tokenizer_delete_top_of_stack(Tokenizer* self)
 {
     Stack* top = self->topstack;
     Py_DECREF(top->stack);
@@ -306,8 +292,7 @@ Tokenizer_delete_top_of_stack(Tokenizer* self)
 /*
     Pop the current stack/context/textbuffer, returing the stack.
 */
-static PyObject*
-Tokenizer_pop(Tokenizer* self)
+static PyObject* Tokenizer_pop(Tokenizer* self)
 {
     PyObject* stack;
     if (Tokenizer_push_textbuffer(self))
@@ -322,8 +307,7 @@ Tokenizer_pop(Tokenizer* self)
     Pop the current stack/context/textbuffer, returing the stack. We will also
     replace the underlying stack's context with the current stack's.
 */
-static PyObject*
-Tokenizer_pop_keeping_context(Tokenizer* self)
+static PyObject* Tokenizer_pop_keeping_context(Tokenizer* self)
 {
     PyObject* stack;
     int context;
@@ -341,8 +325,7 @@ Tokenizer_pop_keeping_context(Tokenizer* self)
     Fail the current tokenization route. Discards the current
     stack/context/textbuffer and raises a BadRoute exception.
 */
-static void*
-Tokenizer_fail_route(Tokenizer* self)
+static void* Tokenizer_fail_route(Tokenizer* self)
 {
     PyObject* stack = Tokenizer_pop(self);
     Py_XDECREF(stack);
@@ -353,8 +336,7 @@ Tokenizer_fail_route(Tokenizer* self)
 /*
     Write a token to the end of the current token stack.
 */
-static int
-Tokenizer_emit(Tokenizer* self, PyObject* token)
+static int Tokenizer_emit(Tokenizer* self, PyObject* token)
 {
     if (Tokenizer_push_textbuffer(self))
         return -1;
@@ -366,8 +348,7 @@ Tokenizer_emit(Tokenizer* self, PyObject* token)
 /*
     Write a token to the beginning of the current token stack.
 */
-static int
-Tokenizer_emit_first(Tokenizer* self, PyObject* token)
+static int Tokenizer_emit_first(Tokenizer* self, PyObject* token)
 {
     if (Tokenizer_push_textbuffer(self))
         return -1;
@@ -379,8 +360,7 @@ Tokenizer_emit_first(Tokenizer* self, PyObject* token)
 /*
     Write text to the current textbuffer.
 */
-static int
-Tokenizer_emit_text(Tokenizer* self, Py_UNICODE text)
+static int Tokenizer_emit_text(Tokenizer* self, Py_UNICODE text)
 {
     return Textbuffer_write(&(self->topstack->textbuffer), text);
 }
@@ -388,8 +368,7 @@ Tokenizer_emit_text(Tokenizer* self, Py_UNICODE text)
 /*
     Write a series of tokens to the current stack at once.
 */
-static int
-Tokenizer_emit_all(Tokenizer* self, PyObject* tokenlist)
+static int Tokenizer_emit_all(Tokenizer* self, PyObject* tokenlist)
 {
     int pushed = 0;
     PyObject *stack, *token, *left, *right, *text;
@@ -447,8 +426,7 @@ Tokenizer_emit_all(Tokenizer* self, PyObject* tokenlist)
     Pop the current stack, write text, and then write the stack. 'text' is a
     NULL-terminated array of chars.
 */
-static int
-Tokenizer_emit_text_then_stack(Tokenizer* self, const char* text)
+static int Tokenizer_emit_text_then_stack(Tokenizer* self, const char* text)
 {
     PyObject* stack = Tokenizer_pop(self);
     int i = 0;
@@ -477,8 +455,7 @@ Tokenizer_emit_text_then_stack(Tokenizer* self, const char* text)
 /*
     Read the value at a relative point in the wikicode, forwards.
 */
-static PyObject*
-Tokenizer_read(Tokenizer* self, Py_ssize_t delta)
+static PyObject* Tokenizer_read(Tokenizer* self, Py_ssize_t delta)
 {
     Py_ssize_t index = self->head + delta;
     if (index >= self->length)
@@ -489,8 +466,7 @@ Tokenizer_read(Tokenizer* self, Py_ssize_t delta)
 /*
     Read the value at a relative point in the wikicode, backwards.
 */
-static PyObject*
-Tokenizer_read_backwards(Tokenizer* self, Py_ssize_t delta)
+static PyObject* Tokenizer_read_backwards(Tokenizer* self, Py_ssize_t delta)
 {
     Py_ssize_t index;
     if (delta > self->head)
@@ -500,82 +476,9 @@ Tokenizer_read_backwards(Tokenizer* self, Py_ssize_t delta)
 }
 
 /*
-    Parse a template or argument at the head of the wikicode string.
-*/
-static int
-Tokenizer_parse_template_or_argument(Tokenizer* self)
-{
-    unsigned int braces = 2, i;
-    PyObject *tokenlist;
-
-    self->head += 2;
-    while (Tokenizer_READ(self, 0) == *"{" && braces < MAX_BRACES) {
-        self->head++;
-        braces++;
-    }
-    if (Tokenizer_push(self, 0))
-        return -1;
-    while (braces) {
-        if (braces == 1) {
-            if (Tokenizer_emit_text_then_stack(self, "{"))
-                return -1;
-            return 0;
-        }
-        if (braces == 2) {
-            if (Tokenizer_parse_template(self))
-                return -1;
-            if (BAD_ROUTE) {
-                RESET_ROUTE();
-                if (Tokenizer_emit_text_then_stack(self, "{{"))
-                    return -1;
-                return 0;
-            }
-            break;
-        }
-        if (Tokenizer_parse_argument(self))
-            return -1;
-        if (BAD_ROUTE) {
-            RESET_ROUTE();
-            if (Tokenizer_parse_template(self))
-                return -1;
-            if (BAD_ROUTE) {
-                char text[MAX_BRACES + 1];
-                RESET_ROUTE();
-                for (i = 0; i < braces; i++) text[i] = *"{";
-                text[braces] = *"";
-                if (Tokenizer_emit_text_then_stack(self, text)) {
-                    Py_XDECREF(text);
-                    return -1;
-                }
-                Py_XDECREF(text);
-                return 0;
-            }
-            else
-                braces -= 2;
-        }
-        else
-            braces -= 3;
-        if (braces)
-            self->head++;
-    }
-    tokenlist = Tokenizer_pop(self);
-    if (!tokenlist)
-        return -1;
-    if (Tokenizer_emit_all(self, tokenlist)) {
-        Py_DECREF(tokenlist);
-        return -1;
-    }
-    Py_DECREF(tokenlist);
-    if (self->topstack->context & LC_FAIL_NEXT)
-        self->topstack->context ^= LC_FAIL_NEXT;
-    return 0;
-}
-
-/*
     Parse a template at the head of the wikicode string.
 */
-static int
-Tokenizer_parse_template(Tokenizer* self)
+static int Tokenizer_parse_template(Tokenizer* self)
 {
     PyObject *template, *token;
     Py_ssize_t reset = self->head;
@@ -617,8 +520,7 @@ Tokenizer_parse_template(Tokenizer* self)
 /*
     Parse an argument at the head of the wikicode string.
 */
-static int
-Tokenizer_parse_argument(Tokenizer* self)
+static int Tokenizer_parse_argument(Tokenizer* self)
 {
     PyObject *argument, *token;
     Py_ssize_t reset = self->head;
@@ -658,10 +560,80 @@ Tokenizer_parse_argument(Tokenizer* self)
 }
 
 /*
+    Parse a template or argument at the head of the wikicode string.
+*/
+static int Tokenizer_parse_template_or_argument(Tokenizer* self)
+{
+    unsigned int braces = 2, i;
+    PyObject *tokenlist;
+
+    self->head += 2;
+    while (Tokenizer_READ(self, 0) == *"{" && braces < MAX_BRACES) {
+        self->head++;
+        braces++;
+    }
+    if (Tokenizer_push(self, 0))
+        return -1;
+    while (braces) {
+        if (braces == 1) {
+            if (Tokenizer_emit_text_then_stack(self, "{"))
+                return -1;
+            return 0;
+        }
+        if (braces == 2) {
+            if (Tokenizer_parse_template(self))
+                return -1;
+            if (BAD_ROUTE) {
+                RESET_ROUTE();
+                if (Tokenizer_emit_text_then_stack(self, "{{"))
+                    return -1;
+                return 0;
+            }
+            break;
+        }
+        if (Tokenizer_parse_argument(self))
+            return -1;
+        if (BAD_ROUTE) {
+            RESET_ROUTE();
+            if (Tokenizer_parse_template(self))
+                return -1;
+            if (BAD_ROUTE) {
+                char text[MAX_BRACES + 1];
+                RESET_ROUTE();
+                for (i = 0; i < braces; i++) text[i] = *"{";
+                text[braces] = *"";
+                if (Tokenizer_emit_text_then_stack(self, text)) {
+                    Py_XDECREF(text);
+                    return -1;
+                }
+                Py_XDECREF(text);
+                return 0;
+            }
+            else
+                braces -= 2;
+        }
+        else
+            braces -= 3;
+        if (braces)
+            self->head++;
+    }
+    tokenlist = Tokenizer_pop(self);
+    if (!tokenlist)
+        return -1;
+    if (Tokenizer_emit_all(self, tokenlist)) {
+        Py_DECREF(tokenlist);
+        return -1;
+    }
+    Py_DECREF(tokenlist);
+    if (self->topstack->context & LC_FAIL_NEXT)
+        self->topstack->context ^= LC_FAIL_NEXT;
+    return 0;
+}
+
+/*
     Handle a template parameter at the head of the string.
 */
-static int
-Tokenizer_handle_template_param(Tokenizer* self)
+static int Tokenizer_handle_template_param(Tokenizer* self)
 {
     PyObject *stack, *token;
 
@@ -698,8 +670,7 @@ Tokenizer_handle_template_param(Tokenizer* self)
 /*
     Handle a template parameter's value at the head of the string.
 */
-static int
-Tokenizer_handle_template_param_value(Tokenizer* self)
+static int Tokenizer_handle_template_param_value(Tokenizer* self)
 {
     PyObject *stack, *token;
 
@@ -727,8 +698,7 @@ Tokenizer_handle_template_param_value(Tokenizer* self)
 /*
     Handle the end of a template at the head of the string.
 */
-static PyObject*
-Tokenizer_handle_template_end(Tokenizer* self)
+static PyObject* Tokenizer_handle_template_end(Tokenizer* self)
 {
     PyObject* stack;
 
@@ -750,8 +720,7 @@ Tokenizer_handle_template_end(Tokenizer* self)
 /*
     Handle the separator between an argument's name and default.
 */
-static int
-Tokenizer_handle_argument_separator(Tokenizer* self)
+static int Tokenizer_handle_argument_separator(Tokenizer* self)
 {
     PyObject* token;
     self->topstack->context ^= LC_ARGUMENT_NAME;
@@ -770,8 +739,7 @@ Tokenizer_handle_argument_separator(Tokenizer* self)
 /*
     Handle the end of an argument at the head of the string.
 */
-static PyObject*
-Tokenizer_handle_argument_end(Tokenizer* self)
+static PyObject* Tokenizer_handle_argument_end(Tokenizer* self)
 {
     PyObject* stack = Tokenizer_pop(self);
     self->head += 2;
@@ -781,8 +749,7 @@ Tokenizer_handle_argument_end(Tokenizer* self)
 /*
     Parse an internal wikilink at the head of the wikicode string.
 */
-static int
-Tokenizer_parse_wikilink(Tokenizer* self)
+static int Tokenizer_parse_wikilink(Tokenizer* self)
 {
     Py_ssize_t reset;
     PyObject *wikilink, *token;
@@ -834,8 +801,7 @@ Tokenizer_parse_wikilink(Tokenizer* self)
 /*
     Handle the separator between a wikilink's title and its text.
 */
-static int
-Tokenizer_handle_wikilink_separator(Tokenizer* self)
+static int Tokenizer_handle_wikilink_separator(Tokenizer* self)
 {
     PyObject* token;
     self->topstack->context ^= LC_WIKILINK_TITLE;
@@ -854,8 +820,7 @@ Tokenizer_handle_wikilink_separator(Tokenizer* self)
 /*
     Handle the end of a wikilink at the head of the string.
 */
-static PyObject*
-Tokenizer_handle_wikilink_end(Tokenizer* self)
+static PyObject* Tokenizer_handle_wikilink_end(Tokenizer* self)
 {
     PyObject* stack = Tokenizer_pop(self);
     self->head += 1;
@@ -865,8 +830,7 @@ Tokenizer_handle_wikilink_end(Tokenizer* self)
 /*
     Parse a section heading at the head of the wikicode string.
 */
-static int
-Tokenizer_parse_heading(Tokenizer* self)
+static int Tokenizer_parse_heading(Tokenizer* self)
 {
     Py_ssize_t reset = self->head;
     int best = 1, i, context, diff;
@@ -952,8 +916,7 @@ Tokenizer_parse_heading(Tokenizer* self)
 /*
     Handle the end of a section heading at the head of the string.
 */
-static HeadingData*
-Tokenizer_handle_heading_end(Tokenizer* self)
+static HeadingData* Tokenizer_handle_heading_end(Tokenizer* self)
 {
     Py_ssize_t reset = self->head, best;
     int i, current, level, diff;
@@ -1014,8 +977,7 @@ Tokenizer_handle_heading_end(Tokenizer* self)
 /*
     Actually parse an HTML entity and ensure that it is valid.
 */
-static int
-Tokenizer_really_parse_entity(Tokenizer* self)
+static int Tokenizer_really_parse_entity(Tokenizer* self)
 {
     PyObject *token, *kwargs, *textobj;
     Py_UNICODE this;
@@ -1188,8 +1150,7 @@ Tokenizer_really_parse_entity(Tokenizer* self)
 /*
     Parse an HTML entity at the head of the wikicode string.
 */
-static int
-Tokenizer_parse_entity(Tokenizer* self)
+static int Tokenizer_parse_entity(Tokenizer* self)
 {
     Py_ssize_t reset = self->head;
     PyObject *tokenlist;
@@ -1219,8 +1180,7 @@ Tokenizer_parse_entity(Tokenizer* self)
 /*
     Parse an HTML comment at the head of the wikicode string.
 */
-static int
-Tokenizer_parse_comment(Tokenizer* self)
+static int Tokenizer_parse_comment(Tokenizer* self)
 {
     Py_ssize_t reset = self->head + 3;
     PyObject *token, *comment;
@@ -1275,180 +1235,123 @@ Tokenizer_parse_comment(Tokenizer* self)
 }
 
 /*
-    Parse an HTML tag at the head of the wikicode string.
+    Write a pending tag attribute from data to the stack.
 */
-static int
-Tokenizer_parse_tag(Tokenizer* self)
+static int Tokenizer_push_tag_buffer(Tokenizer* self, TagData* data)
 {
-    Py_ssize_t reset = self->head;
-    PyObject* tag;
+    PyObject *token, *tokens, *kwargs, *pad_first, *pad_before_eq,
+             *pad_after_eq;
 
-    self->head++;
-    tag = Tokenizer_really_parse_tag(self);
-    if (BAD_ROUTE) {
-        RESET_ROUTE();
-        self->head = reset;
-        return Tokenizer_emit_text(self, *"<");
+    if (data->context & TAG_QUOTED) {
+        token = PyObject_CallObject(TagAttrQuote, NULL);
+        if (!token)
+            return -1;
+        if (Tokenizer_emit_first(self, token)) {
+            Py_DECREF(token);
+            return -1;
+        }
+        Py_DECREF(token);
+        tokens = Tokenizer_pop(self);
+        if (!tokens)
+            return -1;
+        if (Tokenizer_emit_all(self, tokens)) {
+            Py_DECREF(tokens);
+            return -1;
+        }
+        Py_DECREF(tokens);
     }
-    if (!tag) {
+    pad_first = Textbuffer_render(data->pad_first);
+    pad_before_eq = Textbuffer_render(data->pad_before_eq);
+    pad_after_eq = Textbuffer_render(data->pad_after_eq);
+    if (!pad_first || !pad_before_eq || !pad_after_eq)
+        return -1;
+    kwargs = PyDict_New();
+    if (!kwargs)
+        return -1;
+    PyDict_SetItemString(kwargs, "pad_first", pad_first);
+    PyDict_SetItemString(kwargs, "pad_before_eq", pad_before_eq);
+    PyDict_SetItemString(kwargs, "pad_after_eq", pad_after_eq);
+    Py_DECREF(pad_first);
+    Py_DECREF(pad_before_eq);
+    Py_DECREF(pad_after_eq);
+    token = PyObject_Call(TagAttrStart, NOARGS, kwargs);
+    Py_DECREF(kwargs);
+    if (!token)
+        return -1;
+    if (Tokenizer_emit_first(self, token)) {
+        Py_DECREF(token);
         return -1;
     }
-    Tokenizer_emit_all(self, tag);
-    Py_DECREF(tag);
+    Py_DECREF(token);
+    tokens = Tokenizer_pop(self);
+    if (!tokens)
+        return -1;
+    if (Tokenizer_emit_all(self, tokens)) {
+        Py_DECREF(tokens);
+        return -1;
+    }
+    Py_DECREF(tokens);
+    if (TagData_reset_buffers(data))
+        return -1;
     return 0;
 }
 
 /*
-    Actually parse an HTML tag, starting with the open (<foo>).
+    Handle whitespace inside of an HTML open tag.
 */
-static PyObject*
-Tokenizer_really_parse_tag(Tokenizer* self)
+static int
+Tokenizer_handle_tag_space(Tokenizer* self, TagData* data, Py_UNICODE text)
 {
-    TagData *data = TagData_new();
-    PyObject *token, *text, *trash;
-    Py_UNICODE this, next;
-    int can_exit;
+    int ctx = data->context;
+    int end_of_value = (ctx & TAG_ATTR_VALUE &&
+                        !(ctx & (TAG_QUOTED | TAG_NOTE_QUOTE)));
 
-    if (!data)
-        return NULL;
-    if (Tokenizer_push(self, LC_TAG_OPEN)) {
-        TagData_dealloc(data);
-        return NULL;
-    }
-    token = PyObject_CallObject(TagOpenOpen, NULL);
-    if (!token) {
-        TagData_dealloc(data);
-        return NULL;
+    if (end_of_value || (ctx & TAG_QUOTED && ctx & TAG_NOTE_SPACE)) {
+        if (Tokenizer_push_tag_buffer(self, data))
+            return -1;
+        data->context = TAG_ATTR_READY;
     }
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
-        TagData_dealloc(data);
-        return NULL;
+    else if (ctx & TAG_NOTE_SPACE)
+        data->context = TAG_ATTR_READY;
+    else if (ctx & TAG_ATTR_NAME) {
+        data->context |= TAG_NOTE_EQUALS;
+        if (Textbuffer_write(&(data->pad_before_eq), text))
+            return -1;
     }
-    Py_DECREF(token);
-    while (1) {
-        this = Tokenizer_READ(self, 0);
-        next = Tokenizer_READ(self, 1);
-        can_exit = (!(data->context & (TAG_QUOTED | TAG_NAME)) ||
-                    data->context & TAG_NOTE_SPACE);
-        if (this == *"") {
-            if (self->topstack->context & LC_TAG_ATTR) {
-                if (data->context & TAG_QUOTED) {
-                    // Unclosed attribute quote: reset, don't die
-                    data->context = TAG_ATTR_VALUE;
-                    trash = Tokenizer_pop(self);
-                    Py_XDECREF(trash);
-                    self->head = data->reset;
-                    continue;
-                }
-                trash = Tokenizer_pop(self);
-                Py_XDECREF(trash);
-            }
-            TagData_dealloc(data);
-            return Tokenizer_fail_route(self);
-        }
-        else if (this == *">" && can_exit) {
-            if (Tokenizer_handle_tag_close_open(self, data, TagCloseOpen)) {
-                TagData_dealloc(data);
-                return NULL;
-            }
-            TagData_dealloc(data);
-            self->topstack->context = LC_TAG_BODY;
-            token = PyList_GET_ITEM(self->topstack->stack, 1);
-            text = PyObject_GetAttrString(token, "text");
-            if (!text)
-                return NULL;
-            if (IS_SINGLE_ONLY(text)) {
-                Py_DECREF(text);
-                return Tokenizer_handle_single_only_tag_end(self);
-            }
-            if (IS_PARSABLE(text)) {
-                Py_DECREF(text);
-                return Tokenizer_parse(self, 0, 0);
-            }
-            Py_DECREF(text);
-            return Tokenizer_handle_blacklisted_tag(self);
-        }
-        else if (this == *"/" && next == *">" && can_exit) {
-            if (Tokenizer_handle_tag_close_open(self, data,
-                                                TagCloseSelfclose)) {
-                TagData_dealloc(data);
-                return NULL;
-            }
-            TagData_dealloc(data);
-            return Tokenizer_pop(self);
-        }
-        else {
-            if (Tokenizer_handle_tag_data(self, data, this) || BAD_ROUTE) {
-                TagData_dealloc(data);
-                return NULL;
-            }
-        }
-        self->head++;
+    if (ctx & TAG_QUOTED && !(ctx & TAG_NOTE_SPACE)) {
+        if (Tokenizer_emit_text(self, text))
+            return -1;
     }
+    else if (data->context & TAG_ATTR_READY)
+        return Textbuffer_write(&(data->pad_first), text);
+    else if (data->context & TAG_ATTR_VALUE)
+        return Textbuffer_write(&(data->pad_after_eq), text);
+    return 0;
 }
 
 /*
-    Write a pending tag attribute from data to the stack.
+    Handle regular text inside of an HTML open tag.
 */
-static int
-Tokenizer_push_tag_buffer(Tokenizer* self, TagData* data)
+static int Tokenizer_handle_tag_text(Tokenizer* self, Py_UNICODE text)
 {
-    PyObject *token, *tokens, *kwargs, *pad_first, *pad_before_eq,
-             *pad_after_eq;
+    Py_UNICODE next = Tokenizer_READ(self, 1);
+    int i, is_marker = 0;
 
-    if (data->context & TAG_QUOTED) {
-        token = PyObject_CallObject(TagAttrQuote, NULL);
-        if (!token)
-            return -1;
-        if (Tokenizer_emit_first(self, token)) {
-            Py_DECREF(token);
-            return -1;
-        }
-        Py_DECREF(token);
-        tokens = Tokenizer_pop(self);
-        if (!tokens)
-            return -1;
-        if (Tokenizer_emit_all(self, tokens)) {
-            Py_DECREF(tokens);
-            return -1;
+    for (i = 0; i < NUM_MARKERS; i++) {
+        if (*MARKERS[i] == text) {
+            is_marker = 1;
+            break;
         }
-        Py_DECREF(tokens);
-    }
-    pad_first = Textbuffer_render(data->pad_first);
-    pad_before_eq = Textbuffer_render(data->pad_before_eq);
-    pad_after_eq = Textbuffer_render(data->pad_after_eq);
-    if (!pad_first || !pad_before_eq || !pad_after_eq)
-        return -1;
-    kwargs = PyDict_New();
-    if (!kwargs)
-        return -1;
-    PyDict_SetItemString(kwargs, "pad_first", pad_first);
-    PyDict_SetItemString(kwargs, "pad_before_eq", pad_before_eq);
-    PyDict_SetItemString(kwargs, "pad_after_eq", pad_after_eq);
-    Py_DECREF(pad_first);
-    Py_DECREF(pad_before_eq);
-    Py_DECREF(pad_after_eq);
-    token = PyObject_Call(TagAttrStart, NOARGS, kwargs);
-    Py_DECREF(kwargs);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit_first(self, token)) {
-        Py_DECREF(token);
-        return -1;
-    }
-    Py_DECREF(token);
-    tokens = Tokenizer_pop(self);
-    if (!tokens)
-        return -1;
-    if (Tokenizer_emit_all(self, tokens)) {
-        Py_DECREF(tokens);
-        return -1;
     }
-    Py_DECREF(tokens);
-    if (TagData_reset_buffers(data))
-        return -1;
-    return 0;
+    if (!is_marker || !Tokenizer_CAN_RECURSE(self))
+        return Tokenizer_emit_text(self, text);
+    else if (text == next && next == *"{")
+        return Tokenizer_parse_template_or_argument(self);
+    else if (text == next && next == *"[")
+        return Tokenizer_parse_wikilink(self);
+    else if (text == *"<")
+        return Tokenizer_parse_tag(self);
+    return Tokenizer_emit_text(self, text);
 }
 
 /*
@@ -1543,89 +1446,6 @@ Tokenizer_handle_tag_data(Tokenizer* self, TagData* data, Py_UNICODE chunk)
 }
 
 /*
-    Handle whitespace inside of an HTML open tag.
-*/
-static int
-Tokenizer_handle_tag_space(Tokenizer* self, TagData* data, Py_UNICODE text)
-{
-    int ctx = data->context;
-    int end_of_value = (ctx & TAG_ATTR_VALUE &&
-                        !(ctx & (TAG_QUOTED | TAG_NOTE_QUOTE)));
-
-    if (end_of_value || (ctx & TAG_QUOTED && ctx & TAG_NOTE_SPACE)) {
-        if (Tokenizer_push_tag_buffer(self, data))
-            return -1;
-        data->context = TAG_ATTR_READY;
-    }
-    else if (ctx & TAG_NOTE_SPACE)
-        data->context = TAG_ATTR_READY;
-    else if (ctx & TAG_ATTR_NAME) {
-        data->context |= TAG_NOTE_EQUALS;
-        if (Textbuffer_write(&(data->pad_before_eq), text))
-            return -1;
-    }
-    if (ctx & TAG_QUOTED && !(ctx & TAG_NOTE_SPACE)) {
-        if (Tokenizer_emit_text(self, text))
-            return -1;
-    }
-    else if (data->context & TAG_ATTR_READY)
-        return Textbuffer_write(&(data->pad_first), text);
-    else if (data->context & TAG_ATTR_VALUE)
-        return Textbuffer_write(&(data->pad_after_eq), text);
-    return 0;
-}
-
-/*
-    Handle regular text inside of an HTML open tag.
-*/
-static int
-Tokenizer_handle_tag_text(Tokenizer* self, Py_UNICODE text)
-{
-    Py_UNICODE next = Tokenizer_READ(self, 1);
-    int i, is_marker = 0;
-
-    for (i = 0; i < NUM_MARKERS; i++) {
-        if (*MARKERS[i] == text) {
-            is_marker = 1;
-            break;
-        }
-    }
-    if (!is_marker || !Tokenizer_CAN_RECURSE(self))
-        return Tokenizer_emit_text(self, text);
-    else if (text == next && next == *"{")
-        return Tokenizer_parse_template_or_argument(self);
-    else if (text == next && next == *"[")
-        return Tokenizer_parse_wikilink(self);
-    else if (text == *"<")
-        return Tokenizer_parse_tag(self);
-    return Tokenizer_emit_text(self, text);
-}
-
-/*
-    Handle the body of an HTML tag that is parser-blacklisted.
-*/
-static PyObject*
-Tokenizer_handle_blacklisted_tag(Tokenizer* self)
-{
-    Py_UNICODE this, next;
-
-    while (1) {
-        this = Tokenizer_READ(self, 0);
-        next = Tokenizer_READ(self, 1);
-        self->head++;
-        if (this == *"")
-            return Tokenizer_fail_route(self);
-        else if (this == *"<" && next == *"/") {
-            if (Tokenizer_handle_tag_open_close(self))
-                return NULL;
-            return Tokenizer_parse(self, 0, 0);
-        }
-        if (Tokenizer_emit_text(self, this))
-            return NULL;
-    }
-}
-
-/*
     Handle the closing of a open tag (<foo>).
 */
 static int
@@ -1663,8 +1483,7 @@ Tokenizer_handle_tag_close_open(Tokenizer* self, TagData* data, PyObject* cls)
 /*
     Handle the opening of a closing tag (</foo>).
 */
-static int
-Tokenizer_handle_tag_open_close(Tokenizer* self)
+static int Tokenizer_handle_tag_open_close(Tokenizer* self)
 {
     PyObject* token;
 
@@ -1685,8 +1504,7 @@ Tokenizer_handle_tag_open_close(Tokenizer* self)
 /*
     Handle the ending of a closing tag (</foo>).
 */
-static PyObject*
-Tokenizer_handle_tag_close_close(Tokenizer* self)
+static PyObject* Tokenizer_handle_tag_close_close(Tokenizer* self)
 {
     PyObject *closing, *first, *so, *sc, *token;
     int valid = 1;
@@ -1741,65 +1559,32 @@ Tokenizer_handle_tag_close_close(Tokenizer* self)
 }
 
 /*
-    Handle the (possible) start of an implicitly closing single tag.
+    Handle the body of an HTML tag that is parser-blacklisted.
 */
-static int
-Tokenizer_handle_invalid_tag_start(Tokenizer* self)
+static PyObject* Tokenizer_handle_blacklisted_tag(Tokenizer* self)
 {
-    Py_ssize_t reset = self->head + 1, pos = 0;
-    Textbuffer* buf;
-    PyObject *name, *tag;
-    Py_UNICODE this;
-    int is_marker, i;
+    Py_UNICODE this, next;
 
-    self->head += 2;
-    buf = Textbuffer_new();
-    if (!buf)
-        return -1;
     while (1) {
-        this = Tokenizer_READ(self, pos);
-        is_marker = 0;
-        for (i = 0; i < NUM_MARKERS; i++) {
-            if (*MARKERS[i] == this) {
-                is_marker = 1;
-                break;
-            }
-        }
-        if (is_marker) {
-            name = Textbuffer_render(buf);
-            if (!name) {
-                Textbuffer_dealloc(buf);
-                return -1;
-            }
-            if (!IS_SINGLE_ONLY(name))
-                FAIL_ROUTE();
-            break;
+        this = Tokenizer_READ(self, 0);
+        next = Tokenizer_READ(self, 1);
+        self->head++;
+        if (this == *"")
+            return Tokenizer_fail_route(self);
+        else if (this == *"<" && next == *"/") {
+            if (Tokenizer_handle_tag_open_close(self))
+                return NULL;
+            return Tokenizer_parse(self, 0, 0);
         }
-        Textbuffer_write(&buf, this);
-        pos++;
-    }
-    if (!BAD_ROUTE) {
-        tag = Tokenizer_really_parse_tag(self);
-        if (!tag)
-            return -1;
-    }
-    if (BAD_ROUTE) {
-        RESET_ROUTE();
-        self->head = reset;
-        return (Tokenizer_emit_text(self, *"<") ||
-                Tokenizer_emit_text(self, *"/"));
+        if (Tokenizer_emit_text(self, this))
+            return NULL;
     }
-    // Set invalid=True flag of TagOpenOpen
-    if (PyObject_SetAttrString(PyList_GET_ITEM(tag, 0), "invalid", Py_True))
-        return -1;
-    return Tokenizer_emit_all(self, tag);
 }
 
 /*
     Handle the end of an implicitly closing single-only HTML tag.
 */
-static PyObject*
-Tokenizer_handle_single_only_tag_end(Tokenizer* self)
+static PyObject* Tokenizer_handle_single_only_tag_end(Tokenizer* self)
 {
     PyObject *top, *padding, *kwargs, *token;
 
@@ -1834,8 +1619,7 @@ Tokenizer_handle_single_only_tag_end(Tokenizer* self)
 /*
     Handle the stream end when inside a single-supporting HTML tag.
 */
-static PyObject*
-Tokenizer_handle_single_tag_end(Tokenizer* self)
+static PyObject* Tokenizer_handle_single_tag_end(Tokenizer* self)
 {
     PyObject *token = 0, *padding, *kwargs;
     Py_ssize_t len, index;
@@ -1875,10 +1659,175 @@ Tokenizer_handle_single_tag_end(Tokenizer* self)
 }
 
 /*
+    Actually parse an HTML tag, starting with the open (<foo>).
+*/
+static PyObject* Tokenizer_really_parse_tag(Tokenizer* self)
+{
+    TagData *data = TagData_new();
+    PyObject *token, *text, *trash;
+    Py_UNICODE this, next;
+    int can_exit;
+
+    if (!data)
+        return NULL;
+    if (Tokenizer_push(self, LC_TAG_OPEN)) {
+        TagData_dealloc(data);
+        return NULL;
+    }
+    token = PyObject_CallObject(TagOpenOpen, NULL);
+    if (!token) {
+        TagData_dealloc(data);
+        return NULL;
+    }
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
+        TagData_dealloc(data);
+        return NULL;
+    }
+    Py_DECREF(token);
+    while (1) {
+        this = Tokenizer_READ(self, 0);
+        next = Tokenizer_READ(self, 1);
+        can_exit = (!(data->context & (TAG_QUOTED | TAG_NAME)) ||
+                    data->context & TAG_NOTE_SPACE);
+        if (this == *"") {
+            if (self->topstack->context & LC_TAG_ATTR) {
+                if (data->context & TAG_QUOTED) {
+                    // Unclosed attribute quote: reset, don't die
+                    data->context = TAG_ATTR_VALUE;
+                    trash = Tokenizer_pop(self);
+                    Py_XDECREF(trash);
+                    self->head = data->reset;
+                    continue;
+                }
+                trash = Tokenizer_pop(self);
+                Py_XDECREF(trash);
+            }
+            TagData_dealloc(data);
+            return Tokenizer_fail_route(self);
+        }
+        else if (this == *">" && can_exit) {
+            if (Tokenizer_handle_tag_close_open(self, data, TagCloseOpen)) {
+                TagData_dealloc(data);
+                return NULL;
+            }
+            TagData_dealloc(data);
+            self->topstack->context = LC_TAG_BODY;
+            token = PyList_GET_ITEM(self->topstack->stack, 1);
+            text = PyObject_GetAttrString(token, "text");
+            if (!text)
+                return NULL;
+            if (IS_SINGLE_ONLY(text)) {
+                Py_DECREF(text);
+                return Tokenizer_handle_single_only_tag_end(self);
+            }
+            if (IS_PARSABLE(text)) {
+                Py_DECREF(text);
+                return Tokenizer_parse(self, 0, 0);
+            }
+            Py_DECREF(text);
+            return Tokenizer_handle_blacklisted_tag(self);
+        }
+        else if (this == *"/" && next == *">" && can_exit) {
+            if (Tokenizer_handle_tag_close_open(self, data,
+                                                TagCloseSelfclose)) {
+                TagData_dealloc(data);
+                return NULL;
+            }
+            TagData_dealloc(data);
+            return Tokenizer_pop(self);
+        }
+        else {
+            if (Tokenizer_handle_tag_data(self, data, this) || BAD_ROUTE) {
+                TagData_dealloc(data);
+                return NULL;
+            }
+        }
+        self->head++;
+    }
+}
+
+/*
+    Handle the (possible) start of an implicitly closing single tag.
+*/
+static int Tokenizer_handle_invalid_tag_start(Tokenizer* self)
+{
+    Py_ssize_t reset = self->head + 1, pos = 0;
+    Textbuffer* buf;
+    PyObject *name, *tag;
+    Py_UNICODE this;
+    int is_marker, i;
+
+    self->head += 2;
+    buf = Textbuffer_new();
+    if (!buf)
+        return -1;
+    while (1) {
+        this = Tokenizer_READ(self, pos);
+        is_marker = 0;
+        for (i = 0; i < NUM_MARKERS; i++) {
+            if (*MARKERS[i] == this) {
+                is_marker = 1;
+                break;
+            }
+        }
+        if (is_marker) {
+            name = Textbuffer_render(buf);
+            if (!name) {
+                Textbuffer_dealloc(buf);
+                return -1;
+            }
+            if (!IS_SINGLE_ONLY(name))
+                FAIL_ROUTE();
+            break;
+        }
+        Textbuffer_write(&buf, this);
+        pos++;
+    }
+    if (!BAD_ROUTE) {
+        tag = Tokenizer_really_parse_tag(self);
+        if (!tag)
+            return -1;
+    }
+    if (BAD_ROUTE) {
+        RESET_ROUTE();
+        self->head = reset;
+        return (Tokenizer_emit_text(self, *"<") ||
+                Tokenizer_emit_text(self, *"/"));
+    }
+    // Set invalid=True flag of TagOpenOpen
+    if (PyObject_SetAttrString(PyList_GET_ITEM(tag, 0), "invalid", Py_True))
+        return -1;
+    return Tokenizer_emit_all(self, tag);
+}
+
+/*
+    Parse an HTML tag at the head of the wikicode string.
+*/
+static int Tokenizer_parse_tag(Tokenizer* self)
+{
+    Py_ssize_t reset = self->head;
+    PyObject* tag;
+
+    self->head++;
+    tag = Tokenizer_really_parse_tag(self);
+    if (BAD_ROUTE) {
+        RESET_ROUTE();
+        self->head = reset;
+        return Tokenizer_emit_text(self, *"<");
+    }
+    if (!tag) {
+        return -1;
+    }
+    Tokenizer_emit_all(self, tag);
+    Py_DECREF(tag);
+    return 0;
+}
+
+/*
     Handle the end of the stream of wikitext.
 */
-static PyObject*
-Tokenizer_handle_end(Tokenizer* self, int context)
+static PyObject* Tokenizer_handle_end(Tokenizer* self, int context)
 {
     static int fail_contexts = (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK |
                                 LC_HEADING | LC_COMMENT | LC_TAG);
@@ -1910,8 +1859,7 @@ Tokenizer_handle_end(Tokenizer* self, int context)
     Make sure we are not trying to write an invalid character. Return 0 if
     everything is safe, or -1 if the route must be failed.
 */
-static int
-Tokenizer_verify_safe(Tokenizer* self, int context, Py_UNICODE data)
+static int Tokenizer_verify_safe(Tokenizer* self, int context, Py_UNICODE data)
 {
     if (context & LC_FAIL_NEXT) {
         return -1;
@@ -1990,8 +1938,7 @@ Tokenizer_verify_safe(Tokenizer* self, int context, Py_UNICODE data)
     Parse the wikicode string, using context for when to stop. If push is true,
     we will push a new context, otherwise we won't and context will be ignored.
 */
-static PyObject*
-Tokenizer_parse(Tokenizer* self, int context, int push)
+static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
 {
     static int unsafe_contexts = (LC_TEMPLATE_NAME | LC_WIKILINK_TITLE |
                                   LC_TEMPLATE_PARAM_KEY | LC_ARGUMENT_NAME);
@@ -2141,8 +2088,7 @@ Tokenizer_parse(Tokenizer* self, int context, int push)
 /*
     Build a list of tokens from a string of wikicode and return it.
 */
-static PyObject*
-Tokenizer_tokenize(Tokenizer* self, PyObject* args)
+static PyObject* Tokenizer_tokenize(Tokenizer* self, PyObject* args)
 {
     PyObject *text, *temp;
 
@@ -2169,8 +2115,7 @@ Tokenizer_tokenize(Tokenizer* self, PyObject* args)
     return Tokenizer_parse(self, 0, 1);
 }
 
-static void
-load_entitydefs(void)
+static void load_entitydefs(void)
 {
     PyObject *tempmod, *defmap, *deflist;
     unsigned numdefs, i;
@@ -2193,8 +2138,7 @@ load_entitydefs(void)
     Py_DECREF(deflist);
 }
 
-static void
-load_tokens(void)
+static void load_tokens(void)
 {
     PyObject *tempmod, *tokens,
              *globals = PyEval_GetGlobals(),
@@ -2253,8 +2197,7 @@ load_tokens(void)
     Py_DECREF(tokens);
 }
 
-static void
-load_tag_defs(void)
+static void load_tag_defs(void)
 {
     PyObject *tempmod,
              *globals = PyEval_GetGlobals(),
@@ -2274,8 +2217,7 @@ load_tag_defs(void)
     Py_DECREF(tempmod);
 }
 
-PyMODINIT_FUNC
-init_tokenizer(void)
+PyMODINIT_FUNC init_tokenizer(void)
 {
     PyObject *module;
 
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 20934fa..f20395b 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -220,60 +220,14 @@ typedef struct {
 
 static Textbuffer* Textbuffer_new(void);
 static void Textbuffer_dealloc(Textbuffer*);
-static int Textbuffer_write(Textbuffer**, Py_UNICODE);
-static PyObject* Textbuffer_render(Textbuffer*);
 
 static TagData* TagData_new(void);
 static void TagData_dealloc(TagData*);
-static int TagData_reset_buffers(TagData*);
 
 static PyObject* Tokenizer_new(PyTypeObject*, PyObject*, PyObject*);
 static void Tokenizer_dealloc(Tokenizer*);
 static int Tokenizer_init(Tokenizer*, PyObject*, PyObject*);
-static int Tokenizer_push(Tokenizer*, int);
-static int Tokenizer_push_textbuffer(Tokenizer*);
-static void Tokenizer_delete_top_of_stack(Tokenizer*);
-static PyObject* Tokenizer_pop(Tokenizer*);
-static PyObject* Tokenizer_pop_keeping_context(Tokenizer*);
-static void* Tokenizer_fail_route(Tokenizer*);
-static int Tokenizer_emit(Tokenizer*, PyObject*);
-static int Tokenizer_emit_first(Tokenizer*, PyObject*);
-static int Tokenizer_emit_text(Tokenizer*, Py_UNICODE);
-static int Tokenizer_emit_all(Tokenizer*, PyObject*);
-static int Tokenizer_emit_text_then_stack(Tokenizer*, const char*);
-static PyObject* Tokenizer_read(Tokenizer*, Py_ssize_t);
-static PyObject* Tokenizer_read_backwards(Tokenizer*, Py_ssize_t);
-static int Tokenizer_parse_template_or_argument(Tokenizer*);
-static int Tokenizer_parse_template(Tokenizer*);
-static int Tokenizer_parse_argument(Tokenizer*);
-static int Tokenizer_handle_template_param(Tokenizer*);
-static int Tokenizer_handle_template_param_value(Tokenizer*);
-static PyObject* Tokenizer_handle_template_end(Tokenizer*);
-static int Tokenizer_handle_argument_separator(Tokenizer*);
-static PyObject* Tokenizer_handle_argument_end(Tokenizer*);
-static int Tokenizer_parse_wikilink(Tokenizer*);
-static int Tokenizer_handle_wikilink_separator(Tokenizer*);
-static PyObject* Tokenizer_handle_wikilink_end(Tokenizer*);
-static int Tokenizer_parse_heading(Tokenizer*);
-static HeadingData* Tokenizer_handle_heading_end(Tokenizer*);
-static int Tokenizer_really_parse_entity(Tokenizer*);
-static int Tokenizer_parse_entity(Tokenizer*);
-static int Tokenizer_parse_comment(Tokenizer*);
 static int Tokenizer_parse_tag(Tokenizer*);
-static PyObject* Tokenizer_really_parse_tag(Tokenizer*);
-static int Tokenizer_push_tag_buffer(Tokenizer*, TagData*);
-static int Tokenizer_handle_tag_data(Tokenizer*, TagData*, Py_UNICODE);
-static int Tokenizer_handle_tag_space(Tokenizer*, TagData*, Py_UNICODE);
-static int Tokenizer_handle_tag_text(Tokenizer*, Py_UNICODE);
-static PyObject* Tokenizer_handle_blacklisted_tag(Tokenizer*);
-static int Tokenizer_handle_tag_close_open(Tokenizer*, TagData*, PyObject*);
-static int Tokenizer_handle_tag_open_close(Tokenizer*);
-static PyObject* Tokenizer_handle_tag_close_close(Tokenizer*);
-static int Tokenizer_handle_invalid_tag_start(Tokenizer*);
-static PyObject* Tokenizer_handle_single_only_tag_end(Tokenizer*);
-static PyObject* Tokenizer_handle_single_tag_end(Tokenizer*);
-static PyObject* Tokenizer_handle_end(Tokenizer*, int);
-static int Tokenizer_verify_safe(Tokenizer*, int, Py_UNICODE);
 static PyObject* Tokenizer_parse(Tokenizer*, int, int);
 static PyObject* Tokenizer_tokenize(Tokenizer*, PyObject*);
 
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index c53b022..128e408 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -186,6 +186,30 @@ class Tokenizer(object):
                 self._fail_route()
             return self.END
 
+    def _parse_template(self):
+        """Parse a template at the head of the wikicode string."""
+        reset = self._head
+        try:
+            template = self._parse(contexts.TEMPLATE_NAME)
+        except BadRoute:
+            self._head = reset
+            raise
+        self._emit_first(tokens.TemplateOpen())
+        self._emit_all(template)
+        self._emit(tokens.TemplateClose())
+
+    def _parse_argument(self):
+        """Parse an argument at the head of the wikicode string."""
+        reset = self._head
+        try:
+            argument = self._parse(contexts.ARGUMENT_NAME)
+        except BadRoute:
+            self._head = reset
+            raise
+        self._emit_first(tokens.ArgumentOpen())
+        self._emit_all(argument)
+        self._emit(tokens.ArgumentClose())
+
     def _parse_template_or_argument(self):
         """Parse a template or argument at the head of the wikicode string."""
         self._head += 2
@@ -220,30 +244,6 @@ class Tokenizer(object):
         if self._context & contexts.FAIL_NEXT:
             self._context ^= contexts.FAIL_NEXT
 
-    def _parse_template(self):
-        """Parse a template at the head of the wikicode string."""
-        reset = self._head
-        try:
-            template = self._parse(contexts.TEMPLATE_NAME)
-        except BadRoute:
-            self._head = reset
-            raise
-        self._emit_first(tokens.TemplateOpen())
-        self._emit_all(template)
-        self._emit(tokens.TemplateClose())
-
-    def _parse_argument(self):
-        """Parse an argument at the head of the wikicode string."""
-        reset = self._head
-        try:
-            argument = self._parse(contexts.ARGUMENT_NAME)
-        except BadRoute:
-            self._head = reset
-            raise
-        self._emit_first(tokens.ArgumentOpen())
-        self._emit_all(argument)
-        self._emit(tokens.ArgumentClose())
-
     def _handle_template_param(self):
         """Handle a template parameter at the head of the string."""
         if self._context & contexts.TEMPLATE_NAME:
@@ -425,52 +425,6 @@ class Tokenizer(object):
             self._emit(tokens.CommentEnd())
             self._head += 2
 
-    def _parse_tag(self):
-        """Parse an HTML tag at the head of the wikicode string."""
-        reset = self._head
-        self._head += 1
-        try:
-            tag = self._really_parse_tag()
-        except BadRoute:
-            self._head = reset
-            self._emit_text("<")
-        else:
-            self._emit_all(tag)
-
-    def _really_parse_tag(self):
-        """Actually parse an HTML tag, starting with the open (``<foo>``)."""
-        data = _TagOpenData()
-        self._push(contexts.TAG_OPEN)
-        self._emit(tokens.TagOpenOpen())
-        while True:
-            this, next = self._read(), self._read(1)
-            can_exit = (not data.context & (data.CX_QUOTED | data.CX_NAME) or
-                        data.context & data.CX_NOTE_SPACE)
-            if this is self.END:
-                if self._context & contexts.TAG_ATTR:
-                    if data.context & data.CX_QUOTED:
-                        # Unclosed attribute quote: reset, don't die
-                        data.context = data.CX_ATTR_VALUE
-                        self._pop()
-                        self._head = data.reset
-                        continue
-                    self._pop()
-                self._fail_route()
-            elif this == ">" and can_exit:
-                self._handle_tag_close_open(data, tokens.TagCloseOpen)
-                self._context = contexts.TAG_BODY
-                if is_single_only(self._stack[1].text):
-                    return self._handle_single_only_tag_end()
-                if is_parsable(self._stack[1].text):
-                    return self._parse(push=False)
-                return self._handle_blacklisted_tag()
-            elif this == "/" and next == ">" and can_exit:
-                self._handle_tag_close_open(data, tokens.TagCloseSelfclose)
-                return self._pop()
-            else:
-                self._handle_tag_data(data, this)
-            self._head += 1
-
     def _push_tag_buffer(self, data):
         """Write a pending tag attribute from *data* to the stack."""
         if data.context & data.CX_QUOTED:
@@ -482,6 +436,39 @@ class Tokenizer(object):
         self._emit_all(self._pop())
         data.padding_buffer = {key: "" for key in data.padding_buffer}
 
+    def _handle_tag_space(self, data, text):
+        """Handle whitespace (*text*) inside of an HTML open tag."""
+        ctx = data.context
+        end_of_value = ctx & data.CX_ATTR_VALUE and not ctx & (data.CX_QUOTED | data.CX_NOTE_QUOTE)
+        if end_of_value or (ctx & data.CX_QUOTED and ctx & data.CX_NOTE_SPACE):
+            self._push_tag_buffer(data)
+            data.context = data.CX_ATTR_READY
+        elif ctx & data.CX_NOTE_SPACE:
+            data.context = data.CX_ATTR_READY
+        elif ctx & data.CX_ATTR_NAME:
+            data.context |= data.CX_NOTE_EQUALS
+            data.padding_buffer["before_eq"] += text
+        if ctx & data.CX_QUOTED and not ctx & data.CX_NOTE_SPACE:
+            self._emit_text(text)
+        elif data.context & data.CX_ATTR_READY:
+            data.padding_buffer["first"] += text
+        elif data.context & data.CX_ATTR_VALUE:
+            data.padding_buffer["after_eq"] += text
+
+    def _handle_tag_text(self, text):
+        """Handle regular *text* inside of an HTML open tag."""
+        next = self._read(1)
+        if not self._can_recurse() or text not in self.MARKERS:
+            self._emit_text(text)
+        elif text == next == "{":
+            self._parse_template_or_argument()
+        elif text == next == "[":
+            self._parse_wikilink()
+        elif text == "<":
+            self._parse_tag()
+        else:
+            self._emit_text(text)
+
     def _handle_tag_data(self, data, text):
         """Handle all sorts of *text* data inside of an HTML open tag."""
         for chunk in self.tag_splitter.split(text):
@@ -528,52 +515,6 @@ class Tokenizer(object):
                         continue
             self._handle_tag_text(chunk)
 
-    def _handle_tag_space(self, data, text):
-        """Handle whitespace (*text*) inside of an HTML open tag."""
-        ctx = data.context
-        end_of_value = ctx & data.CX_ATTR_VALUE and not ctx & (data.CX_QUOTED | data.CX_NOTE_QUOTE)
-        if end_of_value or (ctx & data.CX_QUOTED and ctx & data.CX_NOTE_SPACE):
-            self._push_tag_buffer(data)
-            data.context = data.CX_ATTR_READY
-        elif ctx & data.CX_NOTE_SPACE:
-            data.context = data.CX_ATTR_READY
-        elif ctx & data.CX_ATTR_NAME:
-            data.context |= data.CX_NOTE_EQUALS
-            data.padding_buffer["before_eq"] += text
-        if ctx & data.CX_QUOTED and not ctx & data.CX_NOTE_SPACE:
-            self._emit_text(text)
-        elif data.context & data.CX_ATTR_READY:
-            data.padding_buffer["first"] += text
-        elif data.context & data.CX_ATTR_VALUE:
-            data.padding_buffer["after_eq"] += text
-
-    def _handle_tag_text(self, text):
-        """Handle regular *text* inside of an HTML open tag."""
-        next = self._read(1)
-        if not self._can_recurse() or text not in self.MARKERS:
-            self._emit_text(text)
-        elif text == next == "{":
-            self._parse_template_or_argument()
-        elif text == next == "[":
-            self._parse_wikilink()
-        elif text == "<":
-            self._parse_tag()
-        else:
-            self._emit_text(text)
-
-    def _handle_blacklisted_tag(self):
-        """Handle the body of an HTML tag that is parser-blacklisted."""
-        while True:
-            this, next = self._read(), self._read(1)
-            self._head += 1
-            if this is self.END:
-                self._fail_route()
-            elif this == "<" and next == "/":
-                self._handle_tag_open_close()
-                return self._parse(push=False)
-            else:
-                self._emit_text(this)
-
     def _handle_tag_close_open(self, data, token):
         """Handle the closing of a open tag (``<foo>``)."""
         if data.context & (data.CX_ATTR_NAME | data.CX_ATTR_VALUE):
@@ -598,20 +539,18 @@ class Tokenizer(object):
         self._emit(tokens.TagCloseClose())
         return self._pop()
 
-    def _handle_invalid_tag_start(self):
-        """Handle the (possible) start of an implicitly closing single tag."""
-        reset = self._head + 1
-        self._head += 2
-        try:
-            if not is_single_only(self.tag_splitter.split(self._read())[0]):
-                raise BadRoute()
-            tag = self._really_parse_tag()
-        except BadRoute:
-            self._head = reset
-            self._emit_text("</")
-        else:
-            tag[0].invalid = True  # Set flag of TagOpenOpen
-            self._emit_all(tag)
+    def _handle_blacklisted_tag(self):
+        """Handle the body of an HTML tag that is parser-blacklisted."""
+        while True:
+            this, next = self._read(), self._read(1)
+            self._head += 1
+            if this is self.END:
+                self._fail_route()
+            elif this == "<" and next == "/":
+                self._handle_tag_open_close()
+                return self._parse(push=False)
+            else:
+                self._emit_text(this)
 
     def _handle_single_only_tag_end(self):
         """Handle the end of an implicitly closing single-only HTML tag."""
@@ -629,6 +568,67 @@ class Tokenizer(object):
         self._stack[index] = token
         return self._pop()
 
+    def _really_parse_tag(self):
+        """Actually parse an HTML tag, starting with the open (``<foo>``)."""
+        data = _TagOpenData()
+        self._push(contexts.TAG_OPEN)
+        self._emit(tokens.TagOpenOpen())
+        while True:
+            this, next = self._read(), self._read(1)
+            can_exit = (not data.context & (data.CX_QUOTED | data.CX_NAME) or
+                        data.context & data.CX_NOTE_SPACE)
+            if this is self.END:
+                if self._context & contexts.TAG_ATTR:
+                    if data.context & data.CX_QUOTED:
+                        # Unclosed attribute quote: reset, don't die
+                        data.context = data.CX_ATTR_VALUE
+                        self._pop()
+                        self._head = data.reset
+                        continue
+                    self._pop()
+                self._fail_route()
+            elif this == ">" and can_exit:
+                self._handle_tag_close_open(data, tokens.TagCloseOpen)
+                self._context = contexts.TAG_BODY
+                if is_single_only(self._stack[1].text):
+                    return self._handle_single_only_tag_end()
+                if is_parsable(self._stack[1].text):
+                    return self._parse(push=False)
+                return self._handle_blacklisted_tag()
+            elif this == "/" and next == ">" and can_exit:
+                self._handle_tag_close_open(data, tokens.TagCloseSelfclose)
+                return self._pop()
+            else:
+                self._handle_tag_data(data, this)
+            self._head += 1
+
+    def _handle_invalid_tag_start(self):
+        """Handle the (possible) start of an implicitly closing single tag."""
+        reset = self._head + 1
+        self._head += 2
+        try:
+            if not is_single_only(self.tag_splitter.split(self._read())[0]):
+                raise BadRoute()
+            tag = self._really_parse_tag()
+        except BadRoute:
+            self._head = reset
+            self._emit_text("</")
+        else:
+            tag[0].invalid = True  # Set flag of TagOpenOpen
+            self._emit_all(tag)
+
+    def _parse_tag(self):
+        """Parse an HTML tag at the head of the wikicode string."""
+        reset = self._head
+        self._head += 1
+        try:
+            tag = self._really_parse_tag()
+        except BadRoute:
+            self._head = reset
+            self._emit_text("<")
+        else:
+            self._emit_all(tag)
+
     def _handle_end(self):
         """Handle the end of the stream of wikitext."""
         fail = (contexts.TEMPLATE | contexts.ARGUMENT | contexts.WIKILINK |

From 07d49c680a870188a83270ea688191c9d9b43ec7 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 26 Jul 2013 23:50:53 -0400
Subject: [PATCH 080/189] Fix resetting of fields when doing multiple
 tokenizations.

---
 mwparserfromhell/parser/tokenizer.c | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index c1d05e5..1d289de 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -213,9 +213,7 @@ static int Tokenizer_init(Tokenizer* self, PyObject* args, PyObject* kwds)
     self->text = Py_None;
     Py_INCREF(Py_None);
     self->topstack = NULL;
-    self->head = 0;
-    self->length = 0;
-    self->global = 0;
+    self->head = self->length = self->global = self->depth = self->cycles = 0;
     return 0;
 }
 
@@ -2111,6 +2109,7 @@ static PyObject* Tokenizer_tokenize(Tokenizer* self, PyObject* args)
         Py_XDECREF(self->text);
         self->text = PySequence_Fast(text, "expected a sequence");
     }
+    self->head = self->global = self->depth = self->cycles = 0;
     self->length = PyList_GET_SIZE(self->text);
     return Tokenizer_parse(self, 0, 1);
 }

From 4663563ce46846148968e267159d0de8dcdb9dfd Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 27 Jul 2013 00:02:45 -0400
Subject: [PATCH 081/189] Remove unnecessary markers.

---
 mwparserfromhell/parser/tokenizer.h  | 6 +++---
 mwparserfromhell/parser/tokenizer.py | 2 +-
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index f20395b..c42f5f9 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -41,10 +41,10 @@ SOFTWARE.
 #define ALPHANUM  "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
 
 static const char* MARKERS[] = {
-    "{",  "}", "[", "]", "<", ">", "|", "=", "&", "#", "*", ";", ":", "/",
-    "\\", "\"", "-", "!", "\n", ""};
+    "{", "}", "[", "]", "<", ">", "|", "=", "&", "#", "*", ";", ":", "/", "-",
+    "\n", ""};
 
-#define NUM_MARKERS 20
+#define NUM_MARKERS 17
 #define TEXTBUFFER_BLOCKSIZE 1024
 #define MAX_DEPTH 40
 #define MAX_CYCLES 100000
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 128e408..50c7fbd 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -58,7 +58,7 @@ class Tokenizer(object):
     START = object()
     END = object()
     MARKERS = ["{", "}", "[", "]", "<", ">", "|", "=", "&", "#", "*", ";", ":",
-               "/", "\\", '"', "-", "!", "\n", END]
+               "/", "-", "\n", END]
     MAX_DEPTH = 40
     MAX_CYCLES = 100000
     regex = re.compile(r"([{}\[\]<>|=&#*;:/\\\"\-!\n])", flags=re.IGNORECASE)

From bee74c0ced131b1c5f03efc5064c7c2bca0c7869 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 27 Jul 2013 17:39:38 -0400
Subject: [PATCH 082/189] Some doc updates.

---
 CHANGELOG                     | 1 +
 README.rst                    | 2 +-
 docs/changelog.rst            | 2 ++
 docs/index.rst                | 7 +++++--
 mwparserfromhell/nodes/tag.py | 4 ++--
 5 files changed, 11 insertions(+), 5 deletions(-)

diff --git a/CHANGELOG b/CHANGELOG
index cbe2933..bb07cf3 100644
--- a/CHANGELOG
+++ b/CHANGELOG
@@ -1,5 +1,6 @@
 v0.3 (unreleased):
 
+- Added complete support for HTML Tags, along with appropriate unit tests.
 - Various fixes and cleanup.
 
 v0.2 (released June 20, 2013):
diff --git a/README.rst b/README.rst
index df4d732..26b63bb 100644
--- a/README.rst
+++ b/README.rst
@@ -19,7 +19,7 @@ The easiest way to install the parser is through the `Python Package Index`_,
 so you can install the latest release with ``pip install mwparserfromhell``
 (`get pip`_). Alternatively, get the latest development version::
 
-    git clone git://github.com/earwig/mwparserfromhell.git
+    git clone https://github.com/earwig/mwparserfromhell.git
     cd mwparserfromhell
     python setup.py install
 
diff --git a/docs/changelog.rst b/docs/changelog.rst
index 4bf86b7..afb7c5f 100644
--- a/docs/changelog.rst
+++ b/docs/changelog.rst
@@ -7,6 +7,8 @@ v0.3
 Unreleased
 (`changes <https://github.com/earwig/mwparserfromhell/compare/v0.2...develop>`__):
 
+- Added complete support for HTML :py:class:`Tags <.Tag>`, along with
+  appropriate unit tests.
 - Various fixes and cleanup.
 
 v0.2
diff --git a/docs/index.rst b/docs/index.rst
index 0603daf..a6d2df3 100644
--- a/docs/index.rst
+++ b/docs/index.rst
@@ -5,11 +5,14 @@ MWParserFromHell v\ |version| Documentation
 package that provides an easy-to-use and outrageously powerful parser for
 MediaWiki_ wikicode. It supports Python 2 and Python 3.
 
-Developed by Earwig_ with help from `Σ`_.
+Developed by Earwig_ with contributions from `Σ`_, Legoktm_, and others.
+Development occurs on GitHub_.
 
 .. _MediaWiki:            http://mediawiki.org
 .. _Earwig:               http://en.wikipedia.org/wiki/User:The_Earwig
 .. _Σ:                    http://en.wikipedia.org/wiki/User:%CE%A3
+.. _Legoktm:              http://en.wikipedia.org/wiki/User:Legoktm
+.. _GitHub:               https://github.com/earwig/mwparserfromhell
 
 Installation
 ------------
@@ -18,7 +21,7 @@ The easiest way to install the parser is through the `Python Package Index`_,
 so you can install the latest release with ``pip install mwparserfromhell``
 (`get pip`_). Alternatively, get the latest development version::
 
-    git clone git://github.com/earwig/mwparserfromhell.git
+    git clone https://github.com/earwig/mwparserfromhell.git
     cd mwparserfromhell
     python setup.py install
 
diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index dc78b34..1d10a47 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -144,7 +144,7 @@ class Tag(Node):
         This makes the tag look like a lone close tag. It is technically
         invalid and is only parsable Wikicode when the tag itself is
         single-only, like ``<br>`` and ``<img>``. See
-        :py:func:`tag_defs.is_single_only`.
+        :py:func:`.tag_defs.is_single_only`.
         """
         return self._invalid
 
@@ -153,7 +153,7 @@ class Tag(Node):
         """Whether the tag is implicitly self-closing, with no ending slash.
 
         This is only possible for specific "single" tags like ``<br>`` and
-        ``<li>``. See :py:func:`tag_defs.is_single`. This field only has an
+        ``<li>``. See :py:func:`.tag_defs.is_single`. This field only has an
         effect if :py:attr:`self_closing` is also ``True``.
         """
         return self._implicit

From 77c4df701b681e12132018557a4e095b043132f9 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 29 Jul 2013 19:51:41 -0400
Subject: [PATCH 083/189] Fix assorted bugs in the Tag node.

---
 mwparserfromhell/nodes/extras/attribute.py | 2 +-
 mwparserfromhell/nodes/tag.py              | 2 +-
 tests/_test_tree_equality.py               | 8 ++++++--
 3 files changed, 8 insertions(+), 4 deletions(-)

diff --git a/mwparserfromhell/nodes/extras/attribute.py b/mwparserfromhell/nodes/extras/attribute.py
index 5888dba..5b98c4f 100644
--- a/mwparserfromhell/nodes/extras/attribute.py
+++ b/mwparserfromhell/nodes/extras/attribute.py
@@ -36,7 +36,7 @@ class Attribute(StringMixIn):
     whose value is ``"foo"``.
     """
 
-    def __init__(self, name, value=None, quoted=True, pad_first="",
+    def __init__(self, name, value=None, quoted=True, pad_first=" ",
                  pad_before_eq="", pad_after_eq=""):
         super(Attribute, self).__init__()
         self._name = name
diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index 1d10a47..db60689 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -46,7 +46,7 @@ class Tag(Node):
         self._padding = padding
         if closing_tag:
             self._closing_tag = closing_tag
-        elif not self_closing:
+        else:
             self._closing_tag = tag
 
     def __unicode__(self):
diff --git a/tests/_test_tree_equality.py b/tests/_test_tree_equality.py
index 6976a13..cfda97b 100644
--- a/tests/_test_tree_equality.py
+++ b/tests/_test_tree_equality.py
@@ -102,10 +102,14 @@ class TreeEqualityTestCase(TestCase):
             self.assertWikicodeEqual(exp_attr.name, act_attr.name)
             if exp_attr.value is not None:
                 self.assertWikicodeEqual(exp_attr.value, act_attr.value)
-            self.assertIs(exp_attr.quoted, act_attr.quoted)
-            self.assertEqual(exp.attr.padding, act_attr.padding)
+                self.assertIs(exp_attr.quoted, act_attr.quoted)
+            self.assertEqual(exp_attr.pad_first, act_attr.pad_first)
+            self.assertEqual(exp_attr.pad_before_eq, act_attr.pad_before_eq)
+            self.assertEqual(exp_attr.pad_after_eq, act_attr.pad_after_eq)
         self.assertIs(expected.showtag, actual.showtag)
         self.assertIs(expected.self_closing, actual.self_closing)
+        self.assertIs(expected.invalid, actual.invalid)
+        self.assertIs(expected.implicit, actual.implicit)
         self.assertEqual(expected.padding, actual.padding)
         self.assertWikicodeEqual(expected.closing_tag, actual.closing_tag)
 

From 8f0defa00a56950f74a28a138d0edadb5eaad464 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 29 Jul 2013 19:52:05 -0400
Subject: [PATCH 084/189] Finish tag building test cases (#9)

---
 tests/test_builder.py | 101 +++++++++++++++++++++++++++++++++++++++++++++++++-
 1 file changed, 99 insertions(+), 2 deletions(-)

diff --git a/tests/test_builder.py b/tests/test_builder.py
index 175f62a..c987820 100644
--- a/tests/test_builder.py
+++ b/tests/test_builder.py
@@ -201,11 +201,108 @@ class TestBuilder(TreeEqualityTestCase):
     def test_tag(self):
         """tests for building Tag nodes"""
         tests = [
+            # <ref></ref>
             ([tokens.TagOpenOpen(), tokens.Text(text="ref"),
               tokens.TagCloseOpen(padding=""), tokens.TagOpenClose(),
               tokens.Text(text="ref"), tokens.TagCloseClose()],
-             wrap([Tag(wraptext("ref"), wrap([]), [], True, False, "",
-                       wraptext("ref"))])),
+             wrap([Tag(wraptext("ref"), wrap([]),
+                       closing_tag=wraptext("ref"))])),
+
+            # <ref name></ref>
+            ([tokens.TagOpenOpen(), tokens.Text(text="ref"),
+              tokens.TagAttrStart(pad_first=" ", pad_before_eq="",
+                                  pad_after_eq=""),
+              tokens.Text(text="name"), tokens.TagCloseOpen(padding=""),
+              tokens.TagOpenClose(), tokens.Text(text="ref"),
+              tokens.TagCloseClose()],
+             wrap([Tag(wraptext("ref"), wrap([]),
+                      attrs=[Attribute(wraptext("name"))])])),
+
+            # <ref name="abc" />
+            ([tokens.TagOpenOpen(), tokens.Text(text="ref"),
+              tokens.TagAttrStart(pad_first=" ", pad_before_eq="",
+                                  pad_after_eq=""),
+              tokens.Text(text="name"), tokens.TagAttrEquals(),
+              tokens.TagAttrQuote(), tokens.Text(text="abc"),
+              tokens.TagCloseSelfclose(padding=" ")],
+             wrap([Tag(wraptext("ref"),
+                       attrs=[Attribute(wraptext("name"), wraptext("abc"))],
+                       self_closing=True, padding=" ")])),
+
+            # <br/>
+            ([tokens.TagOpenOpen(), tokens.Text(text="br"),
+              tokens.TagCloseSelfclose(padding="")],
+             wrap([Tag(wraptext("br"), self_closing=True)])),
+
+            # <li>
+            ([tokens.TagOpenOpen(), tokens.Text(text="li"),
+              tokens.TagCloseSelfclose(padding="", implicit=True)],
+             wrap([Tag(wraptext("li"), self_closing=True, implicit=True)])),
+
+            # </br>
+            ([tokens.TagOpenOpen(invalid=True), tokens.Text(text="br"),
+              tokens.TagCloseSelfclose(padding="", implicit=True)],
+             wrap([Tag(wraptext("br"), self_closing=True, invalid=True,
+                       implicit=True)])),
+
+            # </br/>
+            ([tokens.TagOpenOpen(invalid=True), tokens.Text(text="br"),
+              tokens.TagCloseSelfclose(padding="")],
+             wrap([Tag(wraptext("br"), self_closing=True, invalid=True)])),
+
+            # <ref name={{abc}}   foo="bar {{baz}}" abc={{de}}f ghi=j{{k}}{{l}}
+            #      mno =  "{{p}} [[q]] {{r}}">[[Source]]</ref>
+            ([tokens.TagOpenOpen(), tokens.Text(text="ref"),
+              tokens.TagAttrStart(pad_first=" ", pad_before_eq="",
+                                  pad_after_eq=""),
+              tokens.Text(text="name"), tokens.TagAttrEquals(),
+              tokens.TemplateOpen(), tokens.Text(text="abc"),
+              tokens.TemplateClose(),
+              tokens.TagAttrStart(pad_first="   ", pad_before_eq="",
+                                  pad_after_eq=""),
+              tokens.Text(text="foo"), tokens.TagAttrEquals(),
+              tokens.TagAttrQuote(), tokens.Text(text="bar "),
+              tokens.TemplateOpen(), tokens.Text(text="baz"),
+              tokens.TemplateClose(),
+              tokens.TagAttrStart(pad_first=" ", pad_before_eq="",
+                                  pad_after_eq=""),
+              tokens.Text(text="abc"), tokens.TagAttrEquals(),
+              tokens.TemplateOpen(), tokens.Text(text="de"),
+              tokens.TemplateClose(), tokens.Text(text="f"),
+              tokens.TagAttrStart(pad_first=" ", pad_before_eq="",
+                                  pad_after_eq=""),
+              tokens.Text(text="ghi"), tokens.TagAttrEquals(),
+              tokens.Text(text="j"), tokens.TemplateOpen(),
+              tokens.Text(text="k"), tokens.TemplateClose(),
+              tokens.TemplateOpen(), tokens.Text(text="l"),
+              tokens.TemplateClose(),
+              tokens.TagAttrStart(pad_first=" \n ", pad_before_eq=" ",
+                                  pad_after_eq="  "),
+              tokens.Text(text="mno"), tokens.TagAttrEquals(),
+              tokens.TagAttrQuote(), tokens.TemplateOpen(),
+              tokens.Text(text="p"), tokens.TemplateClose(),
+              tokens.Text(text=" "), tokens.WikilinkOpen(),
+              tokens.Text(text="q"), tokens.WikilinkClose(),
+              tokens.Text(text=" "), tokens.TemplateOpen(),
+              tokens.Text(text="r"), tokens.TemplateClose(),
+              tokens.TagCloseOpen(padding=""), tokens.WikilinkOpen(),
+              tokens.Text(text="Source"), tokens.WikilinkClose(),
+              tokens.TagOpenClose(), tokens.Text(text="ref"),
+              tokens.TagCloseClose()],
+             wrap([Tag(wraptext("ref"), wrap([Wikilink(wraptext("Source"))]), [
+                    Attribute(wraptext("name"),
+                              wrap([Template(wraptext("abc"))]), False),
+                    Attribute(wraptext("foo"), wrap([Text("bar "),
+                              Template(wraptext("baz"))]), pad_first="   "),
+                    Attribute(wraptext("abc"), wrap([Template(wraptext("de")),
+                              Text("f")]), False),
+                    Attribute(wraptext("ghi"), wrap([Text("j"),
+                              Template(wraptext("k")),
+                              Template(wraptext("l"))]), False),
+                    Attribute(wraptext("mno"), wrap([Template(wraptext("p")),
+                              Text(" "), Wikilink(wraptext("q")), Text(" "),
+                              Template(wraptext("r"))]), True, " \n ", " ",
+                              "  ")])])),
         ]
         for test, valid in tests:
             self.assertWikicodeEqual(valid, self.builder.build(test))

From b8752a5c15b04ddd34bd7e6a5d4902d90d31adae Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 29 Jul 2013 21:08:54 -0400
Subject: [PATCH 085/189] test_attribute; better setters for padding attributes

---
 mwparserfromhell/nodes/extras/attribute.py | 16 ++++--
 tests/test_attribute.py                    | 84 ++++++++++++++++++++++++++++++
 2 files changed, 97 insertions(+), 3 deletions(-)

diff --git a/mwparserfromhell/nodes/extras/attribute.py b/mwparserfromhell/nodes/extras/attribute.py
index 5b98c4f..ad282af 100644
--- a/mwparserfromhell/nodes/extras/attribute.py
+++ b/mwparserfromhell/nodes/extras/attribute.py
@@ -54,6 +54,16 @@ class Attribute(StringMixIn):
             return base + "=" + self.pad_after_eq + str(self.value)
         return base
 
+    def _set_padding(self, attr, value):
+        """Setter for the value of a padding attribute."""
+        if not value:
+            setattr(self, attr, "")
+        else:
+            value = str(value)
+            if not value.isspace():
+                raise ValueError("padding must be entirely whitespace")
+            setattr(self, attr, value)
+
     @property
     def name(self):
         """The name of the attribute as a :py:class:`~.Wikicode` object."""
@@ -98,12 +108,12 @@ class Attribute(StringMixIn):
 
     @pad_first.setter
     def pad_first(self, value):
-        self._pad_first = str(value)
+        self._set_padding("_pad_first", value)
 
     @pad_before_eq.setter
     def pad_before_eq(self, value):
-        self._pad_before_eq = str(value)
+        self._set_padding("_pad_before_eq", value)
 
     @pad_after_eq.setter
     def pad_after_eq(self, value):
-        self._pad_after_eq = str(value)
+        self._set_padding("_pad_after_eq", value)
diff --git a/tests/test_attribute.py b/tests/test_attribute.py
index e69de29..2cb9f01 100644
--- a/tests/test_attribute.py
+++ b/tests/test_attribute.py
@@ -0,0 +1,84 @@
+# -*- coding: utf-8  -*-
+#
+# Copyright (C) 2012-2013 Ben Kurtovic <ben.kurtovic@verizon.net>
+#
+# Permission is hereby granted, free of charge, to any person obtaining a copy
+# of this software and associated documentation files (the "Software"), to deal
+# in the Software without restriction, including without limitation the rights
+# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+# copies of the Software, and to permit persons to whom the Software is
+# furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in
+# all copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+# SOFTWARE.
+
+from __future__ import unicode_literals
+import unittest
+
+from mwparserfromhell.compat import str
+from mwparserfromhell.nodes import Template
+from mwparserfromhell.nodes.extras import Attribute
+
+from ._test_tree_equality import TreeEqualityTestCase, wrap, wraptext
+
+class TestAttribute(TreeEqualityTestCase):
+    """Test cases for the Attribute node extra."""
+
+    def test_unicode(self):
+        """test Attribute.__unicode__()"""
+        node = Attribute(wraptext("foo"))
+        self.assertEqual(" foo", str(node))
+        node2 = Attribute(wraptext("foo"), wraptext("bar"))
+        self.assertEqual(' foo="bar"', str(node2))
+        node3 = Attribute(wraptext("a"), wraptext("b"), False, "", " ", "   ")
+        self.assertEqual("a =   b", str(node3))
+
+    def test_name(self):
+        """test getter/setter for the name attribute"""
+        name = wraptext("id")
+        node = Attribute(name, wraptext("bar"))
+        self.assertIs(name, node.name)
+        node.name = "{{id}}"
+        self.assertWikicodeEqual(wrap([Template(wraptext("id"))]), node.name)
+
+    def test_value(self):
+        """test getter/setter for the value attribute"""
+        value = wraptext("foo")
+        node = Attribute(wraptext("id"), value)
+        self.assertIs(value, node.value)
+        node.value = "{{bar}}"
+        self.assertWikicodeEqual(wrap([Template(wraptext("bar"))]), node.value)
+
+    def test_quoted(self):
+        """test getter/setter for the quoted attribute"""
+        node1 = Attribute(wraptext("id"), wraptext("foo"), False)
+        node2 = Attribute(wraptext("id"), wraptext("bar"))
+        self.assertFalse(node1.quoted)
+        self.assertTrue(node2.quoted)
+        node1.quoted = True
+        node2.quoted = ""
+        self.assertTrue(node1.quoted)
+        self.assertFalse(node2.quoted)
+
+    def test_padding(self):
+        """test getter/setter for the padding attributes"""
+        for pad in ["pad_first", "pad_before_eq", "pad_after_eq"]:
+            padding = wraptext("\n")
+            node = Attribute(wraptext("id"), wraptext("foo"), **{pad: padding})
+            self.assertIs(padding, getattr(node, pad))
+            setattr(node, pad, " ")
+            self.assertEqual(" ", getattr(node, pad))
+            setattr(node, pad, None)
+            self.assertEqual("", getattr(node, pad))
+            self.assertRaises(ValueError, setattr, node, pad, True)
+
+if __name__ == "__main__":
+    unittest.main(verbosity=2)

From 2c4bff1d6895834eb491f85927219d81ffa708aa Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 29 Jul 2013 23:01:37 -0400
Subject: [PATCH 086/189] Start test_tag; some fixes for Tags.

---
 mwparserfromhell/nodes/tag.py |  17 ++++--
 tests/test_tag.py             | 134 ++++++++++++++++++++++++++++++++++++++++++
 2 files changed, 147 insertions(+), 4 deletions(-)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index db60689..08d5204 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -37,7 +37,10 @@ class Tag(Node):
                  closing_tag=None):
         super(Tag, self).__init__()
         self._tag = tag
-        self._contents = contents
+        if contents is None and not self_closing:
+            self._contents = parse_anything("")
+        else:
+            self._contents = contents
         self._attrs = attrs if attrs else []
         self._showtag = showtag
         self._self_closing = self_closing
@@ -51,7 +54,7 @@ class Tag(Node):
 
     def __unicode__(self):
         if not self.showtag:
-            open_, close = get_wikicode[self.tag]
+            open_, close = get_wikicode(self.tag)
             if self.self_closing:
                 return open_
             else:
@@ -81,7 +84,7 @@ class Tag(Node):
         if self.contents:
             for child in getter(self.contents):
                 yield self.contents, child
-        if not self.self_closing and self.closing_tag:
+        if not self.self_closing and self.showtag and self.closing_tag:
             for child in getter(self.closing_tag):
                 yield self.closing_tag, child
 
@@ -198,7 +201,13 @@ class Tag(Node):
 
     @padding.setter
     def padding(self, value):
-        self._padding = str(value)
+        if not value:
+            self._padding = ""
+        else:
+            value = str(value)
+            if not value.isspace():
+                raise ValueError("padding must be entirely whitespace")
+            self._padding = value
 
     @closing_tag.setter
     def closing_tag(self, value):
diff --git a/tests/test_tag.py b/tests/test_tag.py
index e69de29..ed2416e 100644
--- a/tests/test_tag.py
+++ b/tests/test_tag.py
@@ -0,0 +1,134 @@
+# -*- coding: utf-8  -*-
+#
+# Copyright (C) 2012-2013 Ben Kurtovic <ben.kurtovic@verizon.net>
+#
+# Permission is hereby granted, free of charge, to any person obtaining a copy
+# of this software and associated documentation files (the "Software"), to deal
+# in the Software without restriction, including without limitation the rights
+# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+# copies of the Software, and to permit persons to whom the Software is
+# furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in
+# all copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+# SOFTWARE.
+
+from __future__ import unicode_literals
+import unittest
+
+from mwparserfromhell.compat import str
+from mwparserfromhell.nodes import Tag, Text
+from mwparserfromhell.nodes.extras import Attribute
+from ._test_tree_equality import TreeEqualityTestCase, getnodes, wrap, wraptext
+
+agen = lambda name, value: Attribute(wraptext(name), wraptext(value))
+agennv = lambda name: Attribute(wraptext(name))
+agennq = lambda name, value: Attribute(wraptext(name), wraptext(value), False)
+agenp = lambda name, value, a, b, c: Attribute(wraptext(name), wraptext(value),
+                                               True, a, b, c)
+agenpnv = lambda name, a, b, c: Attribute(wraptext(name), None, True, a, b, c)
+
+class TestTag(TreeEqualityTestCase):
+    """Test cases for the Tag node."""
+
+    def test_unicode(self):
+        """test Tag.__unicode__()"""
+        node1 = Tag(wraptext("ref"))
+        node2 = Tag(wraptext("span"), wraptext("foo"),
+                    [agen("style", "color: red;")])
+        node3 = Tag(wraptext("ref"),
+                    attrs=[agennq("name", "foo"),
+                           agenpnv("some_attr", "   ", "", "")],
+                    self_closing=True)
+        node4 = Tag(wraptext("br"), self_closing=True, padding=" ")
+        node5 = Tag(wraptext("br"), self_closing=True, implicit=True)
+        node6 = Tag(wraptext("br"), self_closing=True, invalid=True,
+                    implicit=True)
+        node7 = Tag(wraptext("br"), self_closing=True, invalid=True,
+                    padding=" ")
+        node8 = Tag(wraptext("hr"), showtag=False, self_closing=True)
+        node9 = Tag(wraptext("i"), wraptext("italics!"), showtag=False)
+
+        self.assertEqual("<ref></ref>", str(node1))
+        self.assertEqual('<span style="color: red;">foo</span>', str(node2))
+        self.assertEqual("<ref name=foo   some_attr/>", str(node3))
+        self.assertEqual("<br />", str(node4))
+        self.assertEqual("<br>", str(node5))
+        self.assertEqual("</br>", str(node6))
+        self.assertEqual("</br />", str(node7))
+        self.assertEqual("----", str(node8))
+        self.assertEqual("''italics!''", str(node9))
+
+    def test_iternodes(self):
+        """test Tag.__iternodes__()"""
+        node1n1, node1n2 = Text("ref"), Text("foobar")
+        node2n1, node3n1, node3n2 = Text("bold text"), Text("img"), Text("id")
+        node3n3, node3n4, node3n5 = Text("foo"), Text("class"), Text("bar")
+
+        # <ref>foobar</ref>
+        node1 = Tag(wrap([node1n1]), wrap([node1n2]))
+        # '''bold text'''
+        node2 = Tag(wraptext("i"), wrap([node2n1]), showtag=False)
+        # <img id="foo" class="bar" />
+        node3 = Tag(wrap([node3n1]),
+                    attrs=[Attribute(wrap([node3n2]), wrap([node3n3])),
+                           Attribute(wrap([node3n4]), wrap([node3n5]))],
+                    self_closing=True, padding=" ")
+
+        gen1 = node1.__iternodes__(getnodes)
+        gen2 = node2.__iternodes__(getnodes)
+        gen3 = node3.__iternodes__(getnodes)
+        self.assertEqual((None, node1), next(gen1))
+        self.assertEqual((None, node2), next(gen2))
+        self.assertEqual((None, node3), next(gen3))
+        self.assertEqual((node1.tag, node1n1), next(gen1))
+        self.assertEqual((node3.tag, node3n1), next(gen3))
+        self.assertEqual((node3.attributes[0].name, node3n2), next(gen3))
+        self.assertEqual((node3.attributes[0].value, node3n3), next(gen3))
+        self.assertEqual((node3.attributes[1].name, node3n4), next(gen3))
+        self.assertEqual((node3.attributes[1].value, node3n5), next(gen3))
+        self.assertEqual((node1.contents, node1n2), next(gen1))
+        self.assertEqual((node2.contents, node2n1), next(gen2))
+        self.assertEqual((node1.closing_tag, node1n1), next(gen1))
+        self.assertRaises(StopIteration, next, gen1)
+        self.assertRaises(StopIteration, next, gen2)
+        self.assertRaises(StopIteration, next, gen3)
+
+    def test_strip(self):
+        """test Tag.__strip__()"""
+        node1 = Tag(wraptext("i"), wraptext("foobar"))
+        node2 = Tag(wraptext("math"), wraptext("foobar"))
+        for a in (True, False):
+            for b in (True, False):
+                self.assertEqual("foobar", node1.__strip__(a, b))
+                self.assertEqual(None, node2.__strip__(a, b))
+
+    def test_showtree(self):
+        """test Tag.__showtree__()"""
+        output = []
+        getter, marker = object(), object()
+        get = lambda code: output.append((getter, code))
+        mark = lambda: output.append(marker)
+        node1 = Tag(wraptext("ref"), wraptext("text"), [agen("name", "foo")])
+        node2 = Tag(wraptext("br"), self_closing=True, padding=" ")
+        node3 = Tag(wraptext("br"), self_closing=True, invalid=True,
+                    implicit=True, padding=" ")
+        node1.__showtree__(output.append, get, mark)
+        node2.__showtree__(output.append, get, mark)
+        node3.__showtree__(output.append, get, mark)
+        valid = [
+            "<", (getter, node1.tag), (getter, node1.attributes[0].name),
+            "    = ", marker, (getter, node1.attributes[0].value), ">",
+            (getter, node1.contents), "</", (getter, node1.closing_tag), ">",
+            "<", (getter, node2.tag), "/>", "</", (getter, node3.tag), ">"]
+        self.assertEqual(valid, output)
+
+if __name__ == "__main__":
+    unittest.main(verbosity=2)

From e3f215f6675c670bd93380bc81a24cd21f55a12e Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 30 Jul 2013 00:58:16 -0400
Subject: [PATCH 087/189] Finish test_tag

---
 tests/test_attribute.py |  5 +--
 tests/test_tag.py       | 97 ++++++++++++++++++++++++++++++++++++++++++++++++-
 2 files changed, 98 insertions(+), 4 deletions(-)

diff --git a/tests/test_attribute.py b/tests/test_attribute.py
index 2cb9f01..8dd84cb 100644
--- a/tests/test_attribute.py
+++ b/tests/test_attribute.py
@@ -71,9 +71,8 @@ class TestAttribute(TreeEqualityTestCase):
     def test_padding(self):
         """test getter/setter for the padding attributes"""
         for pad in ["pad_first", "pad_before_eq", "pad_after_eq"]:
-            padding = wraptext("\n")
-            node = Attribute(wraptext("id"), wraptext("foo"), **{pad: padding})
-            self.assertIs(padding, getattr(node, pad))
+            node = Attribute(wraptext("id"), wraptext("foo"), **{pad: "\n"})
+            self.assertEqual("\n", getattr(node, pad))
             setattr(node, pad, " ")
             self.assertEqual(" ", getattr(node, pad))
             setattr(node, pad, None)
diff --git a/tests/test_tag.py b/tests/test_tag.py
index ed2416e..d6eb5c6 100644
--- a/tests/test_tag.py
+++ b/tests/test_tag.py
@@ -24,7 +24,7 @@ from __future__ import unicode_literals
 import unittest
 
 from mwparserfromhell.compat import str
-from mwparserfromhell.nodes import Tag, Text
+from mwparserfromhell.nodes import Tag, Template, Text
 from mwparserfromhell.nodes.extras import Attribute
 from ._test_tree_equality import TreeEqualityTestCase, getnodes, wrap, wraptext
 
@@ -130,5 +130,100 @@ class TestTag(TreeEqualityTestCase):
             "<", (getter, node2.tag), "/>", "</", (getter, node3.tag), ">"]
         self.assertEqual(valid, output)
 
+    def test_tag(self):
+        """test getter/setter for the tag attribute"""
+        tag = wraptext("ref")
+        node = Tag(tag, wraptext("text"))
+        self.assertIs(tag, node.tag)
+        self.assertIs(tag, node.closing_tag)
+        node.tag = "span"
+        self.assertWikicodeEqual(wraptext("span"), node.tag)
+        self.assertWikicodeEqual(wraptext("span"), node.closing_tag)
+        self.assertEqual("<span>text</span>", node)
+
+    def test_contents(self):
+        """test getter/setter for the contents attribute"""
+        contents = wraptext("text")
+        node = Tag(wraptext("ref"), contents)
+        self.assertIs(contents, node.contents)
+        node.contents = "text and a {{template}}"
+        parsed = wrap([Text("text and a "), Template(wraptext("template"))])
+        self.assertWikicodeEqual(parsed, node.contents)
+        self.assertEqual("<ref>text and a {{template}}</ref>", node)
+
+    def test_attributes(self):
+        """test getter for the attributes attribute"""
+        attrs = [agen("name", "bar")]
+        node1 = Tag(wraptext("ref"), wraptext("foo"))
+        node2 = Tag(wraptext("ref"), wraptext("foo"), attrs)
+        self.assertEqual([], node1.attributes)
+        self.assertIs(attrs, node2.attributes)
+
+    def test_showtag(self):
+        """test getter/setter for the showtag attribute"""
+        node = Tag(wraptext("i"), wraptext("italic text"))
+        self.assertTrue(node.showtag)
+        node.showtag = False
+        self.assertFalse(node.showtag)
+        self.assertEqual("''italic text''", node)
+        node.showtag = 1
+        self.assertTrue(node.showtag)
+        self.assertEqual("<i>italic text</i>", node)
+
+    def test_self_closing(self):
+        """test getter/setter for the self_closing attribute"""
+        node = Tag(wraptext("ref"), wraptext("foobar"))
+        self.assertFalse(node.self_closing)
+        node.self_closing = True
+        self.assertTrue(node.self_closing)
+        self.assertEqual("<ref/>", node)
+        node.self_closing = 0
+        self.assertFalse(node.self_closing)
+        self.assertEqual("<ref>foobar</ref>", node)
+
+    def test_invalid(self):
+        """test getter/setter for the invalid attribute"""
+        node = Tag(wraptext("br"), self_closing=True, implicit=True)
+        self.assertFalse(node.invalid)
+        node.invalid = True
+        self.assertTrue(node.invalid)
+        self.assertEqual("</br>", node)
+        node.invalid = 0
+        self.assertFalse(node.invalid)
+        self.assertEqual("<br>", node)
+
+    def test_implicit(self):
+        """test getter/setter for the implicit attribute"""
+        node = Tag(wraptext("br"), self_closing=True)
+        self.assertFalse(node.implicit)
+        node.implicit = True
+        self.assertTrue(node.implicit)
+        self.assertEqual("<br>", node)
+        node.implicit = 0
+        self.assertFalse(node.implicit)
+        self.assertEqual("<br/>", node)
+
+    def test_padding(self):
+        """test getter/setter for the padding attribute"""
+        node = Tag(wraptext("ref"), wraptext("foobar"))
+        self.assertEqual("", node.padding)
+        node.padding = "  "
+        self.assertEqual("  ", node.padding)
+        self.assertEqual("<ref  >foobar</ref>", node)
+        node.padding = None
+        self.assertEqual("", node.padding)
+        self.assertEqual("<ref>foobar</ref>", node)
+        self.assertRaises(ValueError, setattr, node, "padding", True)
+
+    def test_closing_tag(self):
+        """test getter/setter for the closing_tag attribute"""
+        tag = wraptext("ref")
+        node = Tag(tag, wraptext("foobar"))
+        self.assertIs(tag, node.closing_tag)
+        node.closing_tag = "ref {{ignore me}}"
+        parsed = wrap([Text("ref "), Template(wraptext("ignore me"))])
+        self.assertWikicodeEqual(parsed, node.closing_tag)
+        self.assertEqual("<ref>foobar</ref {{ignore me}}>", node)
+
 if __name__ == "__main__":
     unittest.main(verbosity=2)

From 16bb133c58abe9b7386468ebc2be98072a549210 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 30 Jul 2013 00:59:45 -0400
Subject: [PATCH 088/189] Remove unused functions.

---
 tests/test_tag.py | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/tests/test_tag.py b/tests/test_tag.py
index d6eb5c6..6755270 100644
--- a/tests/test_tag.py
+++ b/tests/test_tag.py
@@ -29,10 +29,7 @@ from mwparserfromhell.nodes.extras import Attribute
 from ._test_tree_equality import TreeEqualityTestCase, getnodes, wrap, wraptext
 
 agen = lambda name, value: Attribute(wraptext(name), wraptext(value))
-agennv = lambda name: Attribute(wraptext(name))
 agennq = lambda name, value: Attribute(wraptext(name), wraptext(value), False)
-agenp = lambda name, value, a, b, c: Attribute(wraptext(name), wraptext(value),
-                                               True, a, b, c)
 agenpnv = lambda name, a, b, c: Attribute(wraptext(name), None, True, a, b, c)
 
 class TestTag(TreeEqualityTestCase):

From de6d5074fa37af6944764a3ffb09e94e27eb0842 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 30 Jul 2013 15:37:06 -0400
Subject: [PATCH 089/189] Tag.showtag -> Tag.wiki_markup

---
 mwparserfromhell/nodes/tag.py      | 26 +++++++++++++-------------
 mwparserfromhell/parser/builder.py |  8 +++-----
 mwparserfromhell/parser/tokens.py  |  6 +-----
 mwparserfromhell/tag_defs.py       | 10 +++++-----
 tests/_test_tree_equality.py       |  2 +-
 tests/test_tag.py                  | 20 ++++++++++----------
 tests/test_tokens.py               |  6 +++---
 7 files changed, 36 insertions(+), 42 deletions(-)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index 08d5204..25c0708 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -24,7 +24,7 @@ from __future__ import unicode_literals
 
 from . import Node, Text
 from ..compat import str
-from ..tag_defs import get_wikicode, is_visible
+from ..tag_defs import get_wiki_markup, is_visible
 from ..utils import parse_anything
 
 __all__ = ["Tag"]
@@ -32,7 +32,7 @@ __all__ = ["Tag"]
 class Tag(Node):
     """Represents an HTML-style tag in wikicode, like ``<ref>``."""
 
-    def __init__(self, tag, contents=None, attrs=None, showtag=True,
+    def __init__(self, tag, contents=None, attrs=None, wiki_markup=False,
                  self_closing=False, invalid=False, implicit=False, padding="",
                  closing_tag=None):
         super(Tag, self).__init__()
@@ -42,7 +42,7 @@ class Tag(Node):
         else:
             self._contents = contents
         self._attrs = attrs if attrs else []
-        self._showtag = showtag
+        self._wiki_markup = wiki_markup
         self._self_closing = self_closing
         self._invalid = invalid
         self._implicit = implicit
@@ -53,8 +53,8 @@ class Tag(Node):
             self._closing_tag = tag
 
     def __unicode__(self):
-        if not self.showtag:
-            open_, close = get_wikicode(self.tag)
+        if self.wiki_markup:
+            open_, close = get_wiki_markup(self.tag)
             if self.self_closing:
                 return open_
             else:
@@ -72,7 +72,7 @@ class Tag(Node):
 
     def __iternodes__(self, getter):
         yield None, self
-        if self.showtag:
+        if not self.wiki_markup:
             for child in getter(self.tag):
                 yield self.tag, child
             for attr in self.attributes:
@@ -84,7 +84,7 @@ class Tag(Node):
         if self.contents:
             for child in getter(self.contents):
                 yield self.contents, child
-        if not self.self_closing and self.showtag and self.closing_tag:
+        if not self.self_closing and not self.wiki_markup and self.closing_tag:
             for child in getter(self.closing_tag):
                 yield self.closing_tag, child
 
@@ -131,9 +131,9 @@ class Tag(Node):
         return self._attrs
 
     @property
-    def showtag(self):
-        """Whether to show the tag itself instead of a wikicode version."""
-        return self._showtag
+    def wiki_markup(self):
+        """Whether to show the wiki version of a tag instead of the HTML."""
+        return self._wiki_markup
 
     @property
     def self_closing(self):
@@ -183,9 +183,9 @@ class Tag(Node):
     def contents(self, value):
         self._contents = parse_anything(value)
 
-    @showtag.setter
-    def showtag(self, value):
-        self._showtag = bool(value)
+    @wiki_markup.setter
+    def wiki_markup(self, value):
+        self._wiki_markup = bool(value)
 
     @self_closing.setter
     def self_closing(self, value):
diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index 9366742..ef55776 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -207,8 +207,7 @@ class Builder(object):
         """Handle a case where a tag is at the head of the tokens."""
         close_tokens = (tokens.TagCloseSelfclose, tokens.TagCloseClose)
         implicit, attrs, contents, closing_tag = False, [], None, None
-        showtag = token.get("showtag", True)
-        invalid = token.get("invalid", False)
+        wiki_markup, invalid = token.wiki_markup, token.invalid
         self._push()
         while self._tokens:
             token = self._tokens.pop()
@@ -225,12 +224,11 @@ class Builder(object):
                 if isinstance(token, tokens.TagCloseSelfclose):
                     tag = self._pop()
                     self_closing = True
-                    padding = token.padding
-                    implicit = token.get("implicit", False)
+                    padding, implicit = token.padding, token.implicit
                 else:
                     self_closing = False
                     closing_tag = self._pop()
-                return Tag(tag, contents, attrs, showtag, self_closing,
+                return Tag(tag, contents, attrs, wiki_markup, self_closing,
                            invalid, implicit, padding, closing_tag)
             else:
                 self._write(self._handle_token(token))
diff --git a/mwparserfromhell/parser/tokens.py b/mwparserfromhell/parser/tokens.py
index f3d89fc..6dd3446 100644
--- a/mwparserfromhell/parser/tokens.py
+++ b/mwparserfromhell/parser/tokens.py
@@ -55,7 +55,7 @@ class Token(object):
         return False
 
     def __getattr__(self, key):
-        return self._kwargs[key]
+        return self._kwargs.get(key, False)
 
     def __setattr__(self, key, value):
         self._kwargs[key] = value
@@ -63,10 +63,6 @@ class Token(object):
     def __delattr__(self, key):
         del self._kwargs[key]
 
-    def get(self, key, default=None):
-        """Same as :py:meth:`__getattr__`, but has a *default* if missing."""
-        return self._kwargs.get(key, default)
-
 
 def make(name):
     """Create a new Token class using ``type()`` and add it to ``__all__``."""
diff --git a/mwparserfromhell/tag_defs.py b/mwparserfromhell/tag_defs.py
index 73493d3..c918b4d 100644
--- a/mwparserfromhell/tag_defs.py
+++ b/mwparserfromhell/tag_defs.py
@@ -24,7 +24,7 @@
 
 from __future__ import unicode_literals
 
-__all__ = ["get_wikicode", "is_parsable", "is_visible", "is_single",
+__all__ = ["get_wiki_markup", "is_parsable", "is_visible", "is_single",
            "is_single_only"]
 
 PARSER_BLACKLIST = [
@@ -44,7 +44,7 @@ INVISIBLE_TAGS = [
 SINGLE_ONLY = ["br", "hr", "meta", "link", "img"]
 SINGLE = SINGLE_ONLY + ["li", "dt", "dd"]
 
-WIKICODE = {
+WIKI_MARKUP = {
     "i": {"open": "''", "close": "''"},
     "b": {"open": "'''", "close": "'''"},
     "ul": {"open": "*"},
@@ -54,9 +54,9 @@ WIKICODE = {
     "hr": {"open": "----"},
 }
 
-def get_wikicode(tag):
-    """Return the appropriate wikicode before and after the given *tag*."""
-    data = WIKICODE[tag.lower()]
+def get_wiki_markup(tag):
+    """Return the appropriate wiki markup before and after the given *tag*."""
+    data = WIKI_MARKUP[tag.lower()]
     return (data.get("open"), data.get("close"))
 
 def is_parsable(tag):
diff --git a/tests/_test_tree_equality.py b/tests/_test_tree_equality.py
index cfda97b..3267b45 100644
--- a/tests/_test_tree_equality.py
+++ b/tests/_test_tree_equality.py
@@ -106,7 +106,7 @@ class TreeEqualityTestCase(TestCase):
             self.assertEqual(exp_attr.pad_first, act_attr.pad_first)
             self.assertEqual(exp_attr.pad_before_eq, act_attr.pad_before_eq)
             self.assertEqual(exp_attr.pad_after_eq, act_attr.pad_after_eq)
-        self.assertIs(expected.showtag, actual.showtag)
+        self.assertIs(expected.wiki_markup, actual.wiki_markup)
         self.assertIs(expected.self_closing, actual.self_closing)
         self.assertIs(expected.invalid, actual.invalid)
         self.assertIs(expected.implicit, actual.implicit)
diff --git a/tests/test_tag.py b/tests/test_tag.py
index 6755270..a0fbcf1 100644
--- a/tests/test_tag.py
+++ b/tests/test_tag.py
@@ -50,8 +50,8 @@ class TestTag(TreeEqualityTestCase):
                     implicit=True)
         node7 = Tag(wraptext("br"), self_closing=True, invalid=True,
                     padding=" ")
-        node8 = Tag(wraptext("hr"), showtag=False, self_closing=True)
-        node9 = Tag(wraptext("i"), wraptext("italics!"), showtag=False)
+        node8 = Tag(wraptext("hr"), wiki_markup=True, self_closing=True)
+        node9 = Tag(wraptext("i"), wraptext("italics!"), wiki_markup=True)
 
         self.assertEqual("<ref></ref>", str(node1))
         self.assertEqual('<span style="color: red;">foo</span>', str(node2))
@@ -72,7 +72,7 @@ class TestTag(TreeEqualityTestCase):
         # <ref>foobar</ref>
         node1 = Tag(wrap([node1n1]), wrap([node1n2]))
         # '''bold text'''
-        node2 = Tag(wraptext("i"), wrap([node2n1]), showtag=False)
+        node2 = Tag(wraptext("i"), wrap([node2n1]), wiki_markup=True)
         # <img id="foo" class="bar" />
         node3 = Tag(wrap([node3n1]),
                     attrs=[Attribute(wrap([node3n2]), wrap([node3n3])),
@@ -156,15 +156,15 @@ class TestTag(TreeEqualityTestCase):
         self.assertEqual([], node1.attributes)
         self.assertIs(attrs, node2.attributes)
 
-    def test_showtag(self):
-        """test getter/setter for the showtag attribute"""
+    def test_wiki_markup(self):
+        """test getter/setter for the wiki_markup attribute"""
         node = Tag(wraptext("i"), wraptext("italic text"))
-        self.assertTrue(node.showtag)
-        node.showtag = False
-        self.assertFalse(node.showtag)
+        self.assertFalse(node.wiki_markup)
+        node.wiki_markup = True
+        self.assertTrue(node.wiki_markup)
         self.assertEqual("''italic text''", node)
-        node.showtag = 1
-        self.assertTrue(node.showtag)
+        node.wiki_markup = 0
+        self.assertFalse(node.wiki_markup)
         self.assertEqual("<i>italic text</i>", node)
 
     def test_self_closing(self):
diff --git a/tests/test_tokens.py b/tests/test_tokens.py
index 4620982..2048bb9 100644
--- a/tests/test_tokens.py
+++ b/tests/test_tokens.py
@@ -44,8 +44,8 @@ class TestTokens(unittest.TestCase):
 
         self.assertEqual("bar", token2.foo)
         self.assertEqual(123, token2.baz)
-        self.assertRaises(KeyError, lambda: token1.foo)
-        self.assertRaises(KeyError, lambda: token2.bar)
+        self.assertFalse(token1.foo)
+        self.assertFalse(token2.bar)
 
         token1.spam = "eggs"
         token2.foo = "ham"
@@ -53,7 +53,7 @@ class TestTokens(unittest.TestCase):
 
         self.assertEqual("eggs", token1.spam)
         self.assertEqual("ham", token2.foo)
-        self.assertRaises(KeyError, lambda: token2.baz)
+        self.assertFalse(token2.baz)
         self.assertRaises(KeyError, delattr, token2, "baz")
 
     def test_repr(self):

From 4f52887e172d5e6b8020f7e3abfa91d427e99dca Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 2 Aug 2013 22:11:46 -0400
Subject: [PATCH 090/189] wiki_markup stores the markup itself instead of a
 bool

---
 mwparserfromhell/nodes/tag.py      | 18 +++++++++++-------
 mwparserfromhell/parser/builder.py |  7 ++++---
 mwparserfromhell/parser/tokens.py  |  2 +-
 mwparserfromhell/tag_defs.py       | 18 +-----------------
 tests/test_tag.py                  | 14 +++++++-------
 5 files changed, 24 insertions(+), 35 deletions(-)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index 25c0708..02b87b4 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -24,7 +24,7 @@ from __future__ import unicode_literals
 
 from . import Node, Text
 from ..compat import str
-from ..tag_defs import get_wiki_markup, is_visible
+from ..tag_defs import is_visible
 from ..utils import parse_anything
 
 __all__ = ["Tag"]
@@ -32,7 +32,7 @@ __all__ = ["Tag"]
 class Tag(Node):
     """Represents an HTML-style tag in wikicode, like ``<ref>``."""
 
-    def __init__(self, tag, contents=None, attrs=None, wiki_markup=False,
+    def __init__(self, tag, contents=None, attrs=None, wiki_markup=None,
                  self_closing=False, invalid=False, implicit=False, padding="",
                  closing_tag=None):
         super(Tag, self).__init__()
@@ -54,11 +54,10 @@ class Tag(Node):
 
     def __unicode__(self):
         if self.wiki_markup:
-            open_, close = get_wiki_markup(self.tag)
             if self.self_closing:
-                return open_
+                return self.wiki_markup
             else:
-                return open_ + str(self.contents) + close
+                return self.wiki_markup + str(self.contents) + self.wiki_markup
 
         result = ("</" if self.invalid else "<") + str(self.tag)
         if self.attributes:
@@ -132,7 +131,12 @@ class Tag(Node):
 
     @property
     def wiki_markup(self):
-        """Whether to show the wiki version of a tag instead of the HTML."""
+        """The wikified version of a tag to show instead of HTML.
+
+        If set to a value, this will be displayed instead of the brackets.
+        For example, set to ``''`` to replace ``<i>`` or ``----`` to replace
+        ``<hr>``.
+        """
         return self._wiki_markup
 
     @property
@@ -185,7 +189,7 @@ class Tag(Node):
 
     @wiki_markup.setter
     def wiki_markup(self, value):
-        self._wiki_markup = bool(value)
+        self._wiki_markup = str(value) if value else None
 
     @self_closing.setter
     def self_closing(self, value):
diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index ef55776..196ef14 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -207,14 +207,14 @@ class Builder(object):
         """Handle a case where a tag is at the head of the tokens."""
         close_tokens = (tokens.TagCloseSelfclose, tokens.TagCloseClose)
         implicit, attrs, contents, closing_tag = False, [], None, None
-        wiki_markup, invalid = token.wiki_markup, token.invalid
+        wiki_markup, invalid = token.wiki_markup, token.invalid or False
         self._push()
         while self._tokens:
             token = self._tokens.pop()
             if isinstance(token, tokens.TagAttrStart):
                 attrs.append(self._handle_attribute(token))
             elif isinstance(token, tokens.TagCloseOpen):
-                padding = token.padding
+                padding = token.padding or ""
                 tag = self._pop()
                 self._push()
             elif isinstance(token, tokens.TagOpenClose):
@@ -224,7 +224,8 @@ class Builder(object):
                 if isinstance(token, tokens.TagCloseSelfclose):
                     tag = self._pop()
                     self_closing = True
-                    padding, implicit = token.padding, token.implicit
+                    padding = token.padding or ""
+                    implicit = token.implicit or False
                 else:
                     self_closing = False
                     closing_tag = self._pop()
diff --git a/mwparserfromhell/parser/tokens.py b/mwparserfromhell/parser/tokens.py
index 6dd3446..8c2ea87 100644
--- a/mwparserfromhell/parser/tokens.py
+++ b/mwparserfromhell/parser/tokens.py
@@ -55,7 +55,7 @@ class Token(object):
         return False
 
     def __getattr__(self, key):
-        return self._kwargs.get(key, False)
+        return self._kwargs.get(key)
 
     def __setattr__(self, key, value):
         self._kwargs[key] = value
diff --git a/mwparserfromhell/tag_defs.py b/mwparserfromhell/tag_defs.py
index c918b4d..94e0ac4 100644
--- a/mwparserfromhell/tag_defs.py
+++ b/mwparserfromhell/tag_defs.py
@@ -24,8 +24,7 @@
 
 from __future__ import unicode_literals
 
-__all__ = ["get_wiki_markup", "is_parsable", "is_visible", "is_single",
-           "is_single_only"]
+__all__ = ["is_parsable", "is_visible", "is_single", "is_single_only"]
 
 PARSER_BLACKLIST = [
     # enwiki extensions @ 2013-06-28
@@ -44,21 +43,6 @@ INVISIBLE_TAGS = [
 SINGLE_ONLY = ["br", "hr", "meta", "link", "img"]
 SINGLE = SINGLE_ONLY + ["li", "dt", "dd"]
 
-WIKI_MARKUP = {
-    "i": {"open": "''", "close": "''"},
-    "b": {"open": "'''", "close": "'''"},
-    "ul": {"open": "*"},
-    "ol": {"open": "#"},
-    "dt": {"open": ";"},
-    "dd": {"open": ":"},
-    "hr": {"open": "----"},
-}
-
-def get_wiki_markup(tag):
-    """Return the appropriate wiki markup before and after the given *tag*."""
-    data = WIKI_MARKUP[tag.lower()]
-    return (data.get("open"), data.get("close"))
-
 def is_parsable(tag):
     """Return if the given *tag*'s contents should be passed to the parser."""
     return tag.lower() not in PARSER_BLACKLIST
diff --git a/tests/test_tag.py b/tests/test_tag.py
index a0fbcf1..7ffce35 100644
--- a/tests/test_tag.py
+++ b/tests/test_tag.py
@@ -50,8 +50,8 @@ class TestTag(TreeEqualityTestCase):
                     implicit=True)
         node7 = Tag(wraptext("br"), self_closing=True, invalid=True,
                     padding=" ")
-        node8 = Tag(wraptext("hr"), wiki_markup=True, self_closing=True)
-        node9 = Tag(wraptext("i"), wraptext("italics!"), wiki_markup=True)
+        node8 = Tag(wraptext("hr"), wiki_markup="----", self_closing=True)
+        node9 = Tag(wraptext("i"), wraptext("italics!"), wiki_markup="''")
 
         self.assertEqual("<ref></ref>", str(node1))
         self.assertEqual('<span style="color: red;">foo</span>', str(node2))
@@ -72,7 +72,7 @@ class TestTag(TreeEqualityTestCase):
         # <ref>foobar</ref>
         node1 = Tag(wrap([node1n1]), wrap([node1n2]))
         # '''bold text'''
-        node2 = Tag(wraptext("i"), wrap([node2n1]), wiki_markup=True)
+        node2 = Tag(wraptext("b"), wrap([node2n1]), wiki_markup="'''")
         # <img id="foo" class="bar" />
         node3 = Tag(wrap([node3n1]),
                     attrs=[Attribute(wrap([node3n2]), wrap([node3n3])),
@@ -159,11 +159,11 @@ class TestTag(TreeEqualityTestCase):
     def test_wiki_markup(self):
         """test getter/setter for the wiki_markup attribute"""
         node = Tag(wraptext("i"), wraptext("italic text"))
-        self.assertFalse(node.wiki_markup)
-        node.wiki_markup = True
-        self.assertTrue(node.wiki_markup)
+        self.assertIs(None, node.wiki_markup)
+        node.wiki_markup = "''"
+        self.assertEqual("''", node.wiki_markup)
         self.assertEqual("''italic text''", node)
-        node.wiki_markup = 0
+        node.wiki_markup = False
         self.assertFalse(node.wiki_markup)
         self.assertEqual("<i>italic text</i>", node)
 

From f70188daa882a91459382ff259daca9ffa628abd Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 2 Aug 2013 22:35:04 -0400
Subject: [PATCH 091/189] Add builder and tokenizer tests for wiki-markup tags.

---
 tests/test_builder.py                  | 14 +++++++++++
 tests/tokenizer/tags_wikimarkup.mwtest | 46 ++++++++++++++++++++++++++++++++++
 2 files changed, 60 insertions(+)
 create mode 100644 tests/tokenizer/tags_wikimarkup.mwtest

diff --git a/tests/test_builder.py b/tests/test_builder.py
index c987820..29ae65a 100644
--- a/tests/test_builder.py
+++ b/tests/test_builder.py
@@ -303,6 +303,20 @@ class TestBuilder(TreeEqualityTestCase):
                               Text(" "), Wikilink(wraptext("q")), Text(" "),
                               Template(wraptext("r"))]), True, " \n ", " ",
                               "  ")])])),
+
+            # "''italic text''"
+            ([tokens.TagOpenOpen(wiki_markup="''"), tokens.Text(text="i"),
+              tokens.TagCloseOpen(), tokens.Text(text="italic text"),
+              tokens.TagOpenClose(), tokens.Text(text="i"),
+              tokens.TagCloseClose()],
+             wrap([Tag(wraptext("i"), wraptext("italic text"),
+                       wiki_markup="''")])),
+
+            # * bullet
+            ([tokens.TagOpenOpen(wiki_markup="*"), tokens.Text(text="li"),
+              tokens.TagCloseSelfclose(), tokens.Text(text=" bullet")],
+             wrap([Tag(wraptext("li"), wiki_markup="*", self_closing=True),
+                   Text(" bullet")])),
         ]
         for test, valid in tests:
             self.assertWikicodeEqual(valid, self.builder.build(test))
diff --git a/tests/tokenizer/tags_wikimarkup.mwtest b/tests/tokenizer/tags_wikimarkup.mwtest
new file mode 100644
index 0000000..7dc211e
--- /dev/null
+++ b/tests/tokenizer/tags_wikimarkup.mwtest
@@ -0,0 +1,46 @@
+name:   basic_italics
+label:  basic italic text
+input:  "''text''"
+output: [TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="text"), TagOpenClose(), Text(text="i"), TagCloseClose()]
+
+---
+
+name:   basic_bold
+label:  basic bold text
+input:  "'''text'''"
+output: [TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="text"), TagOpenClose(), Text(text="b"), TagCloseClose()]
+
+---
+
+name:   basic_ul
+label:  basic unordered list
+input:  "*text"
+output: [TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="text")]
+
+---
+
+name:   basic_ol
+label:  basic ordered list
+input:  "#text"
+output: [TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="text")]
+
+---
+
+name:   basic_dt
+label:  basic description term
+input:  ";text"
+output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="text")]
+
+---
+
+name:   basic_dd
+label:  basic description item
+input:  ":text"
+output: [TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="text")]
+
+---
+
+name:   basic_hr
+label:  basic horizontal rule
+input:  "----"
+output: [TagOpenOpen(wiki_markup="----"), Text(text="hr"), TagCloseSelfclose()]

From 7a4b1625d3fd115a1206bd4db7dc95ccc50a26cd Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 2 Aug 2013 22:41:36 -0400
Subject: [PATCH 092/189] Strip self-closing tags correctly.

---
 mwparserfromhell/nodes/tag.py | 2 +-
 tests/test_tag.py             | 2 ++
 2 files changed, 3 insertions(+), 1 deletion(-)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index 08d5204..d63af02 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -89,7 +89,7 @@ class Tag(Node):
                 yield self.closing_tag, child
 
     def __strip__(self, normalize, collapse):
-        if is_visible(self.tag):
+        if self.contents and is_visible(self.tag):
             return self.contents.strip_code(normalize, collapse)
         return None
 
diff --git a/tests/test_tag.py b/tests/test_tag.py
index 6755270..a7a4b4a 100644
--- a/tests/test_tag.py
+++ b/tests/test_tag.py
@@ -102,10 +102,12 @@ class TestTag(TreeEqualityTestCase):
         """test Tag.__strip__()"""
         node1 = Tag(wraptext("i"), wraptext("foobar"))
         node2 = Tag(wraptext("math"), wraptext("foobar"))
+        node3 = Tag(wraptext("br"), self_closing=True)
         for a in (True, False):
             for b in (True, False):
                 self.assertEqual("foobar", node1.__strip__(a, b))
                 self.assertEqual(None, node2.__strip__(a, b))
+                self.assertEqual(None, node3.__strip__(a, b))
 
     def test_showtree(self):
         """test Tag.__showtree__()"""

From 81bafdb72fbd35c289a734fbd2fe54e91fae803e Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 7 Aug 2013 21:50:38 -0400
Subject: [PATCH 093/189] Add 56 tokenizer tests for wiki-markup tags.

---
 tests/tokenizer/tags_wikimarkup.mwtest | 393 +++++++++++++++++++++++++++++++++
 1 file changed, 393 insertions(+)

diff --git a/tests/tokenizer/tags_wikimarkup.mwtest b/tests/tokenizer/tags_wikimarkup.mwtest
index 7dc211e..156f325 100644
--- a/tests/tokenizer/tags_wikimarkup.mwtest
+++ b/tests/tokenizer/tags_wikimarkup.mwtest
@@ -44,3 +44,396 @@ name:   basic_hr
 label:  basic horizontal rule
 input:  "----"
 output: [TagOpenOpen(wiki_markup="----"), Text(text="hr"), TagCloseSelfclose()]
+
+---
+
+name:   complex_italics
+label:  italics with a lot in them
+input:  "''this is a&nbsp;test of [[Italic text|italics]] with {{plenty|of|stuff}}''"
+output: [TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="this is a"), HTMLEntityStart(), Text(text="nbsp"), HTMLEntityEnd(), Text(text="test of "), WikilinkOpen(), Text(text="Italic text"), WikilinkSeparator(), Text(text="italics"), WikilinkClose(), Text(text=" with "), TemplateOpen(), Text(text="plenty"), TemplateParamSeparator(), Text(text="of"), TemplateParamSeparator(), Text(text="stuff"), TemplateClose(), TagOpenClose(), Text(text="i"), TagCloseClose()]
+
+---
+
+name:   multiline_italics
+label:  italics spanning mulitple lines
+input:  "foo\nbar''testing\ntext\nspanning\n\n\n\n\nmultiple\nlines''foo\n\nbar"
+output: [Text(text="foo\nbar"), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="testing\ntext\nspanning\n\n\n\n\nmultiple\nlines"), TagOpenClose(), Text(text="i"), TagCloseClose()]
+
+---
+
+name:   unending_italics
+label:  italics without an ending tag
+input:  "''unending formatting!"
+output: [Text(text="''unending formatting!")]
+
+---
+
+name:   misleading_italics_end
+label:  italics with something that looks like an end but isn't
+input:  "''this is 'not' the en'd'<nowiki>''</nowiki>"
+output: [Text(text="''this is 'not' the en'd'"), TagOpenOpen(), Text(text="nowiki"), TagCloseOpen(padding=""), Text(text="''"), TagOpenClose(), Text(text="nowiki"), TagCloseClose()]
+]
+
+---
+
+name:   italics_start_outside_end_inside
+label:  italics that start outside a link and end inside it
+input:  "''foo[[bar|baz'']]spam"
+output: []
+
+---
+
+name:   italics_start_inside_end_outside
+label:  italics that start inside a link and end outside it
+input:  "[[foo|''bar]]baz''spam"
+output: []
+
+---
+
+name:   complex_bold
+label:  bold with a lot in it
+input:  "'''this is a&nbsp;test of [[Bold text|bold]] with {{plenty|of|stuff}}'''"
+output: []
+
+---
+
+name:   multiline_bold
+label:  bold spanning mulitple lines
+input:  "foo\nbar'''testing\ntext\nspanning\n\n\n\n\nmultiple\nlines'''foo\n\nbar"
+output: []
+
+---
+
+name:   unending_bold
+label:  bold without an ending tag
+input:  "'''unending formatting!"
+output: [Text(text="'''unending formatting!")]
+
+---
+
+name:   misleading_bold_end
+label:  bold with something that looks like an end but isn't
+input:  "'''this is 'not' the en''d'<nowiki>''</nowiki>"
+output: [Text(text="'''this is 'not' the en''d'"), TagOpenOpen(), Text(text="nowiki"), TagCloseOpen(padding=""), Text(text="''"), TagOpenClose(), Text(text="nowiki"), TagCloseClose()]
+
+---
+
+name:   bold_start_outside_end_inside
+label:  bold that start outside a link and end inside it
+input:  "'''foo[[bar|baz''']]spam"
+output: []
+
+---
+
+name:   bold_start_inside_end_outside
+label:  bold that start inside a link and end outside it
+input:  "[[foo|'''bar]]baz'''spam"
+output: []
+
+---
+
+name:   bold_and_italics
+label:  bold and italics together
+input:  "this is '''''bold and italic text'''''!"
+output: []
+
+---
+
+name:   both_then_bold
+label:  text that starts bold/italic, then is just bold
+input:  "'''''both''bold'''"
+output: []
+
+---
+
+name:   both_then_italics
+label:  text that starts bold/italic, then is just italic
+input:  "'''''both'''italics''"
+output: []
+
+---
+
+name:   bold_then_both
+label:  text that starts just bold, then is bold/italic
+input:  "'''bold''both'''''"
+output: []
+
+---
+
+name:   italics_then_both
+label:  text that starts just italic, then is bold/italic
+input:  "''italics'''both'''''"
+output: []
+
+---
+
+name:   seven
+label:  seven ticks
+input:  "'''''''seven'''''''"
+output: []
+
+---
+
+name:   complex_ul
+label:  ul with a lot in it
+input:  "* this is a&nbsp;test of an [[Unordered list|ul]] with {{plenty|of|stuff}}"
+output: []
+
+---
+
+name:   ul_multiline_template
+label:  ul with a template that spans multiple lines
+input:  "* this has a template with a {{line|\nbreak}}\nthis is not part of the list"
+output: []
+
+---
+
+name:   ul_adjacent
+label:  multiple adjacent uls
+input:  "a\n*b\n*c\nd\n*e\nf"
+output: []
+
+---
+
+name:   ul_depths
+label:  multiple adjacent uls, with differing depths
+input:  "*a\n**b\n***c\n********d\n**e\nf\n***g"
+output: []
+
+---
+
+name:   ul_space_before
+label:  uls with space before them
+input:  "foo    *bar\n *baz\n*buzz"
+output: []
+
+---
+
+name:   ul_interruption
+label:  high-depth ul with something blocking it
+input:  "**f*oobar"
+output: []
+
+---
+
+name:   complex_ol
+label:  ol with a lot in it
+input:  "# this is a&nbsp;test of an [[Ordered list|ol]] with {{plenty|of|stuff}}"
+output: []
+
+---
+
+name:   ol_multiline_template
+label:  ol with a template that spans moltiple lines
+input:  "# this has a template with a {{line|\nbreak}}\nthis is not part of the list"
+output: []
+
+---
+
+name:   ol_adjacent
+label:  moltiple adjacent ols
+input:  "a\n#b\n#c\nd\n#e\nf"
+output: []
+
+---
+
+name:   ol_depths
+label:  moltiple adjacent ols, with differing depths
+input:  "#a\n##b\n###c\n########d\n##e\nf\n###g"
+output: []
+
+---
+
+name:   ol_space_before
+label:  ols with space before them
+input:  "foo    #bar\n #baz\n#buzz"
+output: []
+
+---
+
+name:   ol_interruption
+label:  high-depth ol with something blocking it
+input:  "##f#oobar"
+output: []
+
+---
+
+name:   ul_ol_mix
+label:  a mix of adjacent uls and ols
+input:  "*a\n*#b\n*##c\n*##*#*#*d\n*#e\nf\n##*g"
+output: []
+
+---
+
+name:   complex_dt
+label:  dt with a lot in it
+input:  "; this is a&nbsp;test of an [[description term|dt]] with {{plenty|of|stuff}}"
+output: []
+
+---
+
+name:   dt_multiline_template
+label:  dt with a template that spans mdttiple lines
+input:  "; this has a template with a {{line|\nbreak}}\nthis is not part of the list"
+output: []
+
+---
+
+name:   dt_adjacent
+label:  mdttiple adjacent dts
+input:  ";\n;b\n;c\nd\n;e\nf"
+output: []
+
+---
+
+name:   dt_depths
+label:  mdttiple adjacent dts, with differing depths
+input:  ";a\n;;b\n;;;c\n;;;;;;;;d\n;;e\nf\n;;;g"
+output: []
+
+---
+
+name:   dt_space_before
+label:  dts with space before them
+input:  "foo    ;bar\n ;baz\n;buzz"
+output: []
+
+---
+
+name:   dt_interruption
+label:  high-depth dt with something blocking it
+input:  ";;f;oobar"
+output: []
+
+---
+
+name:   complex_dd
+label:  dd with a lot in it
+input:  ": this is a&nbsp:test of an [[description item|dd]] with {{plenty|of|stuff}}"
+output: []
+
+---
+
+name:   dd_multiline_template
+label:  dd with a template that spans mddtiple lines
+input:  ": this has a template with a {{line|\nbreak}}\nthis is not part of the list"
+output: []
+
+---
+
+name:   dd_adjacent
+label:  mddtiple adjacent dds
+input:  ":\n:b\n:c\nd\n:e\nf"
+output: []
+
+---
+
+name:   dd_depths
+label:  mddtiple adjacent dds, with differing depths
+input:  ":a\n::b\n:::c\n::::::::d\n::e\nf\n:::g"
+output: []
+
+---
+
+name:   dd_space_before
+label:  dds with space before them
+input:  "foo    :bar\n :baz\n:buzz"
+output: []
+
+---
+
+name:   dd_interruption
+label:  high-depth dd with something blocking it
+input:  "::f:oobar"
+output: []
+
+---
+
+name:   dt_dd_mix
+label:  a mix of adjacent dts and dds
+input:  ";a\n;:b\n;::c\n;::;:;:;d\n;:e\nf\n::;g"
+output: []
+
+---
+
+name:   dt_dd_mix2
+label:  the correct usage of a dt/dd unit, as in a dl
+input:  ";foo:bar"
+output: []
+
+---
+
+name:   dt_dd_mix3
+label:  another complex example of dts and dds
+input:  ";:::;foo::;:bar;;"
+output: []
+
+---
+
+name:   hr_text_before
+label:  text before an otherwise-valid hr
+input:  "foo----"
+output: [Text(text="foo----")]
+
+---
+
+name:   hr_text_after
+label:  text after a valid hr
+input:  "----bar"
+output: [TagOpenOpen(wiki_markup="----"), Text(text="hr"), TagCloseSelfclose(), Text(text="bar")]
+
+---
+
+name:   hr_text_before_after
+label:  text at both ends of an otherwise-valid hr
+input:  "foo----bar"
+output: [Text(text="foo----bar")]
+
+---
+
+name:   hr_newlines
+label:  newlines surrounding a valid hr
+input:  "foo\n----\nbar"
+output: [Text(text="foo\n"), TagOpenOpen(wiki_markup="----"), Text(text="hr"), TagCloseSelfclose(), Text(text="\nbar")]
+
+---
+
+name:   hr_adjacent
+label:  two adjacent hrs
+input:  "----\n----"
+output: [TagOpenOpen(wiki_markup="----"), Text(text="hr"), TagCloseSelfclose(), Text(text="\n"), TagOpenOpen(wiki_markup="----"), Text(text="hr"), TagCloseSelfclose()]
+
+---
+
+name:   hr_adjacent_space
+label:  two adjacent hrs, with a space before the second one, making it invalid
+input:  "----\n ----"
+output: [TagOpenOpen(wiki_markup="----"), Text(text="hr"), TagCloseSelfclose(), Text(text="\n ----")]
+
+---
+
+name:   hr_short
+label:  an invalid three-hyphen-long hr
+input:  "---"
+output: [Text(text="---")]
+
+---
+
+name:   hr_long
+label:  a very long, valid hr
+input:  "------------------------------------------"
+output: [TagOpenOpen(wiki_markup="------------------------------------------"), Text(text="hr"), TagCloseSelfclose()]
+
+---
+
+name:   hr_interruption_short
+label:  a hr that is interrupted, making it invalid
+input:  "---x-"
+output: [Text(text="---x-")]
+
+---
+
+name:   hr_interruption_long
+label:  a hr that is interrupted, but the first part remains valid because it is long enough
+input:  "----x--"
+output: [TagOpenOpen(wiki_markup="----"), Text(text="hr"), TagCloseSelfclose(), Text(text="x--")]

From 0de0a1f7951ac3615b548b6d78737af19d059e14 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 8 Aug 2013 03:37:33 -0400
Subject: [PATCH 094/189] Finish expected results for wiki-markup test cases.

---
 tests/tokenizer/tags_wikimarkup.mwtest | 84 +++++++++++++++++-----------------
 1 file changed, 42 insertions(+), 42 deletions(-)

diff --git a/tests/tokenizer/tags_wikimarkup.mwtest b/tests/tokenizer/tags_wikimarkup.mwtest
index 156f325..e1891f5 100644
--- a/tests/tokenizer/tags_wikimarkup.mwtest
+++ b/tests/tokenizer/tags_wikimarkup.mwtest
@@ -79,28 +79,28 @@ output: [Text(text="''this is 'not' the en'd'"), TagOpenOpen(), Text(text="nowik
 name:   italics_start_outside_end_inside
 label:  italics that start outside a link and end inside it
 input:  "''foo[[bar|baz'']]spam"
-output: []
+output: [Text(text="''foo"), WikilinkOpen(), Text(text="bar"), WikilinkSeparator(), Text(text="baz''"), WikilinkClose(), Text(text="spam")]
 
 ---
 
 name:   italics_start_inside_end_outside
 label:  italics that start inside a link and end outside it
 input:  "[[foo|''bar]]baz''spam"
-output: []
+output: [Text(text="[[foo|"), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="bar]]baz"), TagOpenClose(), Text(text="i"), TagCloseClose(), Text(text="spam")]
 
 ---
 
 name:   complex_bold
 label:  bold with a lot in it
 input:  "'''this is a&nbsp;test of [[Bold text|bold]] with {{plenty|of|stuff}}'''"
-output: []
+output: [TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="this is a"), HTMLEntityStart(), Text(text="nbsp"), HTMLEntityEnd(), Text(text="test of "), WikilinkOpen(), Text(text="Bold text"), WikilinkSeparator(), Text(text="bold"), WikilinkClose(), Text(text=" with "), TemplateOpen(), Text(text="plenty"), TemplateParamSeparator(), Text(text="of"), TemplateParamSeparator(), Text(text="stuff"), TemplateClose(), TagOpenClose(), Text(text="b"), TagCloseClose()]
 
 ---
 
 name:   multiline_bold
 label:  bold spanning mulitple lines
 input:  "foo\nbar'''testing\ntext\nspanning\n\n\n\n\nmultiple\nlines'''foo\n\nbar"
-output: []
+output: [Text(text="foo\nbar"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="testing\ntext\nspanning\n\n\n\n\nmultiple\nlines"), TagOpenClose(), Text(text="b"), TagCloseClose()]
 
 ---
 
@@ -113,260 +113,260 @@ output: [Text(text="'''unending formatting!")]
 
 name:   misleading_bold_end
 label:  bold with something that looks like an end but isn't
-input:  "'''this is 'not' the en''d'<nowiki>''</nowiki>"
-output: [Text(text="'''this is 'not' the en''d'"), TagOpenOpen(), Text(text="nowiki"), TagCloseOpen(padding=""), Text(text="''"), TagOpenClose(), Text(text="nowiki"), TagCloseClose()]
+input:  "'''this is 'not' the en''d'<nowiki>'''</nowiki>"
+output: [Text(text="'"), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="this is 'not' the en"), TagOpenClose(), Text(text="i"), TagCloseClose(), Text(text="d'"), TagOpenOpen(), Text(text="nowiki"), TagCloseOpen(padding=""), Text(text="'''"), TagOpenClose(), Text(text="nowiki"), TagCloseClose()]
 
 ---
 
 name:   bold_start_outside_end_inside
 label:  bold that start outside a link and end inside it
 input:  "'''foo[[bar|baz''']]spam"
-output: []
+output: [Text(text="'''foo"), WikilinkOpen(), Text(text="bar"), WikilinkSeparator(), Text(text="baz'''"), WikilinkClose(), Text(text="spam")]
 
 ---
 
 name:   bold_start_inside_end_outside
 label:  bold that start inside a link and end outside it
 input:  "[[foo|'''bar]]baz'''spam"
-output: []
+output: [Text(text="[[foo|"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="bar]]baz"), TagOpenClose(), Text(text="b"), TagCloseClose(), Text(text="spam")]
 
 ---
 
 name:   bold_and_italics
 label:  bold and italics together
 input:  "this is '''''bold and italic text'''''!"
-output: []
+output: [Text(text="this is "), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="bold and italic text"), TagOpenClose(), Text(text="b"), TagCloseClose(), TagOpenClose(), Text(text="i"), TagCloseClose(), Text(text="!")]
 
 ---
 
 name:   both_then_bold
 label:  text that starts bold/italic, then is just bold
 input:  "'''''both''bold'''"
-output: []
+output: [TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="both"), TagOpenClose(), Text(text="i"), TagCloseClose(), Text(text="bold"), TagOpenClose(), Text(text="b"), TagCloseClose()]
 
 ---
 
 name:   both_then_italics
 label:  text that starts bold/italic, then is just italic
 input:  "'''''both'''italics''"
-output: []
+output: [TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="both"), TagOpenClose(), Text(text="b"), TagCloseClose(), Text(text="italics"), TagOpenClose(), Text(text="i"), TagCloseClose()]
 
 ---
 
 name:   bold_then_both
 label:  text that starts just bold, then is bold/italic
 input:  "'''bold''both'''''"
-output: []
+output: [TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="bold"), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="both"), TagOpenClose(), Text(text="i"), TagCloseClose(), TagOpenClose(), Text(text="b"), TagCloseClose()]
 
 ---
 
 name:   italics_then_both
 label:  text that starts just italic, then is bold/italic
 input:  "''italics'''both'''''"
-output: []
+output: [TagOpenOpen(wiki_markup="'"), Text(text="i"), TagCloseOpen(), Text(text="italics"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="both"), TagOpenClose(), Text(text="b"), TagCloseClose(), TagOpenClose(), Text(text="i"), TagCloseClose()]
 
 ---
 
 name:   seven
 label:  seven ticks
 input:  "'''''''seven'''''''"
-output: []
+output: [Text(text="''"), TagOpenOpen(wiki_markup="'"), Text(text="i"), TagCloseOpen(), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="seven''"), TagOpenClose(), Text(text="b"), TagCloseClose(), TagOpenClose(), Text(text="i"), TagCloseClose()]
 
 ---
 
 name:   complex_ul
 label:  ul with a lot in it
 input:  "* this is a&nbsp;test of an [[Unordered list|ul]] with {{plenty|of|stuff}}"
-output: []
+output: [TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text=" this is a"), HTMLEntityStart(), Text(text="nbsp"), HTMLEntityEnd(), Text(text="test of an "), WikilinkOpen(), Text(text="Unordered list"), WikilinkSeparator(), Text(text="ul"), WikilinkClose(), Text(text=" with "), TemplateOpen(), Text(text="plenty"), TemplateParamSeparator(), Text(text="of"), TemplateParamSeparator(), Text(text="stuff"), TemplateClose()]
 
 ---
 
 name:   ul_multiline_template
 label:  ul with a template that spans multiple lines
 input:  "* this has a template with a {{line|\nbreak}}\nthis is not part of the list"
-output: []
+output: [TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text=" this has a template with a "), TemplateOpen(), Text(text="line"), TemplateParamSeparator(), Text(text="\nbreak"), TemplateClose(), Text(text="\nthis is not part of the list")]
 
 ---
 
 name:   ul_adjacent
 label:  multiple adjacent uls
 input:  "a\n*b\n*c\nd\n*e\nf"
-output: []
+output: [Text(text="a\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="b\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="c\nd\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="e\nf")]
 
 ---
 
 name:   ul_depths
 label:  multiple adjacent uls, with differing depths
 input:  "*a\n**b\n***c\n********d\n**e\nf\n***g"
-output: []
+output: [TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="a\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="b\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="c\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="d\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="e\nf\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="g")]
 
 ---
 
 name:   ul_space_before
 label:  uls with space before them
 input:  "foo    *bar\n *baz\n*buzz"
-output: []
+output: [Text(text="foo    *bar\n *baz\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="buzz")]
 
 ---
 
 name:   ul_interruption
 label:  high-depth ul with something blocking it
 input:  "**f*oobar"
-output: []
+output: [TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="f*oobar")]
 
 ---
 
 name:   complex_ol
 label:  ol with a lot in it
 input:  "# this is a&nbsp;test of an [[Ordered list|ol]] with {{plenty|of|stuff}}"
-output: []
+output: [TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text=" this is a"), HTMLEntityStart(), Text(text="nbsp"), HTMLEntityEnd(), Text(text="test of an "), WikilinkOpen(), Text(text="Ordered list"), WikilinkSeparator(), Text(text="ol"), WikilinkClose(), Text(text=" with "), TemplateOpen(), Text(text="plenty"), TemplateParamSeparator(), Text(text="of"), TemplateParamSeparator(), Text(text="stuff"), TemplateClose()]
 
 ---
 
 name:   ol_multiline_template
 label:  ol with a template that spans moltiple lines
 input:  "# this has a template with a {{line|\nbreak}}\nthis is not part of the list"
-output: []
+output: [TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text=" this has a template with a "), TemplateOpen(), Text(text="line"), TemplateParamSeparator(), Text(text="\nbreak"), TemplateClose(), Text(text="\nthis is not part of the list")]
 
 ---
 
 name:   ol_adjacent
 label:  moltiple adjacent ols
 input:  "a\n#b\n#c\nd\n#e\nf"
-output: []
+output: [Text(text="a\n"), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="b\n"), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="c\nd\n"), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="e\nf")]
 
 ---
 
 name:   ol_depths
 label:  moltiple adjacent ols, with differing depths
 input:  "#a\n##b\n###c\n########d\n##e\nf\n###g"
-output: []
+output: [TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="a\n"), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="b\n"), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="c\n"), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="d\n"), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="e\nf\n"), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="g")]
 
 ---
 
 name:   ol_space_before
 label:  ols with space before them
 input:  "foo    #bar\n #baz\n#buzz"
-output: []
+output: [Text(text="foo    #bar\n #baz\n"), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="buzz")]
 
 ---
 
 name:   ol_interruption
 label:  high-depth ol with something blocking it
 input:  "##f#oobar"
-output: []
+output: [TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="f#oobar")]
 
 ---
 
 name:   ul_ol_mix
 label:  a mix of adjacent uls and ols
 input:  "*a\n*#b\n*##c\n*##*#*#*d\n*#e\nf\n##*g"
-output: []
+output: [TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="a\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="b\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="c\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="d\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="e\nf\n"), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="g")]
 
 ---
 
 name:   complex_dt
 label:  dt with a lot in it
 input:  "; this is a&nbsp;test of an [[description term|dt]] with {{plenty|of|stuff}}"
-output: []
+output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text=" this is a"), HTMLEntityStart(), Text(text="nbsp"), HTMLEntityEnd(), Text(text="test of an "), WikilinkOpen(), Text(text="description term"), WikilinkSeparator(), Text(text="dt"), WikilinkClose(), Text(text=" with "), TemplateOpen(), Text(text="plenty"), TemplateParamSeparator(), Text(text="of"), TemplateParamSeparator(), Text(text="stuff"), TemplateClose()]
 
 ---
 
 name:   dt_multiline_template
 label:  dt with a template that spans mdttiple lines
 input:  "; this has a template with a {{line|\nbreak}}\nthis is not part of the list"
-output: []
+output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text=" this has a template with a "), TemplateOpen(), Text(text="line"), TemplateParamSeparator(), Text(text="\nbreak"), TemplateClose(), Text(text="\nthis is not part of the list")]
 
 ---
 
 name:   dt_adjacent
 label:  mdttiple adjacent dts
 input:  ";\n;b\n;c\nd\n;e\nf"
-output: []
+output: [Text(text="a\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="b\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="c\nd\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="e\nf")]
 
 ---
 
 name:   dt_depths
 label:  mdttiple adjacent dts, with differing depths
 input:  ";a\n;;b\n;;;c\n;;;;;;;;d\n;;e\nf\n;;;g"
-output: []
+output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="a\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="b\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="c\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="d\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="e\nf\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="g")]
 
 ---
 
 name:   dt_space_before
 label:  dts with space before them
 input:  "foo    ;bar\n ;baz\n;buzz"
-output: []
+output: [Text(text="foo    ;bar\n ;baz\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="buzz")]
 
 ---
 
 name:   dt_interruption
 label:  high-depth dt with something blocking it
 input:  ";;f;oobar"
-output: []
+output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="f;oobar")]
 
 ---
 
 name:   complex_dd
 label:  dd with a lot in it
 input:  ": this is a&nbsp:test of an [[description item|dd]] with {{plenty|of|stuff}}"
-output: []
+output: [TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text=" this is a"), HTMLEntityStart(), Text(text="nbsp"), HTMLEntityEnd(), Text(text="test of an "), WikilinkOpen(), Text(text="description item"), WikilinkSeparator(), Text(text="dd"), WikilinkClose(), Text(text=" with "), TemplateOpen(), Text(text="plenty"), TemplateParamSeparator(), Text(text="of"), TemplateParamSeparator(), Text(text="stuff"), TemplateClose()]
 
 ---
 
 name:   dd_multiline_template
 label:  dd with a template that spans mddtiple lines
 input:  ": this has a template with a {{line|\nbreak}}\nthis is not part of the list"
-output: []
+output: [TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text=" this has a template with a "), TemplateOpen(), Text(text="line"), TemplateParamSeparator(), Text(text="\nbreak"), TemplateClose(), Text(text="\nthis is not part of the list")]
 
 ---
 
 name:   dd_adjacent
 label:  mddtiple adjacent dds
 input:  ":\n:b\n:c\nd\n:e\nf"
-output: []
+output: [Text(text="a\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="b\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="c\nd\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="e\nf")]
 
 ---
 
 name:   dd_depths
 label:  mddtiple adjacent dds, with differing depths
 input:  ":a\n::b\n:::c\n::::::::d\n::e\nf\n:::g"
-output: []
+output: [TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="a\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="b\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="c\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="d\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="e\nf\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="g")]
 
 ---
 
 name:   dd_space_before
 label:  dds with space before them
 input:  "foo    :bar\n :baz\n:buzz"
-output: []
+output: [Text(text="foo    :bar\n :baz\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="buzz")]
 
 ---
 
 name:   dd_interruption
 label:  high-depth dd with something blocking it
 input:  "::f:oobar"
-output: []
+output: [TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="f:oobar")]
 
 ---
 
 name:   dt_dd_mix
 label:  a mix of adjacent dts and dds
 input:  ";a\n;:b\n;::c\n;::;:;:;d\n;:e\nf\n::;g"
-output: []
+output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="a\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="b\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="c\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="d\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="e\nf\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="g")]
 
 ---
 
 name:   dt_dd_mix2
 label:  the correct usage of a dt/dd unit, as in a dl
 input:  ";foo:bar"
-output: []
+output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="foo"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="bar")]
 
 ---
 
 name:   dt_dd_mix3
 label:  another complex example of dts and dds
 input:  ";:::;foo::;:bar;;"
-output: []
+output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="foo"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text=";:bar;;")]
 
 ---
 

From c910951273f3958ee94345345f70eeab71c0ec69 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 8 Aug 2013 16:48:51 -0400
Subject: [PATCH 095/189] Implement horizontal rules (----)

---
 mwparserfromhell/parser/tokenizer.py | 16 ++++++++++++++++
 1 file changed, 16 insertions(+)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 50c7fbd..7754a6b 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -629,6 +629,17 @@ class Tokenizer(object):
         else:
             self._emit_all(tag)
 
+    def _parse_hr(self):
+        """Parse a wiki-style horizontal rule (``----``) at the string head."""
+        length = 4
+        self._head += 3
+        while self._read(1) == "-":
+            length += 1
+            self._head += 1
+        self._emit(tokens.TagOpenOpen(wiki_markup="-" * length))
+        self._emit_text("hr")
+        self._emit(tokens.TagCloseSelfclose())
+
     def _handle_end(self):
         """Handle the end of the stream of wikitext."""
         fail = (contexts.TEMPLATE | contexts.ARGUMENT | contexts.WIKILINK |
@@ -782,6 +793,11 @@ class Tokenizer(object):
                     self._emit_text("<")
             elif this == ">" and self._context & contexts.TAG_CLOSE:
                 return self._handle_tag_close_close()
+            elif this == next == "-" and self._read(-1) in ("\n", self.START):
+                if self._read(2) == self._read(3) == "-":
+                    self._parse_hr()
+                else:
+                    self._emit_text("-")
             else:
                 self._emit_text(this)
             self._head += 1

From 7bce2f4e96da43e71fb1fc89f1cc5645ed32fce2 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 8 Aug 2013 21:27:23 -0400
Subject: [PATCH 096/189] Parse *, #; add another test.

---
 mwparserfromhell/parser/tokenizer.py   | 18 ++++++++++++++++--
 tests/tokenizer/tags_wikimarkup.mwtest |  7 +++++++
 2 files changed, 23 insertions(+), 2 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 7754a6b..ef45ee9 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -629,6 +629,18 @@ class Tokenizer(object):
         else:
             self._emit_all(tag)
 
+    def _parse_list(self):
+        """Parse a wiki-style list (``#``, ``*``, ``;``, ``:``)."""
+        def emit():
+            self._emit(tokens.TagOpenOpen(wiki_markup=self._read()))
+            self._emit_text("li")
+            self._emit(tokens.TagCloseSelfclose())
+
+        emit()
+        while self._read(1) in ("#", "*"):
+            self._head += 1
+            emit()
+
     def _parse_hr(self):
         """Parse a wiki-style horizontal rule (``----``) at the string head."""
         length = 4
@@ -793,8 +805,10 @@ class Tokenizer(object):
                     self._emit_text("<")
             elif this == ">" and self._context & contexts.TAG_CLOSE:
                 return self._handle_tag_close_close()
-            elif this == next == "-" and self._read(-1) in ("\n", self.START):
-                if self._read(2) == self._read(3) == "-":
+            elif self._read(-1) in ("\n", self.START):
+                if this in ("#", "*"):
+                    self._parse_list()
+                elif this == next == self._read(2) == self._read(3) == "-":
                     self._parse_hr()
                 else:
                     self._emit_text("-")
diff --git a/tests/tokenizer/tags_wikimarkup.mwtest b/tests/tokenizer/tags_wikimarkup.mwtest
index e1891f5..9ce71b6 100644
--- a/tests/tokenizer/tags_wikimarkup.mwtest
+++ b/tests/tokenizer/tags_wikimarkup.mwtest
@@ -370,6 +370,13 @@ output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Tag
 
 ---
 
+name:   ul_ol_dt_dd_mix
+label:  an assortment of uls, ols, dds, and dts
+input:  ";:#*foo\n:#*;foo\n#*;:foo\n*;:#foo"
+output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), Text(text="foo\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="foo\n"), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="foo\n"), TagOpenOpen(wiki_markup="*"), Text(text="li"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup="#"), Text(text="li"), TagCloseSelfclose(), Text(text="foo")]
+
+---
+
 name:   hr_text_before
 label:  text before an otherwise-valid hr
 input:  "foo----"

From 3288b80c15bc9f438dd48c355bb1a1b85114d0f3 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 8 Aug 2013 21:28:42 -0400
Subject: [PATCH 097/189] Fix.

---
 mwparserfromhell/parser/tokenizer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index ef45ee9..f167db4 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -811,7 +811,7 @@ class Tokenizer(object):
                 elif this == next == self._read(2) == self._read(3) == "-":
                     self._parse_hr()
                 else:
-                    self._emit_text("-")
+                    self._emit_text(self._read())
             else:
                 self._emit_text(this)
             self._head += 1

From dd2a6f913b140fb9a1b81cfa7dbc41e5f5050b1c Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 9 Aug 2013 20:42:19 -0400
Subject: [PATCH 098/189] Add support for dt, dd. Refactor. Fix some broken
 tests.

---
 mwparserfromhell/parser/contexts.py    | 16 +++++++-----
 mwparserfromhell/parser/tokenizer.py   | 46 ++++++++++++++++++++++------------
 mwparserfromhell/tag_defs.py           | 14 ++++++++++-
 tests/tokenizer/tags_wikimarkup.mwtest | 16 ++++++------
 4 files changed, 61 insertions(+), 31 deletions(-)

diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index 211136c..2785708 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -69,6 +69,8 @@ Local (stack-specific) contexts:
     * :py:const:`TAG_BODY`
     * :py:const:`TAG_CLOSE`
 
+* :py:const:`DL_TERM`
+
 * :py:const:`SAFETY_CHECK`
 
     * :py:const:`HAS_TEXT`
@@ -115,12 +117,14 @@ TAG_BODY =  1 << 16
 TAG_CLOSE = 1 << 17
 TAG = TAG_OPEN + TAG_ATTR + TAG_BODY + TAG_CLOSE
 
-HAS_TEXT =       1 << 18
-FAIL_ON_TEXT =   1 << 19
-FAIL_NEXT  =     1 << 20
-FAIL_ON_LBRACE = 1 << 21
-FAIL_ON_RBRACE = 1 << 22
-FAIL_ON_EQUALS = 1 << 23
+DL_TERM = 1 << 18
+
+HAS_TEXT =       1 << 19
+FAIL_ON_TEXT =   1 << 20
+FAIL_NEXT  =     1 << 21
+FAIL_ON_LBRACE = 1 << 22
+FAIL_ON_RBRACE = 1 << 23
+FAIL_ON_EQUALS = 1 << 24
 SAFETY_CHECK = (HAS_TEXT + FAIL_ON_TEXT + FAIL_NEXT + FAIL_ON_LBRACE +
                 FAIL_ON_RBRACE + FAIL_ON_EQUALS)
 
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index f167db4..d3ce7bd 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -26,7 +26,7 @@ import re
 
 from . import contexts, tokens
 from ..compat import htmlentities
-from ..tag_defs import is_parsable, is_single, is_single_only
+from ..tag_defs import get_html_tag, is_parsable, is_single, is_single_only
 
 __all__ = ["Tokenizer"]
 
@@ -629,20 +629,24 @@ class Tokenizer(object):
         else:
             self._emit_all(tag)
 
-    def _parse_list(self):
-        """Parse a wiki-style list (``#``, ``*``, ``;``, ``:``)."""
-        def emit():
-            self._emit(tokens.TagOpenOpen(wiki_markup=self._read()))
-            self._emit_text("li")
-            self._emit(tokens.TagCloseSelfclose())
+    def _handle_list_marker(self):
+        """Handle a list marker at the head (``#``, ``*``, ``;``, ``:``)."""
+        markup = self._read()
+        if markup == ";":
+            self._context |= contexts.DL_TERM
+        self._emit(tokens.TagOpenOpen(wiki_markup=markup))
+        self._emit_text(get_html_tag(markup))
+        self._emit(tokens.TagCloseSelfclose())
 
-        emit()
-        while self._read(1) in ("#", "*"):
+    def _handle_list(self):
+        """Handle a wiki-style list (``#``, ``*``, ``;``, ``:``)."""
+        self._handle_list_marker()
+        while self._read(1) in ("#", "*", ";", ":"):
             self._head += 1
-            emit()
+            self._handle_list_marker()
 
-    def _parse_hr(self):
-        """Parse a wiki-style horizontal rule (``----``) at the string head."""
+    def _handle_hr(self):
+        """Handle a wiki-style horizontal rule (``----``) in the string."""
         length = 4
         self._head += 3
         while self._read(1) == "-":
@@ -652,6 +656,14 @@ class Tokenizer(object):
         self._emit_text("hr")
         self._emit(tokens.TagCloseSelfclose())
 
+    def _handle_dl_term(self):
+        """Handle the term in a description list (``foo`` in ``;foo:bar``)."""
+        self._context ^= contexts.DL_TERM
+        if self._read() == ":":
+            self._handle_list_marker()
+        else:
+            self._emit_text("\n")
+
     def _handle_end(self):
         """Handle the end of the stream of wikitext."""
         fail = (contexts.TEMPLATE | contexts.ARGUMENT | contexts.WIKILINK |
@@ -806,12 +818,14 @@ class Tokenizer(object):
             elif this == ">" and self._context & contexts.TAG_CLOSE:
                 return self._handle_tag_close_close()
             elif self._read(-1) in ("\n", self.START):
-                if this in ("#", "*"):
-                    self._parse_list()
+                if this in ("#", "*", ";", ":"):
+                    self._handle_list()
                 elif this == next == self._read(2) == self._read(3) == "-":
-                    self._parse_hr()
+                    self._handle_hr()
                 else:
-                    self._emit_text(self._read())
+                    self._emit_text(this)
+            elif this in ("\n", ":") and self._context & contexts.DL_TERM:
+                self._handle_dl_term()
             else:
                 self._emit_text(this)
             self._head += 1
diff --git a/mwparserfromhell/tag_defs.py b/mwparserfromhell/tag_defs.py
index 94e0ac4..2395fc6 100644
--- a/mwparserfromhell/tag_defs.py
+++ b/mwparserfromhell/tag_defs.py
@@ -24,7 +24,8 @@
 
 from __future__ import unicode_literals
 
-__all__ = ["is_parsable", "is_visible", "is_single", "is_single_only"]
+__all__ = ["get_html_tag", "is_parsable", "is_visible", "is_single",
+           "is_single_only"]
 
 PARSER_BLACKLIST = [
     # enwiki extensions @ 2013-06-28
@@ -43,6 +44,17 @@ INVISIBLE_TAGS = [
 SINGLE_ONLY = ["br", "hr", "meta", "link", "img"]
 SINGLE = SINGLE_ONLY + ["li", "dt", "dd"]
 
+MARKUP_TO_HTML = {
+    "#": "li",
+    "*": "li",
+    ";": "dt",
+    ":": "dd"
+}
+
+def get_html_tag(markup):
+    """Return the HTML tag associated with the given wiki-markup."""
+    return MARKUP_TO_HTML[markup]
+
 def is_parsable(tag):
     """Return if the given *tag*'s contents should be passed to the parser."""
     return tag.lower() not in PARSER_BLACKLIST
diff --git a/tests/tokenizer/tags_wikimarkup.mwtest b/tests/tokenizer/tags_wikimarkup.mwtest
index 9ce71b6..c9664fb 100644
--- a/tests/tokenizer/tags_wikimarkup.mwtest
+++ b/tests/tokenizer/tags_wikimarkup.mwtest
@@ -281,7 +281,7 @@ output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Tex
 
 name:   dt_adjacent
 label:  mdttiple adjacent dts
-input:  ";\n;b\n;c\nd\n;e\nf"
+input:  "a\n;b\n;c\nd\n;e\nf"
 output: [Text(text="a\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="b\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="c\nd\n"), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="e\nf")]
 
 ---
@@ -309,7 +309,7 @@ output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Tag
 
 name:   complex_dd
 label:  dd with a lot in it
-input:  ": this is a&nbsp:test of an [[description item|dd]] with {{plenty|of|stuff}}"
+input:  ": this is a&nbsp;test of an [[description item|dd]] with {{plenty|of|stuff}}"
 output: [TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text=" this is a"), HTMLEntityStart(), Text(text="nbsp"), HTMLEntityEnd(), Text(text="test of an "), WikilinkOpen(), Text(text="description item"), WikilinkSeparator(), Text(text="dd"), WikilinkClose(), Text(text=" with "), TemplateOpen(), Text(text="plenty"), TemplateParamSeparator(), Text(text="of"), TemplateParamSeparator(), Text(text="stuff"), TemplateClose()]
 
 ---
@@ -323,7 +323,7 @@ output: [TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Tex
 
 name:   dd_adjacent
 label:  mddtiple adjacent dds
-input:  ":\n:b\n:c\nd\n:e\nf"
+input:  "a\n:b\n:c\nd\n:e\nf"
 output: [Text(text="a\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="b\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="c\nd\n"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="e\nf")]
 
 ---
@@ -358,15 +358,15 @@ output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Tex
 
 name:   dt_dd_mix2
 label:  the correct usage of a dt/dd unit, as in a dl
-input:  ";foo:bar"
-output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="foo"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="bar")]
+input:  ";foo:bar:baz"
+output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="foo"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="bar:baz")]
 
 ---
 
 name:   dt_dd_mix3
-label:  another complex example of dts and dds
-input:  ";:::;foo::;:bar;;"
-output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="foo"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text=";:bar;;")]
+label:  another example of correct (but strange) dt/dd usage
+input:  ":;;::foo:bar:baz"
+output: [TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="foo"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="bar:baz")]
 
 ---
 

From 851a9e586363cdf8612098afaad00915c2ef26b0 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 10 Aug 2013 00:21:29 -0400
Subject: [PATCH 099/189] Add a couple tests and fix a couple broken ones.

---
 tests/tokenizer/tags_wikimarkup.mwtest | 18 ++++++++++++++++--
 1 file changed, 16 insertions(+), 2 deletions(-)

diff --git a/tests/tokenizer/tags_wikimarkup.mwtest b/tests/tokenizer/tags_wikimarkup.mwtest
index c9664fb..6644cd0 100644
--- a/tests/tokenizer/tags_wikimarkup.mwtest
+++ b/tests/tokenizer/tags_wikimarkup.mwtest
@@ -57,7 +57,7 @@ output: [TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(tex
 name:   multiline_italics
 label:  italics spanning mulitple lines
 input:  "foo\nbar''testing\ntext\nspanning\n\n\n\n\nmultiple\nlines''foo\n\nbar"
-output: [Text(text="foo\nbar"), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="testing\ntext\nspanning\n\n\n\n\nmultiple\nlines"), TagOpenClose(), Text(text="i"), TagCloseClose()]
+output: [Text(text="foo\nbar"), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="testing\ntext\nspanning\n\n\n\n\nmultiple\nlines"), TagOpenClose(), Text(text="i"), TagCloseClose(), Text(text="foo\n\nbar")]
 
 ---
 
@@ -100,7 +100,7 @@ output: [TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(te
 name:   multiline_bold
 label:  bold spanning mulitple lines
 input:  "foo\nbar'''testing\ntext\nspanning\n\n\n\n\nmultiple\nlines'''foo\n\nbar"
-output: [Text(text="foo\nbar"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="testing\ntext\nspanning\n\n\n\n\nmultiple\nlines"), TagOpenClose(), Text(text="b"), TagCloseClose()]
+output: [Text(text="foo\nbar"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="testing\ntext\nspanning\n\n\n\n\nmultiple\nlines"), TagOpenClose(), Text(text="b"), TagCloseClose(), Text(text="foo\n\nbar")]
 
 ---
 
@@ -167,6 +167,20 @@ output: [TagOpenOpen(wiki_markup="'"), Text(text="i"), TagCloseOpen(), Text(text
 
 ---
 
+name:   four
+label:  four ticks
+input:  "foo ''''bar'''' baz"
+output: [Text(text="foo '"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="bar'"), TagOpenClose(), Text(text="b"), TagCloseClose(), Text(text=" baz")]
+
+---
+
+name:   four_two
+label:  four ticks to open, two to end
+input:  "foo ''''bar'' baz"
+output: [Text(text="foo ''"), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="bar"), TagOpenClose(), Text(text="i"), TagCloseClose(), Text(text=" baz")]
+
+---
+
 name:   seven
 label:  seven ticks
 input:  "'''''''seven'''''''"

From 2a82a57b2d39757d360483ba22d089ad7d149deb Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 10 Aug 2013 00:21:53 -0400
Subject: [PATCH 100/189] Add support for bold and italic text (part one).

---
 mwparserfromhell/parser/contexts.py  | 23 ++++++++----
 mwparserfromhell/parser/tokenizer.py | 69 +++++++++++++++++++++++++++++++++---
 2 files changed, 81 insertions(+), 11 deletions(-)

diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index 2785708..2ae3cc3 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -69,6 +69,11 @@ Local (stack-specific) contexts:
     * :py:const:`TAG_BODY`
     * :py:const:`TAG_CLOSE`
 
+* :py:const:`STYLE`
+
+    * :py:const:`STYLE_ITALICS`
+    * :py:const:`STYLE_BOLD`
+
 * :py:const:`DL_TERM`
 
 * :py:const:`SAFETY_CHECK`
@@ -117,14 +122,18 @@ TAG_BODY =  1 << 16
 TAG_CLOSE = 1 << 17
 TAG = TAG_OPEN + TAG_ATTR + TAG_BODY + TAG_CLOSE
 
-DL_TERM = 1 << 18
+STYLE_ITALICS = 1 << 18
+STYLE_BOLD =    1 << 19
+STYLE = STYLE_ITALICS + STYLE_BOLD
+
+DL_TERM = 1 << 20
 
-HAS_TEXT =       1 << 19
-FAIL_ON_TEXT =   1 << 20
-FAIL_NEXT  =     1 << 21
-FAIL_ON_LBRACE = 1 << 22
-FAIL_ON_RBRACE = 1 << 23
-FAIL_ON_EQUALS = 1 << 24
+HAS_TEXT =       1 << 21
+FAIL_ON_TEXT =   1 << 22
+FAIL_NEXT  =     1 << 23
+FAIL_ON_LBRACE = 1 << 24
+FAIL_ON_RBRACE = 1 << 25
+FAIL_ON_EQUALS = 1 << 26
 SAFETY_CHECK = (HAS_TEXT + FAIL_ON_TEXT + FAIL_NEXT + FAIL_ON_LBRACE +
                 FAIL_ON_RBRACE + FAIL_ON_EQUALS)
 
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index d3ce7bd..650e605 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -57,11 +57,11 @@ class Tokenizer(object):
     USES_C = False
     START = object()
     END = object()
-    MARKERS = ["{", "}", "[", "]", "<", ">", "|", "=", "&", "#", "*", ";", ":",
-               "/", "-", "\n", END]
+    MARKERS = ["{", "}", "[", "]", "<", ">", "|", "=", "&", "'", "#", "*", ";",
+               ":", "/", "-", "\n", END]
     MAX_DEPTH = 40
     MAX_CYCLES = 100000
-    regex = re.compile(r"([{}\[\]<>|=&#*;:/\\\"\-!\n])", flags=re.IGNORECASE)
+    regex = re.compile(r"([{}\[\]<>|=&'#*;:/\\\"\-!\n])", flags=re.IGNORECASE)
     tag_splitter = re.compile(r"([\s\"\\]+)")
 
     def __init__(self):
@@ -629,6 +629,58 @@ class Tokenizer(object):
         else:
             self._emit_all(tag)
 
+    def _really_parse_style(self, context):
+        """Parse wiki-style bold or italics. Raises :py:exc:`BadRoute`."""
+        stack = self._parse(context)
+        markup = "''" if context == contexts.STYLE_ITALICS else "'''"
+        tag = "i" if context == contexts.STYLE_ITALICS else "b"
+
+        self._emit(tokens.TagOpenOpen(wiki_markup=markup))
+        self._emit_text(tag)
+        self._emit(tokens.TagCloseOpen())
+        self._emit_all(stack)
+        self._emit(tokens.TagOpenClose())
+        self._emit_text(tag)
+        self._emit(tokens.TagCloseClose())
+
+    def _parse_style(self):
+        """Parse wiki-style formatting (``''``/``'''`` for italics/bold)."""
+        self._head += 2
+        ticks = 2
+        while self._read() == "'":
+            self._head += 1
+            ticks += 1
+        reset = self._head
+
+        if ticks > 5:
+            self._emit_text("'" * (ticks - 5))
+            ticks = 5
+        elif ticks == 4:
+            self._emit_text("'")
+            ticks = 3
+
+        if ticks == 5:
+            raise NotImplementedError()
+        if ticks == 3:
+            try:
+                return self._really_parse_style(contexts.STYLE_BOLD)
+            except BadRoute:
+                self._emit_text("'")
+                self._head = reset
+        try:
+            self._really_parse_style(contexts.STYLE_ITALICS)
+        except BadRoute:
+            self._emit_text("''")
+            self._head = reset - 1
+
+    def _handle_style_end(self):
+        """Handle the end of wiki-style italics or bold (``''`` or ``'''``)."""
+        self._head += 1 if self._context & contexts.STYLE_ITALICS else 2
+        while self._read(1) == "'":
+            self._emit_text("'")
+            self._head += 1
+        return self._pop()
+
     def _handle_list_marker(self):
         """Handle a list marker at the head (``#``, ``*``, ``;``, ``:``)."""
         markup = self._read()
@@ -667,7 +719,8 @@ class Tokenizer(object):
     def _handle_end(self):
         """Handle the end of the stream of wikitext."""
         fail = (contexts.TEMPLATE | contexts.ARGUMENT | contexts.WIKILINK |
-                contexts.HEADING | contexts.COMMENT | contexts.TAG)
+                contexts.HEADING | contexts.COMMENT | contexts.TAG |
+                contexts.STYLE)
         double_fail = (contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE)
         if self._context & fail:
             if self._context & contexts.TAG_BODY:
@@ -817,6 +870,14 @@ class Tokenizer(object):
                     self._emit_text("<")
             elif this == ">" and self._context & contexts.TAG_CLOSE:
                 return self._handle_tag_close_close()
+            elif this == next == "'":
+                if not self._context & contexts.STYLE and self._can_recurse():
+                    self._parse_style()
+                elif (self._context & contexts.STYLE_ITALICS or
+                      self._read(2) == "'" and self._context & contexts.STYLE_BOLD):
+                    return self._handle_style_end()
+                else:
+                    self._emit_text("'")
             elif self._read(-1) in ("\n", self.START):
                 if this in ("#", "*", ";", ":"):
                     self._handle_list()

From 28fa6a2037841c756ab8342edf7754f01772397e Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sun, 11 Aug 2013 00:51:13 -0400
Subject: [PATCH 101/189] Add some tests and a new context.

---
 mwparserfromhell/parser/contexts.py    | 18 +++++++------
 tests/tokenizer/tags_wikimarkup.mwtest | 48 +++++++++++++++++++++++++++++++---
 2 files changed, 55 insertions(+), 11 deletions(-)

diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index 2ae3cc3..a7e70fa 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -73,6 +73,7 @@ Local (stack-specific) contexts:
 
     * :py:const:`STYLE_ITALICS`
     * :py:const:`STYLE_BOLD`
+    * :py:const:`STYLE_PASS_2`
 
 * :py:const:`DL_TERM`
 
@@ -124,16 +125,17 @@ TAG = TAG_OPEN + TAG_ATTR + TAG_BODY + TAG_CLOSE
 
 STYLE_ITALICS = 1 << 18
 STYLE_BOLD =    1 << 19
-STYLE = STYLE_ITALICS + STYLE_BOLD
+STYLE_PASS_2 =  1 << 20
+STYLE = STYLE_ITALICS + STYLE_BOLD + STYLE_PASS_2
 
-DL_TERM = 1 << 20
+DL_TERM = 1 << 21
 
-HAS_TEXT =       1 << 21
-FAIL_ON_TEXT =   1 << 22
-FAIL_NEXT  =     1 << 23
-FAIL_ON_LBRACE = 1 << 24
-FAIL_ON_RBRACE = 1 << 25
-FAIL_ON_EQUALS = 1 << 26
+HAS_TEXT =       1 << 22
+FAIL_ON_TEXT =   1 << 23
+FAIL_NEXT  =     1 << 24
+FAIL_ON_LBRACE = 1 << 25
+FAIL_ON_RBRACE = 1 << 26
+FAIL_ON_EQUALS = 1 << 27
 SAFETY_CHECK = (HAS_TEXT + FAIL_ON_TEXT + FAIL_NEXT + FAIL_ON_LBRACE +
                 FAIL_ON_RBRACE + FAIL_ON_EQUALS)
 
diff --git a/tests/tokenizer/tags_wikimarkup.mwtest b/tests/tokenizer/tags_wikimarkup.mwtest
index 6644cd0..da08a34 100644
--- a/tests/tokenizer/tags_wikimarkup.mwtest
+++ b/tests/tokenizer/tags_wikimarkup.mwtest
@@ -163,7 +163,21 @@ output: [TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(te
 name:   italics_then_both
 label:  text that starts just italic, then is bold/italic
 input:  "''italics'''both'''''"
-output: [TagOpenOpen(wiki_markup="'"), Text(text="i"), TagCloseOpen(), Text(text="italics"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="both"), TagOpenClose(), Text(text="b"), TagCloseClose(), TagOpenClose(), Text(text="i"), TagCloseClose()]
+output: [TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="italics"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="both"), TagOpenClose(), Text(text="b"), TagCloseClose(), TagOpenClose(), Text(text="i"), TagCloseClose()]
+
+---
+
+name:   italics_then_bold
+label:  text that starts italic, then is bold
+input:  "none''italics'''''bold'''none"
+output: [Text(text="none"), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="italics"), TagOpenClose(), Text(text="i"), TagCloseClose() TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="bold"), TagOpenClose(), Text(text="b"), TagCloseClose(), Text(text="none")]
+
+---
+
+name:   bold_then_italics
+label:  text that starts bold, then is italic
+input:  "none'''bold'''''italics''none"
+output: [Text(text="none"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="bold"), TagOpenClose(), Text(text="b"), TagCloseClose() TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="italics"), TagOpenClose(), Text(text="i"), TagCloseClose(), Text(text="none")]
 
 ---
 
@@ -175,16 +189,44 @@ output: [Text(text="foo '"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), Tag
 ---
 
 name:   four_two
-label:  four ticks to open, two to end
+label:  four ticks to open, two to close
 input:  "foo ''''bar'' baz"
 output: [Text(text="foo ''"), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="bar"), TagOpenClose(), Text(text="i"), TagCloseClose(), Text(text=" baz")]
 
 ---
 
+name:   two_three
+label:  two ticks to open, three to close
+input:  "foo ''bar''' baz"
+output: [Text(text="foo "), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="bar'"), TagOpenClose(), Text(text="i"), TagCloseClose(), Text(text=" baz")]
+
+---
+
+name:   two_four
+label:  two ticks to open, four to close
+input:  "foo ''bar'''' baz"
+output: [Text(text="foo "), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="bar''"), TagOpenClose(), Text(text="i"), TagCloseClose(), Text(text=" baz")]
+
+---
+
+name:   two_three_two
+label:  two ticks to open, three to close, two afterwards
+input:  "foo ''bar''' baz''"
+output: [Text(text="foo "), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="bar''' baz"), TagOpenClose(), Text(text="i"), TagCloseClose()]
+
+---
+
+name:   two_four_four
+label:  two ticks to open, four to close, four afterwards
+input:  "foo ''bar'''' baz''''"
+output: [Text(text="foo bar'"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), " baz'", TagOpenClose(), Text(text="b"), TagCloseClose()]
+
+---
+
 name:   seven
 label:  seven ticks
 input:  "'''''''seven'''''''"
-output: [Text(text="''"), TagOpenOpen(wiki_markup="'"), Text(text="i"), TagCloseOpen(), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="seven''"), TagOpenClose(), Text(text="b"), TagCloseClose(), TagOpenClose(), Text(text="i"), TagCloseClose()]
+output: [Text(text="''"), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="seven''"), TagOpenClose(), Text(text="b"), TagCloseClose(), TagOpenClose(), Text(text="i"), TagCloseClose()]
 
 ---
 

From 55202aadb0da350d02277a31ed47b08efd28b76f Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 13 Aug 2013 14:24:10 -0400
Subject: [PATCH 102/189] Fix some broken tests.

---
 tests/tokenizer/tags_wikimarkup.mwtest | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tests/tokenizer/tags_wikimarkup.mwtest b/tests/tokenizer/tags_wikimarkup.mwtest
index da08a34..d75968d 100644
--- a/tests/tokenizer/tags_wikimarkup.mwtest
+++ b/tests/tokenizer/tags_wikimarkup.mwtest
@@ -170,14 +170,14 @@ output: [TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(tex
 name:   italics_then_bold
 label:  text that starts italic, then is bold
 input:  "none''italics'''''bold'''none"
-output: [Text(text="none"), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="italics"), TagOpenClose(), Text(text="i"), TagCloseClose() TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="bold"), TagOpenClose(), Text(text="b"), TagCloseClose(), Text(text="none")]
+output: [Text(text="none"), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="italics"), TagOpenClose(), Text(text="i"), TagCloseClose(), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="bold"), TagOpenClose(), Text(text="b"), TagCloseClose(), Text(text="none")]
 
 ---
 
 name:   bold_then_italics
 label:  text that starts bold, then is italic
 input:  "none'''bold'''''italics''none"
-output: [Text(text="none"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="bold"), TagOpenClose(), Text(text="b"), TagCloseClose() TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="italics"), TagOpenClose(), Text(text="i"), TagCloseClose(), Text(text="none")]
+output: [Text(text="none"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="bold"), TagOpenClose(), Text(text="b"), TagCloseClose(), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="italics"), TagOpenClose(), Text(text="i"), TagCloseClose(), Text(text="none")]
 
 ---
 
@@ -219,7 +219,7 @@ output: [Text(text="foo "), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCl
 name:   two_four_four
 label:  two ticks to open, four to close, four afterwards
 input:  "foo ''bar'''' baz''''"
-output: [Text(text="foo bar'"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), " baz'", TagOpenClose(), Text(text="b"), TagCloseClose()]
+output: [Text(text="foo ''bar'"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text=" baz'"), TagOpenClose(), Text(text="b"), TagCloseClose()]
 
 ---
 

From d6446d5d90fbbcca61e4226ccd0bdeab615bc1eb Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 13 Aug 2013 15:56:30 -0400
Subject: [PATCH 103/189] Finish test coverage for tags.

---
 tests/tokenizer/tags_wikimarkup.mwtest | 14 ++++++++++++++
 1 file changed, 14 insertions(+)

diff --git a/tests/tokenizer/tags_wikimarkup.mwtest b/tests/tokenizer/tags_wikimarkup.mwtest
index d75968d..632ba72 100644
--- a/tests/tokenizer/tags_wikimarkup.mwtest
+++ b/tests/tokenizer/tags_wikimarkup.mwtest
@@ -181,6 +181,20 @@ output: [Text(text="none"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagC
 
 ---
 
+name:   five_three
+label:  five ticks to open, three to close (bold)
+input:  "'''''foobar'''"
+output: [Text(text="''"), TagOpenOpen(wiki_markup="'''"), Text(text="b"), TagCloseOpen(), Text(text="foobar"), TagOpenClose(), Text(text="b"), TagCloseClose()]
+
+---
+
+name:   five_two
+label:  five ticks to open, two to close (bold)
+input:  "'''''foobar''"
+output: [Text(text="'''"), TagOpenOpen(wiki_markup="''"), Text(text="i"), TagCloseOpen(), Text(text="foobar"), TagOpenClose(), Text(text="i"), TagCloseClose()]
+
+---
+
 name:   four
 label:  four ticks
 input:  "foo ''''bar'''' baz"

From 992e7018ae6379f1b3f64fde4e23ab73eb0da7c2 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 13 Aug 2013 15:58:55 -0400
Subject: [PATCH 104/189] Working bold/italics implementation (ugly, will clean
 up)

---
 mwparserfromhell/parser/tokenizer.py | 155 ++++++++++++++++++++++++++++-------
 1 file changed, 126 insertions(+), 29 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 650e605..bbeefd6 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -632,8 +632,8 @@ class Tokenizer(object):
     def _really_parse_style(self, context):
         """Parse wiki-style bold or italics. Raises :py:exc:`BadRoute`."""
         stack = self._parse(context)
-        markup = "''" if context == contexts.STYLE_ITALICS else "'''"
-        tag = "i" if context == contexts.STYLE_ITALICS else "b"
+        markup = "''" if context & contexts.STYLE_ITALICS else "'''"
+        tag = "i" if context & contexts.STYLE_ITALICS else "b"
 
         self._emit(tokens.TagOpenOpen(wiki_markup=markup))
         self._emit_text(tag)
@@ -659,27 +659,128 @@ class Tokenizer(object):
             self._emit_text("'")
             ticks = 3
 
-        if ticks == 5:
-            raise NotImplementedError()
-        if ticks == 3:
-            try:
-                return self._really_parse_style(contexts.STYLE_BOLD)
-            except BadRoute:
+        if ticks == 2:
+            if self._context & contexts.STYLE_ITALICS:
+                return self._pop()
+            if self._can_recurse():
+                try:
+                    self._really_parse_style(contexts.STYLE_ITALICS)
+                except BadRoute:
+                    self._head = reset
+                    try:                                                         ## only if STYLE_PASS_AGAIN in destroyed context
+                        self._really_parse_style(contexts.STYLE_ITALICS|contexts.STYLE_PASS_2)
+                    except BadRoute:
+                        self._head = reset
+                        self._emit_text("''")
+            else:
+                self._emit_text("''")
+        elif ticks == 3:
+            if self._context & contexts.STYLE_BOLD:
+                return self._pop()
+            elif self._can_recurse():
+                try:
+                    self._really_parse_style(contexts.STYLE_BOLD)
+                except BadRoute:
+                    self._head = reset
+                    if self._context & contexts.STYLE_ITALICS:
+                        if self._context & contexts.STYLE_PASS_2:
+                            self._emit_text("'")
+                            return self._pop()
+                        self._emit_text("'''")                                   ## here is our hook for STYLE_PASS_AGAIN
+                    else:
+                        self._emit_text("'")
+                        try:
+                            self._really_parse_style(contexts.STYLE_ITALICS)
+                        except BadRoute:
+                            self._head = reset
+                            try:                                                 ## only if STYLE_PASS_AGAIN in destroyed context
+                                self._really_parse_style(contexts.STYLE_ITALICS|contexts.STYLE_PASS_2)
+                            except BadRoute:
+                                self._head = reset
+                                self._emit_text("''")
+            elif self._context & contexts.STYLE_ITALICS and self._context & contexts.STYLE_PASS_2:
                 self._emit_text("'")
-                self._head = reset
-        try:
-            self._really_parse_style(contexts.STYLE_ITALICS)
-        except BadRoute:
-            self._emit_text("''")
-            self._head = reset - 1
-
-    def _handle_style_end(self):
-        """Handle the end of wiki-style italics or bold (``''`` or ``'''``)."""
-        self._head += 1 if self._context & contexts.STYLE_ITALICS else 2
-        while self._read(1) == "'":
-            self._emit_text("'")
-            self._head += 1
-        return self._pop()
+                return self._pop()
+            else:                                                                ## here is our hook for STYLE_PASS_AGAIN
+                self._emit_text("'''")
+        elif ticks == 5:
+            if self._context & contexts.STYLE_ITALICS:
+                self._head -= 3
+                return self._pop()
+            elif self._context & contexts.STYLE_BOLD:
+                self._head -= 2
+                return self._pop()
+            elif self._can_recurse():
+                try:
+                    stack = self._parse(contexts.STYLE_BOLD)
+                except BadRoute:
+                    self._head = reset
+                    try:
+                        stack = self._parse(contexts.STYLE_ITALICS)
+                    except BadRoute:
+                        self._head = reset
+                        self._emit_text("'''''")
+                    else:
+                        reset = self._head
+                        try:
+                            stack2 = self._parse(contexts.STYLE_BOLD)
+                        except BadRoute:
+                            self._head = reset
+                            self._emit_text("'''")
+                            self._emit(tokens.TagOpenOpen(wiki_markup="''"))
+                            self._emit_text("i")
+                            self._emit(tokens.TagCloseOpen())
+                            self._emit_all(stack)
+                            self._emit(tokens.TagOpenClose())
+                            self._emit_text("i")
+                            self._emit(tokens.TagCloseClose())
+                        else:
+                            self._emit(tokens.TagOpenOpen(wiki_markup="'''"))
+                            self._emit_text("b")
+                            self._emit(tokens.TagCloseOpen())
+                            self._emit(tokens.TagOpenOpen(wiki_markup="''"))
+                            self._emit_text("i")
+                            self._emit(tokens.TagCloseOpen())
+                            self._emit_all(stack)
+                            self._emit(tokens.TagOpenClose())
+                            self._emit_text("i")
+                            self._emit(tokens.TagCloseClose())
+                            self._emit_all(stack2)
+                            self._emit(tokens.TagOpenClose())
+                            self._emit_text("b")
+                            self._emit(tokens.TagCloseClose())
+                else:
+                    reset = self._head
+                    try:
+                        stack2 = self._parse(contexts.STYLE_ITALICS)
+                    except BadRoute:
+                        self._head = reset
+                        self._emit_text("''")
+                        self._emit(tokens.TagOpenOpen(wiki_markup="'''"))
+                        self._emit_text("b")
+                        self._emit(tokens.TagCloseOpen())
+                        self._emit_all(stack)
+                        self._emit(tokens.TagOpenClose())
+                        self._emit_text("b")
+                        self._emit(tokens.TagCloseClose())
+                    else:
+                        self._emit(tokens.TagOpenOpen(wiki_markup="''"))
+                        self._emit_text("i")
+                        self._emit(tokens.TagCloseOpen())
+                        self._emit(tokens.TagOpenOpen(wiki_markup="'''"))
+                        self._emit_text("b")
+                        self._emit(tokens.TagCloseOpen())
+                        self._emit_all(stack)
+                        self._emit(tokens.TagOpenClose())
+                        self._emit_text("b")
+                        self._emit(tokens.TagCloseClose())
+                        self._emit_all(stack2)
+                        self._emit(tokens.TagOpenClose())
+                        self._emit_text("i")
+                        self._emit(tokens.TagCloseClose())
+            else:
+                self._emit_text("'''''")
+        self._head -= 1
 
     def _handle_list_marker(self):
         """Handle a list marker at the head (``#``, ``*``, ``;``, ``:``)."""
@@ -871,13 +972,9 @@ class Tokenizer(object):
             elif this == ">" and self._context & contexts.TAG_CLOSE:
                 return self._handle_tag_close_close()
             elif this == next == "'":
-                if not self._context & contexts.STYLE and self._can_recurse():
-                    self._parse_style()
-                elif (self._context & contexts.STYLE_ITALICS or
-                      self._read(2) == "'" and self._context & contexts.STYLE_BOLD):
-                    return self._handle_style_end()
-                else:
-                    self._emit_text("'")
+                result = self._parse_style()
+                if result is not None:
+                    return result
             elif self._read(-1) in ("\n", self.START):
                 if this in ("#", "*", ";", ":"):
                     self._handle_list()

From dd4591c270577e1558f140a767d60986ed32820b Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 13 Aug 2013 17:12:44 -0400
Subject: [PATCH 105/189] Much refactoring and cleanup.

---
 mwparserfromhell/parser/tokenizer.py | 236 ++++++++++++++++-------------------
 1 file changed, 110 insertions(+), 126 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index bbeefd6..89481d8 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -629,20 +629,106 @@ class Tokenizer(object):
         else:
             self._emit_all(tag)
 
-    def _really_parse_style(self, context):
-        """Parse wiki-style bold or italics. Raises :py:exc:`BadRoute`."""
-        stack = self._parse(context)
-        markup = "''" if context & contexts.STYLE_ITALICS else "'''"
-        tag = "i" if context & contexts.STYLE_ITALICS else "b"
-
+    def _emit_tag_open(self, tag, markup):
+        """Write the three tokens in a tag opening sequence."""
         self._emit(tokens.TagOpenOpen(wiki_markup=markup))
         self._emit_text(tag)
         self._emit(tokens.TagCloseOpen())
-        self._emit_all(stack)
+
+    def _emit_tag_close(self, tag):
+        """Write the three tokens in a tag closing sequence."""
         self._emit(tokens.TagOpenClose())
         self._emit_text(tag)
         self._emit(tokens.TagCloseClose())
 
+    def _really_parse_style(self, context, reset, markup, tag):
+        """Parse wiki-style bold or italics. Raises :py:exc:`BadRoute`."""
+        if context & contexts.STYLE_ITALICS:
+            try:
+                stack = self._parse(context)
+            except BadRoute:                                                     ## only if STYLE_PASS_AGAIN in destroyed context
+                self._head = reset
+                stack = self._parse(context | contexts.STYLE_PASS_2)
+        else:
+            stack = self._parse(context)
+
+        self._emit_tag_open(tag, markup)
+        self._emit_all(stack)
+        self._emit_tag_close(tag)
+
+    def _parse_italics(self):
+        """Parse wiki-style italics."""
+        reset = self._head
+        try:
+            self._really_parse_style(contexts.STYLE_ITALICS, reset, "''", "i")
+        except BadRoute:
+            self._head = reset
+            self._emit_text("''")
+
+    def _parse_bold(self):
+        """Parse wiki-style bold."""
+        reset = self._head
+        try:
+            self._really_parse_style(contexts.STYLE_BOLD, reset, "'''", "b")
+        except BadRoute:
+            self._head = reset
+            if self._context & contexts.STYLE_PASS_2:
+                self._emit_text("'")
+                return True
+            elif self._context & contexts.STYLE_ITALICS:
+                # Set STYLE_PASS_AGAIN
+                self._emit_text("'''")
+            else:
+                self._emit_text("'")
+                self._parse_italics()
+
+    def _parse_italics_and_bold(self):
+        """Parse wiki-style italics and bold together (i.e., five ticks)."""
+        reset = self._head
+        try:
+            stack = self._parse(contexts.STYLE_BOLD)
+        except BadRoute:
+            self._head = reset
+            try:
+                stack = self._parse(contexts.STYLE_ITALICS)
+            except BadRoute:
+                self._head = reset
+                self._emit_text("'''''")
+            else:
+                reset = self._head
+                try:
+                    stack2 = self._parse(contexts.STYLE_BOLD)
+                except BadRoute:
+                    self._head = reset
+                    self._emit_text("'''")
+                    self._emit_tag_open("i", "''")
+                    self._emit_all(stack)
+                    self._emit_tag_close("i")
+                else:
+                    self._emit_tag_open("b", "'''")
+                    self._emit_tag_open("i", "''")
+                    self._emit_all(stack)
+                    self._emit_tag_close("i")
+                    self._emit_all(stack2)
+                    self._emit_tag_close("b")
+        else:
+            reset = self._head
+            try:
+                stack2 = self._parse(contexts.STYLE_ITALICS)
+            except BadRoute:
+                self._head = reset
+                self._emit_text("''")
+                self._emit_tag_open("b", "'''")
+                self._emit_all(stack)
+                self._emit_tag_close("b")
+            else:
+                self._emit_tag_open("i", "''")
+                self._emit_tag_open("b", "'''")
+                self._emit_all(stack)
+                self._emit_tag_close("b")
+                self._emit_all(stack2)
+                self._emit_tag_close("i")
+
     def _parse_style(self):
         """Parse wiki-style formatting (``''``/``'''`` for italics/bold)."""
         self._head += 2
@@ -650,7 +736,8 @@ class Tokenizer(object):
         while self._read() == "'":
             self._head += 1
             ticks += 1
-        reset = self._head
+        italics = self._context & contexts.STYLE_ITALICS
+        bold = self._context & contexts.STYLE_BOLD
 
         if ticks > 5:
             self._emit_text("'" * (ticks - 5))
@@ -659,127 +746,24 @@ class Tokenizer(object):
             self._emit_text("'")
             ticks = 3
 
-        if ticks == 2:
-            if self._context & contexts.STYLE_ITALICS:
-                return self._pop()
-            if self._can_recurse():
-                try:
-                    self._really_parse_style(contexts.STYLE_ITALICS)
-                except BadRoute:
-                    self._head = reset
-                    try:                                                         ## only if STYLE_PASS_AGAIN in destroyed context
-                        self._really_parse_style(contexts.STYLE_ITALICS|contexts.STYLE_PASS_2)
-                    except BadRoute:
-                        self._head = reset
-                        self._emit_text("''")
-            else:
-                self._emit_text("''")
+        if (italics and ticks in (2, 5)) or (bold and ticks in (3, 5)):
+            if ticks == 5:
+                self._head -= 3 if italics else 2
+            return self._pop()
+        elif not self._can_recurse():
+            if ticks == 3:
+                if self._context & contexts.STYLE_PASS_2:
+                    self._emit_text("'")
+                    return self._pop()
+                # Set STYLE_PASS_AGAIN
+            self._emit_text("'" * ticks)
+        elif ticks == 2:
+            self._parse_italics()
         elif ticks == 3:
-            if self._context & contexts.STYLE_BOLD:
+            if self._parse_bold():
                 return self._pop()
-            elif self._can_recurse():
-                try:
-                    self._really_parse_style(contexts.STYLE_BOLD)
-                except BadRoute:
-                    self._head = reset
-                    if self._context & contexts.STYLE_ITALICS:
-                        if self._context & contexts.STYLE_PASS_2:
-                            self._emit_text("'")
-                            return self._pop()
-                        self._emit_text("'''")                                   ## here is our hook for STYLE_PASS_AGAIN
-                    else:
-                        self._emit_text("'")
-                        try:
-                            self._really_parse_style(contexts.STYLE_ITALICS)
-                        except BadRoute:
-                            self._head = reset
-                            try:                                                 ## only if STYLE_PASS_AGAIN in destroyed context
-                                self._really_parse_style(contexts.STYLE_ITALICS|contexts.STYLE_PASS_2)
-                            except BadRoute:
-                                self._head = reset
-                                self._emit_text("''")
-            elif self._context & contexts.STYLE_ITALICS and self._context & contexts.STYLE_PASS_2:
-                self._emit_text("'")
-                return self._pop()
-            else:                                                                ## here is our hook for STYLE_PASS_AGAIN
-                self._emit_text("'''")
         elif ticks == 5:
-            if self._context & contexts.STYLE_ITALICS:
-                self._head -= 3
-                return self._pop()
-            elif self._context & contexts.STYLE_BOLD:
-                self._head -= 2
-                return self._pop()
-            elif self._can_recurse():
-                try:
-                    stack = self._parse(contexts.STYLE_BOLD)
-                except BadRoute:
-                    self._head = reset
-                    try:
-                        stack = self._parse(contexts.STYLE_ITALICS)
-                    except BadRoute:
-                        self._head = reset
-                        self._emit_text("'''''")
-                    else:
-                        reset = self._head
-                        try:
-                            stack2 = self._parse(contexts.STYLE_BOLD)
-                        except BadRoute:
-                            self._head = reset
-                            self._emit_text("'''")
-                            self._emit(tokens.TagOpenOpen(wiki_markup="''"))
-                            self._emit_text("i")
-                            self._emit(tokens.TagCloseOpen())
-                            self._emit_all(stack)
-                            self._emit(tokens.TagOpenClose())
-                            self._emit_text("i")
-                            self._emit(tokens.TagCloseClose())
-                        else:
-                            self._emit(tokens.TagOpenOpen(wiki_markup="'''"))
-                            self._emit_text("b")
-                            self._emit(tokens.TagCloseOpen())
-                            self._emit(tokens.TagOpenOpen(wiki_markup="''"))
-                            self._emit_text("i")
-                            self._emit(tokens.TagCloseOpen())
-                            self._emit_all(stack)
-                            self._emit(tokens.TagOpenClose())
-                            self._emit_text("i")
-                            self._emit(tokens.TagCloseClose())
-                            self._emit_all(stack2)
-                            self._emit(tokens.TagOpenClose())
-                            self._emit_text("b")
-                            self._emit(tokens.TagCloseClose())
-                else:
-                    reset = self._head
-                    try:
-                        stack2 = self._parse(contexts.STYLE_ITALICS)
-                    except BadRoute:
-                        self._head = reset
-                        self._emit_text("''")
-                        self._emit(tokens.TagOpenOpen(wiki_markup="'''"))
-                        self._emit_text("b")
-                        self._emit(tokens.TagCloseOpen())
-                        self._emit_all(stack)
-                        self._emit(tokens.TagOpenClose())
-                        self._emit_text("b")
-                        self._emit(tokens.TagCloseClose())
-                    else:
-                        self._emit(tokens.TagOpenOpen(wiki_markup="''"))
-                        self._emit_text("i")
-                        self._emit(tokens.TagCloseOpen())
-                        self._emit(tokens.TagOpenOpen(wiki_markup="'''"))
-                        self._emit_text("b")
-                        self._emit(tokens.TagCloseOpen())
-                        self._emit_all(stack)
-                        self._emit(tokens.TagOpenClose())
-                        self._emit_text("b")
-                        self._emit(tokens.TagCloseClose())
-                        self._emit_all(stack2)
-                        self._emit(tokens.TagOpenClose())
-                        self._emit_text("i")
-                        self._emit(tokens.TagCloseClose())
-            else:
-                self._emit_text("'''''")
+            self._parse_italics_and_bold()
         self._head -= 1
 
     def _handle_list_marker(self):

From 4c0e4402b4cb2aa27f37df710925e401efcf8cf5 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 13 Aug 2013 17:29:05 -0400
Subject: [PATCH 106/189] Only do a second pass if one would produce a
 different result.

---
 mwparserfromhell/parser/contexts.py  | 26 ++++++++++++++------------
 mwparserfromhell/parser/tokenizer.py | 21 +++++++++++++--------
 2 files changed, 27 insertions(+), 20 deletions(-)

diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index a7e70fa..d3f0254 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -73,7 +73,8 @@ Local (stack-specific) contexts:
 
     * :py:const:`STYLE_ITALICS`
     * :py:const:`STYLE_BOLD`
-    * :py:const:`STYLE_PASS_2`
+    * :py:const:`STYLE_PASS_AGAIN`
+    * :py:const:`STYLE_SECOND_PASS`
 
 * :py:const:`DL_TERM`
 
@@ -123,19 +124,20 @@ TAG_BODY =  1 << 16
 TAG_CLOSE = 1 << 17
 TAG = TAG_OPEN + TAG_ATTR + TAG_BODY + TAG_CLOSE
 
-STYLE_ITALICS = 1 << 18
-STYLE_BOLD =    1 << 19
-STYLE_PASS_2 =  1 << 20
-STYLE = STYLE_ITALICS + STYLE_BOLD + STYLE_PASS_2
+STYLE_ITALICS =      1 << 18
+STYLE_BOLD =         1 << 19
+STYLE_PASS_AGAIN =   1 << 20
+STYLE_SECOND_PASS =  1 << 21
+STYLE = STYLE_ITALICS + STYLE_BOLD + STYLE_PASS_AGAIN + STYLE_SECOND_PASS
 
-DL_TERM = 1 << 21
+DL_TERM = 1 << 22
 
-HAS_TEXT =       1 << 22
-FAIL_ON_TEXT =   1 << 23
-FAIL_NEXT  =     1 << 24
-FAIL_ON_LBRACE = 1 << 25
-FAIL_ON_RBRACE = 1 << 26
-FAIL_ON_EQUALS = 1 << 27
+HAS_TEXT =       1 << 23
+FAIL_ON_TEXT =   1 << 24
+FAIL_NEXT  =     1 << 25
+FAIL_ON_LBRACE = 1 << 26
+FAIL_ON_RBRACE = 1 << 27
+FAIL_ON_EQUALS = 1 << 28
 SAFETY_CHECK = (HAS_TEXT + FAIL_ON_TEXT + FAIL_NEXT + FAIL_ON_LBRACE +
                 FAIL_ON_RBRACE + FAIL_ON_EQUALS)
 
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 89481d8..4b9b9db 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -32,7 +32,9 @@ __all__ = ["Tokenizer"]
 
 class BadRoute(Exception):
     """Raised internally when the current tokenization route is invalid."""
-    pass
+
+    def __init__(self, context=0):
+        self.context = context
 
 
 class _TagOpenData(object):
@@ -132,8 +134,9 @@ class Tokenizer(object):
         Discards the current stack/context/textbuffer and raises
         :py:exc:`~.BadRoute`.
         """
+        context = self._context
         self._pop()
-        raise BadRoute()
+        raise BadRoute(context)
 
     def _emit(self, token):
         """Write a token to the end of the current token stack."""
@@ -646,9 +649,11 @@ class Tokenizer(object):
         if context & contexts.STYLE_ITALICS:
             try:
                 stack = self._parse(context)
-            except BadRoute:                                                     ## only if STYLE_PASS_AGAIN in destroyed context
+            except BadRoute as route:
+                if not route.context & contexts.STYLE_PASS_AGAIN:
+                    raise
                 self._head = reset
-                stack = self._parse(context | contexts.STYLE_PASS_2)
+                stack = self._parse(context | contexts.STYLE_SECOND_PASS)
         else:
             stack = self._parse(context)
 
@@ -672,11 +677,11 @@ class Tokenizer(object):
             self._really_parse_style(contexts.STYLE_BOLD, reset, "'''", "b")
         except BadRoute:
             self._head = reset
-            if self._context & contexts.STYLE_PASS_2:
+            if self._context & contexts.STYLE_SECOND_PASS:
                 self._emit_text("'")
                 return True
             elif self._context & contexts.STYLE_ITALICS:
-                # Set STYLE_PASS_AGAIN
+                self._context |= contexts.STYLE_PASS_AGAIN
                 self._emit_text("'''")
             else:
                 self._emit_text("'")
@@ -752,10 +757,10 @@ class Tokenizer(object):
             return self._pop()
         elif not self._can_recurse():
             if ticks == 3:
-                if self._context & contexts.STYLE_PASS_2:
+                if self._context & contexts.STYLE_SECOND_PASS:
                     self._emit_text("'")
                     return self._pop()
-                # Set STYLE_PASS_AGAIN
+                self._context |= contexts.STYLE_PASS_AGAIN
             self._emit_text("'" * ticks)
         elif ticks == 2:
             self._parse_italics()

From 120f53deec842ca93dfdcee14e677433d5979774 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 13 Aug 2013 17:39:21 -0400
Subject: [PATCH 107/189] Refactor out _really_parse_style()

---
 mwparserfromhell/parser/tokenizer.py | 36 +++++++++++++++---------------------
 1 file changed, 15 insertions(+), 21 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 4b9b9db..1dcc194 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -644,37 +644,27 @@ class Tokenizer(object):
         self._emit_text(tag)
         self._emit(tokens.TagCloseClose())
 
-    def _really_parse_style(self, context, reset, markup, tag):
-        """Parse wiki-style bold or italics. Raises :py:exc:`BadRoute`."""
-        if context & contexts.STYLE_ITALICS:
-            try:
-                stack = self._parse(context)
-            except BadRoute as route:
-                if not route.context & contexts.STYLE_PASS_AGAIN:
-                    raise
-                self._head = reset
-                stack = self._parse(context | contexts.STYLE_SECOND_PASS)
-        else:
-            stack = self._parse(context)
-
-        self._emit_tag_open(tag, markup)
-        self._emit_all(stack)
-        self._emit_tag_close(tag)
-
     def _parse_italics(self):
         """Parse wiki-style italics."""
         reset = self._head
         try:
-            self._really_parse_style(contexts.STYLE_ITALICS, reset, "''", "i")
-        except BadRoute:
+            stack = self._parse(contexts.STYLE_ITALICS)
+        except BadRoute as route:
             self._head = reset
-            self._emit_text("''")
+            if route.context & contexts.STYLE_PASS_AGAIN:
+                stack = self._parse(route.context | contexts.STYLE_SECOND_PASS)
+            else:
+                return self._emit_text("''")
+
+        self._emit_tag_open("i", "''")
+        self._emit_all(stack)
+        self._emit_tag_close("i")
 
     def _parse_bold(self):
         """Parse wiki-style bold."""
         reset = self._head
         try:
-            self._really_parse_style(contexts.STYLE_BOLD, reset, "'''", "b")
+            stack = self._parse(contexts.STYLE_BOLD)
         except BadRoute:
             self._head = reset
             if self._context & contexts.STYLE_SECOND_PASS:
@@ -686,6 +676,10 @@ class Tokenizer(object):
             else:
                 self._emit_text("'")
                 self._parse_italics()
+        else:
+            self._emit_tag_open("b", "'''")
+            self._emit_all(stack)
+            self._emit_tag_close("b")
 
     def _parse_italics_and_bold(self):
         """Parse wiki-style italics and bold together (i.e., five ticks)."""

From 38143e1adca9479bad9eda7653943ba8e765efe6 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 13 Aug 2013 20:11:10 -0400
Subject: [PATCH 108/189] More refactoring (combine _emit_tag_open() and
 _emit_tag_close())

---
 mwparserfromhell/parser/tokenizer.py | 41 ++++++++++++------------------------
 1 file changed, 13 insertions(+), 28 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 1dcc194..d4197e6 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -632,14 +632,12 @@ class Tokenizer(object):
         else:
             self._emit_all(tag)
 
-    def _emit_tag_open(self, tag, markup):
-        """Write the three tokens in a tag opening sequence."""
+    def _emit_style_tag(self, tag, markup, body):
+        """Write the body of a tag and the tokens that should surround it."""
         self._emit(tokens.TagOpenOpen(wiki_markup=markup))
         self._emit_text(tag)
         self._emit(tokens.TagCloseOpen())
-
-    def _emit_tag_close(self, tag):
-        """Write the three tokens in a tag closing sequence."""
+        self._emit_all(body)
         self._emit(tokens.TagOpenClose())
         self._emit_text(tag)
         self._emit(tokens.TagCloseClose())
@@ -655,10 +653,7 @@ class Tokenizer(object):
                 stack = self._parse(route.context | contexts.STYLE_SECOND_PASS)
             else:
                 return self._emit_text("''")
-
-        self._emit_tag_open("i", "''")
-        self._emit_all(stack)
-        self._emit_tag_close("i")
+        self._emit_style_tag("i", "''", stack)
 
     def _parse_bold(self):
         """Parse wiki-style bold."""
@@ -677,9 +672,7 @@ class Tokenizer(object):
                 self._emit_text("'")
                 self._parse_italics()
         else:
-            self._emit_tag_open("b", "'''")
-            self._emit_all(stack)
-            self._emit_tag_close("b")
+            self._emit_style_tag("b", "'''", stack)
 
     def _parse_italics_and_bold(self):
         """Parse wiki-style italics and bold together (i.e., five ticks)."""
@@ -700,16 +693,12 @@ class Tokenizer(object):
                 except BadRoute:
                     self._head = reset
                     self._emit_text("'''")
-                    self._emit_tag_open("i", "''")
-                    self._emit_all(stack)
-                    self._emit_tag_close("i")
+                    self._emit_style_tag("i", "''", stack)
                 else:
-                    self._emit_tag_open("b", "'''")
-                    self._emit_tag_open("i", "''")
-                    self._emit_all(stack)
-                    self._emit_tag_close("i")
+                    self._push()
+                    self._emit_style_tag("i", "''", stack)
                     self._emit_all(stack2)
-                    self._emit_tag_close("b")
+                    self._emit_style_tag("b", "'''", self._pop())
         else:
             reset = self._head
             try:
@@ -717,16 +706,12 @@ class Tokenizer(object):
             except BadRoute:
                 self._head = reset
                 self._emit_text("''")
-                self._emit_tag_open("b", "'''")
-                self._emit_all(stack)
-                self._emit_tag_close("b")
+                self._emit_style_tag("b", "'''", stack)
             else:
-                self._emit_tag_open("i", "''")
-                self._emit_tag_open("b", "'''")
-                self._emit_all(stack)
-                self._emit_tag_close("b")
+                self._push()
+                self._emit_style_tag("b", "'''", stack)
                 self._emit_all(stack2)
-                self._emit_tag_close("i")
+                self._emit_style_tag("i", "''", self._pop())
 
     def _parse_style(self):
         """Parse wiki-style formatting (``''``/``'''`` for italics/bold)."""

From 9b98907751c28c48e0a2ff97583c26f371948128 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 13 Aug 2013 20:55:35 -0400
Subject: [PATCH 109/189] Add C hooks and prototypes for wiki-markup tags.

---
 mwparserfromhell/parser/tokenizer.c | 227 ++++++++++++++++++++++++++++++++++--
 mwparserfromhell/parser/tokenizer.h |  96 ++++++++-------
 2 files changed, 273 insertions(+), 50 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index bae5ec2..be996ad 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -325,9 +325,10 @@ static PyObject* Tokenizer_pop_keeping_context(Tokenizer* self)
 */
 static void* Tokenizer_fail_route(Tokenizer* self)
 {
+    int context = self->topstack->context;
     PyObject* stack = Tokenizer_pop(self);
     Py_XDECREF(stack);
-    FAIL_ROUTE();
+    FAIL_ROUTE(context);
     return NULL;
 }
 
@@ -1776,7 +1777,7 @@ static int Tokenizer_handle_invalid_tag_start(Tokenizer* self)
                 return -1;
             }
             if (!IS_SINGLE_ONLY(name))
-                FAIL_ROUTE();
+                FAIL_ROUTE(0);
             break;
         }
         Textbuffer_write(&buf, this);
@@ -1823,12 +1824,201 @@ static int Tokenizer_parse_tag(Tokenizer* self)
 }
 
 /*
+    Write the body of a tag and the tokens that should surround it.
+*/
+static int Tokenizer_emit_style_tag(Tokenizer* self, char tag, int ticks,
+                                    PyObject* body)
+{
+    // self._emit(tokens.TagOpenOpen(wiki_markup=markup))
+    // self._emit_text(tag)
+    // self._emit(tokens.TagCloseOpen())
+    // self._emit_all(body)
+    // self._emit(tokens.TagOpenClose())
+    // self._emit_text(tag)
+    // self._emit(tokens.TagCloseClose())
+}
+
+/*
+    Parse wiki-style italics.
+*/
+static int Tokenizer_parse_italics(Tokenizer* self)
+{
+    // reset = self._head
+    // try:
+    //     stack = self._parse(contexts.STYLE_ITALICS)
+    // except BadRoute as route:
+    //     self._head = reset
+    //     if route.context & contexts.STYLE_PASS_AGAIN:
+    //         stack = self._parse(route.context | contexts.STYLE_SECOND_PASS)
+    //     else:
+    //         return self._emit_text("''")
+    // self._emit_style_tag("i", "''", stack)
+}
+
+/*
+    Parse wiki-style bold.
+*/
+static int Tokenizer_parse_bold(Tokenizer* self)
+{
+    // reset = self._head
+    // try:
+    //     stack = self._parse(contexts.STYLE_BOLD)
+    // except BadRoute:
+    //     self._head = reset
+    //     if self._context & contexts.STYLE_SECOND_PASS:
+    //         self._emit_text("'")
+    //         return True  ## we can return 1 for this and -1 for errors (switch case)
+    //     elif self._context & contexts.STYLE_ITALICS:
+    //         self._context |= contexts.STYLE_PASS_AGAIN
+    //         self._emit_text("'''")
+    //     else:
+    //         self._emit_text("'")
+    //         self._parse_italics()
+    // else:
+    //     self._emit_style_tag("b", "'''", stack)
+}
+
+/*
+    Parse wiki-style italics and bold together (i.e., five ticks).
+*/
+static int Tokenizer_parse_italics_and_bold(Tokenizer* self)
+{
+    // reset = self._head
+    // try:
+    //     stack = self._parse(contexts.STYLE_BOLD)
+    // except BadRoute:
+    //     self._head = reset
+    //     try:
+    //         stack = self._parse(contexts.STYLE_ITALICS)
+    //     except BadRoute:
+    //         self._head = reset
+    //         self._emit_text("'''''")
+    //     else:
+    //         reset = self._head
+    //         try:
+    //             stack2 = self._parse(contexts.STYLE_BOLD)
+    //         except BadRoute:
+    //             self._head = reset
+    //             self._emit_text("'''")
+    //             self._emit_style_tag("i", "''", stack)
+    //         else:
+    //             self._push()
+    //             self._emit_style_tag("i", "''", stack)
+    //             self._emit_all(stack2)
+    //             self._emit_style_tag("b", "'''", self._pop())
+    // else:
+    //     reset = self._head
+    //     try:
+    //         stack2 = self._parse(contexts.STYLE_ITALICS)
+    //     except BadRoute:
+    //         self._head = reset
+    //         self._emit_text("''")
+    //         self._emit_style_tag("b", "'''", stack)
+    //     else:
+    //         self._push()
+    //         self._emit_style_tag("b", "'''", stack)
+    //         self._emit_all(stack2)
+    //         self._emit_style_tag("i", "''", self._pop())
+}
+
+/*
+    Parse wiki-style formatting (''/''' for italics/bold).
+*/
+static PyObject* Tokenizer_parse_style(Tokenizer* self)
+{
+    // self._head += 2
+    // ticks = 2
+    // while self._read() == "'":
+    //     self._head += 1
+    //     ticks += 1
+    // italics = self._context & contexts.STYLE_ITALICS
+    // bold = self._context & contexts.STYLE_BOLD
+    // if ticks > 5:
+    //     self._emit_text("'" * (ticks - 5))
+    //     ticks = 5
+    // elif ticks == 4:
+    //     self._emit_text("'")
+    //     ticks = 3
+    // if (italics and ticks in (2, 5)) or (bold and ticks in (3, 5)):
+    //     if ticks == 5:
+    //         self._head -= 3 if italics else 2
+    //     return self._pop()
+    // elif not self._can_recurse():
+    //     if ticks == 3:
+    //         if self._context & contexts.STYLE_SECOND_PASS:
+    //             self._emit_text("'")
+    //             return self._pop()
+    //         self._context |= contexts.STYLE_PASS_AGAIN
+    //     self._emit_text("'" * ticks)
+    // elif ticks == 2:
+    //     self._parse_italics()
+    // elif ticks == 3:
+    //     if self._parse_bold():
+    //         return self._pop()
+    // elif ticks == 5:
+    //     self._parse_italics_and_bold()
+    // self._head -= 1
+    // ## we can return Py_None for non-error empty returns
+}
+
+/*
+    Handle a list marker at the head (#, *, ;, :).
+*/
+static int Tokenizer_handle_list_marker(Tokenizer* self)
+{
+    // markup = self._read()
+    // if markup == ";":
+    //     self._context |= contexts.DL_TERM
+    // self._emit(tokens.TagOpenOpen(wiki_markup=markup))
+    // self._emit_text(get_html_tag(markup))
+    // self._emit(tokens.TagCloseSelfclose())
+}
+
+/*
+    Handle a wiki-style list (#, *, ;, :).
+*/
+static int Tokenizer_handle_list(Tokenizer* self)
+{
+    // self._handle_list_marker()
+    // while self._read(1) in ("#", "*", ";", ":"):
+    //     self._head += 1
+    //     self._handle_list_marker()
+}
+
+/*
+    Handle a wiki-style horizontal rule (----) in the string.
+*/
+static int Tokenizer_handle_hr(Tokenizer* self)
+{
+    // length = 4
+    // self._head += 3
+    // while self._read(1) == "-":
+    //     length += 1
+    //     self._head += 1
+    // self._emit(tokens.TagOpenOpen(wiki_markup="-" * length))
+    // self._emit_text("hr")
+    // self._emit(tokens.TagCloseSelfclose())
+}
+
+/*
+    Handle the term in a description list ('foo' in ';foo:bar').
+*/
+static int Tokenizer_handle_dl_term(Tokenizer* self)
+{
+    // self._context ^= contexts.DL_TERM
+    // if self._read() == ":":
+    //     self._handle_list_marker()
+    // else:
+    //     self._emit_text("\n")
+}
+
+/*
     Handle the end of the stream of wikitext.
 */
 static PyObject* Tokenizer_handle_end(Tokenizer* self, int context)
 {
     static int fail_contexts = (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK |
-                                LC_HEADING | LC_COMMENT | LC_TAG);
+                                LC_HEADING | LC_COMMENT | LC_TAG | LC_STYLE);
     static int double_fail = (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE);
     PyObject *token, *text, *trash;
     int single;
@@ -1943,7 +2133,7 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
     static int double_unsafe = (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE);
     int this_context, is_marker, i;
     Py_UNICODE this, next, next_next, last;
-    PyObject* trash;
+    PyObject* temp;
 
     if (push) {
         if (Tokenizer_push(self, context))
@@ -1955,8 +2145,8 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
         if (this_context & unsafe_contexts) {
             if (Tokenizer_verify_safe(self, this_context, this) < 0) {
                 if (this_context & double_unsafe) {
-                    trash = Tokenizer_pop(self);
-                    Py_XDECREF(trash);
+                    temp = Tokenizer_pop(self);
+                    Py_XDECREF(temp);
                 }
                 return Tokenizer_fail_route(self);
             }
@@ -1977,6 +2167,7 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
         if (this == *"")
             return Tokenizer_handle_end(self, this_context);
         next = Tokenizer_READ(self, 1);
+        last = Tokenizer_READ_BACKWARDS(self, 1);
         if (this_context & LC_COMMENT) {
             if (this == next && next == *"-") {
                 if (Tokenizer_READ(self, 2) == *">")
@@ -2030,7 +2221,6 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
         else if (this == next && next == *"]" && this_context & LC_WIKILINK)
             return Tokenizer_handle_wikilink_end(self);
         else if (this == *"=" && !(self->global & GL_HEADING)) {
-            last = Tokenizer_READ_BACKWARDS(self, 1);
             if (last == *"\n" || last == *"") {
                 if (Tokenizer_parse_heading(self))
                     return NULL;
@@ -2077,6 +2267,29 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
         }
         else if (this == *">" && this_context & LC_TAG_CLOSE)
             return Tokenizer_handle_tag_close_close(self);
+        else if (this == next && next == *"'") {
+            temp = Tokenizer_parse_style(self);
+            if (temp)
+                return temp;
+        }
+        else if (last == *"\n" || last == *"") {
+            if (this == *"#" || this == *"*" || this == *";" || this == *":") {
+                if (Tokenizer_handle_list(self))
+                    return NULL;
+            }
+            else if (this == *"-" && this == next &&
+                     this == Tokenizer_READ(self, 2) &&
+                     this == Tokenizer_READ(self, 3)) {
+                if (Tokenizer_handle_hr(self))
+                    return NULL;
+            }
+            else if (Tokenizer_emit_text(self, this))
+                return NULL;
+        }
+        else if ((this == *"\n" || this == *":") && this_context & LC_DLTERM) {
+            if (Tokenizer_handle_dl_term(self))
+                return NULL;
+        }
         else if (Tokenizer_emit_text(self, this))
             return NULL;
         self->head++;
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index c42f5f9..29e8fbe 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -41,20 +41,21 @@ SOFTWARE.
 #define ALPHANUM  "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
 
 static const char* MARKERS[] = {
-    "{", "}", "[", "]", "<", ">", "|", "=", "&", "#", "*", ";", ":", "/", "-",
-    "\n", ""};
+    "{", "}", "[", "]", "<", ">", "|", "=", "&", "'", "#", "*", ";", ":", "/",
+    "-", "\n", ""};
 
-#define NUM_MARKERS 17
+#define NUM_MARKERS 18
 #define TEXTBUFFER_BLOCKSIZE 1024
 #define MAX_DEPTH 40
 #define MAX_CYCLES 100000
 #define MAX_BRACES 255
 #define MAX_ENTITY_SIZE 8
 
-static int route_state = 0;
-#define BAD_ROUTE     (route_state)
-#define FAIL_ROUTE()  (route_state = 1)
-#define RESET_ROUTE() (route_state = 0)
+static int route_state = 0, route_context = 0;
+#define BAD_ROUTE            route_state
+#define BAD_ROUTE_CONTEXT    route_context
+#define FAIL_ROUTE(context)  route_state = 1; route_context = context
+#define RESET_ROUTE()        route_state = 0
 
 static char** entitydefs;
 
@@ -102,42 +103,50 @@ static PyObject* TagCloseClose;
 
 /* Local contexts: */
 
-#define LC_TEMPLATE             0x000007
-#define LC_TEMPLATE_NAME        0x000001
-#define LC_TEMPLATE_PARAM_KEY   0x000002
-#define LC_TEMPLATE_PARAM_VALUE 0x000004
-
-#define LC_ARGUMENT             0x000018
-#define LC_ARGUMENT_NAME        0x000008
-#define LC_ARGUMENT_DEFAULT     0x000010
-
-#define LC_WIKILINK             0x000060
-#define LC_WIKILINK_TITLE       0x000020
-#define LC_WIKILINK_TEXT        0x000040
-
-#define LC_HEADING              0x001F80
-#define LC_HEADING_LEVEL_1      0x000080
-#define LC_HEADING_LEVEL_2      0x000100
-#define LC_HEADING_LEVEL_3      0x000200
-#define LC_HEADING_LEVEL_4      0x000400
-#define LC_HEADING_LEVEL_5      0x000800
-#define LC_HEADING_LEVEL_6      0x001000
-
-#define LC_COMMENT              0x002000
-
-#define LC_TAG                  0x03C000
-#define LC_TAG_OPEN             0x004000
-#define LC_TAG_ATTR             0x008000
-#define LC_TAG_BODY             0x010000
-#define LC_TAG_CLOSE            0x020000
-
-#define LC_SAFETY_CHECK         0xFC0000
-#define LC_HAS_TEXT             0x040000
-#define LC_FAIL_ON_TEXT         0x080000
-#define LC_FAIL_NEXT            0x100000
-#define LC_FAIL_ON_LBRACE       0x200000
-#define LC_FAIL_ON_RBRACE       0x400000
-#define LC_FAIL_ON_EQUALS       0x800000
+#define LC_TEMPLATE             0x00000007
+#define LC_TEMPLATE_NAME        0x00000001
+#define LC_TEMPLATE_PARAM_KEY   0x00000002
+#define LC_TEMPLATE_PARAM_VALUE 0x00000004
+
+#define LC_ARGUMENT             0x00000018
+#define LC_ARGUMENT_NAME        0x00000008
+#define LC_ARGUMENT_DEFAULT     0x00000010
+
+#define LC_WIKILINK             0x00000060
+#define LC_WIKILINK_TITLE       0x00000020
+#define LC_WIKILINK_TEXT        0x00000040
+
+#define LC_HEADING              0x00001F80
+#define LC_HEADING_LEVEL_1      0x00000080
+#define LC_HEADING_LEVEL_2      0x00000100
+#define LC_HEADING_LEVEL_3      0x00000200
+#define LC_HEADING_LEVEL_4      0x00000400
+#define LC_HEADING_LEVEL_5      0x00000800
+#define LC_HEADING_LEVEL_6      0x00001000
+
+#define LC_COMMENT              0x00002000
+
+#define LC_TAG                  0x0003C000
+#define LC_TAG_OPEN             0x00004000
+#define LC_TAG_ATTR             0x00008000
+#define LC_TAG_BODY             0x00010000
+#define LC_TAG_CLOSE            0x00020000
+
+#define LC_STYLE                0x003C0000
+#define LC_STYLE_ITALICS        0x00040000
+#define LC_STYLE_BOLD           0x00080000
+#define LC_STYLE_PASS_AGAIN     0x00100000
+#define LC_STYLE_SECOND_PASS    0x00200000
+
+#define LC_DLTERM               0x00400000
+
+#define LC_SAFETY_CHECK         0x1F800000
+#define LC_HAS_TEXT             0x00800000
+#define LC_FAIL_ON_TEXT         0x01000000
+#define LC_FAIL_NEXT            0x02000000
+#define LC_FAIL_ON_LBRACE       0x04000000
+#define LC_FAIL_ON_RBRACE       0x08000000
+#define LC_FAIL_ON_EQUALS       0x10000000
 
 /* Global contexts: */
 
@@ -211,6 +220,7 @@ typedef struct {
 
 /* Macros for accessing HTML tag definitions: */
 
+#define GET_HTML_TAG(markup) (call_tag_def_func("get_html_tag", markup))
 #define IS_PARSABLE(tag) (call_tag_def_func("is_parsable", tag))
 #define IS_SINGLE(tag) (call_tag_def_func("is_single", tag))
 #define IS_SINGLE_ONLY(tag) (call_tag_def_func("is_single_only", tag))

From 22d7ad032a9d8975fa0b67213d1db12a44227d72 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 13 Aug 2013 21:47:42 -0400
Subject: [PATCH 110/189] emit_style_tag, parse_italics, parse_bold

---
 mwparserfromhell/parser/tokenizer.c | 136 +++++++++++++++++++++++++++---------
 1 file changed, 103 insertions(+), 33 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index be996ad..ab0c0db 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1829,13 +1829,64 @@ static int Tokenizer_parse_tag(Tokenizer* self)
 static int Tokenizer_emit_style_tag(Tokenizer* self, char tag, int ticks,
                                     PyObject* body)
 {
-    // self._emit(tokens.TagOpenOpen(wiki_markup=markup))
-    // self._emit_text(tag)
-    // self._emit(tokens.TagCloseOpen())
-    // self._emit_all(body)
-    // self._emit(tokens.TagOpenClose())
-    // self._emit_text(tag)
-    // self._emit(tokens.TagCloseClose())
+    PyObject *markup, *kwargs, *token;
+    char chr_markup[4];
+    int i;
+
+    for (i = 0; i < ticks; i++) chr_markup[i] = *"'";
+    chr_markup[ticks] = *"";
+    markup = PyBytes_FromString(chr_markup);
+    if (!markup)
+        return -1;
+    kwargs = PyDict_New();
+    if (!kwargs) {
+        Py_DECREF(markup);
+        return -1;
+    }
+    PyDict_SetItemString(kwargs, "wiki_markup", markup);
+    Py_DECREF(markup);
+    token = PyObject_Call(TagOpenOpen, NOARGS, kwargs);
+    if (!token) {
+        Py_DECREF(kwargs);
+        return -1;
+    }
+    Py_DECREF(kwargs);
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
+        return -1;
+    }
+    Py_DECREF(token);
+    if (Tokenizer_emit_text(self, tag))
+        return -1;
+    token = PyObject_CallObject(TagCloseOpen, NULL);
+    if (!token)
+        return -1;
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
+        return -1;
+    }
+    Py_DECREF(token);
+    if (Tokenizer_emit_all(self, body))
+        return -1;
+    token = PyObject_CallObject(TagOpenClose, NULL);
+    if (!token)
+        return -1;
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
+        return -1;
+    }
+    Py_DECREF(token);
+    if (Tokenizer_emit_text(self, tag))
+        return -1;
+    token = PyObject_CallObject(TagCloseClose, NULL);
+    if (!token)
+        return -1;
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
+        return -1;
+    }
+    Py_DECREF(token);
+    return 0;
 }
 
 /*
@@ -1843,16 +1894,27 @@ static int Tokenizer_emit_style_tag(Tokenizer* self, char tag, int ticks,
 */
 static int Tokenizer_parse_italics(Tokenizer* self)
 {
-    // reset = self._head
-    // try:
-    //     stack = self._parse(contexts.STYLE_ITALICS)
-    // except BadRoute as route:
-    //     self._head = reset
-    //     if route.context & contexts.STYLE_PASS_AGAIN:
-    //         stack = self._parse(route.context | contexts.STYLE_SECOND_PASS)
-    //     else:
-    //         return self._emit_text("''")
-    // self._emit_style_tag("i", "''", stack)
+    Py_ssize_t reset = self->head;
+    int context;
+    PyObject *stack;
+
+    stack = Tokenizer_parse(self, LC_STYLE_ITALICS, 1);
+    if (BAD_ROUTE) {
+        RESET_ROUTE();
+        self->head = reset;
+        if (BAD_ROUTE_CONTEXT & LC_STYLE_PASS_AGAIN) {
+            context = LC_STYLE_ITALICS | LC_STYLE_SECOND_PASS;
+            stack = Tokenizer_parse(self, context, 1);
+        }
+        else {
+            if (Tokenizer_emit_text(self, *"'"))
+                return -1;
+            return Tokenizer_emit_text(self, *"'");
+        }
+    }
+    if (!stack)
+        return -1;
+    return Tokenizer_emit_style_tag(self, *"i", 2, stack);
 }
 
 /*
@@ -1860,22 +1922,30 @@ static int Tokenizer_parse_italics(Tokenizer* self)
 */
 static int Tokenizer_parse_bold(Tokenizer* self)
 {
-    // reset = self._head
-    // try:
-    //     stack = self._parse(contexts.STYLE_BOLD)
-    // except BadRoute:
-    //     self._head = reset
-    //     if self._context & contexts.STYLE_SECOND_PASS:
-    //         self._emit_text("'")
-    //         return True  ## we can return 1 for this and -1 for errors (switch case)
-    //     elif self._context & contexts.STYLE_ITALICS:
-    //         self._context |= contexts.STYLE_PASS_AGAIN
-    //         self._emit_text("'''")
-    //     else:
-    //         self._emit_text("'")
-    //         self._parse_italics()
-    // else:
-    //     self._emit_style_tag("b", "'''", stack)
+    Py_ssize_t reset = self->head;
+    PyObject *stack;
+
+    stack = Tokenizer_parse(self, LC_STYLE_BOLD, 1);
+    if (BAD_ROUTE) {
+        RESET_ROUTE();
+        self->head = reset;
+        if (self->topstack->context & LC_STYLE_SECOND_PASS)
+            return Tokenizer_emit_text(self, *"'") ? -1 : 1;
+        if (self->topstack->context & LC_STYLE_ITALICS) {
+            self->topstack->context |= LC_STYLE_PASS_AGAIN;
+            if (Tokenizer_emit_text(self, *"'"))
+                return -1;
+            if (Tokenizer_emit_text(self, *"'"))
+                return -1;
+            return Tokenizer_emit_text(self, *"'");
+        }
+        if (Tokenizer_emit_text(self, *"'"))
+            return -1;
+        return Tokenizer_parse_italics(self);
+    }
+    if (!stack)
+        return -1;
+    return Tokenizer_emit_style_tag(self, *"b", 3, stack);
 }
 
 /*

From 34b37562858841afd0a5a322e51da0f51bf15c53 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 01:33:40 -0400
Subject: [PATCH 111/189] parse_italics_and_bold() and parse_style()

---
 mwparserfromhell/parser/tokenizer.c | 205 ++++++++++++++++++++++++------------
 1 file changed, 135 insertions(+), 70 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index ab0c0db..137c3a5 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1886,6 +1886,7 @@ static int Tokenizer_emit_style_tag(Tokenizer* self, char tag, int ticks,
         return -1;
     }
     Py_DECREF(token);
+    Py_DECREF(body);
     return 0;
 }
 
@@ -1953,42 +1954,82 @@ static int Tokenizer_parse_bold(Tokenizer* self)
 */
 static int Tokenizer_parse_italics_and_bold(Tokenizer* self)
 {
-    // reset = self._head
-    // try:
-    //     stack = self._parse(contexts.STYLE_BOLD)
-    // except BadRoute:
-    //     self._head = reset
-    //     try:
-    //         stack = self._parse(contexts.STYLE_ITALICS)
-    //     except BadRoute:
-    //         self._head = reset
-    //         self._emit_text("'''''")
-    //     else:
-    //         reset = self._head
-    //         try:
-    //             stack2 = self._parse(contexts.STYLE_BOLD)
-    //         except BadRoute:
-    //             self._head = reset
-    //             self._emit_text("'''")
-    //             self._emit_style_tag("i", "''", stack)
-    //         else:
-    //             self._push()
-    //             self._emit_style_tag("i", "''", stack)
-    //             self._emit_all(stack2)
-    //             self._emit_style_tag("b", "'''", self._pop())
-    // else:
-    //     reset = self._head
-    //     try:
-    //         stack2 = self._parse(contexts.STYLE_ITALICS)
-    //     except BadRoute:
-    //         self._head = reset
-    //         self._emit_text("''")
-    //         self._emit_style_tag("b", "'''", stack)
-    //     else:
-    //         self._push()
-    //         self._emit_style_tag("b", "'''", stack)
-    //         self._emit_all(stack2)
-    //         self._emit_style_tag("i", "''", self._pop())
+    Py_ssize_t reset = self->head;
+    PyObject *stack, *stack2;
+
+    stack = Tokenizer_parse(self, LC_STYLE_BOLD, 1);
+    if (BAD_ROUTE) {
+        RESET_ROUTE();
+        self->head = reset;
+        stack = Tokenizer_parse(self, LC_STYLE_ITALICS, 1);
+        if (BAD_ROUTE) {
+            RESET_ROUTE();
+            self->head = reset;
+            if (Tokenizer_emit_text(self, *"'"))
+                return -1;
+            if (Tokenizer_emit_text(self, *"'"))
+                return -1;
+            if (Tokenizer_emit_text(self, *"'"))
+                return -1;
+            if (Tokenizer_emit_text(self, *"'"))
+                return -1;
+            return Tokenizer_emit_text(self, *"'");
+        }
+        if (!stack)
+            return -1;
+        reset = self->head;
+        stack2 = Tokenizer_parse(self, LC_STYLE_BOLD, 1);
+        if (BAD_ROUTE) {
+            RESET_ROUTE();
+            self->head = reset;
+            if (Tokenizer_emit_text(self, *"'"))
+                return -1;
+            if (Tokenizer_emit_text(self, *"'"))
+                return -1;
+            if (Tokenizer_emit_text(self, *"'"))
+                return -1;
+            return Tokenizer_emit_style_tag(self, *"i", 2, stack);
+        }
+        if (!stack2)
+            return -1;
+        if (Tokenizer_push(self, 0))
+            return -1;
+        if (Tokenizer_emit_style_tag(self, *"i", 2, stack))
+            return -1;
+        if (Tokenizer_emit_all(self, stack2))
+            return -1;
+        Py_DECREF(stack2);
+        stack2 = Tokenizer_pop(self);
+        if (!stack2)
+            return -1;
+        return Tokenizer_emit_style_tag(self, *"b", 3, stack2);
+    }
+    if (!stack)
+        return -1;
+    reset = self->head;
+    stack2 = Tokenizer_parse(self, LC_STYLE_ITALICS, 1);
+    if (BAD_ROUTE) {
+        RESET_ROUTE();
+        self->head = reset;
+        if (Tokenizer_emit_text(self, *"'"))
+            return -1;
+        if (Tokenizer_emit_text(self, *"'"))
+            return -1;
+        return Tokenizer_emit_style_tag(self, *"b", 3, stack);
+    }
+    if (!stack2)
+        return -1;
+    if (Tokenizer_push(self, 0))
+        return -1;
+    if (Tokenizer_emit_style_tag(self, *"b", 3, stack))
+        return -1;
+    if (Tokenizer_emit_all(self, stack2))
+        return -1;
+    Py_DECREF(stack2);
+    stack2 = Tokenizer_pop(self);
+    if (!stack2)
+        return -1;
+    return Tokenizer_emit_style_tag(self, *"i", 2, stack2);
 }
 
 /*
@@ -1996,39 +2037,63 @@ static int Tokenizer_parse_italics_and_bold(Tokenizer* self)
 */
 static PyObject* Tokenizer_parse_style(Tokenizer* self)
 {
-    // self._head += 2
-    // ticks = 2
-    // while self._read() == "'":
-    //     self._head += 1
-    //     ticks += 1
-    // italics = self._context & contexts.STYLE_ITALICS
-    // bold = self._context & contexts.STYLE_BOLD
-    // if ticks > 5:
-    //     self._emit_text("'" * (ticks - 5))
-    //     ticks = 5
-    // elif ticks == 4:
-    //     self._emit_text("'")
-    //     ticks = 3
-    // if (italics and ticks in (2, 5)) or (bold and ticks in (3, 5)):
-    //     if ticks == 5:
-    //         self._head -= 3 if italics else 2
-    //     return self._pop()
-    // elif not self._can_recurse():
-    //     if ticks == 3:
-    //         if self._context & contexts.STYLE_SECOND_PASS:
-    //             self._emit_text("'")
-    //             return self._pop()
-    //         self._context |= contexts.STYLE_PASS_AGAIN
-    //     self._emit_text("'" * ticks)
-    // elif ticks == 2:
-    //     self._parse_italics()
-    // elif ticks == 3:
-    //     if self._parse_bold():
-    //         return self._pop()
-    // elif ticks == 5:
-    //     self._parse_italics_and_bold()
-    // self._head -= 1
-    // ## we can return Py_None for non-error empty returns
+    int context = self->topstack->context, ticks = 2, i;
+
+    self->head += 2;
+    while (Tokenizer_READ(self, 0) == *"'") {
+        self->head++;
+        ticks++;
+    }
+    if (ticks > 5) {
+        for (i = 0; i < ticks - 5; i++) {
+            if (Tokenizer_emit_text(self, *"'"))
+                return NULL;
+        }
+        ticks = 5;
+    }
+    else if (ticks == 4) {
+        if (Tokenizer_emit_text(self, *"'"))
+            return NULL;
+        ticks = 3;
+    }
+    if ((context & LC_STYLE_ITALICS && (ticks == 2 || ticks == 5)) ||
+           (context & LC_STYLE_BOLD && (ticks == 3 || ticks == 5))) {
+        if (ticks == 5)
+            self->head -= context & LC_STYLE_ITALICS ? 3 : 2;
+        return Tokenizer_pop(self);
+    }
+    if (!Tokenizer_CAN_RECURSE(self)) {
+        if (ticks == 3) {
+            if (context & LC_STYLE_SECOND_PASS) {
+                if (Tokenizer_emit_text(self, *"'"))
+                    return NULL;
+                return Tokenizer_pop(self);
+            }
+            self->topstack->context |= LC_STYLE_PASS_AGAIN;
+        }
+        for (i = 0; i < ticks; i++) {
+            if (Tokenizer_emit_text(self, *"'"))
+                return NULL;
+        }
+    }
+    else if (ticks == 2) {
+        if (Tokenizer_parse_italics(self))
+            return NULL;
+    }
+    else if (ticks == 3) {
+        switch (Tokenizer_parse_bold(self)) {
+            case 1:
+                return Tokenizer_pop(self);
+            case -1:
+                return NULL;
+        }
+    }
+    else {
+        if (Tokenizer_parse_italics_and_bold(self))
+            return NULL;
+    }
+    self->head--;
+    return Py_None;
 }
 
 /*
@@ -2339,7 +2404,7 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
             return Tokenizer_handle_tag_close_close(self);
         else if (this == next && next == *"'") {
             temp = Tokenizer_parse_style(self);
-            if (temp)
+            if (temp != Py_None)
                 return temp;
         }
         else if (last == *"\n" || last == *"") {

From c20d3f2a6af7a0ad866c0788b9b1b91badb05571 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 02:01:13 -0400
Subject: [PATCH 112/189] handle_list_marker() and handle_list()

---
 mwparserfromhell/parser/tokenizer.c | 59 ++++++++++++++++++++++++++++++-------
 mwparserfromhell/parser/tokenizer.h |  2 +-
 2 files changed, 50 insertions(+), 11 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 137c3a5..f5e1f27 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -2101,12 +2101,43 @@ static PyObject* Tokenizer_parse_style(Tokenizer* self)
 */
 static int Tokenizer_handle_list_marker(Tokenizer* self)
 {
-    // markup = self._read()
-    // if markup == ";":
-    //     self._context |= contexts.DL_TERM
-    // self._emit(tokens.TagOpenOpen(wiki_markup=markup))
-    // self._emit_text(get_html_tag(markup))
-    // self._emit(tokens.TagCloseSelfclose())
+    PyObject *markup = Tokenizer_read(self, 0), *kwargs, *token;
+    Py_UNICODE code = *PyUnicode_AS_UNICODE(markup);
+    char *html;
+    int i = 0;
+
+    if (code == *";")
+        self->topstack->context |= LC_DLTERM;
+    kwargs = PyDict_New();
+    if (!kwargs)
+        return -1;
+    PyDict_SetItemString(kwargs, "wiki_markup", markup);
+    token = PyObject_Call(TagOpenOpen, NOARGS, kwargs);
+    if (!token) {
+        Py_DECREF(kwargs);
+        return -1;
+    }
+    Py_DECREF(kwargs);
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
+        return -1;
+    }
+    Py_DECREF(token);
+    html = GET_HTML_TAG(code);
+    while (html[i]) {
+        if (Tokenizer_emit_text(self, html[i]))
+            return -1;
+        i++;
+    }
+    token = PyObject_CallObject(TagCloseSelfclose, NULL);
+    if (!token)
+        return -1;
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
+        return -1;
+    }
+    Py_DECREF(token);
+    return 0;
 }
 
 /*
@@ -2114,10 +2145,18 @@ static int Tokenizer_handle_list_marker(Tokenizer* self)
 */
 static int Tokenizer_handle_list(Tokenizer* self)
 {
-    // self._handle_list_marker()
-    // while self._read(1) in ("#", "*", ";", ":"):
-    //     self._head += 1
-    //     self._handle_list_marker()
+    Py_UNICODE marker = Tokenizer_READ(self, 1);
+
+    if (Tokenizer_handle_list_marker(self))
+        return -1;
+    while (marker == *"#" || marker == *"*" || marker == *";" ||
+           marker == *":") {
+        self->head++;
+        if (Tokenizer_handle_list_marker(self))
+            return -1;
+        marker = Tokenizer_READ(self, 1);
+    }
+    return 0;
 }
 
 /*
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 29e8fbe..4136285 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -220,7 +220,7 @@ typedef struct {
 
 /* Macros for accessing HTML tag definitions: */
 
-#define GET_HTML_TAG(markup) (call_tag_def_func("get_html_tag", markup))
+#define GET_HTML_TAG(markup) (markup == *":" ? "dd" : markup == *";" ? "dt" : "li")
 #define IS_PARSABLE(tag) (call_tag_def_func("is_parsable", tag))
 #define IS_SINGLE(tag) (call_tag_def_func("is_single", tag))
 #define IS_SINGLE_ONLY(tag) (call_tag_def_func("is_single_only", tag))

From 9993ffe8bf4ca38d6c6ff47f348c0962dc511917 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 02:11:16 -0400
Subject: [PATCH 113/189] handle_hr()

---
 mwparserfromhell/parser/tokenizer.c | 57 +++++++++++++++++++++++++++++++------
 1 file changed, 49 insertions(+), 8 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index f5e1f27..5eaa6d8 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -2164,14 +2164,55 @@ static int Tokenizer_handle_list(Tokenizer* self)
 */
 static int Tokenizer_handle_hr(Tokenizer* self)
 {
-    // length = 4
-    // self._head += 3
-    // while self._read(1) == "-":
-    //     length += 1
-    //     self._head += 1
-    // self._emit(tokens.TagOpenOpen(wiki_markup="-" * length))
-    // self._emit_text("hr")
-    // self._emit(tokens.TagCloseSelfclose())
+    PyObject *markup, *kwargs, *token;
+    Textbuffer *buffer = Textbuffer_new();
+    int i;
+
+    if (!buffer)
+        return -1;
+    self->head += 3;
+    for (i = 0; i < 4; i++) {
+        if (Textbuffer_write(&buffer, *"-"))
+            return -1;
+    }
+    while (Tokenizer_READ(self, 1) == *"-") {
+        if (Textbuffer_write(&buffer, *"-"))
+            return -1;
+        self->head++;
+    }
+    markup = Textbuffer_render(buffer);
+    if (!markup)
+        return -1;
+    Textbuffer_dealloc(buffer);
+    kwargs = PyDict_New();
+    if (!kwargs)
+        return -1;
+    PyDict_SetItemString(kwargs, "wiki_markup", markup);
+    Py_DECREF(markup);
+    token = PyObject_Call(TagOpenOpen, NOARGS, kwargs);
+    if (!token) {
+        Py_DECREF(kwargs);
+        return -1;
+    }
+    Py_DECREF(kwargs);
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
+        return -1;
+    }
+    Py_DECREF(token);
+    if (Tokenizer_emit_text(self, *"h"))
+        return -1;
+    if (Tokenizer_emit_text(self, *"r"))
+        return -1;
+    token = PyObject_CallObject(TagCloseSelfclose, NULL);
+    if (!token)
+        return -1;
+    if (Tokenizer_emit(self, token)) {
+        Py_DECREF(token);
+        return -1;
+    }
+    Py_DECREF(token);
+    return 0;
 }
 
 /*

From bbcb906f37a30c22f91b6661c35138da3a18d868 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 02:12:33 -0400
Subject: [PATCH 114/189] handle_dl_term()

---
 mwparserfromhell/parser/tokenizer.c | 9 ++++-----
 1 file changed, 4 insertions(+), 5 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 5eaa6d8..43df293 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -2220,11 +2220,10 @@ static int Tokenizer_handle_hr(Tokenizer* self)
 */
 static int Tokenizer_handle_dl_term(Tokenizer* self)
 {
-    // self._context ^= contexts.DL_TERM
-    // if self._read() == ":":
-    //     self._handle_list_marker()
-    // else:
-    //     self._emit_text("\n")
+    self->topstack->context ^= LC_DLTERM;
+    if (Tokenizer_READ(self, 0) == *":")
+        return Tokenizer_handle_list_marker(self);
+    return Tokenizer_emit_text(self, *"\n");
 }
 
 /*

From c1379d5f21f1f5bfd4bb7a179994225e487519ad Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 02:33:15 -0400
Subject: [PATCH 115/189] Add a emit_string() as a shortcut; a bunch of minor
 cleanup.

---
 mwparserfromhell/parser/tokenizer.c | 143 +++++++++++++++---------------------
 1 file changed, 60 insertions(+), 83 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 43df293..62e8599 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -29,6 +29,7 @@ SOFTWARE.
 static int heading_level_from_context(int n)
 {
     int level;
+
     n /= LC_HEADING_LEVEL_1;
     for (level = 1; n > 1; n >>= 1)
         level++;
@@ -72,6 +73,7 @@ static PyObject* strip_tag_name(PyObject* token)
 static Textbuffer* Textbuffer_new(void)
 {
     Textbuffer* buffer = malloc(sizeof(Textbuffer));
+
     if (!buffer) {
         PyErr_NoMemory();
         return NULL;
@@ -90,6 +92,7 @@ static Textbuffer* Textbuffer_new(void)
 static void Textbuffer_dealloc(Textbuffer* self)
 {
     Textbuffer* next;
+
     while (self) {
         free(self->data);
         next = self->next;
@@ -104,6 +107,7 @@ static void Textbuffer_dealloc(Textbuffer* self)
 static int Textbuffer_write(Textbuffer** this, Py_UNICODE text)
 {
     Textbuffer* self = *this;
+
     if (self->size == TEXTBUFFER_BLOCKSIZE) {
         Textbuffer* new = Textbuffer_new();
         if (!new)
@@ -123,6 +127,7 @@ static PyObject* Textbuffer_render(Textbuffer* self)
 {
     PyObject *result = PyUnicode_FromUnicode(self->data, self->size);
     PyObject *left, *concat;
+
     while (self->next) {
         self = self->next;
         left = PyUnicode_FromUnicode(self->data, self->size);
@@ -208,6 +213,7 @@ static void Tokenizer_dealloc(Tokenizer* self)
 static int Tokenizer_init(Tokenizer* self, PyObject* args, PyObject* kwds)
 {
     static char* kwlist[] = {NULL};
+
     if (!PyArg_ParseTupleAndKeywords(args, kwds, "", kwlist))
         return -1;
     self->text = Py_None;
@@ -223,6 +229,7 @@ static int Tokenizer_init(Tokenizer* self, PyObject* args, PyObject* kwds)
 static int Tokenizer_push(Tokenizer* self, int context)
 {
     Stack* top = malloc(sizeof(Stack));
+
     if (!top) {
         PyErr_NoMemory();
         return -1;
@@ -246,6 +253,7 @@ static int Tokenizer_push_textbuffer(Tokenizer* self)
 {
     PyObject *text, *kwargs, *token;
     Textbuffer* buffer = self->topstack->textbuffer;
+
     if (buffer->size == 0 && !buffer->next)
         return 0;
     text = Textbuffer_render(buffer);
@@ -280,6 +288,7 @@ static int Tokenizer_push_textbuffer(Tokenizer* self)
 static void Tokenizer_delete_top_of_stack(Tokenizer* self)
 {
     Stack* top = self->topstack;
+
     Py_DECREF(top->stack);
     Textbuffer_dealloc(top->textbuffer);
     self->topstack = top->next;
@@ -293,6 +302,7 @@ static void Tokenizer_delete_top_of_stack(Tokenizer* self)
 static PyObject* Tokenizer_pop(Tokenizer* self)
 {
     PyObject* stack;
+
     if (Tokenizer_push_textbuffer(self))
         return NULL;
     stack = self->topstack->stack;
@@ -309,6 +319,7 @@ static PyObject* Tokenizer_pop_keeping_context(Tokenizer* self)
 {
     PyObject* stack;
     int context;
+
     if (Tokenizer_push_textbuffer(self))
         return NULL;
     stack = self->topstack->stack;
@@ -327,6 +338,7 @@ static void* Tokenizer_fail_route(Tokenizer* self)
 {
     int context = self->topstack->context;
     PyObject* stack = Tokenizer_pop(self);
+
     Py_XDECREF(stack);
     FAIL_ROUTE(context);
     return NULL;
@@ -365,6 +377,21 @@ static int Tokenizer_emit_text(Tokenizer* self, Py_UNICODE text)
 }
 
 /*
+    Write a string of text to the current textbuffer.
+*/
+static int Tokenizer_emit_string(Tokenizer* self, const char* text)
+{
+    int i = 0;
+
+    while (text[i]) {
+        if (Tokenizer_emit_text(self, text[i]))
+            return -1;
+        i++;
+    }
+    return 0;
+}
+
+/*
     Write a series of tokens to the current stack at once.
 */
 static int Tokenizer_emit_all(Tokenizer* self, PyObject* tokenlist)
@@ -428,15 +455,10 @@ static int Tokenizer_emit_all(Tokenizer* self, PyObject* tokenlist)
 static int Tokenizer_emit_text_then_stack(Tokenizer* self, const char* text)
 {
     PyObject* stack = Tokenizer_pop(self);
-    int i = 0;
-    while (1) {
-        if (!text[i])
-            break;
-        if (Tokenizer_emit_text(self, (Py_UNICODE) text[i])) {
-            Py_XDECREF(stack);
-            return -1;
-        }
-        i++;
+
+    if (Tokenizer_emit_string(self, text)) {
+        Py_DECREF(stack);
+        return -1;
     }
     if (stack) {
         if (PyList_GET_SIZE(stack) > 0) {
@@ -457,6 +479,7 @@ static int Tokenizer_emit_text_then_stack(Tokenizer* self, const char* text)
 static PyObject* Tokenizer_read(Tokenizer* self, Py_ssize_t delta)
 {
     Py_ssize_t index = self->head + delta;
+
     if (index >= self->length)
         return EMPTY;
     return PyList_GET_ITEM(self->text, index);
@@ -468,6 +491,7 @@ static PyObject* Tokenizer_read(Tokenizer* self, Py_ssize_t delta)
 static PyObject* Tokenizer_read_backwards(Tokenizer* self, Py_ssize_t delta)
 {
     Py_ssize_t index;
+
     if (delta > self->head)
         return EMPTY;
     index = self->head - delta;
@@ -752,7 +776,6 @@ static int Tokenizer_parse_wikilink(Tokenizer* self)
 {
     Py_ssize_t reset;
     PyObject *wikilink, *token;
-    int i;
 
     self->head += 2;
     reset = self->head - 1;
@@ -760,10 +783,8 @@ static int Tokenizer_parse_wikilink(Tokenizer* self)
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset;
-        for (i = 0; i < 2; i++) {
-            if (Tokenizer_emit_text(self, *"["))
-                return -1;
-        }
+        if (Tokenizer_emit_string(self, "[["))
+            return -1;
         return 0;
     }
     if (!wikilink)
@@ -1183,24 +1204,14 @@ static int Tokenizer_parse_comment(Tokenizer* self)
 {
     Py_ssize_t reset = self->head + 3;
     PyObject *token, *comment;
-    int i;
 
     self->head += 4;
     comment = Tokenizer_parse(self, LC_COMMENT, 1);
     if (BAD_ROUTE) {
-        const char* text = "<!--";
         RESET_ROUTE();
         self->head = reset;
-        i = 0;
-        while (1) {
-            if (!text[i])
-                return 0;
-            if (Tokenizer_emit_text(self, (Py_UNICODE) text[i])) {
-                Py_XDECREF(text);
-                return -1;
-            }
-            i++;
-        }
+        if (Tokenizer_emit_string(self, "<!--"))
+            return -1;
         return 0;
     }
     if (!comment)
@@ -1791,8 +1802,7 @@ static int Tokenizer_handle_invalid_tag_start(Tokenizer* self)
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset;
-        return (Tokenizer_emit_text(self, *"<") ||
-                Tokenizer_emit_text(self, *"/"));
+        return Tokenizer_emit_string(self, "</");
     }
     // Set invalid=True flag of TagOpenOpen
     if (PyObject_SetAttrString(PyList_GET_ITEM(tag, 0), "invalid", Py_True))
@@ -1826,16 +1836,12 @@ static int Tokenizer_parse_tag(Tokenizer* self)
 /*
     Write the body of a tag and the tokens that should surround it.
 */
-static int Tokenizer_emit_style_tag(Tokenizer* self, char tag, int ticks,
-                                    PyObject* body)
+static int Tokenizer_emit_style_tag(Tokenizer* self, const char* tag,
+                                    const char* ticks, PyObject* body)
 {
     PyObject *markup, *kwargs, *token;
-    char chr_markup[4];
-    int i;
 
-    for (i = 0; i < ticks; i++) chr_markup[i] = *"'";
-    chr_markup[ticks] = *"";
-    markup = PyBytes_FromString(chr_markup);
+    markup = PyBytes_FromString(ticks);
     if (!markup)
         return -1;
     kwargs = PyDict_New();
@@ -1856,7 +1862,7 @@ static int Tokenizer_emit_style_tag(Tokenizer* self, char tag, int ticks,
         return -1;
     }
     Py_DECREF(token);
-    if (Tokenizer_emit_text(self, tag))
+    if (Tokenizer_emit_string(self, tag))
         return -1;
     token = PyObject_CallObject(TagCloseOpen, NULL);
     if (!token)
@@ -1876,7 +1882,7 @@ static int Tokenizer_emit_style_tag(Tokenizer* self, char tag, int ticks,
         return -1;
     }
     Py_DECREF(token);
-    if (Tokenizer_emit_text(self, tag))
+    if (Tokenizer_emit_string(self, tag))
         return -1;
     token = PyObject_CallObject(TagCloseClose, NULL);
     if (!token)
@@ -1907,15 +1913,12 @@ static int Tokenizer_parse_italics(Tokenizer* self)
             context = LC_STYLE_ITALICS | LC_STYLE_SECOND_PASS;
             stack = Tokenizer_parse(self, context, 1);
         }
-        else {
-            if (Tokenizer_emit_text(self, *"'"))
-                return -1;
-            return Tokenizer_emit_text(self, *"'");
-        }
+        else
+            return Tokenizer_emit_string(self, "''");
     }
     if (!stack)
         return -1;
-    return Tokenizer_emit_style_tag(self, *"i", 2, stack);
+    return Tokenizer_emit_style_tag(self, "i", "''", stack);
 }
 
 /*
@@ -1934,11 +1937,7 @@ static int Tokenizer_parse_bold(Tokenizer* self)
             return Tokenizer_emit_text(self, *"'") ? -1 : 1;
         if (self->topstack->context & LC_STYLE_ITALICS) {
             self->topstack->context |= LC_STYLE_PASS_AGAIN;
-            if (Tokenizer_emit_text(self, *"'"))
-                return -1;
-            if (Tokenizer_emit_text(self, *"'"))
-                return -1;
-            return Tokenizer_emit_text(self, *"'");
+            return Tokenizer_emit_string(self, "'''");
         }
         if (Tokenizer_emit_text(self, *"'"))
             return -1;
@@ -1946,7 +1945,7 @@ static int Tokenizer_parse_bold(Tokenizer* self)
     }
     if (!stack)
         return -1;
-    return Tokenizer_emit_style_tag(self, *"b", 3, stack);
+    return Tokenizer_emit_style_tag(self, "b", "'''", stack);
 }
 
 /*
@@ -1965,15 +1964,7 @@ static int Tokenizer_parse_italics_and_bold(Tokenizer* self)
         if (BAD_ROUTE) {
             RESET_ROUTE();
             self->head = reset;
-            if (Tokenizer_emit_text(self, *"'"))
-                return -1;
-            if (Tokenizer_emit_text(self, *"'"))
-                return -1;
-            if (Tokenizer_emit_text(self, *"'"))
-                return -1;
-            if (Tokenizer_emit_text(self, *"'"))
-                return -1;
-            return Tokenizer_emit_text(self, *"'");
+            return Tokenizer_emit_string(self, "'''''");
         }
         if (!stack)
             return -1;
@@ -1982,19 +1973,15 @@ static int Tokenizer_parse_italics_and_bold(Tokenizer* self)
         if (BAD_ROUTE) {
             RESET_ROUTE();
             self->head = reset;
-            if (Tokenizer_emit_text(self, *"'"))
-                return -1;
-            if (Tokenizer_emit_text(self, *"'"))
-                return -1;
-            if (Tokenizer_emit_text(self, *"'"))
+            if (Tokenizer_emit_string(self, "'''"))
                 return -1;
-            return Tokenizer_emit_style_tag(self, *"i", 2, stack);
+            return Tokenizer_emit_style_tag(self, "i", "''", stack);
         }
         if (!stack2)
             return -1;
         if (Tokenizer_push(self, 0))
             return -1;
-        if (Tokenizer_emit_style_tag(self, *"i", 2, stack))
+        if (Tokenizer_emit_style_tag(self, "i", "''", stack))
             return -1;
         if (Tokenizer_emit_all(self, stack2))
             return -1;
@@ -2002,7 +1989,7 @@ static int Tokenizer_parse_italics_and_bold(Tokenizer* self)
         stack2 = Tokenizer_pop(self);
         if (!stack2)
             return -1;
-        return Tokenizer_emit_style_tag(self, *"b", 3, stack2);
+        return Tokenizer_emit_style_tag(self, "b", "'''", stack2);
     }
     if (!stack)
         return -1;
@@ -2011,17 +1998,15 @@ static int Tokenizer_parse_italics_and_bold(Tokenizer* self)
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset;
-        if (Tokenizer_emit_text(self, *"'"))
+        if (Tokenizer_emit_string(self, "''"))
             return -1;
-        if (Tokenizer_emit_text(self, *"'"))
-            return -1;
-        return Tokenizer_emit_style_tag(self, *"b", 3, stack);
+        return Tokenizer_emit_style_tag(self, "b", "'''", stack);
     }
     if (!stack2)
         return -1;
     if (Tokenizer_push(self, 0))
         return -1;
-    if (Tokenizer_emit_style_tag(self, *"b", 3, stack))
+    if (Tokenizer_emit_style_tag(self, "b", "'''", stack))
         return -1;
     if (Tokenizer_emit_all(self, stack2))
         return -1;
@@ -2029,7 +2014,7 @@ static int Tokenizer_parse_italics_and_bold(Tokenizer* self)
     stack2 = Tokenizer_pop(self);
     if (!stack2)
         return -1;
-    return Tokenizer_emit_style_tag(self, *"i", 2, stack2);
+    return Tokenizer_emit_style_tag(self, "i", "''", stack2);
 }
 
 /*
@@ -2103,8 +2088,6 @@ static int Tokenizer_handle_list_marker(Tokenizer* self)
 {
     PyObject *markup = Tokenizer_read(self, 0), *kwargs, *token;
     Py_UNICODE code = *PyUnicode_AS_UNICODE(markup);
-    char *html;
-    int i = 0;
 
     if (code == *";")
         self->topstack->context |= LC_DLTERM;
@@ -2123,12 +2106,8 @@ static int Tokenizer_handle_list_marker(Tokenizer* self)
         return -1;
     }
     Py_DECREF(token);
-    html = GET_HTML_TAG(code);
-    while (html[i]) {
-        if (Tokenizer_emit_text(self, html[i]))
-            return -1;
-        i++;
-    }
+    if (Tokenizer_emit_string(self, GET_HTML_TAG(code)))
+        return -1;
     token = PyObject_CallObject(TagCloseSelfclose, NULL);
     if (!token)
         return -1;
@@ -2200,9 +2179,7 @@ static int Tokenizer_handle_hr(Tokenizer* self)
         return -1;
     }
     Py_DECREF(token);
-    if (Tokenizer_emit_text(self, *"h"))
-        return -1;
-    if (Tokenizer_emit_text(self, *"r"))
+    if (Tokenizer_emit_string(self, "hr"))
         return -1;
     token = PyObject_CallObject(TagCloseSelfclose, NULL);
     if (!token)

From 36180a9e473c74fceaf4587b26806815bc313dbc Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 02:38:03 -0400
Subject: [PATCH 116/189] To clarify usage, emit_text() -> emit_char() and
 emit_string() -> emit_text()

---
 mwparserfromhell/parser/tokenizer.c | 96 ++++++++++++++++++-------------------
 1 file changed, 48 insertions(+), 48 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 62e8599..eff000a 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -102,9 +102,9 @@ static void Textbuffer_dealloc(Textbuffer* self)
 }
 
 /*
-    Write text to the given textbuffer.
+    Write a Unicode codepoint to the given textbuffer.
 */
-static int Textbuffer_write(Textbuffer** this, Py_UNICODE text)
+static int Textbuffer_write(Textbuffer** this, Py_UNICODE code)
 {
     Textbuffer* self = *this;
 
@@ -115,7 +115,7 @@ static int Textbuffer_write(Textbuffer** this, Py_UNICODE text)
         new->next = self;
         *this = self = new;
     }
-    self->data[self->size] = text;
+    self->data[self->size] = code;
     self->size++;
     return 0;
 }
@@ -369,22 +369,22 @@ static int Tokenizer_emit_first(Tokenizer* self, PyObject* token)
 }
 
 /*
-    Write text to the current textbuffer.
+    Write a Unicode codepoint to the current textbuffer.
 */
-static int Tokenizer_emit_text(Tokenizer* self, Py_UNICODE text)
+static int Tokenizer_emit_char(Tokenizer* self, Py_UNICODE code)
 {
-    return Textbuffer_write(&(self->topstack->textbuffer), text);
+    return Textbuffer_write(&(self->topstack->textbuffer), code);
 }
 
 /*
     Write a string of text to the current textbuffer.
 */
-static int Tokenizer_emit_string(Tokenizer* self, const char* text)
+static int Tokenizer_emit_text(Tokenizer* self, const char* text)
 {
     int i = 0;
 
     while (text[i]) {
-        if (Tokenizer_emit_text(self, text[i]))
+        if (Tokenizer_emit_char(self, text[i]))
             return -1;
         i++;
     }
@@ -456,7 +456,7 @@ static int Tokenizer_emit_text_then_stack(Tokenizer* self, const char* text)
 {
     PyObject* stack = Tokenizer_pop(self);
 
-    if (Tokenizer_emit_string(self, text)) {
+    if (Tokenizer_emit_text(self, text)) {
         Py_DECREF(stack);
         return -1;
     }
@@ -783,7 +783,7 @@ static int Tokenizer_parse_wikilink(Tokenizer* self)
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset;
-        if (Tokenizer_emit_string(self, "[["))
+        if (Tokenizer_emit_text(self, "[["))
             return -1;
         return 0;
     }
@@ -869,7 +869,7 @@ static int Tokenizer_parse_heading(Tokenizer* self)
         RESET_ROUTE();
         self->head = reset + best - 1;
         for (i = 0; i < best; i++) {
-            if (Tokenizer_emit_text(self, *"="))
+            if (Tokenizer_emit_char(self, *"="))
                 return -1;
         }
         self->global ^= GL_HEADING;
@@ -907,7 +907,7 @@ static int Tokenizer_parse_heading(Tokenizer* self)
     if (heading->level < best) {
         diff = best - heading->level;
         for (i = 0; i < diff; i++) {
-            if (Tokenizer_emit_text(self, *"=")) {
+            if (Tokenizer_emit_char(self, *"=")) {
                 Py_DECREF(heading->title);
                 free(heading);
                 return -1;
@@ -958,7 +958,7 @@ static HeadingData* Tokenizer_handle_heading_end(Tokenizer* self)
         if (level < best) {
             diff = best - level;
             for (i = 0; i < diff; i++) {
-                if (Tokenizer_emit_text(self, *"="))
+                if (Tokenizer_emit_char(self, *"="))
                     return NULL;
             }
         }
@@ -966,7 +966,7 @@ static HeadingData* Tokenizer_handle_heading_end(Tokenizer* self)
     }
     else {
         for (i = 0; i < best; i++) {
-            if (Tokenizer_emit_text(self, *"=")) {
+            if (Tokenizer_emit_char(self, *"=")) {
                 Py_DECREF(after->title);
                 free(after);
                 return NULL;
@@ -1182,7 +1182,7 @@ static int Tokenizer_parse_entity(Tokenizer* self)
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset;
-        if (Tokenizer_emit_text(self, *"&"))
+        if (Tokenizer_emit_char(self, *"&"))
             return -1;
         return 0;
     }
@@ -1210,7 +1210,7 @@ static int Tokenizer_parse_comment(Tokenizer* self)
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset;
-        if (Tokenizer_emit_string(self, "<!--"))
+        if (Tokenizer_emit_text(self, "<!--"))
             return -1;
         return 0;
     }
@@ -1329,7 +1329,7 @@ Tokenizer_handle_tag_space(Tokenizer* self, TagData* data, Py_UNICODE text)
             return -1;
     }
     if (ctx & TAG_QUOTED && !(ctx & TAG_NOTE_SPACE)) {
-        if (Tokenizer_emit_text(self, text))
+        if (Tokenizer_emit_char(self, text))
             return -1;
     }
     else if (data->context & TAG_ATTR_READY)
@@ -1354,14 +1354,14 @@ static int Tokenizer_handle_tag_text(Tokenizer* self, Py_UNICODE text)
         }
     }
     if (!is_marker || !Tokenizer_CAN_RECURSE(self))
-        return Tokenizer_emit_text(self, text);
+        return Tokenizer_emit_char(self, text);
     else if (text == next && next == *"{")
         return Tokenizer_parse_template_or_argument(self);
     else if (text == next && next == *"[")
         return Tokenizer_parse_wikilink(self);
     else if (text == *"<")
         return Tokenizer_parse_tag(self);
-    return Tokenizer_emit_text(self, text);
+    return Tokenizer_emit_char(self, text);
 }
 
 /*
@@ -1586,7 +1586,7 @@ static PyObject* Tokenizer_handle_blacklisted_tag(Tokenizer* self)
                 return NULL;
             return Tokenizer_parse(self, 0, 0);
         }
-        if (Tokenizer_emit_text(self, this))
+        if (Tokenizer_emit_char(self, this))
             return NULL;
     }
 }
@@ -1802,7 +1802,7 @@ static int Tokenizer_handle_invalid_tag_start(Tokenizer* self)
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset;
-        return Tokenizer_emit_string(self, "</");
+        return Tokenizer_emit_text(self, "</");
     }
     // Set invalid=True flag of TagOpenOpen
     if (PyObject_SetAttrString(PyList_GET_ITEM(tag, 0), "invalid", Py_True))
@@ -1823,7 +1823,7 @@ static int Tokenizer_parse_tag(Tokenizer* self)
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset;
-        return Tokenizer_emit_text(self, *"<");
+        return Tokenizer_emit_char(self, *"<");
     }
     if (!tag) {
         return -1;
@@ -1862,7 +1862,7 @@ static int Tokenizer_emit_style_tag(Tokenizer* self, const char* tag,
         return -1;
     }
     Py_DECREF(token);
-    if (Tokenizer_emit_string(self, tag))
+    if (Tokenizer_emit_text(self, tag))
         return -1;
     token = PyObject_CallObject(TagCloseOpen, NULL);
     if (!token)
@@ -1882,7 +1882,7 @@ static int Tokenizer_emit_style_tag(Tokenizer* self, const char* tag,
         return -1;
     }
     Py_DECREF(token);
-    if (Tokenizer_emit_string(self, tag))
+    if (Tokenizer_emit_text(self, tag))
         return -1;
     token = PyObject_CallObject(TagCloseClose, NULL);
     if (!token)
@@ -1914,7 +1914,7 @@ static int Tokenizer_parse_italics(Tokenizer* self)
             stack = Tokenizer_parse(self, context, 1);
         }
         else
-            return Tokenizer_emit_string(self, "''");
+            return Tokenizer_emit_text(self, "''");
     }
     if (!stack)
         return -1;
@@ -1934,12 +1934,12 @@ static int Tokenizer_parse_bold(Tokenizer* self)
         RESET_ROUTE();
         self->head = reset;
         if (self->topstack->context & LC_STYLE_SECOND_PASS)
-            return Tokenizer_emit_text(self, *"'") ? -1 : 1;
+            return Tokenizer_emit_char(self, *"'") ? -1 : 1;
         if (self->topstack->context & LC_STYLE_ITALICS) {
             self->topstack->context |= LC_STYLE_PASS_AGAIN;
-            return Tokenizer_emit_string(self, "'''");
+            return Tokenizer_emit_text(self, "'''");
         }
-        if (Tokenizer_emit_text(self, *"'"))
+        if (Tokenizer_emit_char(self, *"'"))
             return -1;
         return Tokenizer_parse_italics(self);
     }
@@ -1964,7 +1964,7 @@ static int Tokenizer_parse_italics_and_bold(Tokenizer* self)
         if (BAD_ROUTE) {
             RESET_ROUTE();
             self->head = reset;
-            return Tokenizer_emit_string(self, "'''''");
+            return Tokenizer_emit_text(self, "'''''");
         }
         if (!stack)
             return -1;
@@ -1973,7 +1973,7 @@ static int Tokenizer_parse_italics_and_bold(Tokenizer* self)
         if (BAD_ROUTE) {
             RESET_ROUTE();
             self->head = reset;
-            if (Tokenizer_emit_string(self, "'''"))
+            if (Tokenizer_emit_text(self, "'''"))
                 return -1;
             return Tokenizer_emit_style_tag(self, "i", "''", stack);
         }
@@ -1998,7 +1998,7 @@ static int Tokenizer_parse_italics_and_bold(Tokenizer* self)
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset;
-        if (Tokenizer_emit_string(self, "''"))
+        if (Tokenizer_emit_text(self, "''"))
             return -1;
         return Tokenizer_emit_style_tag(self, "b", "'''", stack);
     }
@@ -2031,13 +2031,13 @@ static PyObject* Tokenizer_parse_style(Tokenizer* self)
     }
     if (ticks > 5) {
         for (i = 0; i < ticks - 5; i++) {
-            if (Tokenizer_emit_text(self, *"'"))
+            if (Tokenizer_emit_char(self, *"'"))
                 return NULL;
         }
         ticks = 5;
     }
     else if (ticks == 4) {
-        if (Tokenizer_emit_text(self, *"'"))
+        if (Tokenizer_emit_char(self, *"'"))
             return NULL;
         ticks = 3;
     }
@@ -2050,14 +2050,14 @@ static PyObject* Tokenizer_parse_style(Tokenizer* self)
     if (!Tokenizer_CAN_RECURSE(self)) {
         if (ticks == 3) {
             if (context & LC_STYLE_SECOND_PASS) {
-                if (Tokenizer_emit_text(self, *"'"))
+                if (Tokenizer_emit_char(self, *"'"))
                     return NULL;
                 return Tokenizer_pop(self);
             }
             self->topstack->context |= LC_STYLE_PASS_AGAIN;
         }
         for (i = 0; i < ticks; i++) {
-            if (Tokenizer_emit_text(self, *"'"))
+            if (Tokenizer_emit_char(self, *"'"))
                 return NULL;
         }
     }
@@ -2106,7 +2106,7 @@ static int Tokenizer_handle_list_marker(Tokenizer* self)
         return -1;
     }
     Py_DECREF(token);
-    if (Tokenizer_emit_string(self, GET_HTML_TAG(code)))
+    if (Tokenizer_emit_text(self, GET_HTML_TAG(code)))
         return -1;
     token = PyObject_CallObject(TagCloseSelfclose, NULL);
     if (!token)
@@ -2179,7 +2179,7 @@ static int Tokenizer_handle_hr(Tokenizer* self)
         return -1;
     }
     Py_DECREF(token);
-    if (Tokenizer_emit_string(self, "hr"))
+    if (Tokenizer_emit_text(self, "hr"))
         return -1;
     token = PyObject_CallObject(TagCloseSelfclose, NULL);
     if (!token)
@@ -2200,7 +2200,7 @@ static int Tokenizer_handle_dl_term(Tokenizer* self)
     self->topstack->context ^= LC_DLTERM;
     if (Tokenizer_READ(self, 0) == *":")
         return Tokenizer_handle_list_marker(self);
-    return Tokenizer_emit_text(self, *"\n");
+    return Tokenizer_emit_char(self, *"\n");
 }
 
 /*
@@ -2350,7 +2350,7 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
             }
         }
         if (!is_marker) {
-            if (Tokenizer_emit_text(self, this))
+            if (Tokenizer_emit_char(self, this))
                 return NULL;
             self->head++;
             continue;
@@ -2364,7 +2364,7 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
                 if (Tokenizer_READ(self, 2) == *">")
                     return Tokenizer_pop(self);
             }
-            if (Tokenizer_emit_text(self, this))
+            if (Tokenizer_emit_char(self, this))
                 return NULL;
         }
         else if (this == next && next == *"{") {
@@ -2372,7 +2372,7 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
                 if (Tokenizer_parse_template_or_argument(self))
                     return NULL;
             }
-            else if (Tokenizer_emit_text(self, this))
+            else if (Tokenizer_emit_char(self, this))
                 return NULL;
         }
         else if (this == *"|" && this_context & LC_TEMPLATE) {
@@ -2393,7 +2393,7 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
             if (Tokenizer_READ(self, 2) == *"}") {
                 return Tokenizer_handle_argument_end(self);
             }
-            if (Tokenizer_emit_text(self, this))
+            if (Tokenizer_emit_char(self, this))
                 return NULL;
         }
         else if (this == next && next == *"[") {
@@ -2402,7 +2402,7 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
                 if (Tokenizer_parse_wikilink(self))
                     return NULL;
             }
-            else if (Tokenizer_emit_text(self, this))
+            else if (Tokenizer_emit_char(self, this))
                 return NULL;
         }
         else if (this == *"|" && this_context & LC_WIKILINK_TITLE) {
@@ -2416,7 +2416,7 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
                 if (Tokenizer_parse_heading(self))
                     return NULL;
             }
-            else if (Tokenizer_emit_text(self, this))
+            else if (Tokenizer_emit_char(self, this))
                 return NULL;
         }
         else if (this == *"=" && this_context & LC_HEADING)
@@ -2433,7 +2433,7 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
                 if (Tokenizer_parse_comment(self))
                     return NULL;
             }
-            else if (Tokenizer_emit_text(self, this))
+            else if (Tokenizer_emit_char(self, this))
                 return NULL;
         }
         else if (this == *"<" && next == *"/" &&
@@ -2453,7 +2453,7 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
                 if (Tokenizer_parse_tag(self))
                     return NULL;
             }
-            else if (Tokenizer_emit_text(self, this))
+            else if (Tokenizer_emit_char(self, this))
                 return NULL;
         }
         else if (this == *">" && this_context & LC_TAG_CLOSE)
@@ -2474,14 +2474,14 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
                 if (Tokenizer_handle_hr(self))
                     return NULL;
             }
-            else if (Tokenizer_emit_text(self, this))
+            else if (Tokenizer_emit_char(self, this))
                 return NULL;
         }
         else if ((this == *"\n" || this == *":") && this_context & LC_DLTERM) {
             if (Tokenizer_handle_dl_term(self))
                 return NULL;
         }
-        else if (Tokenizer_emit_text(self, this))
+        else if (Tokenizer_emit_char(self, this))
             return NULL;
         self->head++;
     }

From 4edf9ffad6a91898620b2220f5e78fbfe31de8da Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 14:12:08 -0400
Subject: [PATCH 117/189] Update changelog.

---
 CHANGELOG          | 4 +++-
 docs/changelog.rst | 4 +++-
 2 files changed, 6 insertions(+), 2 deletions(-)

diff --git a/CHANGELOG b/CHANGELOG
index bb07cf3..aa8d0b5 100644
--- a/CHANGELOG
+++ b/CHANGELOG
@@ -1,6 +1,8 @@
 v0.3 (unreleased):
 
-- Added complete support for HTML Tags, along with appropriate unit tests.
+- Added complete support for HTML Tags, along with appropriate unit tests. This
+  includes forms like <ref>foo</ref>, <ref name="bar"/>, and wiki-markup tags
+  like bold ('''), italics (''), and lists (''*'', ''#'', '';'' and '':'').
 - Various fixes and cleanup.
 
 v0.2 (released June 20, 2013):
diff --git a/docs/changelog.rst b/docs/changelog.rst
index afb7c5f..cf8708d 100644
--- a/docs/changelog.rst
+++ b/docs/changelog.rst
@@ -8,7 +8,9 @@ Unreleased
 (`changes <https://github.com/earwig/mwparserfromhell/compare/v0.2...develop>`__):
 
 - Added complete support for HTML :py:class:`Tags <.Tag>`, along with
-  appropriate unit tests.
+  appropriate unit tests. This includes forms like ``<ref>foo</ref>``,
+  ``<ref name="bar"/>``, and wiki-markup tags like bold (``'''``), italics
+  (``''``), and lists (``''*''``, ``''#''``, ``'';''`` and ``'':''``).
 - Various fixes and cleanup.
 
 v0.2

From bdb2a886128accc064f99b36eef6240232a96103 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 14:17:09 -0400
Subject: [PATCH 118/189] Move some context definiions to contexts.py

---
 mwparserfromhell/parser/contexts.py  | 14 ++++++++++++++
 mwparserfromhell/parser/tokenizer.py | 16 ++++------------
 2 files changed, 18 insertions(+), 12 deletions(-)

diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index d3f0254..5e4793b 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -90,6 +90,13 @@ Local (stack-specific) contexts:
 Global contexts:
 
 * :py:const:`GL_HEADING`
+
+Aggregate contexts:
+
+* :py:const:`FAIL`
+* :py:const:`UNSAFE`
+* :py:const:`DOUBLE`
+
 """
 
 # Local contexts:
@@ -144,3 +151,10 @@ SAFETY_CHECK = (HAS_TEXT + FAIL_ON_TEXT + FAIL_NEXT + FAIL_ON_LBRACE +
 # Global contexts:
 
 GL_HEADING = 1 << 0
+
+# Aggregate contexts:
+
+FAIL = TEMPLATE + ARGUMENT + WIKILINK + HEADING + COMMENT + TAG + STYLE
+UNSAFE = (TEMPLATE_NAME + WIKILINK_TITLE + TEMPLATE_PARAM_KEY + ARGUMENT_NAME +
+          TAG_CLOSE)
+DOUBLE = TEMPLATE_PARAM_KEY + TAG_CLOSE
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index d4197e6..e9f565c 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -787,15 +787,11 @@ class Tokenizer(object):
 
     def _handle_end(self):
         """Handle the end of the stream of wikitext."""
-        fail = (contexts.TEMPLATE | contexts.ARGUMENT | contexts.WIKILINK |
-                contexts.HEADING | contexts.COMMENT | contexts.TAG |
-                contexts.STYLE)
-        double_fail = (contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE)
-        if self._context & fail:
+        if self._context & contexts.FAIL:
             if self._context & contexts.TAG_BODY:
                 if is_single(self._stack[1].text):
                     return self._handle_single_tag_end()
-            if self._context & double_fail:
+            if self._context & contexts.DOUBLE:
                 self._pop()
             self._fail_route()
         return self._pop()
@@ -859,17 +855,13 @@ class Tokenizer(object):
 
     def _parse(self, context=0, push=True):
         """Parse the wikicode string, using *context* for when to stop."""
-        unsafe = (contexts.TEMPLATE_NAME | contexts.WIKILINK_TITLE |
-                  contexts.TEMPLATE_PARAM_KEY | contexts.ARGUMENT_NAME |
-                  contexts.TAG_CLOSE)
-        double_unsafe = (contexts.TEMPLATE_PARAM_KEY | contexts.TAG_CLOSE)
         if push:
             self._push(context)
         while True:
             this = self._read()
-            if self._context & unsafe:
+            if self._context & contexts.UNSAFE:
                 if not self._verify_safe(this):
-                    if self._context & double_unsafe:
+                    if self._context & contexts.DOUBLE:
                         self._pop()
                     self._fail_route()
             if this not in self.MARKERS:

From d6e03ea5c533250a54d93794f07a96431d8ad498 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 14:30:34 -0400
Subject: [PATCH 119/189] Consolidate some code in _parse_comment()

---
 mwparserfromhell/parser/contexts.py  | 36 ++++++++++++++++--------------------
 mwparserfromhell/parser/tokenizer.py | 33 +++++++++++++++++----------------
 2 files changed, 33 insertions(+), 36 deletions(-)

diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index 5e4793b..a1b67be 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -60,8 +60,6 @@ Local (stack-specific) contexts:
     * :py:const:`HEADING_LEVEL_5`
     * :py:const:`HEADING_LEVEL_6`
 
-* :py:const:`COMMENT`
-
 * :py:const:`TAG`
 
     * :py:const:`TAG_OPEN`
@@ -123,28 +121,26 @@ HEADING_LEVEL_6 = 1 << 12
 HEADING = (HEADING_LEVEL_1 + HEADING_LEVEL_2 + HEADING_LEVEL_3 +
            HEADING_LEVEL_4 + HEADING_LEVEL_5 + HEADING_LEVEL_6)
 
-COMMENT = 1 << 13
-
-TAG_OPEN =  1 << 14
-TAG_ATTR =  1 << 15
-TAG_BODY =  1 << 16
-TAG_CLOSE = 1 << 17
+TAG_OPEN =  1 << 13
+TAG_ATTR =  1 << 14
+TAG_BODY =  1 << 15
+TAG_CLOSE = 1 << 16
 TAG = TAG_OPEN + TAG_ATTR + TAG_BODY + TAG_CLOSE
 
-STYLE_ITALICS =      1 << 18
-STYLE_BOLD =         1 << 19
-STYLE_PASS_AGAIN =   1 << 20
-STYLE_SECOND_PASS =  1 << 21
+STYLE_ITALICS =      1 << 17
+STYLE_BOLD =         1 << 18
+STYLE_PASS_AGAIN =   1 << 19
+STYLE_SECOND_PASS =  1 << 20
 STYLE = STYLE_ITALICS + STYLE_BOLD + STYLE_PASS_AGAIN + STYLE_SECOND_PASS
 
-DL_TERM = 1 << 22
+DL_TERM = 1 << 21
 
-HAS_TEXT =       1 << 23
-FAIL_ON_TEXT =   1 << 24
-FAIL_NEXT  =     1 << 25
-FAIL_ON_LBRACE = 1 << 26
-FAIL_ON_RBRACE = 1 << 27
-FAIL_ON_EQUALS = 1 << 28
+HAS_TEXT =       1 << 22
+FAIL_ON_TEXT =   1 << 23
+FAIL_NEXT  =     1 << 24
+FAIL_ON_LBRACE = 1 << 25
+FAIL_ON_RBRACE = 1 << 26
+FAIL_ON_EQUALS = 1 << 27
 SAFETY_CHECK = (HAS_TEXT + FAIL_ON_TEXT + FAIL_NEXT + FAIL_ON_LBRACE +
                 FAIL_ON_RBRACE + FAIL_ON_EQUALS)
 
@@ -154,7 +150,7 @@ GL_HEADING = 1 << 0
 
 # Aggregate contexts:
 
-FAIL = TEMPLATE + ARGUMENT + WIKILINK + HEADING + COMMENT + TAG + STYLE
+FAIL = TEMPLATE + ARGUMENT + WIKILINK + HEADING + TAG + STYLE
 UNSAFE = (TEMPLATE_NAME + WIKILINK_TITLE + TEMPLATE_PARAM_KEY + ARGUMENT_NAME +
           TAG_CLOSE)
 DOUBLE = TEMPLATE_PARAM_KEY + TAG_CLOSE
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index e9f565c..38ffa80 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -417,16 +417,22 @@ class Tokenizer(object):
         """Parse an HTML comment at the head of the wikicode string."""
         self._head += 4
         reset = self._head - 1
-        try:
-            comment = self._parse(contexts.COMMENT)
-        except BadRoute:
-            self._head = reset
-            self._emit_text("<!--")
-        else:
-            self._emit(tokens.CommentStart())
-            self._emit_all(comment)
-            self._emit(tokens.CommentEnd())
-            self._head += 2
+        self._push()
+        while True:
+            this = self._read()
+            if this == self.END:
+                self._pop()
+                self._head = reset
+                self._emit_text("<!--")
+                return
+            if this == self._read(1) == "-" and self._read(2) == ">":
+                self._emit_first(tokens.CommentStart())
+                self._emit(tokens.CommentEnd())
+                self._emit_all(self._pop())
+                self._head += 2
+                return
+            self._emit_text(this)
+            self._head += 1
 
     def _push_tag_buffer(self, data):
         """Write a pending tag attribute from *data* to the stack."""
@@ -871,12 +877,7 @@ class Tokenizer(object):
             if this is self.END:
                 return self._handle_end()
             next = self._read(1)
-            if self._context & contexts.COMMENT:
-                if this == next == "-" and self._read(2) == ">":
-                    return self._pop()
-                else:
-                    self._emit_text(this)
-            elif this == next == "{":
+            if this == next == "{":
                 if self._can_recurse():
                     self._parse_template_or_argument()
                 else:

From df9f7388b65185210deb5a5402e84750f820f0d6 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 15:00:45 -0400
Subject: [PATCH 120/189] emit_FAST(), emit_first_FAST(); update comment
 parsing

---
 mwparserfromhell/parser/tokenizer.c | 328 +++++++++++-------------------------
 mwparserfromhell/parser/tokenizer.h |  86 +++++-----
 2 files changed, 140 insertions(+), 274 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index eff000a..a78c6d9 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -368,6 +368,40 @@ static int Tokenizer_emit_first(Tokenizer* self, PyObject* token)
     return 0;
 }
 
+static int Tokenizer_emit_FAST(Tokenizer* self, PyObject* token)
+{
+    PyObject* instance;
+
+    if (Tokenizer_push_textbuffer(self))
+        return -1;
+    instance = PyObject_CallObject(token, NULL);
+    if (!instance)
+        return -1;
+    if (PyList_Append(self->topstack->stack, instance)) {
+        Py_DECREF(instance);
+        return -1;
+    }
+    Py_DECREF(instance);
+    return 0;
+}
+
+static int Tokenizer_emit_first_FAST(Tokenizer* self, PyObject* token)
+{
+    PyObject* instance;
+
+    if (Tokenizer_push_textbuffer(self))
+        return -1;
+    instance = PyObject_CallObject(token, NULL);
+    if (!instance)
+        return -1;
+    if (PyList_Insert(self->topstack->stack, 0, instance)) {
+        Py_DECREF(instance);
+        return -1;
+    }
+    Py_DECREF(instance);
+    return 0;
+}
+
 /*
     Write a Unicode codepoint to the current textbuffer.
 */
@@ -503,7 +537,7 @@ static PyObject* Tokenizer_read_backwards(Tokenizer* self, Py_ssize_t delta)
 */
 static int Tokenizer_parse_template(Tokenizer* self)
 {
-    PyObject *template, *token;
+    PyObject *template;
     Py_ssize_t reset = self->head;
 
     template = Tokenizer_parse(self, LC_TEMPLATE_NAME, 1);
@@ -513,30 +547,17 @@ static int Tokenizer_parse_template(Tokenizer* self)
     }
     if (!template)
         return -1;
-    token = PyObject_CallObject(TemplateOpen, NULL);
-    if (!token) {
+    if (Tokenizer_emit_first_FAST(self, TemplateOpen)) {
         Py_DECREF(template);
         return -1;
     }
-    if (Tokenizer_emit_first(self, token)) {
-        Py_DECREF(token);
-        Py_DECREF(template);
-        return -1;
-    }
-    Py_DECREF(token);
     if (Tokenizer_emit_all(self, template)) {
         Py_DECREF(template);
         return -1;
     }
     Py_DECREF(template);
-    token = PyObject_CallObject(TemplateClose, NULL);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit_FAST(self, TemplateClose))
         return -1;
-    }
-    Py_DECREF(token);
     return 0;
 }
 
@@ -545,7 +566,7 @@ static int Tokenizer_parse_template(Tokenizer* self)
 */
 static int Tokenizer_parse_argument(Tokenizer* self)
 {
-    PyObject *argument, *token;
+    PyObject *argument;
     Py_ssize_t reset = self->head;
 
     argument = Tokenizer_parse(self, LC_ARGUMENT_NAME, 1);
@@ -555,30 +576,17 @@ static int Tokenizer_parse_argument(Tokenizer* self)
     }
     if (!argument)
         return -1;
-    token = PyObject_CallObject(ArgumentOpen, NULL);
-    if (!token) {
-        Py_DECREF(argument);
-        return -1;
-    }
-    if (Tokenizer_emit_first(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit_first_FAST(self, ArgumentOpen)) {
         Py_DECREF(argument);
         return -1;
     }
-    Py_DECREF(token);
     if (Tokenizer_emit_all(self, argument)) {
         Py_DECREF(argument);
         return -1;
     }
     Py_DECREF(argument);
-    token = PyObject_CallObject(ArgumentClose, NULL);
-    if (!token)
+    if (Tokenizer_emit_FAST(self, ArgumentClose))
         return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
-        return -1;
-    }
-    Py_DECREF(token);
     return 0;
 }
 
@@ -658,7 +666,7 @@ static int Tokenizer_parse_template_or_argument(Tokenizer* self)
 */
 static int Tokenizer_handle_template_param(Tokenizer* self)
 {
-    PyObject *stack, *token;
+    PyObject *stack;
 
     if (self->topstack->context & LC_TEMPLATE_NAME)
         self->topstack->context ^= LC_TEMPLATE_NAME;
@@ -676,15 +684,8 @@ static int Tokenizer_handle_template_param(Tokenizer* self)
     }
     else
         self->topstack->context |= LC_TEMPLATE_PARAM_KEY;
-
-    token = PyObject_CallObject(TemplateParamSeparator, NULL);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit_FAST(self, TemplateParamSeparator))
         return -1;
-    }
-    Py_DECREF(token);
     if (Tokenizer_push(self, self->topstack->context))
         return -1;
     return 0;
@@ -695,7 +696,7 @@ static int Tokenizer_handle_template_param(Tokenizer* self)
 */
 static int Tokenizer_handle_template_param_value(Tokenizer* self)
 {
-    PyObject *stack, *token;
+    PyObject *stack;
 
     stack = Tokenizer_pop_keeping_context(self);
     if (!stack)
@@ -707,14 +708,8 @@ static int Tokenizer_handle_template_param_value(Tokenizer* self)
     Py_DECREF(stack);
     self->topstack->context ^= LC_TEMPLATE_PARAM_KEY;
     self->topstack->context |= LC_TEMPLATE_PARAM_VALUE;
-    token = PyObject_CallObject(TemplateParamEquals, NULL);
-    if (!token)
+    if (Tokenizer_emit_FAST(self, TemplateParamEquals))
         return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
-        return -1;
-    }
-    Py_DECREF(token);
     return 0;
 }
 
@@ -745,17 +740,10 @@ static PyObject* Tokenizer_handle_template_end(Tokenizer* self)
 */
 static int Tokenizer_handle_argument_separator(Tokenizer* self)
 {
-    PyObject* token;
     self->topstack->context ^= LC_ARGUMENT_NAME;
     self->topstack->context |= LC_ARGUMENT_DEFAULT;
-    token = PyObject_CallObject(ArgumentSeparator, NULL);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit_FAST(self, ArgumentSeparator))
         return -1;
-    }
-    Py_DECREF(token);
     return 0;
 }
 
@@ -765,6 +753,7 @@ static int Tokenizer_handle_argument_separator(Tokenizer* self)
 static PyObject* Tokenizer_handle_argument_end(Tokenizer* self)
 {
     PyObject* stack = Tokenizer_pop(self);
+
     self->head += 2;
     return stack;
 }
@@ -775,7 +764,7 @@ static PyObject* Tokenizer_handle_argument_end(Tokenizer* self)
 static int Tokenizer_parse_wikilink(Tokenizer* self)
 {
     Py_ssize_t reset;
-    PyObject *wikilink, *token;
+    PyObject *wikilink;
 
     self->head += 2;
     reset = self->head - 1;
@@ -789,30 +778,17 @@ static int Tokenizer_parse_wikilink(Tokenizer* self)
     }
     if (!wikilink)
         return -1;
-    token = PyObject_CallObject(WikilinkOpen, NULL);
-    if (!token) {
+    if (Tokenizer_emit_FAST(self, WikilinkOpen)) {
         Py_DECREF(wikilink);
         return -1;
     }
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
-        Py_DECREF(wikilink);
-        return -1;
-    }
-    Py_DECREF(token);
     if (Tokenizer_emit_all(self, wikilink)) {
         Py_DECREF(wikilink);
         return -1;
     }
     Py_DECREF(wikilink);
-    token = PyObject_CallObject(WikilinkClose, NULL);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit_FAST(self, WikilinkClose))
         return -1;
-    }
-    Py_DECREF(token);
     if (self->topstack->context & LC_FAIL_NEXT)
         self->topstack->context ^= LC_FAIL_NEXT;
     return 0;
@@ -823,17 +799,10 @@ static int Tokenizer_parse_wikilink(Tokenizer* self)
 */
 static int Tokenizer_handle_wikilink_separator(Tokenizer* self)
 {
-    PyObject* token;
     self->topstack->context ^= LC_WIKILINK_TITLE;
     self->topstack->context |= LC_WIKILINK_TEXT;
-    token = PyObject_CallObject(WikilinkSeparator, NULL);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit_FAST(self, WikilinkSeparator))
         return -1;
-    }
-    Py_DECREF(token);
     return 0;
 }
 
@@ -921,14 +890,8 @@ static int Tokenizer_parse_heading(Tokenizer* self)
     }
     Py_DECREF(heading->title);
     free(heading);
-    token = PyObject_CallObject(HeadingEnd, NULL);
-    if (!token)
+    if (Tokenizer_emit_FAST(self, HeadingEnd))
         return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
-        return -1;
-    }
-    Py_DECREF(token);
     self->global ^= GL_HEADING;
     return 0;
 }
@@ -1010,14 +973,8 @@ static int Tokenizer_really_parse_entity(Tokenizer* self)
         return 0;                   \
     }
 
-    token = PyObject_CallObject(HTMLEntityStart, NULL);
-    if (!token)
+    if (Tokenizer_emit_FAST(self, HTMLEntityStart))
         return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
-        return -1;
-    }
-    Py_DECREF(token);
     self->head++;
     this = Tokenizer_READ(self, 0);
     if (this == *"") {
@@ -1026,14 +983,8 @@ static int Tokenizer_really_parse_entity(Tokenizer* self)
     }
     if (this == *"#") {
         numeric = 1;
-        token = PyObject_CallObject(HTMLEntityNumeric, NULL);
-        if (!token)
+        if (Tokenizer_emit_FAST(self, HTMLEntityNumeric))
             return -1;
-        if (Tokenizer_emit(self, token)) {
-            Py_DECREF(token);
-            return -1;
-        }
-        Py_DECREF(token);
         self->head++;
         this = Tokenizer_READ(self, 0);
         if (this == *"") {
@@ -1156,14 +1107,8 @@ static int Tokenizer_really_parse_entity(Tokenizer* self)
         return -1;
     }
     Py_DECREF(token);
-    token = PyObject_CallObject(HTMLEntityEnd, NULL);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit_FAST(self, HTMLEntityEnd))
         return -1;
-    }
-    Py_DECREF(token);
     return 0;
 }
 
@@ -1203,45 +1148,39 @@ static int Tokenizer_parse_entity(Tokenizer* self)
 static int Tokenizer_parse_comment(Tokenizer* self)
 {
     Py_ssize_t reset = self->head + 3;
-    PyObject *token, *comment;
+    PyObject *comment;
+    Py_UNICODE this;
 
     self->head += 4;
-    comment = Tokenizer_parse(self, LC_COMMENT, 1);
-    if (BAD_ROUTE) {
-        RESET_ROUTE();
-        self->head = reset;
-        if (Tokenizer_emit_text(self, "<!--"))
-            return -1;
-        return 0;
-    }
-    if (!comment)
-        return -1;
-    token = PyObject_CallObject(CommentStart, NULL);
-    if (!token) {
-        Py_DECREF(comment);
-        return -1;
-    }
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
-        Py_DECREF(comment);
-        return -1;
-    }
-    Py_DECREF(token);
-    if (Tokenizer_emit_all(self, comment)) {
-        Py_DECREF(comment);
-        return -1;
-    }
-    Py_DECREF(comment);
-    token = PyObject_CallObject(CommentEnd, NULL);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_push(self, 0))
         return -1;
+    while (1) {
+        this = Tokenizer_READ(self, 0);
+        if (this == *"") {
+            comment = Tokenizer_pop(self);
+            Py_XDECREF(comment);
+            self->head = reset;
+            return Tokenizer_emit_text(self, "<!--");
+        }
+        if (this == *"-" && Tokenizer_READ(self, 1) == this &&
+                            Tokenizer_READ(self, 2) == *">") {
+            if (Tokenizer_emit_first_FAST(self, CommentStart))
+                return -1;
+            if (Tokenizer_emit_FAST(self, CommentEnd))
+                return -1;
+            comment = Tokenizer_pop(self);
+            if (!comment)
+                return -1;
+            if (Tokenizer_emit_all(self, comment))
+                return -1;
+            Py_DECREF(comment);
+            self->head += 2;
+            return 0;
+        }
+        if (Tokenizer_emit_char(self, this))
+            return -1;
+        self->head++;
     }
-    Py_DECREF(token);
-    self->head += 2;
-    return 0;
 }
 
 /*
@@ -1253,14 +1192,8 @@ static int Tokenizer_push_tag_buffer(Tokenizer* self, TagData* data)
              *pad_after_eq;
 
     if (data->context & TAG_QUOTED) {
-        token = PyObject_CallObject(TagAttrQuote, NULL);
-        if (!token)
+        if (Tokenizer_emit_first_FAST(self, TagAttrQuote))
             return -1;
-        if (Tokenizer_emit_first(self, token)) {
-            Py_DECREF(token);
-            return -1;
-        }
-        Py_DECREF(token);
         tokens = Tokenizer_pop(self);
         if (!tokens)
             return -1;
@@ -1370,7 +1303,7 @@ static int Tokenizer_handle_tag_text(Tokenizer* self, Py_UNICODE text)
 static int
 Tokenizer_handle_tag_data(Tokenizer* self, TagData* data, Py_UNICODE chunk)
 {
-    PyObject *trash, *token;
+    PyObject *trash;
     int first_time, i, is_marker = 0, escaped;
 
     if (data->context & TAG_NAME) {
@@ -1414,14 +1347,8 @@ Tokenizer_handle_tag_data(Tokenizer* self, TagData* data, Py_UNICODE chunk)
     else if (data->context & TAG_ATTR_NAME) {
         if (chunk == *"=") {
             data->context = TAG_ATTR_VALUE | TAG_NOTE_QUOTE;
-            token = PyObject_CallObject(TagAttrEquals, NULL);
-            if (!token)
+            if (Tokenizer_emit_FAST(self, TagAttrEquals))
                 return -1;
-            if (Tokenizer_emit(self, token)) {
-                Py_DECREF(token);
-                return -1;
-            }
-            Py_DECREF(token);
             return 0;
         }
         if (data->context & TAG_NOTE_EQUALS) {
@@ -1495,16 +1422,8 @@ Tokenizer_handle_tag_close_open(Tokenizer* self, TagData* data, PyObject* cls)
 */
 static int Tokenizer_handle_tag_open_close(Tokenizer* self)
 {
-    PyObject* token;
-
-    token = PyObject_CallObject(TagOpenClose, NULL);
-    if (!token)
+    if (Tokenizer_emit_FAST(self, TagOpenClose))
         return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
-        return -1;
-    }
-    Py_DECREF(token);
     if (Tokenizer_push(self, LC_TAG_CLOSE))
         return -1;
     self->head++;
@@ -1516,7 +1435,7 @@ static int Tokenizer_handle_tag_open_close(Tokenizer* self)
 */
 static PyObject* Tokenizer_handle_tag_close_close(Tokenizer* self)
 {
-    PyObject *closing, *first, *so, *sc, *token;
+    PyObject *closing, *first, *so, *sc;
     int valid = 1;
 
     closing = Tokenizer_pop(self);
@@ -1557,14 +1476,8 @@ static PyObject* Tokenizer_handle_tag_close_close(Tokenizer* self)
         return NULL;
     }
     Py_DECREF(closing);
-    token = PyObject_CallObject(TagCloseClose, NULL);
-    if (!token)
-        return NULL;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit_FAST(self, TagCloseClose))
         return NULL;
-    }
-    Py_DECREF(token);
     return Tokenizer_pop(self);
 }
 
@@ -1684,17 +1597,10 @@ static PyObject* Tokenizer_really_parse_tag(Tokenizer* self)
         TagData_dealloc(data);
         return NULL;
     }
-    token = PyObject_CallObject(TagOpenOpen, NULL);
-    if (!token) {
+    if (Tokenizer_emit_FAST(self, TagOpenOpen)) {
         TagData_dealloc(data);
         return NULL;
     }
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
-        TagData_dealloc(data);
-        return NULL;
-    }
-    Py_DECREF(token);
     while (1) {
         this = Tokenizer_READ(self, 0);
         next = Tokenizer_READ(self, 1);
@@ -1864,35 +1770,17 @@ static int Tokenizer_emit_style_tag(Tokenizer* self, const char* tag,
     Py_DECREF(token);
     if (Tokenizer_emit_text(self, tag))
         return -1;
-    token = PyObject_CallObject(TagCloseOpen, NULL);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit_FAST(self, TagCloseOpen))
         return -1;
-    }
-    Py_DECREF(token);
     if (Tokenizer_emit_all(self, body))
         return -1;
-    token = PyObject_CallObject(TagOpenClose, NULL);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    Py_DECREF(body);
+    if (Tokenizer_emit_FAST(self, TagOpenClose))
         return -1;
-    }
-    Py_DECREF(token);
     if (Tokenizer_emit_text(self, tag))
         return -1;
-    token = PyObject_CallObject(TagCloseClose, NULL);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit_FAST(self, TagCloseClose))
         return -1;
-    }
-    Py_DECREF(token);
-    Py_DECREF(body);
     return 0;
 }
 
@@ -2108,14 +1996,8 @@ static int Tokenizer_handle_list_marker(Tokenizer* self)
     Py_DECREF(token);
     if (Tokenizer_emit_text(self, GET_HTML_TAG(code)))
         return -1;
-    token = PyObject_CallObject(TagCloseSelfclose, NULL);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit_FAST(self, TagCloseSelfclose))
         return -1;
-    }
-    Py_DECREF(token);
     return 0;
 }
 
@@ -2181,14 +2063,8 @@ static int Tokenizer_handle_hr(Tokenizer* self)
     Py_DECREF(token);
     if (Tokenizer_emit_text(self, "hr"))
         return -1;
-    token = PyObject_CallObject(TagCloseSelfclose, NULL);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit_FAST(self, TagCloseSelfclose))
         return -1;
-    }
-    Py_DECREF(token);
     return 0;
 }
 
@@ -2209,7 +2085,7 @@ static int Tokenizer_handle_dl_term(Tokenizer* self)
 static PyObject* Tokenizer_handle_end(Tokenizer* self, int context)
 {
     static int fail_contexts = (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK |
-                                LC_HEADING | LC_COMMENT | LC_TAG | LC_STYLE);
+                                LC_HEADING | LC_TAG | LC_STYLE);
     static int double_fail = (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE);
     PyObject *token, *text, *trash;
     int single;
@@ -2359,15 +2235,7 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
             return Tokenizer_handle_end(self, this_context);
         next = Tokenizer_READ(self, 1);
         last = Tokenizer_READ_BACKWARDS(self, 1);
-        if (this_context & LC_COMMENT) {
-            if (this == next && next == *"-") {
-                if (Tokenizer_READ(self, 2) == *">")
-                    return Tokenizer_pop(self);
-            }
-            if (Tokenizer_emit_char(self, this))
-                return NULL;
-        }
-        else if (this == next && next == *"{") {
+        if (this == next && next == *"{") {
             if (Tokenizer_CAN_RECURSE(self)) {
                 if (Tokenizer_parse_template_or_argument(self))
                     return NULL;
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 4136285..cc6dc09 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -103,50 +103,48 @@ static PyObject* TagCloseClose;
 
 /* Local contexts: */
 
-#define LC_TEMPLATE             0x00000007
-#define LC_TEMPLATE_NAME        0x00000001
-#define LC_TEMPLATE_PARAM_KEY   0x00000002
-#define LC_TEMPLATE_PARAM_VALUE 0x00000004
-
-#define LC_ARGUMENT             0x00000018
-#define LC_ARGUMENT_NAME        0x00000008
-#define LC_ARGUMENT_DEFAULT     0x00000010
-
-#define LC_WIKILINK             0x00000060
-#define LC_WIKILINK_TITLE       0x00000020
-#define LC_WIKILINK_TEXT        0x00000040
-
-#define LC_HEADING              0x00001F80
-#define LC_HEADING_LEVEL_1      0x00000080
-#define LC_HEADING_LEVEL_2      0x00000100
-#define LC_HEADING_LEVEL_3      0x00000200
-#define LC_HEADING_LEVEL_4      0x00000400
-#define LC_HEADING_LEVEL_5      0x00000800
-#define LC_HEADING_LEVEL_6      0x00001000
-
-#define LC_COMMENT              0x00002000
-
-#define LC_TAG                  0x0003C000
-#define LC_TAG_OPEN             0x00004000
-#define LC_TAG_ATTR             0x00008000
-#define LC_TAG_BODY             0x00010000
-#define LC_TAG_CLOSE            0x00020000
-
-#define LC_STYLE                0x003C0000
-#define LC_STYLE_ITALICS        0x00040000
-#define LC_STYLE_BOLD           0x00080000
-#define LC_STYLE_PASS_AGAIN     0x00100000
-#define LC_STYLE_SECOND_PASS    0x00200000
-
-#define LC_DLTERM               0x00400000
-
-#define LC_SAFETY_CHECK         0x1F800000
-#define LC_HAS_TEXT             0x00800000
-#define LC_FAIL_ON_TEXT         0x01000000
-#define LC_FAIL_NEXT            0x02000000
-#define LC_FAIL_ON_LBRACE       0x04000000
-#define LC_FAIL_ON_RBRACE       0x08000000
-#define LC_FAIL_ON_EQUALS       0x10000000
+#define LC_TEMPLATE             0x0000007
+#define LC_TEMPLATE_NAME        0x0000001
+#define LC_TEMPLATE_PARAM_KEY   0x0000002
+#define LC_TEMPLATE_PARAM_VALUE 0x0000004
+
+#define LC_ARGUMENT             0x0000018
+#define LC_ARGUMENT_NAME        0x0000008
+#define LC_ARGUMENT_DEFAULT     0x0000010
+
+#define LC_WIKILINK             0x0000060
+#define LC_WIKILINK_TITLE       0x0000020
+#define LC_WIKILINK_TEXT        0x0000040
+
+#define LC_HEADING              0x0001F80
+#define LC_HEADING_LEVEL_1      0x0000080
+#define LC_HEADING_LEVEL_2      0x0000100
+#define LC_HEADING_LEVEL_3      0x0000200
+#define LC_HEADING_LEVEL_4      0x0000400
+#define LC_HEADING_LEVEL_5      0x0000800
+#define LC_HEADING_LEVEL_6      0x0001000
+
+#define LC_TAG                  0x001E000
+#define LC_TAG_OPEN             0x0002000
+#define LC_TAG_ATTR             0x0004000
+#define LC_TAG_BODY             0x0008000
+#define LC_TAG_CLOSE            0x0010000
+
+#define LC_STYLE                0x01E0000
+#define LC_STYLE_ITALICS        0x0020000
+#define LC_STYLE_BOLD           0x0040000
+#define LC_STYLE_PASS_AGAIN     0x0080000
+#define LC_STYLE_SECOND_PASS    0x0100000
+
+#define LC_DLTERM               0x0200000
+
+#define LC_SAFETY_CHECK         0xFC00000
+#define LC_HAS_TEXT             0x0400000
+#define LC_FAIL_ON_TEXT         0x0800000
+#define LC_FAIL_NEXT            0x1000000
+#define LC_FAIL_ON_LBRACE       0x2000000
+#define LC_FAIL_ON_RBRACE       0x4000000
+#define LC_FAIL_ON_EQUALS       0x8000000
 
 /* Global contexts: */
 

From 51ac97de04108a3256467170952e043dde379f26 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 15:06:24 -0400
Subject: [PATCH 121/189] Make macros out of the failing/unsafe contexts.

---
 mwparserfromhell/parser/tokenizer.c | 14 ++++----------
 mwparserfromhell/parser/tokenizer.h |  6 ++++++
 2 files changed, 10 insertions(+), 10 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index a78c6d9..50bb3b0 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -2084,13 +2084,10 @@ static int Tokenizer_handle_dl_term(Tokenizer* self)
 */
 static PyObject* Tokenizer_handle_end(Tokenizer* self, int context)
 {
-    static int fail_contexts = (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK |
-                                LC_HEADING | LC_TAG | LC_STYLE);
-    static int double_fail = (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE);
     PyObject *token, *text, *trash;
     int single;
 
-    if (context & fail_contexts) {
+    if (context & AGG_FAIL) {
         if (context & LC_TAG_BODY) {
             token = PyList_GET_ITEM(self->topstack->stack, 1);
             text = PyObject_GetAttrString(token, "text");
@@ -2101,7 +2098,7 @@ static PyObject* Tokenizer_handle_end(Tokenizer* self, int context)
             if (single)
                 return Tokenizer_handle_single_tag_end(self);
         }
-        else if (context & double_fail) {
+        else if (context & AGG_DOUBLE) {
             trash = Tokenizer_pop(self);
             Py_XDECREF(trash);
         }
@@ -2195,9 +2192,6 @@ static int Tokenizer_verify_safe(Tokenizer* self, int context, Py_UNICODE data)
 */
 static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
 {
-    static int unsafe_contexts = (LC_TEMPLATE_NAME | LC_WIKILINK_TITLE |
-                                  LC_TEMPLATE_PARAM_KEY | LC_ARGUMENT_NAME);
-    static int double_unsafe = (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE);
     int this_context, is_marker, i;
     Py_UNICODE this, next, next_next, last;
     PyObject* temp;
@@ -2209,9 +2203,9 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
     while (1) {
         this = Tokenizer_READ(self, 0);
         this_context = self->topstack->context;
-        if (this_context & unsafe_contexts) {
+        if (this_context & AGG_UNSAFE) {
             if (Tokenizer_verify_safe(self, this_context, this) < 0) {
-                if (this_context & double_unsafe) {
+                if (this_context & AGG_DOUBLE) {
                     temp = Tokenizer_pop(self);
                     Py_XDECREF(temp);
                 }
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index cc6dc09..1ac9168 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -150,6 +150,12 @@ static PyObject* TagCloseClose;
 
 #define GL_HEADING 0x1
 
+/* Aggregate contexts: */
+
+#define AGG_FAIL   (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK | LC_HEADING | LC_TAG | LC_STYLE)
+#define AGG_UNSAFE (LC_TEMPLATE_NAME | LC_WIKILINK_TITLE | LC_TEMPLATE_PARAM_KEY | LC_ARGUMENT_NAME)
+#define AGG_DOUBLE (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE)
+
 /* Tag contexts: */
 
 #define TAG_NAME        0x01

From 02e52185f4afafa701fe5bc8daa3d9af64605a1d Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 15:39:23 -0400
Subject: [PATCH 122/189] Wikicode's filter() methods now passed recursive=True
 instead of False.

This is a breaking change for those who rely on default behavior.
---
 CHANGELOG                    |  5 ++++-
 README.rst                   | 22 +++++++++++-----------
 docs/changelog.rst           |  5 ++++-
 docs/usage.rst               | 22 +++++++++++-----------
 mwparserfromhell/wikicode.py |  4 ++--
 tests/test_docs.py           | 26 +++++++++++++-------------
 tests/test_wikicode.py       | 18 +++++++++---------
 7 files changed, 54 insertions(+), 48 deletions(-)

diff --git a/CHANGELOG b/CHANGELOG
index aa8d0b5..32a14e4 100644
--- a/CHANGELOG
+++ b/CHANGELOG
@@ -2,7 +2,10 @@ v0.3 (unreleased):
 
 - Added complete support for HTML Tags, along with appropriate unit tests. This
   includes forms like <ref>foo</ref>, <ref name="bar"/>, and wiki-markup tags
-  like bold ('''), italics (''), and lists (''*'', ''#'', '';'' and '':'').
+  like bold ('''), italics (''), and lists (*, #, ; and :).
+- Wikicode's filter methods are now passed 'recursive=True' by default instead
+  of False. This is a breaking change if you rely on any filter() methods being
+  non-recursive by default.
 - Various fixes and cleanup.
 
 v0.2 (released June 20, 2013):
diff --git a/README.rst b/README.rst
index 26b63bb..d481700 100644
--- a/README.rst
+++ b/README.rst
@@ -60,13 +60,20 @@ For example::
     >>> print template.get("eggs").value
     spam
 
-Since every node you reach is also a ``Wikicode`` object, it's trivial to get
-nested templates::
+Since nodes can contain other nodes, getting nested templates is trivial::
+
+    >>> text = "{{foo|{{bar}}={{baz|{{spam}}}}}}"
+    >>> mwparserfromhell.parse(text).filter_templates()
+    ['{{foo|{{bar}}={{baz|{{spam}}}}}}', '{{bar}}', '{{baz|{{spam}}}}', '{{spam}}']
+
+You can also pass ``recursive=False`` to ``filter_templates()`` and explore
+templates manually. This is possible because nodes can contain additional
+``Wikicode`` objects::
 
     >>> code = mwparserfromhell.parse("{{foo|this {{includes a|template}}}}")
-    >>> print code.filter_templates()
+    >>> print code.filter_templates(recursive=False)
     ['{{foo|this {{includes a|template}}}}']
-    >>> foo = code.filter_templates()[0]
+    >>> foo = code.filter_templates(recursive=False)[0]
     >>> print foo.get(1).value
     this {{includes a|template}}
     >>> print foo.get(1).value.filter_templates()[0]
@@ -74,13 +81,6 @@ nested templates::
     >>> print foo.get(1).value.filter_templates()[0].get(1).value
     template
 
-Additionally, you can include nested templates in ``filter_templates()`` by
-passing ``recursive=True``::
-
-    >>> text = "{{foo|{{bar}}={{baz|{{spam}}}}}}"
-    >>> mwparserfromhell.parse(text).filter_templates(recursive=True)
-    ['{{foo|{{bar}}={{baz|{{spam}}}}}}', '{{bar}}', '{{baz|{{spam}}}}', '{{spam}}']
-
 Templates can be easily modified to add, remove, or alter params. ``Wikicode``
 can also be treated like a list with ``append()``, ``insert()``, ``remove()``,
 ``replace()``, and more::
diff --git a/docs/changelog.rst b/docs/changelog.rst
index cf8708d..18687f0 100644
--- a/docs/changelog.rst
+++ b/docs/changelog.rst
@@ -10,7 +10,10 @@ Unreleased
 - Added complete support for HTML :py:class:`Tags <.Tag>`, along with
   appropriate unit tests. This includes forms like ``<ref>foo</ref>``,
   ``<ref name="bar"/>``, and wiki-markup tags like bold (``'''``), italics
-  (``''``), and lists (``''*''``, ``''#''``, ``'';''`` and ``'':''``).
+  (``''``), and lists (``*``, ``#``, ``;`` and ``:``).
+- :py:class:`Wikicode's <.Wikicode>` :py:meth:`.filter` methods are now passed
+  *recursive=True* by default instead of *False*. **This is a breaking change
+  if you rely on any filter() methods being non-recursive by default.**
 - Various fixes and cleanup.
 
 v0.2
diff --git a/docs/usage.rst b/docs/usage.rst
index 2fd19af..fd24a15 100644
--- a/docs/usage.rst
+++ b/docs/usage.rst
@@ -27,13 +27,20 @@ some extra methods. For example::
     >>> print template.get("eggs").value
     spam
 
-Since every node you reach is also a :py:class:`~.Wikicode` object, it's
-trivial to get nested templates::
+Since nodes can contain other nodes, getting nested templates is trivial::
+
+    >>> text = "{{foo|{{bar}}={{baz|{{spam}}}}}}"
+    >>> mwparserfromhell.parse(text).filter_templates()
+    ['{{foo|{{bar}}={{baz|{{spam}}}}}}', '{{bar}}', '{{baz|{{spam}}}}', '{{spam}}']
+
+You can also pass *recursive=False* to :py:meth:`~.filter_templates` and
+explore templates manually. This is possible because nodes can contain
+additional :py:class:`~.Wikicode` objects::
 
     >>> code = mwparserfromhell.parse("{{foo|this {{includes a|template}}}}")
-    >>> print code.filter_templates()
+    >>> print code.filter_templates(recursive=False)
     ['{{foo|this {{includes a|template}}}}']
-    >>> foo = code.filter_templates()[0]
+    >>> foo = code.filter_templates(recursive=False)[0]
     >>> print foo.get(1).value
     this {{includes a|template}}
     >>> print foo.get(1).value.filter_templates()[0]
@@ -41,13 +48,6 @@ trivial to get nested templates::
     >>> print foo.get(1).value.filter_templates()[0].get(1).value
     template
 
-Additionally, you can include nested templates in :py:meth:`~.filter_templates`
-by passing *recursive=True*::
-
-    >>> text = "{{foo|{{bar}}={{baz|{{spam}}}}}}"
-    >>> mwparserfromhell.parse(text).filter_templates(recursive=True)
-    ['{{foo|{{bar}}={{baz|{{spam}}}}}}', '{{bar}}', '{{baz|{{spam}}}}', '{{spam}}']
-
 Templates can be easily modified to add, remove, or alter params.
 :py:class:`~.Wikicode` can also be treated like a list with
 :py:meth:`~.Wikicode.append`, :py:meth:`~.Wikicode.insert`,
diff --git a/mwparserfromhell/wikicode.py b/mwparserfromhell/wikicode.py
index 4ec889e..90b5d18 100644
--- a/mwparserfromhell/wikicode.py
+++ b/mwparserfromhell/wikicode.py
@@ -309,7 +309,7 @@ class Wikicode(StringMixIn):
         callback = lambda self, i: self.nodes.pop(i)
         self._do_search(obj, recursive, callback, self)
 
-    def ifilter(self, recursive=False, matches=None, flags=FLAGS,
+    def ifilter(self, recursive=True, matches=None, flags=FLAGS,
                 forcetype=None):
         """Iterate over nodes in our list matching certain conditions.
 
@@ -327,7 +327,7 @@ class Wikicode(StringMixIn):
                 if not matches or re.search(matches, str(node), flags):
                     yield node
 
-    def filter(self, recursive=False, matches=None, flags=FLAGS,
+    def filter(self, recursive=True, matches=None, flags=FLAGS,
                forcetype=None):
         """Return a list of nodes within our list matching certain conditions.
 
diff --git a/tests/test_docs.py b/tests/test_docs.py
index 8d95c47..5fdb520 100644
--- a/tests/test_docs.py
+++ b/tests/test_docs.py
@@ -61,30 +61,30 @@ class TestDocs(unittest.TestCase):
 
     def test_readme_2(self):
         """test a block of example code in the README"""
+        text = "{{foo|{{bar}}={{baz|{{spam}}}}}}"
+        temps = mwparserfromhell.parse(text).filter_templates()
+        if py3k:
+            res = "['{{foo|{{bar}}={{baz|{{spam}}}}}}', '{{bar}}', '{{baz|{{spam}}}}', '{{spam}}']"
+        else:
+            res = "[u'{{foo|{{bar}}={{baz|{{spam}}}}}}', u'{{bar}}', u'{{baz|{{spam}}}}', u'{{spam}}']"
+        self.assertPrint(temps, res)
+
+    def test_readme_3(self):
+        """test a block of example code in the README"""
         code = mwparserfromhell.parse("{{foo|this {{includes a|template}}}}")
         if py3k:
-            self.assertPrint(code.filter_templates(),
+            self.assertPrint(code.filter_templates(recursive=False),
                              "['{{foo|this {{includes a|template}}}}']")
         else:
-            self.assertPrint(code.filter_templates(),
+            self.assertPrint(code.filter_templates(recursive=False),
                              "[u'{{foo|this {{includes a|template}}}}']")
-        foo = code.filter_templates()[0]
+        foo = code.filter_templates(recursive=False)[0]
         self.assertPrint(foo.get(1).value, "this {{includes a|template}}")
         self.assertPrint(foo.get(1).value.filter_templates()[0],
                          "{{includes a|template}}")
         self.assertPrint(foo.get(1).value.filter_templates()[0].get(1).value,
                          "template")
 
-    def test_readme_3(self):
-        """test a block of example code in the README"""
-        text = "{{foo|{{bar}}={{baz|{{spam}}}}}}"
-        temps = mwparserfromhell.parse(text).filter_templates(recursive=True)
-        if py3k:
-            res = "['{{foo|{{bar}}={{baz|{{spam}}}}}}', '{{bar}}', '{{baz|{{spam}}}}', '{{spam}}']"
-        else:
-            res = "[u'{{foo|{{bar}}={{baz|{{spam}}}}}}', u'{{bar}}', u'{{baz|{{spam}}}}', u'{{spam}}']"
-        self.assertPrint(temps, res)
-
     def test_readme_4(self):
         """test a block of example code in the README"""
         text = "{{cleanup}} '''Foo''' is a [[bar]]. {{uncategorized}}"
diff --git a/tests/test_wikicode.py b/tests/test_wikicode.py
index 8dfa655..2684414 100644
--- a/tests/test_wikicode.py
+++ b/tests/test_wikicode.py
@@ -219,11 +219,11 @@ class TestWikicode(TreeEqualityTestCase):
 
         code = parse("a{{b}}c[[d]]{{{e}}}{{f}}[[g]]")
         for func in (code.filter, ifilter(code)):
-            self.assertEqual(["a", "{{b}}", "c", "[[d]]", "{{{e}}}", "{{f}}",
-                              "[[g]]"], func())
+            self.assertEqual(["a", "{{b}}", "b", "c", "[[d]]", "d", "{{{e}}}",
+                              "e", "{{f}}", "f", "[[g]]", "g"], func())
             self.assertEqual(["{{{e}}}"], func(forcetype=Argument))
             self.assertIs(code.get(4), func(forcetype=Argument)[0])
-            self.assertEqual(["a", "c"], func(forcetype=Text))
+            self.assertEqual(list("abcdefg"), func(forcetype=Text))
             self.assertEqual([], func(forcetype=Heading))
             self.assertRaises(TypeError, func, forcetype=True)
 
@@ -239,7 +239,7 @@ class TestWikicode(TreeEqualityTestCase):
             self.assertEqual([], get_filter("html_entities"))
             self.assertEqual([], get_filter("tags"))
             self.assertEqual(["{{b}}", "{{f}}"], get_filter("templates"))
-            self.assertEqual(["a", "c"], get_filter("text"))
+            self.assertEqual(list("abcdefg"), get_filter("text"))
             self.assertEqual(["[[d]]", "[[g]]"], get_filter("wikilinks"))
 
         code2 = parse("{{a|{{b}}|{{c|d={{f}}{{h}}}}}}")
@@ -252,13 +252,13 @@ class TestWikicode(TreeEqualityTestCase):
 
         code3 = parse("{{foobar}}{{FOO}}{{baz}}{{bz}}")
         for func in (code3.filter, ifilter(code3)):
-            self.assertEqual(["{{foobar}}", "{{FOO}}"], func(matches=r"foo"))
+            self.assertEqual(["{{foobar}}", "{{FOO}}"], func(recursive=False, matches=r"foo"))
             self.assertEqual(["{{foobar}}", "{{FOO}}"],
-                             func(matches=r"^{{foo.*?}}"))
+                             func(recursive=False, matches=r"^{{foo.*?}}"))
             self.assertEqual(["{{foobar}}"],
-                             func(matches=r"^{{foo.*?}}", flags=re.UNICODE))
-            self.assertEqual(["{{baz}}", "{{bz}}"], func(matches=r"^{{b.*?z"))
-            self.assertEqual(["{{baz}}"], func(matches=r"^{{b.+?z}}"))
+                             func(recursive=False, matches=r"^{{foo.*?}}", flags=re.UNICODE))
+            self.assertEqual(["{{baz}}", "{{bz}}"], func(recursive=False, matches=r"^{{b.*?z"))
+            self.assertEqual(["{{baz}}"], func(recursive=False, matches=r"^{{b.+?z}}"))
 
         self.assertEqual(["{{a|{{b}}|{{c|d={{f}}{{h}}}}}}"],
                          code2.filter_templates(recursive=False))

From 6036dc9d62684d39cf423893371b80c21a86098d Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 17:57:52 -0400
Subject: [PATCH 123/189] Finish new emit_first() and emit_first_kwargs()

---
 mwparserfromhell/parser/tokenizer.c | 64 ++++++++++++++++++++++---------------
 1 file changed, 39 insertions(+), 25 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 50bb3b0..dd36ab8 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -347,28 +347,39 @@ static void* Tokenizer_fail_route(Tokenizer* self)
 /*
     Write a token to the end of the current token stack.
 */
-static int Tokenizer_emit(Tokenizer* self, PyObject* token)
+static int Tokenizer_emit_FAST(Tokenizer* self, PyObject* token)
 {
+    PyObject* instance;
+
     if (Tokenizer_push_textbuffer(self))
         return -1;
-    if (PyList_Append(self->topstack->stack, token))
+    instance = PyObject_CallObject(token, NULL);
+    if (!instance)
         return -1;
+    if (PyList_Append(self->topstack->stack, instance)) {
+        Py_DECREF(instance);
+        return -1;
+    }
+    Py_DECREF(instance);
     return 0;
 }
 
 /*
-    Write a token to the beginning of the current token stack.
+    Write a token to the end of the current token stack.
 */
-static int Tokenizer_emit_first(Tokenizer* self, PyObject* token)
+static int Tokenizer_emit(Tokenizer* self, PyObject* token)
 {
     if (Tokenizer_push_textbuffer(self))
         return -1;
-    if (PyList_Insert(self->topstack->stack, 0, token))
+    if (PyList_Append(self->topstack->stack, token))
         return -1;
     return 0;
 }
 
-static int Tokenizer_emit_FAST(Tokenizer* self, PyObject* token)
+/*
+    Write a token to the beginning of the current token stack.
+*/
+static int Tokenizer_emit_first(Tokenizer* self, PyObject* token)
 {
     PyObject* instance;
 
@@ -377,7 +388,7 @@ static int Tokenizer_emit_FAST(Tokenizer* self, PyObject* token)
     instance = PyObject_CallObject(token, NULL);
     if (!instance)
         return -1;
-    if (PyList_Append(self->topstack->stack, instance)) {
+    if (PyList_Insert(self->topstack->stack, 0, instance)) {
         Py_DECREF(instance);
         return -1;
     }
@@ -385,20 +396,31 @@ static int Tokenizer_emit_FAST(Tokenizer* self, PyObject* token)
     return 0;
 }
 
-static int Tokenizer_emit_first_FAST(Tokenizer* self, PyObject* token)
+/*
+    Write a token to the beginning of the current token stack, with kwargs.
+    Steals a reference to kwargs.
+*/
+static int Tokenizer_emit_first_kwargs(Tokenizer* self, PyObject* token,
+                                       PyObject* kwargs)
 {
     PyObject* instance;
 
-    if (Tokenizer_push_textbuffer(self))
+    if (Tokenizer_push_textbuffer(self)) {
+        Py_DECREF(kwargs);
         return -1;
-    instance = PyObject_CallObject(token, NULL);
-    if (!instance)
+    }
+    instance = PyObject_Call(token, NOARGS, kwargs);
+    if (!instance) {
+        Py_DECREF(kwargs);
         return -1;
+    }
     if (PyList_Insert(self->topstack->stack, 0, instance)) {
         Py_DECREF(instance);
+        Py_DECREF(kwargs);
         return -1;
     }
     Py_DECREF(instance);
+    Py_DECREF(kwargs);
     return 0;
 }
 
@@ -547,7 +569,7 @@ static int Tokenizer_parse_template(Tokenizer* self)
     }
     if (!template)
         return -1;
-    if (Tokenizer_emit_first_FAST(self, TemplateOpen)) {
+    if (Tokenizer_emit_first(self, TemplateOpen)) {
         Py_DECREF(template);
         return -1;
     }
@@ -576,7 +598,7 @@ static int Tokenizer_parse_argument(Tokenizer* self)
     }
     if (!argument)
         return -1;
-    if (Tokenizer_emit_first_FAST(self, ArgumentOpen)) {
+    if (Tokenizer_emit_first(self, ArgumentOpen)) {
         Py_DECREF(argument);
         return -1;
     }
@@ -1164,7 +1186,7 @@ static int Tokenizer_parse_comment(Tokenizer* self)
         }
         if (this == *"-" && Tokenizer_READ(self, 1) == this &&
                             Tokenizer_READ(self, 2) == *">") {
-            if (Tokenizer_emit_first_FAST(self, CommentStart))
+            if (Tokenizer_emit_first(self, CommentStart))
                 return -1;
             if (Tokenizer_emit_FAST(self, CommentEnd))
                 return -1;
@@ -1188,11 +1210,10 @@ static int Tokenizer_parse_comment(Tokenizer* self)
 */
 static int Tokenizer_push_tag_buffer(Tokenizer* self, TagData* data)
 {
-    PyObject *token, *tokens, *kwargs, *pad_first, *pad_before_eq,
-             *pad_after_eq;
+    PyObject *tokens, *kwargs, *pad_first, *pad_before_eq, *pad_after_eq;
 
     if (data->context & TAG_QUOTED) {
-        if (Tokenizer_emit_first_FAST(self, TagAttrQuote))
+        if (Tokenizer_emit_first(self, TagAttrQuote))
             return -1;
         tokens = Tokenizer_pop(self);
         if (!tokens)
@@ -1217,15 +1238,8 @@ static int Tokenizer_push_tag_buffer(Tokenizer* self, TagData* data)
     Py_DECREF(pad_first);
     Py_DECREF(pad_before_eq);
     Py_DECREF(pad_after_eq);
-    token = PyObject_Call(TagAttrStart, NOARGS, kwargs);
-    Py_DECREF(kwargs);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit_first(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit_first_kwargs(self, TagAttrStart, kwargs))
         return -1;
-    }
-    Py_DECREF(token);
     tokens = Tokenizer_pop(self);
     if (!tokens)
         return -1;

From a07a96d4babd558cb6a1ec00300f2975597c06de Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 18:11:58 -0400
Subject: [PATCH 124/189] Finish emit()'s kwargs version.

---
 mwparserfromhell/parser/tokenizer.c | 114 ++++++++++--------------------------
 1 file changed, 32 insertions(+), 82 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index dd36ab8..1ddb76b 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -367,12 +367,26 @@ static int Tokenizer_emit_FAST(Tokenizer* self, PyObject* token)
 /*
     Write a token to the end of the current token stack.
 */
-static int Tokenizer_emit(Tokenizer* self, PyObject* token)
+static int Tokenizer_emit(Tokenizer* self, PyObject* token, PyObject* kwargs)
 {
-    if (Tokenizer_push_textbuffer(self))
+    PyObject* instance;
+
+    if (Tokenizer_push_textbuffer(self)) {
+        Py_DECREF(kwargs);
         return -1;
-    if (PyList_Append(self->topstack->stack, token))
+    }
+    instance = PyObject_Call(token, NOARGS, kwargs);
+    if (!instance) {
+        Py_DECREF(kwargs);
         return -1;
+    }
+    if (PyList_Append(self->topstack->stack, instance)) {
+        Py_DECREF(instance);
+        Py_DECREF(kwargs);
+        return -1;
+    }
+    Py_DECREF(instance);
+    Py_DECREF(kwargs);
     return 0;
 }
 
@@ -846,7 +860,7 @@ static int Tokenizer_parse_heading(Tokenizer* self)
     Py_ssize_t reset = self->head;
     int best = 1, i, context, diff;
     HeadingData *heading;
-    PyObject *level, *kwargs, *token;
+    PyObject *level, *kwargs;
 
     self->global |= GL_HEADING;
     self->head += 1;
@@ -881,20 +895,11 @@ static int Tokenizer_parse_heading(Tokenizer* self)
     }
     PyDict_SetItemString(kwargs, "level", level);
     Py_DECREF(level);
-    token = PyObject_Call(HeadingStart, NOARGS, kwargs);
-    Py_DECREF(kwargs);
-    if (!token) {
+    if (Tokenizer_emit(self, HeadingStart, kwargs)) {
         Py_DECREF(heading->title);
         free(heading);
         return -1;
     }
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
-        Py_DECREF(heading->title);
-        free(heading);
-        return -1;
-    }
-    Py_DECREF(token);
     if (heading->level < best) {
         diff = best - heading->level;
         for (i = 0; i < diff; i++) {
@@ -984,7 +989,7 @@ static HeadingData* Tokenizer_handle_heading_end(Tokenizer* self)
 */
 static int Tokenizer_really_parse_entity(Tokenizer* self)
 {
-    PyObject *token, *kwargs, *textobj;
+    PyObject *kwargs, *textobj;
     Py_UNICODE this;
     int numeric, hexadecimal, i, j, zeroes, test;
     char *valid, *text, *buffer, *def;
@@ -1019,15 +1024,8 @@ static int Tokenizer_really_parse_entity(Tokenizer* self)
             if (!kwargs)
                 return -1;
             PyDict_SetItemString(kwargs, "char", Tokenizer_read(self, 0));
-            token = PyObject_Call(HTMLEntityHex, NOARGS, kwargs);
-            Py_DECREF(kwargs);
-            if (!token)
+            if (Tokenizer_emit(self, HTMLEntityHex, kwargs))
                 return -1;
-            if (Tokenizer_emit(self, token)) {
-                Py_DECREF(token);
-                return -1;
-            }
-            Py_DECREF(token);
             self->head++;
         }
         else
@@ -1120,15 +1118,8 @@ static int Tokenizer_really_parse_entity(Tokenizer* self)
     }
     PyDict_SetItemString(kwargs, "text", textobj);
     Py_DECREF(textobj);
-    token = PyObject_Call(Text, NOARGS, kwargs);
-    Py_DECREF(kwargs);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit(self, Text, kwargs))
         return -1;
-    }
-    Py_DECREF(token);
     if (Tokenizer_emit_FAST(self, HTMLEntityEnd))
         return -1;
     return 0;
@@ -1402,7 +1393,7 @@ Tokenizer_handle_tag_data(Tokenizer* self, TagData* data, Py_UNICODE chunk)
 static int
 Tokenizer_handle_tag_close_open(Tokenizer* self, TagData* data, PyObject* cls)
 {
-    PyObject *padding, *kwargs, *token;
+    PyObject *padding, *kwargs;
 
     if (data->context & (TAG_ATTR_NAME | TAG_ATTR_VALUE)) {
         if (Tokenizer_push_tag_buffer(self, data))
@@ -1418,15 +1409,8 @@ Tokenizer_handle_tag_close_open(Tokenizer* self, TagData* data, PyObject* cls)
     }
     PyDict_SetItemString(kwargs, "padding", padding);
     Py_DECREF(padding);
-    token = PyObject_Call(cls, NOARGS, kwargs);
-    Py_DECREF(kwargs);
-    if (!token)
-        return -1;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit(self, cls, kwargs))
         return -1;
-    }
-    Py_DECREF(token);
     self->head++;
     return 0;
 }
@@ -1523,7 +1507,7 @@ static PyObject* Tokenizer_handle_blacklisted_tag(Tokenizer* self)
 */
 static PyObject* Tokenizer_handle_single_only_tag_end(Tokenizer* self)
 {
-    PyObject *top, *padding, *kwargs, *token;
+    PyObject *top, *padding, *kwargs;
 
     top = PyObject_CallMethod(self->topstack->stack, "pop", NULL);
     if (!top)
@@ -1540,15 +1524,8 @@ static PyObject* Tokenizer_handle_single_only_tag_end(Tokenizer* self)
     PyDict_SetItemString(kwargs, "padding", padding);
     PyDict_SetItemString(kwargs, "implicit", Py_True);
     Py_DECREF(padding);
-    token = PyObject_Call(TagCloseSelfclose, NOARGS, kwargs);
-    Py_DECREF(kwargs);
-    if (!token)
+    if (Tokenizer_emit(self, TagCloseSelfclose, kwargs))
         return NULL;
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
-        return NULL;
-    }
-    Py_DECREF(token);
     self->head--;  // Offset displacement done by handle_tag_close_open
     return Tokenizer_pop(self);
 }
@@ -1759,7 +1736,7 @@ static int Tokenizer_parse_tag(Tokenizer* self)
 static int Tokenizer_emit_style_tag(Tokenizer* self, const char* tag,
                                     const char* ticks, PyObject* body)
 {
-    PyObject *markup, *kwargs, *token;
+    PyObject *markup, *kwargs;
 
     markup = PyBytes_FromString(ticks);
     if (!markup)
@@ -1771,17 +1748,8 @@ static int Tokenizer_emit_style_tag(Tokenizer* self, const char* tag,
     }
     PyDict_SetItemString(kwargs, "wiki_markup", markup);
     Py_DECREF(markup);
-    token = PyObject_Call(TagOpenOpen, NOARGS, kwargs);
-    if (!token) {
-        Py_DECREF(kwargs);
-        return -1;
-    }
-    Py_DECREF(kwargs);
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit(self, TagOpenOpen, kwargs))
         return -1;
-    }
-    Py_DECREF(token);
     if (Tokenizer_emit_text(self, tag))
         return -1;
     if (Tokenizer_emit_FAST(self, TagCloseOpen))
@@ -1988,7 +1956,7 @@ static PyObject* Tokenizer_parse_style(Tokenizer* self)
 */
 static int Tokenizer_handle_list_marker(Tokenizer* self)
 {
-    PyObject *markup = Tokenizer_read(self, 0), *kwargs, *token;
+    PyObject *markup = Tokenizer_read(self, 0), *kwargs;
     Py_UNICODE code = *PyUnicode_AS_UNICODE(markup);
 
     if (code == *";")
@@ -1997,17 +1965,8 @@ static int Tokenizer_handle_list_marker(Tokenizer* self)
     if (!kwargs)
         return -1;
     PyDict_SetItemString(kwargs, "wiki_markup", markup);
-    token = PyObject_Call(TagOpenOpen, NOARGS, kwargs);
-    if (!token) {
-        Py_DECREF(kwargs);
-        return -1;
-    }
-    Py_DECREF(kwargs);
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit(self, TagOpenOpen, kwargs))
         return -1;
-    }
-    Py_DECREF(token);
     if (Tokenizer_emit_text(self, GET_HTML_TAG(code)))
         return -1;
     if (Tokenizer_emit_FAST(self, TagCloseSelfclose))
@@ -2039,7 +1998,7 @@ static int Tokenizer_handle_list(Tokenizer* self)
 */
 static int Tokenizer_handle_hr(Tokenizer* self)
 {
-    PyObject *markup, *kwargs, *token;
+    PyObject *markup, *kwargs;
     Textbuffer *buffer = Textbuffer_new();
     int i;
 
@@ -2064,17 +2023,8 @@ static int Tokenizer_handle_hr(Tokenizer* self)
         return -1;
     PyDict_SetItemString(kwargs, "wiki_markup", markup);
     Py_DECREF(markup);
-    token = PyObject_Call(TagOpenOpen, NOARGS, kwargs);
-    if (!token) {
-        Py_DECREF(kwargs);
-        return -1;
-    }
-    Py_DECREF(kwargs);
-    if (Tokenizer_emit(self, token)) {
-        Py_DECREF(token);
+    if (Tokenizer_emit(self, TagOpenOpen, kwargs))
         return -1;
-    }
-    Py_DECREF(token);
     if (Tokenizer_emit_text(self, "hr"))
         return -1;
     if (Tokenizer_emit_FAST(self, TagCloseSelfclose))

From 95efa7dde9022c7582bbff44f86ff710f6985f27 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 18:13:02 -0400
Subject: [PATCH 125/189] emit_FAST() -> emit(); emit() -> emit_kwargs()

---
 mwparserfromhell/parser/tokenizer.c | 65 +++++++++++++++++++------------------
 1 file changed, 33 insertions(+), 32 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 1ddb76b..cf11462 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -347,7 +347,7 @@ static void* Tokenizer_fail_route(Tokenizer* self)
 /*
     Write a token to the end of the current token stack.
 */
-static int Tokenizer_emit_FAST(Tokenizer* self, PyObject* token)
+static int Tokenizer_emit(Tokenizer* self, PyObject* token)
 {
     PyObject* instance;
 
@@ -367,7 +367,8 @@ static int Tokenizer_emit_FAST(Tokenizer* self, PyObject* token)
 /*
     Write a token to the end of the current token stack.
 */
-static int Tokenizer_emit(Tokenizer* self, PyObject* token, PyObject* kwargs)
+static int Tokenizer_emit_kwargs(Tokenizer* self, PyObject* token,
+                                 PyObject* kwargs)
 {
     PyObject* instance;
 
@@ -592,7 +593,7 @@ static int Tokenizer_parse_template(Tokenizer* self)
         return -1;
     }
     Py_DECREF(template);
-    if (Tokenizer_emit_FAST(self, TemplateClose))
+    if (Tokenizer_emit(self, TemplateClose))
         return -1;
     return 0;
 }
@@ -621,7 +622,7 @@ static int Tokenizer_parse_argument(Tokenizer* self)
         return -1;
     }
     Py_DECREF(argument);
-    if (Tokenizer_emit_FAST(self, ArgumentClose))
+    if (Tokenizer_emit(self, ArgumentClose))
         return -1;
     return 0;
 }
@@ -720,7 +721,7 @@ static int Tokenizer_handle_template_param(Tokenizer* self)
     }
     else
         self->topstack->context |= LC_TEMPLATE_PARAM_KEY;
-    if (Tokenizer_emit_FAST(self, TemplateParamSeparator))
+    if (Tokenizer_emit(self, TemplateParamSeparator))
         return -1;
     if (Tokenizer_push(self, self->topstack->context))
         return -1;
@@ -744,7 +745,7 @@ static int Tokenizer_handle_template_param_value(Tokenizer* self)
     Py_DECREF(stack);
     self->topstack->context ^= LC_TEMPLATE_PARAM_KEY;
     self->topstack->context |= LC_TEMPLATE_PARAM_VALUE;
-    if (Tokenizer_emit_FAST(self, TemplateParamEquals))
+    if (Tokenizer_emit(self, TemplateParamEquals))
         return -1;
     return 0;
 }
@@ -778,7 +779,7 @@ static int Tokenizer_handle_argument_separator(Tokenizer* self)
 {
     self->topstack->context ^= LC_ARGUMENT_NAME;
     self->topstack->context |= LC_ARGUMENT_DEFAULT;
-    if (Tokenizer_emit_FAST(self, ArgumentSeparator))
+    if (Tokenizer_emit(self, ArgumentSeparator))
         return -1;
     return 0;
 }
@@ -814,7 +815,7 @@ static int Tokenizer_parse_wikilink(Tokenizer* self)
     }
     if (!wikilink)
         return -1;
-    if (Tokenizer_emit_FAST(self, WikilinkOpen)) {
+    if (Tokenizer_emit(self, WikilinkOpen)) {
         Py_DECREF(wikilink);
         return -1;
     }
@@ -823,7 +824,7 @@ static int Tokenizer_parse_wikilink(Tokenizer* self)
         return -1;
     }
     Py_DECREF(wikilink);
-    if (Tokenizer_emit_FAST(self, WikilinkClose))
+    if (Tokenizer_emit(self, WikilinkClose))
         return -1;
     if (self->topstack->context & LC_FAIL_NEXT)
         self->topstack->context ^= LC_FAIL_NEXT;
@@ -837,7 +838,7 @@ static int Tokenizer_handle_wikilink_separator(Tokenizer* self)
 {
     self->topstack->context ^= LC_WIKILINK_TITLE;
     self->topstack->context |= LC_WIKILINK_TEXT;
-    if (Tokenizer_emit_FAST(self, WikilinkSeparator))
+    if (Tokenizer_emit(self, WikilinkSeparator))
         return -1;
     return 0;
 }
@@ -895,7 +896,7 @@ static int Tokenizer_parse_heading(Tokenizer* self)
     }
     PyDict_SetItemString(kwargs, "level", level);
     Py_DECREF(level);
-    if (Tokenizer_emit(self, HeadingStart, kwargs)) {
+    if (Tokenizer_emit_kwargs(self, HeadingStart, kwargs)) {
         Py_DECREF(heading->title);
         free(heading);
         return -1;
@@ -917,7 +918,7 @@ static int Tokenizer_parse_heading(Tokenizer* self)
     }
     Py_DECREF(heading->title);
     free(heading);
-    if (Tokenizer_emit_FAST(self, HeadingEnd))
+    if (Tokenizer_emit(self, HeadingEnd))
         return -1;
     self->global ^= GL_HEADING;
     return 0;
@@ -1000,7 +1001,7 @@ static int Tokenizer_really_parse_entity(Tokenizer* self)
         return 0;                   \
     }
 
-    if (Tokenizer_emit_FAST(self, HTMLEntityStart))
+    if (Tokenizer_emit(self, HTMLEntityStart))
         return -1;
     self->head++;
     this = Tokenizer_READ(self, 0);
@@ -1010,7 +1011,7 @@ static int Tokenizer_really_parse_entity(Tokenizer* self)
     }
     if (this == *"#") {
         numeric = 1;
-        if (Tokenizer_emit_FAST(self, HTMLEntityNumeric))
+        if (Tokenizer_emit(self, HTMLEntityNumeric))
             return -1;
         self->head++;
         this = Tokenizer_READ(self, 0);
@@ -1024,7 +1025,7 @@ static int Tokenizer_really_parse_entity(Tokenizer* self)
             if (!kwargs)
                 return -1;
             PyDict_SetItemString(kwargs, "char", Tokenizer_read(self, 0));
-            if (Tokenizer_emit(self, HTMLEntityHex, kwargs))
+            if (Tokenizer_emit_kwargs(self, HTMLEntityHex, kwargs))
                 return -1;
             self->head++;
         }
@@ -1118,9 +1119,9 @@ static int Tokenizer_really_parse_entity(Tokenizer* self)
     }
     PyDict_SetItemString(kwargs, "text", textobj);
     Py_DECREF(textobj);
-    if (Tokenizer_emit(self, Text, kwargs))
+    if (Tokenizer_emit_kwargs(self, Text, kwargs))
         return -1;
-    if (Tokenizer_emit_FAST(self, HTMLEntityEnd))
+    if (Tokenizer_emit(self, HTMLEntityEnd))
         return -1;
     return 0;
 }
@@ -1179,7 +1180,7 @@ static int Tokenizer_parse_comment(Tokenizer* self)
                             Tokenizer_READ(self, 2) == *">") {
             if (Tokenizer_emit_first(self, CommentStart))
                 return -1;
-            if (Tokenizer_emit_FAST(self, CommentEnd))
+            if (Tokenizer_emit(self, CommentEnd))
                 return -1;
             comment = Tokenizer_pop(self);
             if (!comment)
@@ -1352,7 +1353,7 @@ Tokenizer_handle_tag_data(Tokenizer* self, TagData* data, Py_UNICODE chunk)
     else if (data->context & TAG_ATTR_NAME) {
         if (chunk == *"=") {
             data->context = TAG_ATTR_VALUE | TAG_NOTE_QUOTE;
-            if (Tokenizer_emit_FAST(self, TagAttrEquals))
+            if (Tokenizer_emit(self, TagAttrEquals))
                 return -1;
             return 0;
         }
@@ -1409,7 +1410,7 @@ Tokenizer_handle_tag_close_open(Tokenizer* self, TagData* data, PyObject* cls)
     }
     PyDict_SetItemString(kwargs, "padding", padding);
     Py_DECREF(padding);
-    if (Tokenizer_emit(self, cls, kwargs))
+    if (Tokenizer_emit_kwargs(self, cls, kwargs))
         return -1;
     self->head++;
     return 0;
@@ -1420,7 +1421,7 @@ Tokenizer_handle_tag_close_open(Tokenizer* self, TagData* data, PyObject* cls)
 */
 static int Tokenizer_handle_tag_open_close(Tokenizer* self)
 {
-    if (Tokenizer_emit_FAST(self, TagOpenClose))
+    if (Tokenizer_emit(self, TagOpenClose))
         return -1;
     if (Tokenizer_push(self, LC_TAG_CLOSE))
         return -1;
@@ -1474,7 +1475,7 @@ static PyObject* Tokenizer_handle_tag_close_close(Tokenizer* self)
         return NULL;
     }
     Py_DECREF(closing);
-    if (Tokenizer_emit_FAST(self, TagCloseClose))
+    if (Tokenizer_emit(self, TagCloseClose))
         return NULL;
     return Tokenizer_pop(self);
 }
@@ -1524,7 +1525,7 @@ static PyObject* Tokenizer_handle_single_only_tag_end(Tokenizer* self)
     PyDict_SetItemString(kwargs, "padding", padding);
     PyDict_SetItemString(kwargs, "implicit", Py_True);
     Py_DECREF(padding);
-    if (Tokenizer_emit(self, TagCloseSelfclose, kwargs))
+    if (Tokenizer_emit_kwargs(self, TagCloseSelfclose, kwargs))
         return NULL;
     self->head--;  // Offset displacement done by handle_tag_close_open
     return Tokenizer_pop(self);
@@ -1588,7 +1589,7 @@ static PyObject* Tokenizer_really_parse_tag(Tokenizer* self)
         TagData_dealloc(data);
         return NULL;
     }
-    if (Tokenizer_emit_FAST(self, TagOpenOpen)) {
+    if (Tokenizer_emit(self, TagOpenOpen)) {
         TagData_dealloc(data);
         return NULL;
     }
@@ -1748,20 +1749,20 @@ static int Tokenizer_emit_style_tag(Tokenizer* self, const char* tag,
     }
     PyDict_SetItemString(kwargs, "wiki_markup", markup);
     Py_DECREF(markup);
-    if (Tokenizer_emit(self, TagOpenOpen, kwargs))
+    if (Tokenizer_emit_kwargs(self, TagOpenOpen, kwargs))
         return -1;
     if (Tokenizer_emit_text(self, tag))
         return -1;
-    if (Tokenizer_emit_FAST(self, TagCloseOpen))
+    if (Tokenizer_emit(self, TagCloseOpen))
         return -1;
     if (Tokenizer_emit_all(self, body))
         return -1;
     Py_DECREF(body);
-    if (Tokenizer_emit_FAST(self, TagOpenClose))
+    if (Tokenizer_emit(self, TagOpenClose))
         return -1;
     if (Tokenizer_emit_text(self, tag))
         return -1;
-    if (Tokenizer_emit_FAST(self, TagCloseClose))
+    if (Tokenizer_emit(self, TagCloseClose))
         return -1;
     return 0;
 }
@@ -1965,11 +1966,11 @@ static int Tokenizer_handle_list_marker(Tokenizer* self)
     if (!kwargs)
         return -1;
     PyDict_SetItemString(kwargs, "wiki_markup", markup);
-    if (Tokenizer_emit(self, TagOpenOpen, kwargs))
+    if (Tokenizer_emit_kwargs(self, TagOpenOpen, kwargs))
         return -1;
     if (Tokenizer_emit_text(self, GET_HTML_TAG(code)))
         return -1;
-    if (Tokenizer_emit_FAST(self, TagCloseSelfclose))
+    if (Tokenizer_emit(self, TagCloseSelfclose))
         return -1;
     return 0;
 }
@@ -2023,11 +2024,11 @@ static int Tokenizer_handle_hr(Tokenizer* self)
         return -1;
     PyDict_SetItemString(kwargs, "wiki_markup", markup);
     Py_DECREF(markup);
-    if (Tokenizer_emit(self, TagOpenOpen, kwargs))
+    if (Tokenizer_emit_kwargs(self, TagOpenOpen, kwargs))
         return -1;
     if (Tokenizer_emit_text(self, "hr"))
         return -1;
-    if (Tokenizer_emit_FAST(self, TagCloseSelfclose))
+    if (Tokenizer_emit(self, TagCloseSelfclose))
         return -1;
     return 0;
 }

From ebf99d722c68d0a9e91f312fefcbce856519d159 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 19:01:12 -0400
Subject: [PATCH 126/189] Combine emit()/emit_first() internally.

---
 mwparserfromhell/parser/tokenizer.c | 60 +++++--------------------------------
 mwparserfromhell/parser/tokenizer.h |  7 ++++-
 2 files changed, 13 insertions(+), 54 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index cf11462..4df61d8 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -347,7 +347,7 @@ static void* Tokenizer_fail_route(Tokenizer* self)
 /*
     Write a token to the end of the current token stack.
 */
-static int Tokenizer_emit(Tokenizer* self, PyObject* token)
+static int Tokenizer_emit_token(Tokenizer* self, PyObject* token, int first)
 {
     PyObject* instance;
 
@@ -356,7 +356,8 @@ static int Tokenizer_emit(Tokenizer* self, PyObject* token)
     instance = PyObject_CallObject(token, NULL);
     if (!instance)
         return -1;
-    if (PyList_Append(self->topstack->stack, instance)) {
+    if (first ? PyList_Insert(self->topstack->stack, 0, instance) :
+                PyList_Append(self->topstack->stack, instance)) {
         Py_DECREF(instance);
         return -1;
     }
@@ -367,8 +368,8 @@ static int Tokenizer_emit(Tokenizer* self, PyObject* token)
 /*
     Write a token to the end of the current token stack.
 */
-static int Tokenizer_emit_kwargs(Tokenizer* self, PyObject* token,
-                                 PyObject* kwargs)
+static int Tokenizer_emit_token_kwargs(Tokenizer* self, PyObject* token,
+                                       PyObject* kwargs, int first)
 {
     PyObject* instance;
 
@@ -381,55 +382,8 @@ static int Tokenizer_emit_kwargs(Tokenizer* self, PyObject* token,
         Py_DECREF(kwargs);
         return -1;
     }
-    if (PyList_Append(self->topstack->stack, instance)) {
-        Py_DECREF(instance);
-        Py_DECREF(kwargs);
-        return -1;
-    }
-    Py_DECREF(instance);
-    Py_DECREF(kwargs);
-    return 0;
-}
-
-/*
-    Write a token to the beginning of the current token stack.
-*/
-static int Tokenizer_emit_first(Tokenizer* self, PyObject* token)
-{
-    PyObject* instance;
-
-    if (Tokenizer_push_textbuffer(self))
-        return -1;
-    instance = PyObject_CallObject(token, NULL);
-    if (!instance)
-        return -1;
-    if (PyList_Insert(self->topstack->stack, 0, instance)) {
-        Py_DECREF(instance);
-        return -1;
-    }
-    Py_DECREF(instance);
-    return 0;
-}
-
-/*
-    Write a token to the beginning of the current token stack, with kwargs.
-    Steals a reference to kwargs.
-*/
-static int Tokenizer_emit_first_kwargs(Tokenizer* self, PyObject* token,
-                                       PyObject* kwargs)
-{
-    PyObject* instance;
-
-    if (Tokenizer_push_textbuffer(self)) {
-        Py_DECREF(kwargs);
-        return -1;
-    }
-    instance = PyObject_Call(token, NOARGS, kwargs);
-    if (!instance) {
-        Py_DECREF(kwargs);
-        return -1;
-    }
-    if (PyList_Insert(self->topstack->stack, 0, instance)) {
+    if (first ? PyList_Insert(self->topstack->stack, 0, instance):
+                PyList_Append(self->topstack->stack, instance)) {
         Py_DECREF(instance);
         Py_DECREF(kwargs);
         return -1;
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 1ac9168..d5f755d 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -214,13 +214,18 @@ typedef struct {
 } Tokenizer;
 
 
-/* Macros for accessing Tokenizer data: */
+/* Macros related to Tokenizer functions: */
 
 #define Tokenizer_READ(self, delta) (*PyUnicode_AS_UNICODE(Tokenizer_read(self, delta)))
 #define Tokenizer_READ_BACKWARDS(self, delta) \
                 (*PyUnicode_AS_UNICODE(Tokenizer_read_backwards(self, delta)))
 #define Tokenizer_CAN_RECURSE(self) (self->depth < MAX_DEPTH && self->cycles < MAX_CYCLES)
 
+#define Tokenizer_emit(self, token) Tokenizer_emit_token(self, token, 0)
+#define Tokenizer_emit_first(self, token) Tokenizer_emit_token(self, token, 1)
+#define Tokenizer_emit_kwargs(self, token, kwargs) Tokenizer_emit_token_kwargs(self, token, kwargs, 0)
+#define Tokenizer_emit_first_kwargs(self, token, kwargs) Tokenizer_emit_token_kwargs(self, token, kwargs, 1)
+
 
 /* Macros for accessing HTML tag definitions: */
 

From 2f3edde57aaff2414406c38cb82f1dfbf093f3b8 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 22:01:53 -0400
Subject: [PATCH 127/189] Add a matches() method to Wikicode.

---
 CHANGELOG                    |  1 +
 README.rst                   |  8 +++++---
 docs/changelog.rst           |  2 ++
 docs/usage.rst               |  8 +++++---
 mwparserfromhell/wikicode.py | 15 +++++++++++++++
 tests/test_docs.py           |  2 +-
 tests/test_wikicode.py       | 13 +++++++++++++
 7 files changed, 42 insertions(+), 7 deletions(-)

diff --git a/CHANGELOG b/CHANGELOG
index 32a14e4..f7858d8 100644
--- a/CHANGELOG
+++ b/CHANGELOG
@@ -6,6 +6,7 @@ v0.3 (unreleased):
 - Wikicode's filter methods are now passed 'recursive=True' by default instead
   of False. This is a breaking change if you rely on any filter() methods being
   non-recursive by default.
+- Added a matches() method to Wikicode for page/template name comparisons.
 - Various fixes and cleanup.
 
 v0.2 (released June 20, 2013):
diff --git a/README.rst b/README.rst
index d481700..f1092ee 100644
--- a/README.rst
+++ b/README.rst
@@ -82,13 +82,15 @@ templates manually. This is possible because nodes can contain additional
     template
 
 Templates can be easily modified to add, remove, or alter params. ``Wikicode``
-can also be treated like a list with ``append()``, ``insert()``, ``remove()``,
-``replace()``, and more::
+objects can be treated like lists, with ``append()``, ``insert()``,
+``remove()``, ``replace()``, and more. They also have a ``matches()`` method
+for comparing page or template names, which takes care of capitalization and
+whitespace::
 
     >>> text = "{{cleanup}} '''Foo''' is a [[bar]]. {{uncategorized}}"
     >>> code = mwparserfromhell.parse(text)
     >>> for template in code.filter_templates():
-    ...     if template.name == "cleanup" and not template.has_param("date"):
+    ...     if template.name.matches("Cleanup") and not template.has_param("date"):
     ...         template.add("date", "July 2012")
     ...
     >>> print code
diff --git a/docs/changelog.rst b/docs/changelog.rst
index 18687f0..8cfa2ec 100644
--- a/docs/changelog.rst
+++ b/docs/changelog.rst
@@ -14,6 +14,8 @@ Unreleased
 - :py:class:`Wikicode's <.Wikicode>` :py:meth:`.filter` methods are now passed
   *recursive=True* by default instead of *False*. **This is a breaking change
   if you rely on any filter() methods being non-recursive by default.**
+- Added a :py:meth:`.matches` method to :py:class:`~.Wikicode` for
+  page/template name comparisons.
 - Various fixes and cleanup.
 
 v0.2
diff --git a/docs/usage.rst b/docs/usage.rst
index fd24a15..15b384b 100644
--- a/docs/usage.rst
+++ b/docs/usage.rst
@@ -49,14 +49,16 @@ additional :py:class:`~.Wikicode` objects::
     template
 
 Templates can be easily modified to add, remove, or alter params.
-:py:class:`~.Wikicode` can also be treated like a list with
+:py:class:`~.Wikicode` objects can be treated like lists, with
 :py:meth:`~.Wikicode.append`, :py:meth:`~.Wikicode.insert`,
-:py:meth:`~.Wikicode.remove`, :py:meth:`~.Wikicode.replace`, and more::
+:py:meth:`~.Wikicode.remove`, :py:meth:`~.Wikicode.replace`, and more. They
+also have a :py:meth:`~.Wikicode.matches` method for comparing page or template
+names, which takes care of capitalization and whitespace::
 
     >>> text = "{{cleanup}} '''Foo''' is a [[bar]]. {{uncategorized}}"
     >>> code = mwparserfromhell.parse(text)
     >>> for template in code.filter_templates():
-    ...     if template.name == "cleanup" and not template.has_param("date"):
+    ...     if template.name.matches("Cleanup") and not template.has_param("date"):
     ...         template.add("date", "July 2012")
     ...
     >>> print code
diff --git a/mwparserfromhell/wikicode.py b/mwparserfromhell/wikicode.py
index 90b5d18..a1921d7 100644
--- a/mwparserfromhell/wikicode.py
+++ b/mwparserfromhell/wikicode.py
@@ -309,6 +309,21 @@ class Wikicode(StringMixIn):
         callback = lambda self, i: self.nodes.pop(i)
         self._do_search(obj, recursive, callback, self)
 
+    def matches(self, other):
+        """Do a loose equivalency test suitable for comparing page names.
+
+        *other* can be any string-like object, including
+        :py:class:`~.Wikicode`. This operation is symmetric; both sides are
+        adjusted. Specifically, whitespace and markup is stripped and the first
+        letter's case is normalized. Typical usage is
+        ``if template.name.matches("stub"): ...``.
+        """
+        this = self.strip_code().strip()
+        that = parse_anything(other).strip_code().strip()
+        if not this or not that:
+            return this == that
+        return this[0].upper() + this[1:] == that[0].upper() + that[1:]
+
     def ifilter(self, recursive=True, matches=None, flags=FLAGS,
                 forcetype=None):
         """Iterate over nodes in our list matching certain conditions.
diff --git a/tests/test_docs.py b/tests/test_docs.py
index 5fdb520..53b3b76 100644
--- a/tests/test_docs.py
+++ b/tests/test_docs.py
@@ -90,7 +90,7 @@ class TestDocs(unittest.TestCase):
         text = "{{cleanup}} '''Foo''' is a [[bar]]. {{uncategorized}}"
         code = mwparserfromhell.parse(text)
         for template in code.filter_templates():
-            if template.name == "cleanup" and not template.has_param("date"):
+            if template.name.matches("Cleanup") and not template.has_param("date"):
                 template.add("date", "July 2012")
         res = "{{cleanup|date=July 2012}} '''Foo''' is a [[bar]]. {{uncategorized}}"
         self.assertPrint(code, res)
diff --git a/tests/test_wikicode.py b/tests/test_wikicode.py
index 2684414..5a28fb5 100644
--- a/tests/test_wikicode.py
+++ b/tests/test_wikicode.py
@@ -210,6 +210,19 @@ class TestWikicode(TreeEqualityTestCase):
         self.assertEqual("{{a||{{c|d={{h}}}}}}", code2)
         self.assertRaises(ValueError, code2.remove, "{{h}}", recursive=False)
 
+    def test_matches(self):
+        """test Wikicode.matches()"""
+        code1 = parse("Cleanup")
+        code2 = parse("\nstub<!-- TODO: make more specific -->")
+        self.assertTrue(code1.matches("Cleanup"))
+        self.assertTrue(code1.matches("cleanup"))
+        self.assertTrue(code1.matches("  cleanup\n"))
+        self.assertFalse(code1.matches("CLEANup"))
+        self.assertFalse(code1.matches("Blah"))
+        self.assertTrue(code2.matches("stub"))
+        self.assertTrue(code2.matches("Stub<!-- no, it's fine! -->"))
+        self.assertFalse(code2.matches("StuB"))
+
     def test_filter_family(self):
         """test the Wikicode.i?filter() family of functions"""
         def genlist(gen):

From 9f579ec29fc96af8f411d24ff6828159e1688d40 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 22:08:36 -0400
Subject: [PATCH 128/189] Add a test for <nowiki /> before a list.

---
 tests/tokenizer/tags_wikimarkup.mwtest | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/tests/tokenizer/tags_wikimarkup.mwtest b/tests/tokenizer/tags_wikimarkup.mwtest
index 632ba72..feff9c5 100644
--- a/tests/tokenizer/tags_wikimarkup.mwtest
+++ b/tests/tokenizer/tags_wikimarkup.mwtest
@@ -514,3 +514,10 @@ name:   hr_interruption_long
 label:  a hr that is interrupted, but the first part remains valid because it is long enough
 input:  "----x--"
 output: [TagOpenOpen(wiki_markup="----"), Text(text="hr"), TagCloseSelfclose(), Text(text="x--")]
+
+---
+
+name:   nowiki_cancel
+label:  a nowiki tag before a list causes it to not be parsed
+input:  "<nowiki />* Unordered list"
+output: [TagOpenOpen(), Text(text="nowiki"), TagCloseSelfclose(padding=" "), Text(text="* Unordered list")]

From be5d2cbb07da98f9babec7e1b799b40f374dfe52 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 22:24:14 -0400
Subject: [PATCH 129/189] Support HTML entities inside parser-blacklisted tags
 (closes #36)

---
 mwparserfromhell/parser/tokenizer.c  |  9 +++++++--
 mwparserfromhell/parser/tokenizer.py |  5 ++++-
 tests/tokenizer/html_entities.mwtest | 14 ++++++++++++++
 tests/tokenizer/tags.mwtest          | 21 +++++++++++++++++++++
 4 files changed, 46 insertions(+), 3 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index eff000a..912cfd7 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1578,16 +1578,21 @@ static PyObject* Tokenizer_handle_blacklisted_tag(Tokenizer* self)
     while (1) {
         this = Tokenizer_READ(self, 0);
         next = Tokenizer_READ(self, 1);
-        self->head++;
         if (this == *"")
             return Tokenizer_fail_route(self);
         else if (this == *"<" && next == *"/") {
             if (Tokenizer_handle_tag_open_close(self))
                 return NULL;
+            self->head++;
             return Tokenizer_parse(self, 0, 0);
         }
-        if (Tokenizer_emit_char(self, this))
+        else if (this == *"&") {
+            if (Tokenizer_parse_entity(self))
+                return NULL;
+        }
+        else if (Tokenizer_emit_char(self, this))
             return NULL;
+        self->head++;
     }
 }
 
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 38ffa80..583d2f8 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -552,14 +552,17 @@ class Tokenizer(object):
         """Handle the body of an HTML tag that is parser-blacklisted."""
         while True:
             this, next = self._read(), self._read(1)
-            self._head += 1
             if this is self.END:
                 self._fail_route()
             elif this == "<" and next == "/":
                 self._handle_tag_open_close()
+                self._head += 1
                 return self._parse(push=False)
+            elif this == "&":
+                self._parse_entity()
             else:
                 self._emit_text(this)
+            self._head += 1
 
     def _handle_single_only_tag_end(self):
         """Handle the end of an implicitly closing single-only HTML tag."""
diff --git a/tests/tokenizer/html_entities.mwtest b/tests/tokenizer/html_entities.mwtest
index 625dd60..53bedbd 100644
--- a/tests/tokenizer/html_entities.mwtest
+++ b/tests/tokenizer/html_entities.mwtest
@@ -117,6 +117,20 @@ output: [Text(text="&;")]
 
 ---
 
+name:   invalid_partial_amp_pound
+label:  invalid entities: just an ampersand, pound sign
+input:  "&#"
+output: [Text(text="&#")]
+
+---
+
+name:   invalid_partial_amp_pound_x
+label:  invalid entities: just an ampersand, pound sign, x
+input:  "&#x"
+output: [Text(text="&#x")]
+
+---
+
 name:   invalid_partial_amp_pound_semicolon
 label:  invalid entities: an ampersand, pound sign, and semicolon
 input:  "&#;"
diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index 50c844e..dc02a51 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -467,6 +467,27 @@ output: [TemplateOpen(), Text(text="t1"), TemplateClose(), Text(text="<nowiki>")
 
 ---
 
+name:   unparsable_entity
+label:  a HTML entity inside unparsable text is still parsed
+input:  "{{t1}}<nowiki>{{t2}}&nbsp;{{t3}}</nowiki>{{t4}}"
+output: [TemplateOpen(), Text(text="t1"), TemplateClose(), TagOpenOpen(), Text(text="nowiki"), TagCloseOpen(padding=""), Text(text="{{t2}}"), HTMLEntityStart(), Text(text="nbsp"), HTMLEntityEnd(), Text(text="{{t3}}"), TagOpenClose(), Text(text="nowiki"), TagCloseClose(), TemplateOpen(), Text(text="t4"), TemplateClose()]
+
+---
+
+name:   unparsable_entity_incomplete
+label:  an incomplete HTML entity inside unparsable text
+input:  "<nowiki>&</nowiki>"
+output: [TagOpenOpen(), Text(text="nowiki"), TagCloseOpen(padding=""), Text(text="&"), TagOpenClose(), Text(text="nowiki"), TagCloseClose()]
+
+---
+
+name:   unparsable_entity_incomplete_2
+label:  an incomplete HTML entity inside unparsable text
+input:  "<nowiki>&"
+output: [Text(text="<nowiki>&")]
+
+---
+
 name:   single_open_close
 label:  a tag that supports being single; both an open and a close tag
 input:  "foo<li>bar{{baz}}</li>"

From 25d53cacf8abc76a55cbf1af1b77b4cb9b6b0f5c Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 14 Aug 2013 23:54:06 -0400
Subject: [PATCH 130/189] Begin porting C tokenizer to Python 3.

---
 mwparserfromhell/parser/tokenizer.c | 70 ++++++++++++++++++++++++++-----------
 mwparserfromhell/parser/tokenizer.h | 27 +++++++-------
 setup.py                            |  5 +--
 3 files changed, 65 insertions(+), 37 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 4df61d8..60223e1 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -207,7 +207,7 @@ static void Tokenizer_dealloc(Tokenizer* self)
         free(this);
         this = next;
     }
-    self->ob_type->tp_free((PyObject*) self);
+    Py_TYPE(self)->tp_free((PyObject*) self);
 }
 
 static int Tokenizer_init(Tokenizer* self, PyObject* args, PyObject* kwds)
@@ -835,7 +835,11 @@ static int Tokenizer_parse_heading(Tokenizer* self)
         self->global ^= GL_HEADING;
         return 0;
     }
+#ifdef IS_PY3K
+    level = PyLong_FromSsize_t(heading->level);
+#else
     level = PyInt_FromSsize_t(heading->level);
+#endif
     if (!level) {
         Py_DECREF(heading->title);
         free(heading);
@@ -2299,30 +2303,40 @@ static PyObject* Tokenizer_tokenize(Tokenizer* self, PyObject* args)
     return Tokenizer_parse(self, 0, 1);
 }
 
-static void load_entitydefs(void)
+static int load_entitydefs(void)
 {
     PyObject *tempmod, *defmap, *deflist;
     unsigned numdefs, i;
 
+#ifdef IS_PY3K
+    tempmod = PyImport_ImportModule("html.entities");
+#else
     tempmod = PyImport_ImportModule("htmlentitydefs");
+#endif
     if (!tempmod)
-        return;
+        return -1;
     defmap = PyObject_GetAttrString(tempmod, "entitydefs");
     if (!defmap)
-        return;
+        return -1;
     Py_DECREF(tempmod);
     deflist = PyDict_Keys(defmap);
     if (!deflist)
-        return;
+        return -1;
     Py_DECREF(defmap);
     numdefs = (unsigned) PyList_GET_SIZE(defmap);
     entitydefs = calloc(numdefs + 1, sizeof(char*));
-    for (i = 0; i < numdefs; i++)
+    if (!entitydefs)
+        return -1;
+    for (i = 0; i < numdefs; i++) {
         entitydefs[i] = PyBytes_AsString(PyList_GET_ITEM(deflist, i));
+        if (!entitydefs[i])
+            return -1;
+    }
     Py_DECREF(deflist);
+    return 0;
 }
 
-static void load_tokens(void)
+static int load_tokens(void)
 {
     PyObject *tempmod, *tokens,
              *globals = PyEval_GetGlobals(),
@@ -2332,12 +2346,12 @@ static void load_tokens(void)
     char *name = "mwparserfromhell.parser";
 
     if (!fromlist || !modname)
-        return;
+        return -1;
     PyList_SET_ITEM(fromlist, 0, modname);
     tempmod = PyImport_ImportModuleLevel(name, globals, locals, fromlist, 0);
     Py_DECREF(fromlist);
     if (!tempmod)
-        return;
+        return -1;
     tokens = PyObject_GetAttrString(tempmod, "tokens");
     Py_DECREF(tempmod);
 
@@ -2379,9 +2393,10 @@ static void load_tokens(void)
     TagCloseClose = PyObject_GetAttrString(tokens, "TagCloseClose");
 
     Py_DECREF(tokens);
+    return 0;
 }
 
-static void load_tag_defs(void)
+static int load_tag_defs(void)
 {
     PyObject *tempmod,
              *globals = PyEval_GetGlobals(),
@@ -2391,33 +2406,48 @@ static void load_tag_defs(void)
     char *name = "mwparserfromhell";
 
     if (!fromlist || !modname)
-        return;
+        return -1;
     PyList_SET_ITEM(fromlist, 0, modname);
     tempmod = PyImport_ImportModuleLevel(name, globals, locals, fromlist, 0);
     Py_DECREF(fromlist);
     if (!tempmod)
-        return;
+        return -1;
     tag_defs = PyObject_GetAttrString(tempmod, "tag_defs");
     Py_DECREF(tempmod);
+    return 0;
 }
 
-PyMODINIT_FUNC init_tokenizer(void)
+#ifdef IS_PY3K
+    #define INIT_ERROR return NULL
+    PyMODINIT_FUNC PyInit__tokenizer(void)
+#else
+    #define INIT_ERROR return
+    PyMODINIT_FUNC init_tokenizer(void)
+#endif
 {
     PyObject *module;
 
     TokenizerType.tp_new = PyType_GenericNew;
     if (PyType_Ready(&TokenizerType) < 0)
-        return;
-    module = Py_InitModule("_tokenizer", module_methods);
+        INIT_ERROR;
+#ifdef IS_PY3K
+    module = PyModule_Create(&module_def);
+#else
+    module = Py_InitModule("_tokenizer", NULL);
+#endif
+    if (!module)
+        INIT_ERROR;
     Py_INCREF(&TokenizerType);
     PyModule_AddObject(module, "CTokenizer", (PyObject*) &TokenizerType);
     Py_INCREF(Py_True);
     PyDict_SetItemString(TokenizerType.tp_dict, "USES_C", Py_True);
-
     EMPTY = PyUnicode_FromString("");
     NOARGS = PyTuple_New(0);
-
-    load_entitydefs();
-    load_tokens();
-    load_tag_defs();
+    if (!EMPTY || !NOARGS)
+        INIT_ERROR;
+    if (load_entitydefs() || load_tokens() || load_tag_defs())
+        INIT_ERROR;
+#ifdef IS_PY3K
+    return module;
+#endif
 }
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index d5f755d..2bf6973 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -28,6 +28,7 @@ SOFTWARE.
 #include <Python.h>
 #include <math.h>
 #include <structmember.h>
+#include <bytesobject.h>
 
 #if PY_MAJOR_VERSION >= 3
 #define IS_PY3K
@@ -253,27 +254,18 @@ static PyObject* Tokenizer_tokenize(Tokenizer*, PyObject*);
 
 /* More structs for creating the Tokenizer type: */
 
-static PyMethodDef
-Tokenizer_methods[] = {
+static PyMethodDef Tokenizer_methods[] = {
     {"tokenize", (PyCFunction) Tokenizer_tokenize, METH_VARARGS,
     "Build a list of tokens from a string of wikicode and return it."},
     {NULL}
 };
 
-static PyMemberDef
-Tokenizer_members[] = {
+static PyMemberDef Tokenizer_members[] = {
     {NULL}
 };
 
-static PyMethodDef
-module_methods[] = {
-    {NULL}
-};
-
-static PyTypeObject
-TokenizerType = {
-    PyObject_HEAD_INIT(NULL)
-    0,                                                      /* ob_size */
+static PyTypeObject TokenizerType = {
+    PyVarObject_HEAD_INIT(NULL, 0)
     "_tokenizer.CTokenizer",                                /* tp_name */
     sizeof(Tokenizer),                                      /* tp_basicsize */
     0,                                                      /* tp_itemsize */
@@ -312,3 +304,12 @@ TokenizerType = {
     0,                                                      /* tp_alloc */
     Tokenizer_new,                                          /* tp_new */
 };
+
+#ifdef IS_PY3K
+static PyModuleDef module_def = {
+    PyModuleDef_HEAD_INIT,
+    "_tokenizer",
+    "Creates a list of tokens from a string of wikicode.",
+    -1, NULL, NULL, NULL, NULL, NULL
+};
+#endif
diff --git a/setup.py b/setup.py
index 8b4ae86..5e6d779 100644
--- a/setup.py
+++ b/setup.py
@@ -29,16 +29,13 @@ from mwparserfromhell.compat import py3k
 with open("README.rst") as fp:
     long_docs = fp.read()
 
-# builder = Extension("mwparserfromhell.parser._builder",
-#                     sources = ["mwparserfromhell/parser/builder.c"])
-
 tokenizer = Extension("mwparserfromhell.parser._tokenizer",
                       sources = ["mwparserfromhell/parser/tokenizer.c"])
 
 setup(
     name = "mwparserfromhell",
     packages = find_packages(exclude=("tests",)),
-    ext_modules = [] if py3k else [tokenizer],
+    ext_modules = [tokenizer],
     test_suite = "tests",
     version = __version__,
     author = "Ben Kurtovic",

From e02ad8239f16d78e216e8f809ee162c8213e2287 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 15 Aug 2013 00:11:42 -0400
Subject: [PATCH 131/189] Make load_entitydefs() work on Python 3.

---
 mwparserfromhell/parser/tokenizer.c | 11 +++++++++++
 1 file changed, 11 insertions(+)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 60223e1..b3ad3ec 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -2307,6 +2307,9 @@ static int load_entitydefs(void)
 {
     PyObject *tempmod, *defmap, *deflist;
     unsigned numdefs, i;
+#ifdef IS_PY3K
+    PyObject *string;
+#endif
 
 #ifdef IS_PY3K
     tempmod = PyImport_ImportModule("html.entities");
@@ -2328,7 +2331,15 @@ static int load_entitydefs(void)
     if (!entitydefs)
         return -1;
     for (i = 0; i < numdefs; i++) {
+#ifdef IS_PY3K
+        string = PyUnicode_AsASCIIString(PyList_GET_ITEM(deflist, i));
+        if (!string)
+            return -1;
+        entitydefs[i] = PyBytes_AsString(string);
+        Py_DECREF(string);
+#else
         entitydefs[i] = PyBytes_AsString(PyList_GET_ITEM(deflist, i));
+#endif
         if (!entitydefs[i])
             return -1;
     }

From b5ec7f3bebc71ba161c7a1533032abb5cb6211f0 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 15 Aug 2013 00:33:22 -0400
Subject: [PATCH 132/189] Fix py3k module importing; stick a bunch of macros in
 one place.

---
 mwparserfromhell/parser/tokenizer.c | 24 +++++-------------------
 mwparserfromhell/parser/tokenizer.h | 17 +++++++++++++++++
 2 files changed, 22 insertions(+), 19 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index b3ad3ec..f6eea84 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -2311,11 +2311,7 @@ static int load_entitydefs(void)
     PyObject *string;
 #endif
 
-#ifdef IS_PY3K
-    tempmod = PyImport_ImportModule("html.entities");
-#else
-    tempmod = PyImport_ImportModule("htmlentitydefs");
-#endif
+    tempmod = PyImport_ImportModule(ENTITYDEFS_MODULE);
     if (!tempmod)
         return -1;
     defmap = PyObject_GetAttrString(tempmod, "entitydefs");
@@ -2353,7 +2349,7 @@ static int load_tokens(void)
              *globals = PyEval_GetGlobals(),
              *locals = PyEval_GetLocals(),
              *fromlist = PyList_New(1),
-             *modname = PyBytes_FromString("tokens");
+             *modname = IMPORT_NAME_FUNC("tokens");
     char *name = "mwparserfromhell.parser";
 
     if (!fromlist || !modname)
@@ -2413,7 +2409,7 @@ static int load_tag_defs(void)
              *globals = PyEval_GetGlobals(),
              *locals = PyEval_GetLocals(),
              *fromlist = PyList_New(1),
-             *modname = PyBytes_FromString("tag_defs");
+             *modname = IMPORT_NAME_FUNC("tag_defs");
     char *name = "mwparserfromhell";
 
     if (!fromlist || !modname)
@@ -2428,24 +2424,14 @@ static int load_tag_defs(void)
     return 0;
 }
 
-#ifdef IS_PY3K
-    #define INIT_ERROR return NULL
-    PyMODINIT_FUNC PyInit__tokenizer(void)
-#else
-    #define INIT_ERROR return
-    PyMODINIT_FUNC init_tokenizer(void)
-#endif
+PyMODINIT_FUNC INIT_FUNC_NAME(void)
 {
     PyObject *module;
 
     TokenizerType.tp_new = PyType_GenericNew;
     if (PyType_Ready(&TokenizerType) < 0)
         INIT_ERROR;
-#ifdef IS_PY3K
-    module = PyModule_Create(&module_def);
-#else
-    module = Py_InitModule("_tokenizer", NULL);
-#endif
+    module = CREATE_MODULE;
     if (!module)
         INIT_ERROR;
     Py_INCREF(&TokenizerType);
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 2bf6973..1229688 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -252,6 +252,23 @@ static PyObject* Tokenizer_parse(Tokenizer*, int, int);
 static PyObject* Tokenizer_tokenize(Tokenizer*, PyObject*);
 
 
+/* Macros for Python 2/3 compatibility: */
+
+#ifdef IS_PY3K
+    #define IMPORT_NAME_FUNC  PyUnicode_FromString
+    #define CREATE_MODULE     PyModule_Create(&module_def);
+    #define ENTITYDEFS_MODULE "html.entities"
+    #define INIT_FUNC_NAME    PyInit__tokenizer
+    #define INIT_ERROR        return NULL
+#else
+    #define IMPORT_NAME_FUNC  PyBytes_FromString
+    #define CREATE_MODULE     Py_InitModule("_tokenizer", NULL);
+    #define ENTITYDEFS_MODULE "htmlentitydefs"
+    #define INIT_FUNC_NAME    init_tokenizer
+    #define INIT_ERROR        return
+#endif
+
+
 /* More structs for creating the Tokenizer type: */
 
 static PyMethodDef Tokenizer_methods[] = {

From db86176c085063f1b5227dc3e99c003ef443f0fc Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 15 Aug 2013 00:41:24 -0400
Subject: [PATCH 133/189] wiki_markup attr should be unicode, not bytes

---
 mwparserfromhell/parser/tokenizer.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index f6eea84..c08fb11 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1697,7 +1697,7 @@ static int Tokenizer_emit_style_tag(Tokenizer* self, const char* tag,
 {
     PyObject *markup, *kwargs;
 
-    markup = PyBytes_FromString(ticks);
+    markup = PyUnicode_FromString(ticks);
     if (!markup)
         return -1;
     kwargs = PyDict_New();

From 5e8e050ca3421e20c0462df071ff83e8c47ff703 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 15 Aug 2013 00:53:04 -0400
Subject: [PATCH 134/189] A few tweaks; py3k support now complete.

---
 mwparserfromhell/parser/tokenizer.c | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index c08fb11..88ca3f2 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1017,7 +1017,7 @@ static int Tokenizer_really_parse_entity(Tokenizer* self)
             self->head++;
             continue;
         }
-        if (i >= 8)
+        if (i >= MAX_ENTITY_SIZE)
             FAIL_ROUTE_AND_EXIT()
         for (j = 0; j < NUM_MARKERS; j++) {
             if (this == *MARKERS[j])
@@ -2332,7 +2332,6 @@ static int load_entitydefs(void)
         if (!string)
             return -1;
         entitydefs[i] = PyBytes_AsString(string);
-        Py_DECREF(string);
 #else
         entitydefs[i] = PyBytes_AsString(PyList_GET_ITEM(deflist, i));
 #endif

From 8923d96a57b35d3b911733719099107671ff84d6 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 15 Aug 2013 01:19:39 -0400
Subject: [PATCH 135/189] More unification.

---
 mwparserfromhell/parser/tokenizer.c | 16 ++++++----------
 mwparserfromhell/parser/tokenizer.h |  2 ++
 2 files changed, 8 insertions(+), 10 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 88ca3f2..8dace5a 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -835,11 +835,7 @@ static int Tokenizer_parse_heading(Tokenizer* self)
         self->global ^= GL_HEADING;
         return 0;
     }
-#ifdef IS_PY3K
-    level = PyLong_FromSsize_t(heading->level);
-#else
-    level = PyInt_FromSsize_t(heading->level);
-#endif
+    level = NEW_INT_FUNC(heading->level);
     if (!level) {
         Py_DECREF(heading->title);
         free(heading);
@@ -2279,7 +2275,11 @@ static PyObject* Tokenizer_tokenize(Tokenizer* self, PyObject* args)
 {
     PyObject *text, *temp;
 
-    if (!PyArg_ParseTuple(args, "U", &text)) {
+    if (PyArg_ParseTuple(args, "U", &text)) {
+        Py_XDECREF(self->text);
+        self->text = PySequence_Fast(text, "expected a sequence");
+    }
+    else {
         const char* encoded;
         Py_ssize_t size;
         /* Failed to parse a Unicode object; try a string instead. */
@@ -2294,10 +2294,6 @@ static PyObject* Tokenizer_tokenize(Tokenizer* self, PyObject* args)
         Py_XDECREF(temp);
         self->text = text;
     }
-    else {
-        Py_XDECREF(self->text);
-        self->text = PySequence_Fast(text, "expected a sequence");
-    }
     self->head = self->global = self->depth = self->cycles = 0;
     self->length = PyList_GET_SIZE(self->text);
     return Tokenizer_parse(self, 0, 1);
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 1229688..264360e 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -255,12 +255,14 @@ static PyObject* Tokenizer_tokenize(Tokenizer*, PyObject*);
 /* Macros for Python 2/3 compatibility: */
 
 #ifdef IS_PY3K
+    #define NEW_INT_FUNC      PyLong_FromSsize_t
     #define IMPORT_NAME_FUNC  PyUnicode_FromString
     #define CREATE_MODULE     PyModule_Create(&module_def);
     #define ENTITYDEFS_MODULE "html.entities"
     #define INIT_FUNC_NAME    PyInit__tokenizer
     #define INIT_ERROR        return NULL
 #else
+    #define NEW_INT_FUNC      PyInt_FromSsize_t
     #define IMPORT_NAME_FUNC  PyBytes_FromString
     #define CREATE_MODULE     Py_InitModule("_tokenizer", NULL);
     #define ENTITYDEFS_MODULE "htmlentitydefs"

From 3e5c41d4dd02f0ac16282945ee79f2a9caff64b3 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 15 Aug 2013 02:48:52 -0400
Subject: [PATCH 136/189] Add py3k tokenizer to changelog.

---
 CHANGELOG          | 1 +
 docs/changelog.rst | 1 +
 2 files changed, 2 insertions(+)

diff --git a/CHANGELOG b/CHANGELOG
index f7858d8..84193e1 100644
--- a/CHANGELOG
+++ b/CHANGELOG
@@ -7,6 +7,7 @@ v0.3 (unreleased):
   of False. This is a breaking change if you rely on any filter() methods being
   non-recursive by default.
 - Added a matches() method to Wikicode for page/template name comparisons.
+- The C tokenizer extension now works on Python 3 in addition to Python 2.7.
 - Various fixes and cleanup.
 
 v0.2 (released June 20, 2013):
diff --git a/docs/changelog.rst b/docs/changelog.rst
index 8cfa2ec..78a27ad 100644
--- a/docs/changelog.rst
+++ b/docs/changelog.rst
@@ -16,6 +16,7 @@ Unreleased
   if you rely on any filter() methods being non-recursive by default.**
 - Added a :py:meth:`.matches` method to :py:class:`~.Wikicode` for
   page/template name comparisons.
+- The C tokenizer extension now works on Python 3 in addition to Python 2.7.
 - Various fixes and cleanup.
 
 v0.2

From 0d934f8ad11004bbc4e0230a051f1c14e4cd63ea Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 15 Aug 2013 18:52:17 -0400
Subject: [PATCH 137/189] Squash a couple memory leaks.

---
 mwparserfromhell/parser/tokenizer.c | 14 ++++++++++++--
 1 file changed, 12 insertions(+), 2 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 6600203..67a4ae6 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1646,11 +1646,13 @@ static int Tokenizer_handle_invalid_tag_start(Tokenizer* self)
             }
             if (!IS_SINGLE_ONLY(name))
                 FAIL_ROUTE(0);
+            Py_DECREF(name);
             break;
         }
         Textbuffer_write(&buf, this);
         pos++;
     }
+    Textbuffer_dealloc(buf);
     if (!BAD_ROUTE) {
         tag = Tokenizer_really_parse_tag(self);
         if (!tag)
@@ -1664,7 +1666,12 @@ static int Tokenizer_handle_invalid_tag_start(Tokenizer* self)
     // Set invalid=True flag of TagOpenOpen
     if (PyObject_SetAttrString(PyList_GET_ITEM(tag, 0), "invalid", Py_True))
         return -1;
-    return Tokenizer_emit_all(self, tag);
+    if (Tokenizer_emit_all(self, tag)) {
+        Py_DECREF(tag);
+        return -1;
+    }
+    Py_DECREF(tag);
+    return 0;
 }
 
 /*
@@ -1685,7 +1692,10 @@ static int Tokenizer_parse_tag(Tokenizer* self)
     if (!tag) {
         return -1;
     }
-    Tokenizer_emit_all(self, tag);
+    if (Tokenizer_emit_all(self, tag)) {
+        Py_DECREF(tag);
+        return -1;
+    }
     Py_DECREF(tag);
     return 0;
 }

From 4ef29c2611c1652410d8867ca62540b4866abd36 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 17 Aug 2013 19:55:52 -0400
Subject: [PATCH 138/189] Clean up Wikicode; unify tests for _do_search()-using
 methods.

---
 mwparserfromhell/wikicode.py |  9 +++--
 tests/test_wikicode.py       | 81 ++++++++++++++++----------------------------
 2 files changed, 34 insertions(+), 56 deletions(-)

diff --git a/mwparserfromhell/wikicode.py b/mwparserfromhell/wikicode.py
index a1921d7..b814ee5 100644
--- a/mwparserfromhell/wikicode.py
+++ b/mwparserfromhell/wikicode.py
@@ -108,8 +108,8 @@ class Wikicode(StringMixIn):
     def _do_search(self, obj, recursive, callback, context, *args, **kwargs):
         """Look within *context* for *obj*, executing *callback* if found.
 
-        If *recursive* is ``True``, we'll look within context and its
-        descendants, otherwise we'll just execute callback. We raise
+        If *recursive* is ``True``, we'll look within *context* and its
+        descendants, otherwise we'll just execute *callback*. We raise
         :py:exc:`ValueError` if *obj* isn't in our node list or context. If
         found, *callback* is passed the context, the index of the node within
         the context, and whatever were passed as ``*args`` and ``**kwargs``.
@@ -375,9 +375,8 @@ class Wikicode(StringMixIn):
         """
         if matches:
             matches = r"^(=+?)\s*" + matches + r"\s*\1$"
-        headings = self.filter_headings(recursive=True)
-        filtered = self.filter_headings(recursive=True, matches=matches,
-                                        flags=flags)
+        headings = self.filter_headings()
+        filtered = self.filter_headings(matches=matches, flags=flags)
         if levels:
             filtered = [head for head in filtered if head.level in levels]
 
diff --git a/tests/test_wikicode.py b/tests/test_wikicode.py
index 5a28fb5..2ad22dd 100644
--- a/tests/test_wikicode.py
+++ b/tests/test_wikicode.py
@@ -122,66 +122,45 @@ class TestWikicode(TreeEqualityTestCase):
         code3.insert(-1000, "derp")
         self.assertEqual("derp{{foo}}bar[[baz]]", code3)
 
-    def test_insert_before(self):
-        """test Wikicode.insert_before()"""
+    def _test_search(self, meth, expected):
+        """Base test for insert_before(), insert_after(), and replace()."""
         code = parse("{{a}}{{b}}{{c}}{{d}}")
-        code.insert_before("{{b}}", "x", recursive=True)
-        code.insert_before("{{d}}", "[[y]]", recursive=False)
-        self.assertEqual("{{a}}x{{b}}{{c}}[[y]]{{d}}", code)
-        code.insert_before(code.get(2), "z")
-        self.assertEqual("{{a}}xz{{b}}{{c}}[[y]]{{d}}", code)
-        self.assertRaises(ValueError, code.insert_before, "{{r}}", "n",
-                          recursive=True)
-        self.assertRaises(ValueError, code.insert_before, "{{r}}", "n",
-                          recursive=False)
+        func = getattr(code, meth)
+        func("{{b}}", "x", recursive=True)
+        func("{{d}}", "[[y]]", recursive=False)
+        self.assertEqual(expected[0], code)
+        func(code.get(2), "z")
+        self.assertEqual(expected[1], code)
+        self.assertRaises(ValueError, func, "{{r}}", "n", recursive=True)
+        self.assertRaises(ValueError, func, "{{r}}", "n", recursive=False)
 
         code2 = parse("{{a|{{b}}|{{c|d={{f}}}}}}")
-        code2.insert_before(code2.get(0).params[0].value.get(0), "x",
-                            recursive=True)
-        code2.insert_before("{{f}}", "y", recursive=True)
-        self.assertEqual("{{a|x{{b}}|{{c|d=y{{f}}}}}}", code2)
-        self.assertRaises(ValueError, code2.insert_before, "{{f}}", "y",
-                          recursive=False)
+        func = getattr(code2, meth)
+        func(code2.get(0).params[0].value.get(0), "x", recursive=True)
+        func("{{f}}", "y", recursive=True)
+        self.assertEqual(expected[2], code2)
+        self.assertRaises(ValueError, func, "{{f}}", "y", recursive=False)
+
+    def test_insert_before(self):
+        """test Wikicode.insert_before()"""
+        expected = [
+            "{{a}}x{{b}}{{c}}[[y]]{{d}}", "{{a}}xz{{b}}{{c}}[[y]]{{d}}",
+            "{{a|x{{b}}|{{c|d=y{{f}}}}}}"]
+        self._test_search("insert_before", expected)
 
     def test_insert_after(self):
         """test Wikicode.insert_after()"""
-        code = parse("{{a}}{{b}}{{c}}{{d}}")
-        code.insert_after("{{b}}", "x", recursive=True)
-        code.insert_after("{{d}}", "[[y]]", recursive=False)
-        self.assertEqual("{{a}}{{b}}x{{c}}{{d}}[[y]]", code)
-        code.insert_after(code.get(2), "z")
-        self.assertEqual("{{a}}{{b}}xz{{c}}{{d}}[[y]]", code)
-        self.assertRaises(ValueError, code.insert_after, "{{r}}", "n",
-                          recursive=True)
-        self.assertRaises(ValueError, code.insert_after, "{{r}}", "n",
-                          recursive=False)
-
-        code2 = parse("{{a|{{b}}|{{c|d={{f}}}}}}")
-        code2.insert_after(code2.get(0).params[0].value.get(0), "x",
-                           recursive=True)
-        code2.insert_after("{{f}}", "y", recursive=True)
-        self.assertEqual("{{a|{{b}}x|{{c|d={{f}}y}}}}", code2)
-        self.assertRaises(ValueError, code2.insert_after, "{{f}}", "y",
-                          recursive=False)
+        expected = [
+            "{{a}}{{b}}x{{c}}{{d}}[[y]]", "{{a}}{{b}}xz{{c}}{{d}}[[y]]",
+            "{{a|{{b}}x|{{c|d={{f}}y}}}}"]
+        self._test_search("insert_after", expected)
 
     def test_replace(self):
         """test Wikicode.replace()"""
-        code = parse("{{a}}{{b}}{{c}}{{d}}")
-        code.replace("{{b}}", "x", recursive=True)
-        code.replace("{{d}}", "[[y]]", recursive=False)
-        self.assertEqual("{{a}}x{{c}}[[y]]", code)
-        code.replace(code.get(1), "z")
-        self.assertEqual("{{a}}z{{c}}[[y]]", code)
-        self.assertRaises(ValueError, code.replace, "{{r}}", "n",
-                          recursive=True)
-        self.assertRaises(ValueError, code.replace, "{{r}}", "n",
-                          recursive=False)
-
-        code2 = parse("{{a|{{b}}|{{c|d={{f}}}}}}")
-        code2.replace(code2.get(0).params[0].value.get(0), "x", recursive=True)
-        code2.replace("{{f}}", "y", recursive=True)
-        self.assertEqual("{{a|x|{{c|d=y}}}}", code2)
-        self.assertRaises(ValueError, code2.replace, "y", "z", recursive=False)
+        expected = [
+            "{{a}}x{{c}}[[y]]", "{{a}}xz[[y]]", "{{a|x|{{c|d=y}}}}"
+        ]
+        self._test_search("replace", expected)
 
     def test_append(self):
         """test Wikicode.append()"""

From 1d9340b965e246bf42ec3e07227db30157bbbe54 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 02:11:21 -0400
Subject: [PATCH 139/189] Tests for the _do_search() wrapper funcs' newly
 expanded scopes.

---
 tests/test_wikicode.py | 120 +++++++++++++++++++++++++++++++++++++++++++------
 1 file changed, 107 insertions(+), 13 deletions(-)

diff --git a/tests/test_wikicode.py b/tests/test_wikicode.py
index 2ad22dd..409f888 100644
--- a/tests/test_wikicode.py
+++ b/tests/test_wikicode.py
@@ -133,33 +133,84 @@ class TestWikicode(TreeEqualityTestCase):
         self.assertEqual(expected[1], code)
         self.assertRaises(ValueError, func, "{{r}}", "n", recursive=True)
         self.assertRaises(ValueError, func, "{{r}}", "n", recursive=False)
+        fake = parse("{{a}}").get(0)
+        self.assertRaises(ValueError, func, fake, "n", recursive=True)
+        self.assertRaises(ValueError, func, fake, "n", recursive=False)
 
-        code2 = parse("{{a|{{b}}|{{c|d={{f}}}}}}")
+        code2 = parse("{{a}}{{a}}{{a}}{{b}}{{b}}{{b}}")
         func = getattr(code2, meth)
-        func(code2.get(0).params[0].value.get(0), "x", recursive=True)
-        func("{{f}}", "y", recursive=True)
+        func(code2.get(1), "c", recursive=False)
+        func("{{a}}", "d", recursive=False)
+        func(code2.get(-1), "e", recursive=True)
+        func("{{b}}", "f", recursive=True)
         self.assertEqual(expected[2], code2)
+
+        code3 = parse("{{a|{{b}}|{{c|d={{f}}}}}}")
+        func = getattr(code3, meth)
+        obj = code3.get(0).params[0].value.get(0)
+        self.assertRaises(ValueError, func, obj, "x", recursive=False)
+        func(obj, "x", recursive=True)
         self.assertRaises(ValueError, func, "{{f}}", "y", recursive=False)
+        func("{{f}}", "y", recursive=True)
+        self.assertEqual(expected[3], code3)
+
+        code4 = parse("{{a}}{{b}}{{c}}{{d}}{{e}}{{f}}{{g}}")
+        func = getattr(code4, meth)
+        fake = parse("{{b}}{{c}}")
+        self.assertRaises(ValueError, func, fake, "q", recursive=False)
+        self.assertRaises(ValueError, func, fake, "q", recursive=True)
+        func("{{b}}{{c}}", "w", recursive=False)
+        func("{{d}}{{e}}", "x", recursive=True)
+        func(wrap(code4.nodes[-2:]), "y", recursive=False)
+        func(wrap(code4.nodes[-2:]), "z", recursive=True)
+        self.assertEqual(expected[4], code4)
+        self.assertRaises(ValueError, func, "{{c}}{{d}}", "q", recursive=False)
+        self.assertRaises(ValueError, func, "{{c}}{{d}}", "q", recursive=True)
+
+        code5 = parse("{{a|{{b}}{{c}}|{{f|{{g}}={{h}}{{i}}}}}}")
+        func = getattr(code5, meth)
+        self.assertRaises(ValueError, func, "{{b}}{{c}}", "x", recursive=False)
+        func("{{b}}{{c}}", "x", recursive=True)
+        obj = code5.get(0).params[1].value.get(0).params[0].value
+        self.assertRaises(ValueError, func, obj, "y", recursive=False)
+        func(obj, "y", recursive=True)
+        self.assertEqual(expected[5], code5)
+
+        code6 = parse("here is {{some text and a {{template}}}}")
+        func = getattr(code6, meth)
+        self.assertRaises(ValueError, func, "text and", "ab", recursive=False)
+        func("text and", "ab", recursive=True)
+        self.assertRaises(ValueError, func, "is {{some", "cd", recursive=False)
+        func("is {{some", "cd", recursive=True)
+        self.assertEqual(expected[6], code6)
 
     def test_insert_before(self):
         """test Wikicode.insert_before()"""
         expected = [
             "{{a}}x{{b}}{{c}}[[y]]{{d}}", "{{a}}xz{{b}}{{c}}[[y]]{{d}}",
-            "{{a|x{{b}}|{{c|d=y{{f}}}}}}"]
+            "d{{a}}cd{{a}}d{{a}}f{{b}}f{{b}}ef{{b}}",
+            "{{a|x{{b}}|{{c|d=y{{f}}}}}}",
+            "{{a}}w{{b}}{{c}}x{{d}}{{e}}yz{{f}}{{g}}",
+            "{{a|x{{b}}{{c}}|{{f|{{g}}=y{{h}}{{i}}}}}}",
+            "here cdis {{some abtext and a {{template}}}}"]
         self._test_search("insert_before", expected)
 
     def test_insert_after(self):
         """test Wikicode.insert_after()"""
         expected = [
             "{{a}}{{b}}x{{c}}{{d}}[[y]]", "{{a}}{{b}}xz{{c}}{{d}}[[y]]",
-            "{{a|{{b}}x|{{c|d={{f}}y}}}}"]
+            "{{a}}d{{a}}dc{{a}}d{{b}}f{{b}}f{{b}}fe",
+            "{{a|{{b}}x|{{c|d={{f}}y}}}}",
+            "{{a}}{{b}}{{c}}w{{d}}{{e}}x{{f}}{{g}}yz",
+            "{{a|{{b}}{{c}}x|{{f|{{g}}={{h}}{{i}}y}}}}",
+            "here is {{somecd text andab a {{template}}}}"]
         self._test_search("insert_after", expected)
 
     def test_replace(self):
         """test Wikicode.replace()"""
         expected = [
-            "{{a}}x{{c}}[[y]]", "{{a}}xz[[y]]", "{{a|x|{{c|d=y}}}}"
-        ]
+            "{{a}}x{{c}}[[y]]", "{{a}}xz[[y]]", "dcdffe", "{{a|x|{{c|d=y}}}}",
+            "{{a}}wz", "{{a|x|{{f|{{g}}=y}}}}", "here cd ab a {{template}}}}"]
         self._test_search("replace", expected)
 
     def test_append(self):
@@ -182,12 +233,55 @@ class TestWikicode(TreeEqualityTestCase):
         self.assertEqual("{{a}}{{d}}", code)
         self.assertRaises(ValueError, code.remove, "{{r}}", recursive=True)
         self.assertRaises(ValueError, code.remove, "{{r}}", recursive=False)
-
-        code2 = parse("{{a|{{b}}|{{c|d={{f}}{{h}}}}}}")
-        code2.remove(code2.get(0).params[0].value.get(0), recursive=True)
-        code2.remove("{{f}}", recursive=True)
-        self.assertEqual("{{a||{{c|d={{h}}}}}}", code2)
-        self.assertRaises(ValueError, code2.remove, "{{h}}", recursive=False)
+        fake = parse("{{a}}").get(0)
+        self.assertRaises(ValueError, code.remove, fake, recursive=True)
+        self.assertRaises(ValueError, code.remove, fake, recursive=False)
+
+        code2 = parse("{{a}}{{a}}{{a}}{{b}}{{b}}{{b}}")
+        code2.remove(code2.get(1), recursive=False)
+        self.assertEqual("{{a}}{{a}}{{b}}{{b}}{{b}}", code2)
+        code2.remove("{{a}}", recursive=False)
+        self.assertEqual("{{b}}{{b}}{{b}}", code2)
+        code2.remove(code2.get(-1), recursive=True)
+        self.assertEqual("{{b}}{{b}}", code2)
+        code2.remove("{{b}}", recursive=True)
+        self.assertEqual("", code2)
+
+        code3 = parse("{{a|{{b}}|{{c|d={{f}}}}}}")
+        obj = code3.get(0).params[0].value.get(0)
+        self.assertRaises(ValueError, code3.remove, obj, recursive=False)
+        code3.remove(obj, recursive=True)
+        self.assertRaises(ValueError, code3.remove, "{{f}}", recursive=False)
+        code3.remove("{{f}}", recursive=True)
+        self.assertEqual("{{a||{{c|d=}}}}", code3)
+
+        code4 = parse("{{a}}{{b}}{{c}}{{d}}{{e}}{{f}}{{g}}{{h}}{{i}}{{j}}")
+        fake = parse("{{b}}{{c}}")
+        self.assertRaises(ValueError, code4.remove, fake, recursive=False)
+        self.assertRaises(ValueError, code4.remove, fake, recursive=True)
+        code4.remove("{{b}}{{c}}", recursive=False)
+        code4.remove("{{d}}{{e}}", recursive=True)
+        code4.remove(wrap(code4.nodes[-2:]), recursive=False)
+        code4.remove(wrap(code4.nodes[-2:]), recursive=True)
+        self.assertEqual("{{a}}{{f}}", code4)
+        self.assertRaises(ValueError, code4.remove, "{{a}}{{b}}", False)
+        self.assertRaises(ValueError, code4.remove, "{{a}}{{b}}", True)
+
+        code5 = parse("{{a|{{b}}{{c}}|{{f|{{g}}={{h}}{{i}}}}}}")
+        self.assertRaises(ValueError, code5.remove, "{{b}}{{c}}", False)
+        code5.remove("{{b}}{{c}}", recursive=True)
+        obj = code5.get(0).params[1].value.get(0).params[0].value
+        self.assertRaises(ValueError, code5.remove, obj, recursive=False)
+        code5.remove(obj, recursive=True)
+        self.assertEqual("{{a||{{f|{{g}}=}}}}", code5)
+
+        code6 = parse("here is {{some text and a {{template}}}}")
+        func = code6.remove
+        self.assertRaises(ValueError, func, "text and", recursive=False)
+        func("text and", recursive=True)
+        self.assertRaises(ValueError, func, "is {{some", recursive=False)
+        func("is {{some", recursive=True)
+        self.assertEqual("here   a {{template}}}}", code6)
 
     def test_matches(self):
         """test Wikicode.matches()"""

From bda12c4c363318e043a078e4fcc60752228f3322 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 02:12:20 -0400
Subject: [PATCH 140/189] Reimplement Wikicode._do_search() to support more
 input types.

---
 mwparserfromhell/wikicode.py | 167 +++++++++++++++++++++++++++----------------
 1 file changed, 107 insertions(+), 60 deletions(-)

diff --git a/mwparserfromhell/wikicode.py b/mwparserfromhell/wikicode.py
index b814ee5..5c4d66a 100644
--- a/mwparserfromhell/wikicode.py
+++ b/mwparserfromhell/wikicode.py
@@ -60,19 +60,6 @@ class Wikicode(StringMixIn):
         for context, child in node.__iternodes__(self._get_all_nodes):
             yield child
 
-    def _get_context(self, node, obj):
-        """Return a ``Wikicode`` that contains *obj* in its descendants.
-
-        The closest (shortest distance from *node*) suitable ``Wikicode`` will
-        be returned, or ``None`` if the *obj* is the *node* itself.
-
-        Raises ``ValueError`` if *obj* is not within *node*.
-        """
-        for context, child in node.__iternodes__(self._get_all_nodes):
-            if self._is_equivalent(obj, child):
-                return context
-        raise ValueError(obj)
-
     def _get_all_nodes(self, code):
         """Iterate over all of our descendant nodes.
 
@@ -105,26 +92,54 @@ class Wikicode(StringMixIn):
             return False
         return obj in nodes
 
-    def _do_search(self, obj, recursive, callback, context, *args, **kwargs):
-        """Look within *context* for *obj*, executing *callback* if found.
+    def _do_search(self, obj, recursive, context=None, literal=None):
+        """Return some info about the location of *obj* within *context*.
 
-        If *recursive* is ``True``, we'll look within *context* and its
-        descendants, otherwise we'll just execute *callback*. We raise
-        :py:exc:`ValueError` if *obj* isn't in our node list or context. If
-        found, *callback* is passed the context, the index of the node within
-        the context, and whatever were passed as ``*args`` and ``**kwargs``.
+        If *recursive* is ``True``, we'll look within *context* (``self`` by
+        default) and its descendants, otherwise just *context*. We raise
+        :py:exc:`ValueError` if *obj* isn't found. The return data is a list of
+        3-tuples (*type*, *context*, *data*) where *type* is *obj*\ 's best
+        type resolution (either ``Node``, ``Wikicode``, or ``str``), *context*
+        is the closest ``Wikicode`` encompassing it, and *data* is either a
+        ``Node``, a list of ``Node``\ s, or ``None`` depending on *type*.
         """
-        if recursive:
-            for i, node in enumerate(context.nodes):
-                if self._is_equivalent(obj, node):
-                    return callback(context, i, *args, **kwargs)
-                if self._contains(self._get_children(node), obj):
-                    context = self._get_context(node, obj)
-                    return self._do_search(obj, recursive, callback, context,
-                                           *args, **kwargs)
-            raise ValueError(obj)
+        if not context:
+            context = self
+            literal = isinstance(obj, (Node, Wikicode))
+            obj = parse_anything(obj)
+            if not obj or obj not in self:
+                raise ValueError(obj)
+            if len(obj.nodes) == 1:
+                obj = obj.get(0)
+
+        compare = lambda a, b: (a is b) if literal else (a == b)
+        results = []
+        i = 0
+        while i < len(context.nodes):
+            node = context.get(i)
+            if isinstance(obj, Node) and compare(obj, node):
+                results.append((Node, context, node))
+            elif isinstance(obj, Wikicode) and compare(obj.get(0), node):
+                for j in range(1, len(obj.nodes)):
+                    if not compare(obj.get(j), context.get(i + j)):
+                        break
+                else:
+                    nodes = list(context.nodes[i:i + len(obj.nodes)])
+                    results.append((Wikicode, context, nodes))
+                    i += len(obj.nodes) - 1
+            elif recursive:
+                contexts = node.__iternodes__(self._get_all_nodes)
+                for code in {ctx for ctx, child in contexts}:
+                    if code and obj in code:
+                        search = self._do_search(obj, recursive, code, literal)
+                        results.extend(search)
+            i += 1
 
-        callback(context, self.index(obj, recursive=False), *args, **kwargs)
+        if not results and not literal and recursive:
+            results.append((str, context, None))
+        if not results and context is self:
+            raise ValueError(obj)
+        return results
 
     def _get_tree(self, code, lines, marker, indent):
         """Build a tree to illustrate the way the Wikicode object was parsed.
@@ -253,41 +268,64 @@ class Wikicode(StringMixIn):
     def insert_before(self, obj, value, recursive=True):
         """Insert *value* immediately before *obj* in the list of nodes.
 
-        *obj* can be either a string or a :py:class:`~.Node`. *value* can be
-        anything parasable by :py:func:`.parse_anything`. If *recursive* is
-        ``True``, we will try to find *obj* within our child nodes even if it
-        is not a direct descendant of this :py:class:`~.Wikicode` object. If
-        *obj* is not in the node list, :py:exc:`ValueError` is raised.
+        *obj* can be either a string, a :py:class:`~.Node`, or other
+        :py:class:`~.Wikicode` object (as created by :py:meth:`get_sections`,
+        for example). *value* can be anything parasable by
+        :py:func:`.parse_anything`. If *recursive* is ``True``, we will try to
+        find *obj* within our child nodes even if it is not a direct descendant
+        of this :py:class:`~.Wikicode` object. If *obj* is not found,
+        :py:exc:`ValueError` is raised.
         """
-        callback = lambda self, i, value: self.insert(i, value)
-        self._do_search(obj, recursive, callback, self, value)
+        for restype, context, data in self._do_search(obj, recursive):
+            if restype in (Node, Wikicode):
+                i = context.index(data if restype is Node else data[0], False)
+                context.insert(i, value)
+            else:
+                obj = str(obj)
+                context.nodes = str(context).replace(obj, str(value) + obj)
 
     def insert_after(self, obj, value, recursive=True):
         """Insert *value* immediately after *obj* in the list of nodes.
 
-        *obj* can be either a string or a :py:class:`~.Node`. *value* can be
-        anything parasable by :py:func:`.parse_anything`. If *recursive* is
-        ``True``, we will try to find *obj* within our child nodes even if it
-        is not a direct descendant of this :py:class:`~.Wikicode` object. If
-        *obj* is not in the node list, :py:exc:`ValueError` is raised.
+        *obj* can be either a string, a :py:class:`~.Node`, or other
+        :py:class:`~.Wikicode` object (as created by :py:meth:`get_sections`,
+        for example). *value* can be anything parasable by
+        :py:func:`.parse_anything`. If *recursive* is ``True``, we will try to
+        find *obj* within our child nodes even if it is not a direct descendant
+        of this :py:class:`~.Wikicode` object. If *obj* is not found,
+        :py:exc:`ValueError` is raised.
         """
-        callback = lambda self, i, value: self.insert(i + 1, value)
-        self._do_search(obj, recursive, callback, self, value)
+        for restype, context, data in self._do_search(obj, recursive):
+            if restype in (Node, Wikicode):
+                i = context.index(data if restype is Node else data[-1], False)
+                context.insert(i + 1, value)
+            else:
+                obj = str(obj)
+                context.nodes = str(context).replace(obj, obj + str(value))
 
     def replace(self, obj, value, recursive=True):
         """Replace *obj* with *value* in the list of nodes.
 
-        *obj* can be either a string or a :py:class:`~.Node`. *value* can be
-        anything parasable by :py:func:`.parse_anything`. If *recursive* is
-        ``True``, we will try to find *obj* within our child nodes even if it
-        is not a direct descendant of this :py:class:`~.Wikicode` object. If
-        *obj* is not in the node list, :py:exc:`ValueError` is raised.
+        *obj* can be either a string, a :py:class:`~.Node`, or other
+        :py:class:`~.Wikicode` object (as created by :py:meth:`get_sections`,
+        for example). *value* can be anything parasable by
+        :py:func:`.parse_anything`. If *recursive* is ``True``, we will try to
+        find *obj* within our child nodes even if it is not a direct descendant
+        of this :py:class:`~.Wikicode` object. If *obj* is not found,
+        :py:exc:`ValueError` is raised.
         """
-        def callback(self, i, value):
-            self.nodes.pop(i)
-            self.insert(i, value)
-
-        self._do_search(obj, recursive, callback, self, value)
+        for restype, context, data in self._do_search(obj, recursive):
+            if restype is Node:
+                i = context.index(data, False)
+                context.nodes.pop(i)
+                context.insert(i, value)
+            elif restype is Wikicode:
+                i = context.index(data[0], False)
+                for _ in data:
+                    context.nodes.pop(i)
+                context.insert(i, value)
+            else:
+                context.nodes = str(context).replace(str(obj), str(value))
 
     def append(self, value):
         """Insert *value* at the end of the list of nodes.
@@ -301,13 +339,22 @@ class Wikicode(StringMixIn):
     def remove(self, obj, recursive=True):
         """Remove *obj* from the list of nodes.
 
-        *obj* can be either a string or a :py:class:`~.Node`. If *recursive* is
-        ``True``, we will try to find *obj* within our child nodes even if it
-        is not a direct descendant of this :py:class:`~.Wikicode` object. If
-        *obj* is not in the node list, :py:exc:`ValueError` is raised.
+        *obj* can be either a string, a :py:class:`~.Node`, or other
+        :py:class:`~.Wikicode` object (as created by :py:meth:`get_sections`,
+        for example). If *recursive* is ``True``, we will try to find *obj*
+        within our child nodes even if it is not a direct descendant of this
+        :py:class:`~.Wikicode` object. If *obj* is not found,
+        :py:exc:`ValueError` is raised.
         """
-        callback = lambda self, i: self.nodes.pop(i)
-        self._do_search(obj, recursive, callback, self)
+        for restype, context, data in self._do_search(obj, recursive):
+            if restype is Node:
+                context.nodes.pop(context.index(data, False))
+            elif restype is Wikicode:
+                i = context.index(data[0], False)
+                for _ in data:
+                    context.nodes.pop(i)
+            else:
+                context.nodes = str(context).replace(str(obj), "")
 
     def matches(self, other):
         """Do a loose equivalency test suitable for comparing page names.

From 06efcd0b01484572a0677918f837b6c7141862a0 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 02:18:29 -0400
Subject: [PATCH 141/189] Update changelog re: expanded _do_search() methods
 (closes #34).

---
 CHANGELOG          | 4 ++++
 docs/changelog.rst | 5 +++++
 2 files changed, 9 insertions(+)

diff --git a/CHANGELOG b/CHANGELOG
index 84193e1..3876562 100644
--- a/CHANGELOG
+++ b/CHANGELOG
@@ -7,6 +7,10 @@ v0.3 (unreleased):
   of False. This is a breaking change if you rely on any filter() methods being
   non-recursive by default.
 - Added a matches() method to Wikicode for page/template name comparisons.
+- The 'obj' param of Wikicode.insert_before(), insert_after(), replace(), and
+  remove() now accepts other Wikicode objects and strings representing parts of
+  wikitext, instead of just nodes. These methods also make all possible
+  substitutions instead of just one.
 - The C tokenizer extension now works on Python 3 in addition to Python 2.7.
 - Various fixes and cleanup.
 
diff --git a/docs/changelog.rst b/docs/changelog.rst
index 78a27ad..c5e2516 100644
--- a/docs/changelog.rst
+++ b/docs/changelog.rst
@@ -16,6 +16,11 @@ Unreleased
   if you rely on any filter() methods being non-recursive by default.**
 - Added a :py:meth:`.matches` method to :py:class:`~.Wikicode` for
   page/template name comparisons.
+- The *obj* param of :py:meth:`Wikicode.insert_before <.insert_before>`,
+  :py:meth:`~.insert_after`, :py:meth:`~.replace`, and :py:meth:`~.remove` now
+  accepts :py:class:`~.Wikicode` objects and strings representing parts of
+  wikitext, instead of just nodes. These methods also make all possible
+  substitutions instead of just one.
 - The C tokenizer extension now works on Python 3 in addition to Python 2.7.
 - Various fixes and cleanup.
 

From 943caede7a1c2440ddd6d10abc2faa4ecf45641a Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 02:34:30 -0400
Subject: [PATCH 142/189] Fix for Python 3.

---
 mwparserfromhell/wikicode.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/mwparserfromhell/wikicode.py b/mwparserfromhell/wikicode.py
index 5c4d66a..b5e854d 100644
--- a/mwparserfromhell/wikicode.py
+++ b/mwparserfromhell/wikicode.py
@@ -129,10 +129,12 @@ class Wikicode(StringMixIn):
                     i += len(obj.nodes) - 1
             elif recursive:
                 contexts = node.__iternodes__(self._get_all_nodes)
-                for code in {ctx for ctx, child in contexts}:
-                    if code and obj in code:
+                processed = []
+                for code in (ctx for ctx, child in contexts):
+                    if code and code not in processed and obj in code:
                         search = self._do_search(obj, recursive, code, literal)
                         results.extend(search)
+                        processed.append(code)
             i += 1
 
         if not results and not literal and recursive:

From fdf4f6774d18209b2e4297c802623416b167d8ee Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 03:12:54 -0400
Subject: [PATCH 143/189] Make test_remove() use _test_search().

---
 tests/test_wikicode.py | 113 +++++++++++++++----------------------------------
 1 file changed, 34 insertions(+), 79 deletions(-)

diff --git a/tests/test_wikicode.py b/tests/test_wikicode.py
index 409f888..08cf93c 100644
--- a/tests/test_wikicode.py
+++ b/tests/test_wikicode.py
@@ -21,6 +21,7 @@
 # SOFTWARE.
 
 from __future__ import unicode_literals
+from functools import partial
 import re
 from types import GeneratorType
 import unittest
@@ -124,13 +125,12 @@ class TestWikicode(TreeEqualityTestCase):
 
     def _test_search(self, meth, expected):
         """Base test for insert_before(), insert_after(), and replace()."""
-        code = parse("{{a}}{{b}}{{c}}{{d}}")
-        func = getattr(code, meth)
+        code = parse("{{a}}{{b}}{{c}}{{d}}{{e}}")
+        func = partial(meth, code)
         func("{{b}}", "x", recursive=True)
         func("{{d}}", "[[y]]", recursive=False)
-        self.assertEqual(expected[0], code)
         func(code.get(2), "z")
-        self.assertEqual(expected[1], code)
+        self.assertEqual(expected[0], code)
         self.assertRaises(ValueError, func, "{{r}}", "n", recursive=True)
         self.assertRaises(ValueError, func, "{{r}}", "n", recursive=False)
         fake = parse("{{a}}").get(0)
@@ -138,24 +138,24 @@ class TestWikicode(TreeEqualityTestCase):
         self.assertRaises(ValueError, func, fake, "n", recursive=False)
 
         code2 = parse("{{a}}{{a}}{{a}}{{b}}{{b}}{{b}}")
-        func = getattr(code2, meth)
+        func = partial(meth, code2)
         func(code2.get(1), "c", recursive=False)
         func("{{a}}", "d", recursive=False)
         func(code2.get(-1), "e", recursive=True)
         func("{{b}}", "f", recursive=True)
-        self.assertEqual(expected[2], code2)
+        self.assertEqual(expected[1], code2)
 
         code3 = parse("{{a|{{b}}|{{c|d={{f}}}}}}")
-        func = getattr(code3, meth)
+        func = partial(meth, code3)
         obj = code3.get(0).params[0].value.get(0)
         self.assertRaises(ValueError, func, obj, "x", recursive=False)
         func(obj, "x", recursive=True)
         self.assertRaises(ValueError, func, "{{f}}", "y", recursive=False)
         func("{{f}}", "y", recursive=True)
-        self.assertEqual(expected[3], code3)
+        self.assertEqual(expected[2], code3)
 
-        code4 = parse("{{a}}{{b}}{{c}}{{d}}{{e}}{{f}}{{g}}")
-        func = getattr(code4, meth)
+        code4 = parse("{{a}}{{b}}{{c}}{{d}}{{e}}{{f}}{{g}}{{h}}{{i}}{{j}}")
+        func = partial(meth, code4)
         fake = parse("{{b}}{{c}}")
         self.assertRaises(ValueError, func, fake, "q", recursive=False)
         self.assertRaises(ValueError, func, fake, "q", recursive=True)
@@ -163,55 +163,59 @@ class TestWikicode(TreeEqualityTestCase):
         func("{{d}}{{e}}", "x", recursive=True)
         func(wrap(code4.nodes[-2:]), "y", recursive=False)
         func(wrap(code4.nodes[-2:]), "z", recursive=True)
-        self.assertEqual(expected[4], code4)
+        self.assertEqual(expected[3], code4)
         self.assertRaises(ValueError, func, "{{c}}{{d}}", "q", recursive=False)
         self.assertRaises(ValueError, func, "{{c}}{{d}}", "q", recursive=True)
 
         code5 = parse("{{a|{{b}}{{c}}|{{f|{{g}}={{h}}{{i}}}}}}")
-        func = getattr(code5, meth)
+        func = partial(meth, code5)
         self.assertRaises(ValueError, func, "{{b}}{{c}}", "x", recursive=False)
         func("{{b}}{{c}}", "x", recursive=True)
         obj = code5.get(0).params[1].value.get(0).params[0].value
         self.assertRaises(ValueError, func, obj, "y", recursive=False)
         func(obj, "y", recursive=True)
-        self.assertEqual(expected[5], code5)
+        self.assertEqual(expected[4], code5)
 
         code6 = parse("here is {{some text and a {{template}}}}")
-        func = getattr(code6, meth)
+        func = partial(meth, code6)
         self.assertRaises(ValueError, func, "text and", "ab", recursive=False)
         func("text and", "ab", recursive=True)
         self.assertRaises(ValueError, func, "is {{some", "cd", recursive=False)
         func("is {{some", "cd", recursive=True)
-        self.assertEqual(expected[6], code6)
+        self.assertEqual(expected[5], code6)
 
     def test_insert_before(self):
         """test Wikicode.insert_before()"""
+        meth = lambda code, *args, **kw: code.insert_before(*args, **kw)
         expected = [
-            "{{a}}x{{b}}{{c}}[[y]]{{d}}", "{{a}}xz{{b}}{{c}}[[y]]{{d}}",
+            "{{a}}xz{{b}}{{c}}[[y]]{{d}}{{e}}",
             "d{{a}}cd{{a}}d{{a}}f{{b}}f{{b}}ef{{b}}",
             "{{a|x{{b}}|{{c|d=y{{f}}}}}}",
-            "{{a}}w{{b}}{{c}}x{{d}}{{e}}yz{{f}}{{g}}",
+            "{{a}}w{{b}}{{c}}x{{d}}{{e}}{{f}}{{g}}{{h}}yz{{i}}{{j}}",
             "{{a|x{{b}}{{c}}|{{f|{{g}}=y{{h}}{{i}}}}}}",
             "here cdis {{some abtext and a {{template}}}}"]
-        self._test_search("insert_before", expected)
+        self._test_search(meth, expected)
 
     def test_insert_after(self):
         """test Wikicode.insert_after()"""
+        meth = lambda code, *args, **kw: code.insert_after(*args, **kw)
         expected = [
-            "{{a}}{{b}}x{{c}}{{d}}[[y]]", "{{a}}{{b}}xz{{c}}{{d}}[[y]]",
+            "{{a}}{{b}}xz{{c}}{{d}}[[y]]{{e}}",
             "{{a}}d{{a}}dc{{a}}d{{b}}f{{b}}f{{b}}fe",
             "{{a|{{b}}x|{{c|d={{f}}y}}}}",
-            "{{a}}{{b}}{{c}}w{{d}}{{e}}x{{f}}{{g}}yz",
+            "{{a}}{{b}}{{c}}w{{d}}{{e}}x{{f}}{{g}}{{h}}{{i}}{{j}}yz",
             "{{a|{{b}}{{c}}x|{{f|{{g}}={{h}}{{i}}y}}}}",
             "here is {{somecd text andab a {{template}}}}"]
-        self._test_search("insert_after", expected)
+        self._test_search(meth, expected)
 
     def test_replace(self):
         """test Wikicode.replace()"""
+        meth = lambda code, *args, **kw: code.replace(*args, **kw)
         expected = [
-            "{{a}}x{{c}}[[y]]", "{{a}}xz[[y]]", "dcdffe", "{{a|x|{{c|d=y}}}}",
-            "{{a}}wz", "{{a|x|{{f|{{g}}=y}}}}", "here cd ab a {{template}}}}"]
-        self._test_search("replace", expected)
+            "{{a}}xz[[y]]{{e}}", "dcdffe", "{{a|x|{{c|d=y}}}}",
+            "{{a}}wx{{f}}{{g}}z", "{{a|x|{{f|{{g}}=y}}}}",
+            "here cd ab a {{template}}}}"]
+        self._test_search(meth, expected)
 
     def test_append(self):
         """test Wikicode.append()"""
@@ -227,61 +231,12 @@ class TestWikicode(TreeEqualityTestCase):
 
     def test_remove(self):
         """test Wikicode.remove()"""
-        code = parse("{{a}}{{b}}{{c}}{{d}}")
-        code.remove("{{b}}", recursive=True)
-        code.remove(code.get(1), recursive=True)
-        self.assertEqual("{{a}}{{d}}", code)
-        self.assertRaises(ValueError, code.remove, "{{r}}", recursive=True)
-        self.assertRaises(ValueError, code.remove, "{{r}}", recursive=False)
-        fake = parse("{{a}}").get(0)
-        self.assertRaises(ValueError, code.remove, fake, recursive=True)
-        self.assertRaises(ValueError, code.remove, fake, recursive=False)
-
-        code2 = parse("{{a}}{{a}}{{a}}{{b}}{{b}}{{b}}")
-        code2.remove(code2.get(1), recursive=False)
-        self.assertEqual("{{a}}{{a}}{{b}}{{b}}{{b}}", code2)
-        code2.remove("{{a}}", recursive=False)
-        self.assertEqual("{{b}}{{b}}{{b}}", code2)
-        code2.remove(code2.get(-1), recursive=True)
-        self.assertEqual("{{b}}{{b}}", code2)
-        code2.remove("{{b}}", recursive=True)
-        self.assertEqual("", code2)
-
-        code3 = parse("{{a|{{b}}|{{c|d={{f}}}}}}")
-        obj = code3.get(0).params[0].value.get(0)
-        self.assertRaises(ValueError, code3.remove, obj, recursive=False)
-        code3.remove(obj, recursive=True)
-        self.assertRaises(ValueError, code3.remove, "{{f}}", recursive=False)
-        code3.remove("{{f}}", recursive=True)
-        self.assertEqual("{{a||{{c|d=}}}}", code3)
-
-        code4 = parse("{{a}}{{b}}{{c}}{{d}}{{e}}{{f}}{{g}}{{h}}{{i}}{{j}}")
-        fake = parse("{{b}}{{c}}")
-        self.assertRaises(ValueError, code4.remove, fake, recursive=False)
-        self.assertRaises(ValueError, code4.remove, fake, recursive=True)
-        code4.remove("{{b}}{{c}}", recursive=False)
-        code4.remove("{{d}}{{e}}", recursive=True)
-        code4.remove(wrap(code4.nodes[-2:]), recursive=False)
-        code4.remove(wrap(code4.nodes[-2:]), recursive=True)
-        self.assertEqual("{{a}}{{f}}", code4)
-        self.assertRaises(ValueError, code4.remove, "{{a}}{{b}}", False)
-        self.assertRaises(ValueError, code4.remove, "{{a}}{{b}}", True)
-
-        code5 = parse("{{a|{{b}}{{c}}|{{f|{{g}}={{h}}{{i}}}}}}")
-        self.assertRaises(ValueError, code5.remove, "{{b}}{{c}}", False)
-        code5.remove("{{b}}{{c}}", recursive=True)
-        obj = code5.get(0).params[1].value.get(0).params[0].value
-        self.assertRaises(ValueError, code5.remove, obj, recursive=False)
-        code5.remove(obj, recursive=True)
-        self.assertEqual("{{a||{{f|{{g}}=}}}}", code5)
-
-        code6 = parse("here is {{some text and a {{template}}}}")
-        func = code6.remove
-        self.assertRaises(ValueError, func, "text and", recursive=False)
-        func("text and", recursive=True)
-        self.assertRaises(ValueError, func, "is {{some", recursive=False)
-        func("is {{some", recursive=True)
-        self.assertEqual("here   a {{template}}}}", code6)
+        meth = lambda code, obj, value, **kw: code.remove(obj, **kw)
+        expected = [
+            "{{a}}{{c}}", "", "{{a||{{c|d=}}}}", "{{a}}{{f}}",
+            "{{a||{{f|{{g}}=}}}}", "here   a {{template}}}}"
+        ]
+        self._test_search(meth, expected)
 
     def test_matches(self):
         """test Wikicode.matches()"""

From a7dda77474c7730e23e8c376e6d91cea4eab9235 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 13:11:56 -0400
Subject: [PATCH 144/189] Template.has_param() -> Template.has()

---
 CHANGELOG                          |  2 ++
 README.rst                         |  2 +-
 docs/changelog.rst                 | 13 ++++++++-----
 docs/usage.rst                     |  2 +-
 mwparserfromhell/nodes/template.py |  7 +++++--
 tests/test_docs.py                 |  2 +-
 tests/test_template.py             | 22 +++++++++++-----------
 7 files changed, 29 insertions(+), 21 deletions(-)

diff --git a/CHANGELOG b/CHANGELOG
index 3876562..8922738 100644
--- a/CHANGELOG
+++ b/CHANGELOG
@@ -11,6 +11,8 @@ v0.3 (unreleased):
   remove() now accepts other Wikicode objects and strings representing parts of
   wikitext, instead of just nodes. These methods also make all possible
   substitutions instead of just one.
+- Renamed Template.has_param() to has() for consistency with Template's other
+  methods; has_param() is now an alias.
 - The C tokenizer extension now works on Python 3 in addition to Python 2.7.
 - Various fixes and cleanup.
 
diff --git a/README.rst b/README.rst
index f1092ee..b5fd912 100644
--- a/README.rst
+++ b/README.rst
@@ -90,7 +90,7 @@ whitespace::
     >>> text = "{{cleanup}} '''Foo''' is a [[bar]]. {{uncategorized}}"
     >>> code = mwparserfromhell.parse(text)
     >>> for template in code.filter_templates():
-    ...     if template.name.matches("Cleanup") and not template.has_param("date"):
+    ...     if template.name.matches("Cleanup") and not template.has("date"):
     ...         template.add("date", "July 2012")
     ...
     >>> print code
diff --git a/docs/changelog.rst b/docs/changelog.rst
index c5e2516..86dfd78 100644
--- a/docs/changelog.rst
+++ b/docs/changelog.rst
@@ -16,11 +16,14 @@ Unreleased
   if you rely on any filter() methods being non-recursive by default.**
 - Added a :py:meth:`.matches` method to :py:class:`~.Wikicode` for
   page/template name comparisons.
-- The *obj* param of :py:meth:`Wikicode.insert_before <.insert_before>`,
-  :py:meth:`~.insert_after`, :py:meth:`~.replace`, and :py:meth:`~.remove` now
-  accepts :py:class:`~.Wikicode` objects and strings representing parts of
-  wikitext, instead of just nodes. These methods also make all possible
-  substitutions instead of just one.
+- The *obj* param of :py:meth:`Wikicode.insert_before() <.insert_before>`,
+  :py:meth:`~.insert_after`, :py:meth:`~.Wikicode.replace`, and
+  :py:meth:`~.Wikicode.remove` now accepts :py:class:`~.Wikicode` objects and
+  strings representing parts of wikitext, instead of just nodes. These methods
+  also make all possible substitutions instead of just one.
+- Renamed :py:meth:`Template.has_param() <.has_param>` to
+  :py:meth:`~.Template.has` for consistency with :py:class:`~.Template`\ 's
+  other methods; :py:meth:`~.has_param` is now an alias.
 - The C tokenizer extension now works on Python 3 in addition to Python 2.7.
 - Various fixes and cleanup.
 
diff --git a/docs/usage.rst b/docs/usage.rst
index 15b384b..974c670 100644
--- a/docs/usage.rst
+++ b/docs/usage.rst
@@ -58,7 +58,7 @@ names, which takes care of capitalization and whitespace::
     >>> text = "{{cleanup}} '''Foo''' is a [[bar]]. {{uncategorized}}"
     >>> code = mwparserfromhell.parse(text)
     >>> for template in code.filter_templates():
-    ...     if template.name.matches("Cleanup") and not template.has_param("date"):
+    ...     if template.name.matches("Cleanup") and not template.has("date"):
     ...         template.add("date", "July 2012")
     ...
     >>> print code
diff --git a/mwparserfromhell/nodes/template.py b/mwparserfromhell/nodes/template.py
index 6dfc4f0..c326b65 100644
--- a/mwparserfromhell/nodes/template.py
+++ b/mwparserfromhell/nodes/template.py
@@ -164,7 +164,7 @@ class Template(Node):
     def name(self, value):
         self._name = parse_anything(value)
 
-    def has_param(self, name, ignore_empty=True):
+    def has(self, name, ignore_empty=True):
         """Return ``True`` if any parameter in the template is named *name*.
 
         With *ignore_empty*, ``False`` will be returned even if the template
@@ -180,6 +180,9 @@ class Template(Node):
                 return True
         return False
 
+    has_param = lambda self, *args, **kwargs: self.has(*args, **kwargs)
+    has_param.__doc__ = "Alias for :py:meth:`has`."
+
     def get(self, name):
         """Get the parameter whose name is *name*.
 
@@ -226,7 +229,7 @@ class Template(Node):
         name, value = parse_anything(name), parse_anything(value)
         self._surface_escape(value, "|")
 
-        if self.has_param(name):
+        if self.has(name):
             self.remove(name, keep_field=True)
             existing = self.get(name)
             if showkey is not None:
diff --git a/tests/test_docs.py b/tests/test_docs.py
index 53b3b76..6d066bd 100644
--- a/tests/test_docs.py
+++ b/tests/test_docs.py
@@ -90,7 +90,7 @@ class TestDocs(unittest.TestCase):
         text = "{{cleanup}} '''Foo''' is a [[bar]]. {{uncategorized}}"
         code = mwparserfromhell.parse(text)
         for template in code.filter_templates():
-            if template.name.matches("Cleanup") and not template.has_param("date"):
+            if template.name.matches("Cleanup") and not template.has("date"):
                 template.add("date", "July 2012")
         res = "{{cleanup|date=July 2012}} '''Foo''' is a [[bar]]. {{uncategorized}}"
         self.assertPrint(code, res)
diff --git a/tests/test_template.py b/tests/test_template.py
index 28592df..9ed099d 100644
--- a/tests/test_template.py
+++ b/tests/test_template.py
@@ -115,23 +115,23 @@ class TestTemplate(TreeEqualityTestCase):
         self.assertEqual([], node1.params)
         self.assertIs(plist, node2.params)
 
-    def test_has_param(self):
-        """test Template.has_param()"""
+    def test_has(self):
+        """test Template.has()"""
         node1 = Template(wraptext("foobar"))
         node2 = Template(wraptext("foo"),
                          [pgenh("1", "bar"), pgens("\nabc ", "def")])
         node3 = Template(wraptext("foo"),
                          [pgenh("1", "a"), pgens("b", "c"), pgens("1", "d")])
         node4 = Template(wraptext("foo"), [pgenh("1", "a"), pgens("b", " ")])
-        self.assertFalse(node1.has_param("foobar"))
-        self.assertTrue(node2.has_param(1))
-        self.assertTrue(node2.has_param("abc"))
-        self.assertFalse(node2.has_param("def"))
-        self.assertTrue(node3.has_param("1"))
-        self.assertTrue(node3.has_param(" b "))
-        self.assertFalse(node4.has_param("b"))
-        self.assertTrue(node3.has_param("b", False))
-        self.assertTrue(node4.has_param("b", False))
+        self.assertFalse(node1.has("foobar"))
+        self.assertTrue(node2.has(1))
+        self.assertTrue(node2.has("abc"))
+        self.assertFalse(node2.has("def"))
+        self.assertTrue(node3.has("1"))
+        self.assertTrue(node3.has(" b "))
+        self.assertFalse(node4.has("b"))
+        self.assertTrue(node3.has("b", False))
+        self.assertTrue(node4.has("b", False))
 
     def test_get(self):
         """test Template.get()"""

From 53c26589ee544a413506a319c1b7a3026a6a6ba0 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 14:45:24 -0400
Subject: [PATCH 145/189] Some node fixes; attributes with empty values now
 display correctly.

---
 mwparserfromhell/compat.py                 |  2 --
 mwparserfromhell/nodes/extras/attribute.py |  4 ++--
 mwparserfromhell/nodes/template.py         | 12 ++++++------
 mwparserfromhell/parser/tokens.py          |  4 ++--
 tests/test_attribute.py                    |  4 ++++
 5 files changed, 14 insertions(+), 12 deletions(-)

diff --git a/mwparserfromhell/compat.py b/mwparserfromhell/compat.py
index bb81513..864605c 100644
--- a/mwparserfromhell/compat.py
+++ b/mwparserfromhell/compat.py
@@ -15,14 +15,12 @@ py3k = sys.version_info[0] == 3
 if py3k:
     bytes = bytes
     str = str
-    basestring = str
     maxsize = sys.maxsize
     import html.entities as htmlentities
 
 else:
     bytes = str
     str = unicode
-    basestring = basestring
     maxsize = sys.maxint
     import htmlentitydefs as htmlentities
 
diff --git a/mwparserfromhell/nodes/extras/attribute.py b/mwparserfromhell/nodes/extras/attribute.py
index ad282af..05860a0 100644
--- a/mwparserfromhell/nodes/extras/attribute.py
+++ b/mwparserfromhell/nodes/extras/attribute.py
@@ -48,7 +48,7 @@ class Attribute(StringMixIn):
 
     def __unicode__(self):
         base = self.pad_first + str(self.name) + self.pad_before_eq
-        if self.value:
+        if self.value is not None:
             if self.quoted:
                 return base + '="' + self.pad_after_eq + str(self.value) + '"'
             return base + "=" + self.pad_after_eq + str(self.value)
@@ -100,7 +100,7 @@ class Attribute(StringMixIn):
 
     @value.setter
     def value(self, newval):
-        self._value = parse_anything(newval)
+        self._value = None if newval is None else parse_anything(newval)
 
     @quoted.setter
     def quoted(self, value):
diff --git a/mwparserfromhell/nodes/template.py b/mwparserfromhell/nodes/template.py
index c326b65..a6b1665 100644
--- a/mwparserfromhell/nodes/template.py
+++ b/mwparserfromhell/nodes/template.py
@@ -26,7 +26,7 @@ import re
 
 from . import HTMLEntity, Node, Text
 from .extras import Parameter
-from ..compat import basestring, str
+from ..compat import str
 from ..utils import parse_anything
 
 __all__ = ["Template"]
@@ -84,7 +84,7 @@ class Template(Node):
         replacement = str(HTMLEntity(value=ord(char)))
         for node in code.filter_text(recursive=False):
             if char in node:
-                code.replace(node, node.replace(char, replacement))
+                code.replace(node, node.replace(char, replacement), False)
 
     def _blank_param_value(self, value):
         """Remove the content from *value* while keeping its whitespace.
@@ -170,9 +170,9 @@ class Template(Node):
         With *ignore_empty*, ``False`` will be returned even if the template
         contains a parameter with the name *name*, if the parameter's value
         is empty. Note that a template may have multiple parameters with the
-        same name.
+        same name, but only the last one is read by the MediaWiki parser.
         """
-        name = name.strip() if isinstance(name, basestring) else str(name)
+        name = str(name).strip()
         for param in self.params:
             if param.name.strip() == name:
                 if ignore_empty and not param.value.strip():
@@ -191,7 +191,7 @@ class Template(Node):
         parameters can have the same name, we'll return the last match, since
         the last parameter is the only one read by the MediaWiki parser.
         """
-        name = name.strip() if isinstance(name, basestring) else str(name)
+        name = str(name).strip()
         for param in reversed(self.params):
             if param.name.strip() == name:
                 return param
@@ -294,7 +294,7 @@ class Template(Node):
         the first instance if none have dependents, otherwise the one with
         dependents will be kept).
         """
-        name = name.strip() if isinstance(name, basestring) else str(name)
+        name = str(name).strip()
         removed = False
         to_remove = []
         for i, param in enumerate(self.params):
diff --git a/mwparserfromhell/parser/tokens.py b/mwparserfromhell/parser/tokens.py
index 8c2ea87..0ffac86 100644
--- a/mwparserfromhell/parser/tokens.py
+++ b/mwparserfromhell/parser/tokens.py
@@ -30,7 +30,7 @@ into the :py:class`~.Wikicode` tree by the :py:class:`~.Builder`.
 
 from __future__ import unicode_literals
 
-from ..compat import basestring, py3k
+from ..compat import py3k, str
 
 __all__ = ["Token"]
 
@@ -43,7 +43,7 @@ class Token(object):
     def __repr__(self):
         args = []
         for key, value in self._kwargs.items():
-            if isinstance(value, basestring) and len(value) > 100:
+            if isinstance(value, str) and len(value) > 100:
                 args.append(key + "=" + repr(value[:97] + "..."))
             else:
                 args.append(key + "=" + repr(value))
diff --git a/tests/test_attribute.py b/tests/test_attribute.py
index 8dd84cb..dbf3145 100644
--- a/tests/test_attribute.py
+++ b/tests/test_attribute.py
@@ -40,6 +40,8 @@ class TestAttribute(TreeEqualityTestCase):
         self.assertEqual(' foo="bar"', str(node2))
         node3 = Attribute(wraptext("a"), wraptext("b"), False, "", " ", "   ")
         self.assertEqual("a =   b", str(node3))
+        node4 = Attribute(wraptext("a"), wrap([]), False, " ", "", " ")
+        self.assertEqual(" a= ", str(node4))
 
     def test_name(self):
         """test getter/setter for the name attribute"""
@@ -56,6 +58,8 @@ class TestAttribute(TreeEqualityTestCase):
         self.assertIs(value, node.value)
         node.value = "{{bar}}"
         self.assertWikicodeEqual(wrap([Template(wraptext("bar"))]), node.value)
+        node.value = None
+        self.assertIs(None, node.value)
 
     def test_quoted(self):
         """test getter/setter for the quoted attribute"""

From 9280cb16feee70760561033c640f49fafaa062ee Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 22:21:45 -0400
Subject: [PATCH 146/189] Fix behavior with quoted attrs and spaces before the
 =.

---
 mwparserfromhell/nodes/extras/attribute.py | 9 +++++----
 tests/test_attribute.py                    | 2 ++
 2 files changed, 7 insertions(+), 4 deletions(-)

diff --git a/mwparserfromhell/nodes/extras/attribute.py b/mwparserfromhell/nodes/extras/attribute.py
index 05860a0..8f7f453 100644
--- a/mwparserfromhell/nodes/extras/attribute.py
+++ b/mwparserfromhell/nodes/extras/attribute.py
@@ -47,12 +47,13 @@ class Attribute(StringMixIn):
         self._pad_after_eq = pad_after_eq
 
     def __unicode__(self):
-        base = self.pad_first + str(self.name) + self.pad_before_eq
+        result = self.pad_first + str(self.name) + self.pad_before_eq
         if self.value is not None:
+            result += "=" + self.pad_after_eq
             if self.quoted:
-                return base + '="' + self.pad_after_eq + str(self.value) + '"'
-            return base + "=" + self.pad_after_eq + str(self.value)
-        return base
+                return result + '"' + str(self.value) + '"'
+            return result + str(self.value)
+        return result
 
     def _set_padding(self, attr, value):
         """Setter for the value of a padding attribute."""
diff --git a/tests/test_attribute.py b/tests/test_attribute.py
index dbf3145..f34c670 100644
--- a/tests/test_attribute.py
+++ b/tests/test_attribute.py
@@ -38,6 +38,8 @@ class TestAttribute(TreeEqualityTestCase):
         self.assertEqual(" foo", str(node))
         node2 = Attribute(wraptext("foo"), wraptext("bar"))
         self.assertEqual(' foo="bar"', str(node2))
+        node3 = Attribute(wraptext("a"), wraptext("b"), True, "", " ", "   ")
+        self.assertEqual('a =   "b"', str(node3))
         node3 = Attribute(wraptext("a"), wraptext("b"), False, "", " ", "   ")
         self.assertEqual("a =   b", str(node3))
         node4 = Attribute(wraptext("a"), wrap([]), False, " ", "", " ")

From ccfc1cbe06809e8bc476b7ab956a4e0b2dfbac66 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 22:34:26 -0400
Subject: [PATCH 147/189] Add test cases for Tag's new has/get/add/remove
 methods.

---
 tests/test_tag.py | 87 +++++++++++++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 87 insertions(+)

diff --git a/tests/test_tag.py b/tests/test_tag.py
index 09eda9e..5ef92a5 100644
--- a/tests/test_tag.py
+++ b/tests/test_tag.py
@@ -30,6 +30,7 @@ from ._test_tree_equality import TreeEqualityTestCase, getnodes, wrap, wraptext
 
 agen = lambda name, value: Attribute(wraptext(name), wraptext(value))
 agennq = lambda name, value: Attribute(wraptext(name), wraptext(value), False)
+agenp = lambda name, v, a, b, c: Attribute(wraptext(name), v, True, a, b, c)
 agenpnv = lambda name, a, b, c: Attribute(wraptext(name), None, True, a, b, c)
 
 class TestTag(TreeEqualityTestCase):
@@ -224,5 +225,91 @@ class TestTag(TreeEqualityTestCase):
         self.assertWikicodeEqual(parsed, node.closing_tag)
         self.assertEqual("<ref>foobar</ref {{ignore me}}>", node)
 
+    def test_has(self):
+        """test Tag.has()"""
+        node = Tag(wraptext("ref"), wraptext("cite"), [agen("name", "foo")])
+        self.assertTrue(node.has("name"))
+        self.assertTrue(node.has("  name  "))
+        self.assertTrue(node.has(wraptext("name")))
+        self.assertFalse(node.has("Name"))
+        self.assertFalse(node.has("foo"))
+
+        attrs = [agen("id", "foo"), agenp("class", "bar", "  ", "\n", "\n"),
+                 agen("foo", "bar"), agenpnv("foo", " ", "  \n ", " \t")]
+        node2 = Tag(wraptext("div"), attrs=attrs, self_closing=True)
+        self.assertTrue(node2.has("id"))
+        self.assertTrue(node2.has("class"))
+        self.assertTrue(node2.has(attrs[1].pad_first + str(attrs[1].name) +
+                                  attrs[1].pad_before_eq))
+        self.assertTrue(node2.has(attrs[3]))
+        self.assertTrue(node2.has(str(attrs[3])))
+        self.assertFalse(node2.has("idclass"))
+        self.assertFalse(node2.has("id class"))
+        self.assertFalse(node2.has("id=foo"))
+
+    def test_get(self):
+        """test Tag.get()"""
+        attrs = [agen("name", "foo")]
+        node = Tag(wraptext("ref"), wraptext("cite"), attrs)
+        self.assertIs(attrs[0], node.get("name"))
+        self.assertIs(attrs[0], node.get("  name  "))
+        self.assertIs(attrs[0], node.get(wraptext("name")))
+        self.assertRaises(ValueError, node.get, "Name")
+        self.assertRaises(ValueError, node.get, "foo")
+
+        attrs = [agen("id", "foo"), agenp("class", "bar", "  ", "\n", "\n"),
+                 agen("foo", "bar"), agenpnv("foo", " ", "  \n ", " \t")]
+        node2 = Tag(wraptext("div"), attrs=attrs, self_closing=True)
+        self.assertIs(attrs[0], node2.get("id"))
+        self.assertIs(attrs[1], node2.get("class"))
+        self.assertIs(attrs[1], node2.get(
+            attrs[1].pad_first + str(attrs[1].name) + attrs[1].pad_before_eq))
+        self.assertIs(attrs[3], node2.get(attrs[3]))
+        self.assertIs(attrs[3], node2.get(str(attrs[3])))
+        self.assertIs(attrs[3], node2.get(" foo"))
+        self.assertRaises(ValueError, node2.get, "idclass")
+        self.assertRaises(ValueError, node2.get, "id class")
+        self.assertRaises(ValueError, node2.get, "id=foo")
+
+    def test_add(self):
+        """test Tag.add()"""
+        node = Tag(wraptext("ref"), wraptext("cite"))
+        node.add("name", "value")
+        node.add("name", "value", quoted=False)
+        node.add("name")
+        node.add(1, False)
+        node.add("style", "{{foobar}}")
+        node.add("name", "value", True, "\n", " ", "   ")
+        attr1 = ' name="value"'
+        attr2 = " name=value"
+        attr3 = " name"
+        attr4 = ' 1="False"'
+        attr5 = ' style="{{foobar}}"'
+        attr6 = '\nname =   "value"'
+        self.assertEqual(attr1, node.attributes[0])
+        self.assertEqual(attr2, node.attributes[1])
+        self.assertEqual(attr3, node.attributes[2])
+        self.assertEqual(attr4, node.attributes[3])
+        self.assertEqual(attr5, node.attributes[4])
+        self.assertEqual(attr6, node.attributes[5])
+        self.assertEqual(attr6, node.get("name"))
+        self.assertWikicodeEqual(wrap([Template(wraptext("foobar"))]),
+                                 node.attributes[4].value)
+        self.assertEqual("".join(("<ref", attr1, attr2, attr3, attr4, attr5,
+                                  attr6, ">cite</ref>")), node)
+
+    def test_remove(self):
+        """test Tag.remove()"""
+        attrs = [agen("id", "foo"), agenp("class", "bar", "  ", "\n", "\n"),
+                 agen("foo", "bar"), agenpnv("foo", " ", "  \n ", " \t")]
+        node = Tag(wraptext("div"), attrs=attrs, self_closing=True)
+        node.remove("class")
+        self.assertEqual('<div id="foo" foo="bar" foo  \n />', node)
+        node.remove("foo")
+        self.assertEqual('<div id="foo"/>', node)
+        self.assertRaises(ValueError, node.remove, "foo")
+        node.remove("id")
+        self.assertEqual('<div/>', node)
+
 if __name__ == "__main__":
     unittest.main(verbosity=2)

From 800bd20e3971a8942b3bb228fbe5a6dc28c20356 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 22:35:06 -0400
Subject: [PATCH 148/189] Implement Tag.has(), Tag.get(), Tag.add(), and
 Tag.remove() (closes #11).

---
 mwparserfromhell/nodes/tag.py | 54 +++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 54 insertions(+)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index 1f2b048..b4aec3e 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -23,6 +23,7 @@
 from __future__ import unicode_literals
 
 from . import Node, Text
+from .extras import Attribute
 from ..compat import str
 from ..tag_defs import is_visible
 from ..utils import parse_anything
@@ -216,3 +217,56 @@ class Tag(Node):
     @closing_tag.setter
     def closing_tag(self, value):
         self._closing_tag = parse_anything(value)
+
+    def has(self, name):
+        """Return whether any attribute in the tag has the given *name*.
+
+        Note that a tag may have multiple attributes with the same name, but
+        only the last one is read by the MediaWiki parser.
+        """
+        for attr in self.attributes:
+            if attr.name == name.strip():
+                return True
+        return False
+
+    def get(self, name):
+        """Get the attribute with the given *name*.
+
+        The returned object is a :py:class:`~.Attribute` instance. Raises
+        :py:exc:`ValueError` if no attribute has this name. Since multiple
+        attributes can have the same name, we'll return the last match, since
+        all but the last are ignored by the MediaWiki parser.
+        """
+        for attr in reversed(self.attributes):
+            if attr.name == name.strip():
+                return attr
+        raise ValueError(name)
+
+    def add(self, name, value=None, quoted=True, pad_first=" ",
+            pad_before_eq="", pad_after_eq=""):
+        """Add an attribute with the given *name* and *value*.
+
+        *name* and *value* can be anything parasable by
+        :py:func:`.utils.parse_anything`; *value* can be omitted if the
+        attribute is valueless. *quoted* is a bool telling whether to wrap the
+        *value* in double quotes (this is recommended). *pad_first*,
+        *pad_before_eq*, and *pad_after_eq* are whitespace used as padding
+        before the name, before the equal sign (or after the name if no value),
+        and after the equal sign (ignored if no value), respectively.
+        """
+        if value is not None:
+            value = parse_anything(value)
+        attr = Attribute(parse_anything(name), value, quoted)
+        attr.pad_first = pad_first
+        attr.pad_before_eq = pad_before_eq
+        attr.pad_after_eq = pad_after_eq
+        self.attributes.append(attr)
+        return attr
+
+    def remove(self, name):
+        """Remove all attributes with the given *name*."""
+        attrs = [attr for attr in self.attributes if attr.name == name.strip()]
+        if not attrs:
+            raise ValueError(name)
+        for attr in attrs:
+            self.attributes.remove(attr)

From fff93b77270209e01ff0d482d7e8c0f1824c556d Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 23:04:44 -0400
Subject: [PATCH 149/189] Add changelog entries for ExternalLinks.

---
 CHANGELOG          | 8 +++++---
 docs/changelog.rst | 9 +++++----
 2 files changed, 10 insertions(+), 7 deletions(-)

diff --git a/CHANGELOG b/CHANGELOG
index 8922738..84edc60 100644
--- a/CHANGELOG
+++ b/CHANGELOG
@@ -1,8 +1,10 @@
 v0.3 (unreleased):
 
-- Added complete support for HTML Tags, along with appropriate unit tests. This
-  includes forms like <ref>foo</ref>, <ref name="bar"/>, and wiki-markup tags
-  like bold ('''), italics (''), and lists (*, #, ; and :).
+- Added complete support for HTML Tags, including forms like <ref>foo</ref>,
+  <ref name="bar"/>, and wiki-markup tags like bold ('''), italics (''), and
+  lists (*, #, ; and :).
+- Added support for ExternalLinks (http://example.com/ and
+  [http://example.com/ Example]).
 - Wikicode's filter methods are now passed 'recursive=True' by default instead
   of False. This is a breaking change if you rely on any filter() methods being
   non-recursive by default.
diff --git a/docs/changelog.rst b/docs/changelog.rst
index 86dfd78..810f594 100644
--- a/docs/changelog.rst
+++ b/docs/changelog.rst
@@ -7,10 +7,11 @@ v0.3
 Unreleased
 (`changes <https://github.com/earwig/mwparserfromhell/compare/v0.2...develop>`__):
 
-- Added complete support for HTML :py:class:`Tags <.Tag>`, along with
-  appropriate unit tests. This includes forms like ``<ref>foo</ref>``,
-  ``<ref name="bar"/>``, and wiki-markup tags like bold (``'''``), italics
-  (``''``), and lists (``*``, ``#``, ``;`` and ``:``).
+- Added complete support for HTML :py:class:`Tags <.Tag>`, including forms like
+  ``<ref>foo</ref>``, ``<ref name="bar"/>``, and wiki-markup tags like bold
+  (``'''``), italics (``''``), and lists (``*``, ``#``, ``;`` and ``:``).
+- Added support for :py:class:`.ExternalLink`\ s (``http://example.com/`` and
+  ``[http://example.com/ Example]``).
 - :py:class:`Wikicode's <.Wikicode>` :py:meth:`.filter` methods are now passed
   *recursive=True* by default instead of *False*. **This is a breaking change
   if you rely on any filter() methods being non-recursive by default.**

From 0886b6fbf6256f36a062448fda31fcd79da10d89 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 23:05:13 -0400
Subject: [PATCH 150/189] Add ExternalLink Node type.

---
 mwparserfromhell/nodes/external_link.py | 95 +++++++++++++++++++++++++++++++++
 1 file changed, 95 insertions(+)
 create mode 100644 mwparserfromhell/nodes/external_link.py

diff --git a/mwparserfromhell/nodes/external_link.py b/mwparserfromhell/nodes/external_link.py
new file mode 100644
index 0000000..a604f9a
--- /dev/null
+++ b/mwparserfromhell/nodes/external_link.py
@@ -0,0 +1,95 @@
+# -*- coding: utf-8  -*-
+#
+# Copyright (C) 2012-2013 Ben Kurtovic <ben.kurtovic@verizon.net>
+#
+# Permission is hereby granted, free of charge, to any person obtaining a copy
+# of this software and associated documentation files (the "Software"), to deal
+# in the Software without restriction, including without limitation the rights
+# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+# copies of the Software, and to permit persons to whom the Software is
+# furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in
+# all copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+# SOFTWARE.
+
+from __future__ import unicode_literals
+
+from . import Node
+from ..compat import str
+from ..utils import parse_anything
+
+__all__ = ["ExternalLink"]
+
+class ExternalLink(Node):
+    """Represents an external link, like ``[http://example.com/ Example]``."""
+
+    def __init__(self, url, title=None, brackets=True):
+        super(ExternalLink, self).__init__()
+        self._url = url
+        self._title = title
+        self._brackets = brackets
+
+    def __unicode__(self):
+        if self.brackets:
+            if self.title is not None:
+                return "[" + str(self.url) + " " + str(self.title) + "]"
+            return "[" + str(self.url) + "]"
+        return str(self.url)
+
+    def __iternodes__(self, getter):
+        yield None, self
+        for child in getter(self.url):
+            yield self.url, child
+        if self.title is not None:
+            for child in getter(self.title):
+                yield self.title, child
+
+    def __strip__(self, normalize, collapse):
+        if self.title.strip():
+            return self.title.strip_code(normalize, collapse)
+        return None
+
+    def __showtree__(self, write, get, mark):
+        write("[")
+        get(self.url)
+        if self.title is not None:
+            get(self.title)
+        write("]")
+
+    @property
+    def url(self):
+        """The url of the link target, as a :py:class:`~.Wikicode` object."""
+        return self._url
+
+    @property
+    def title(self):
+        """The link title (if given), as a :py:class:`~.Wikicode` object."""
+        return self._title
+
+    @property
+    def brackets(self):
+        """Whether to enclose the URL in brackets or display it straight."""
+        return self._brackets
+
+    @url.setter
+    def url(self, value):
+        self._url = parse_anything(value)
+
+    @title.setter
+    def title(self, value):
+        if value is None:
+            self._title = None
+        else:
+            self._title = parse_anything(value)
+
+    @brackets.setter
+    def brackets(self, value):
+        self._brackets = bool(value)

From 8fe8b1fef59446a24d1c66dc6b683dd5a3760a58 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 23:12:36 -0400
Subject: [PATCH 151/189] Implement ExternalLinks as tokens and in the builder.

---
 mwparserfromhell/nodes/__init__.py |  1 +
 mwparserfromhell/parser/builder.py | 22 ++++++++++++++++++++--
 mwparserfromhell/parser/tokens.py  |  4 ++++
 3 files changed, 25 insertions(+), 2 deletions(-)

diff --git a/mwparserfromhell/nodes/__init__.py b/mwparserfromhell/nodes/__init__.py
index faaa0b2..ba97b3f 100644
--- a/mwparserfromhell/nodes/__init__.py
+++ b/mwparserfromhell/nodes/__init__.py
@@ -69,6 +69,7 @@ from . import extras
 from .text import Text
 from .argument import Argument
 from .comment import Comment
+from .external_link import ExternalLink
 from .heading import Heading
 from .html_entity import HTMLEntity
 from .tag import Tag
diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index 196ef14..ee914c3 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -24,8 +24,8 @@ from __future__ import unicode_literals
 
 from . import tokens
 from ..compat import str
-from ..nodes import (Argument, Comment, Heading, HTMLEntity, Tag, Template,
-                     Text, Wikilink)
+from ..nodes import (Argument, Comment, ExternalLink, Heading, HTMLEntity, Tag,
+                     Template, Text, Wikilink)
 from ..nodes.extras import Attribute, Parameter
 from ..smart_list import SmartList
 from ..wikicode import Wikicode
@@ -234,6 +234,22 @@ class Builder(object):
             else:
                 self._write(self._handle_token(token))
 
+    def _handle_external_link(self, token):
+        """Handle when an external link is at the head of the tokens."""
+        brackets, url = token.brackets, None
+        self._push()
+        while self._tokens:
+            token = self._tokens.pop()
+            if isinstance(token, tokens.ExternalLinkSeparator):
+                url = self._pop()
+                self._push()
+            elif isinstance(token, tokens.ExternalLinkClose):
+                if url is not None:
+                    return ExternalLink(url, self._pop(), brackets)
+                return ExternalLink(self._pop(), brackets=brackets)
+            else:
+                self._write(self._handle_token(token))
+
     def _handle_token(self, token):
         """Handle a single token."""
         if isinstance(token, tokens.Text):
@@ -252,6 +268,8 @@ class Builder(object):
             return self._handle_comment()
         elif isinstance(token, tokens.TagOpenOpen):
             return self._handle_tag(token)
+        elif isinstance(token, tokens.ExternalLinkOpen):
+            return self._handle_external_link(token)
 
     def build(self, tokenlist):
         """Build a Wikicode object from a list tokens and return it."""
diff --git a/mwparserfromhell/parser/tokens.py b/mwparserfromhell/parser/tokens.py
index 0ffac86..ae58ec8 100644
--- a/mwparserfromhell/parser/tokens.py
+++ b/mwparserfromhell/parser/tokens.py
@@ -104,4 +104,8 @@ TagCloseSelfclose = make("TagCloseSelfclose")                       # />
 TagOpenClose = make("TagOpenClose")                                 # </
 TagCloseClose = make("TagCloseClose")                               # >
 
+ExternalLinkOpen = make("ExternalLinkOpen")                         # [
+ExternalLinkSeparator = make("ExternalLinkSeparator")               #
+ExternalLinkClose = make("ExternalLinkClose")                       # ]
+
 del make

From 88f4fa7c37d321858ccb20bc74e3f4e9e9eaa50a Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Mon, 19 Aug 2013 23:21:15 -0400
Subject: [PATCH 152/189] Add external link contexts; reorder stuff for
 consistency.

---
 mwparserfromhell/parser/builder.py  | 36 ++++++++++++------------
 mwparserfromhell/parser/contexts.py | 55 ++++++++++++++++++++++---------------
 mwparserfromhell/parser/tokens.py   |  8 +++---
 3 files changed, 55 insertions(+), 44 deletions(-)

diff --git a/mwparserfromhell/parser/builder.py b/mwparserfromhell/parser/builder.py
index ee914c3..d31f450 100644
--- a/mwparserfromhell/parser/builder.py
+++ b/mwparserfromhell/parser/builder.py
@@ -142,6 +142,22 @@ class Builder(object):
             else:
                 self._write(self._handle_token(token))
 
+    def _handle_external_link(self, token):
+        """Handle when an external link is at the head of the tokens."""
+        brackets, url = token.brackets, None
+        self._push()
+        while self._tokens:
+            token = self._tokens.pop()
+            if isinstance(token, tokens.ExternalLinkSeparator):
+                url = self._pop()
+                self._push()
+            elif isinstance(token, tokens.ExternalLinkClose):
+                if url is not None:
+                    return ExternalLink(url, self._pop(), brackets)
+                return ExternalLink(self._pop(), brackets=brackets)
+            else:
+                self._write(self._handle_token(token))
+
     def _handle_entity(self):
         """Handle a case where an HTML entity is at the head of the tokens."""
         token = self._tokens.pop()
@@ -234,22 +250,6 @@ class Builder(object):
             else:
                 self._write(self._handle_token(token))
 
-    def _handle_external_link(self, token):
-        """Handle when an external link is at the head of the tokens."""
-        brackets, url = token.brackets, None
-        self._push()
-        while self._tokens:
-            token = self._tokens.pop()
-            if isinstance(token, tokens.ExternalLinkSeparator):
-                url = self._pop()
-                self._push()
-            elif isinstance(token, tokens.ExternalLinkClose):
-                if url is not None:
-                    return ExternalLink(url, self._pop(), brackets)
-                return ExternalLink(self._pop(), brackets=brackets)
-            else:
-                self._write(self._handle_token(token))
-
     def _handle_token(self, token):
         """Handle a single token."""
         if isinstance(token, tokens.Text):
@@ -260,6 +260,8 @@ class Builder(object):
             return self._handle_argument()
         elif isinstance(token, tokens.WikilinkOpen):
             return self._handle_wikilink()
+        elif isinstance(token, tokens.ExternalLinkOpen):
+            return self._handle_external_link(token)
         elif isinstance(token, tokens.HTMLEntityStart):
             return self._handle_entity()
         elif isinstance(token, tokens.HeadingStart):
@@ -268,8 +270,6 @@ class Builder(object):
             return self._handle_comment()
         elif isinstance(token, tokens.TagOpenOpen):
             return self._handle_tag(token)
-        elif isinstance(token, tokens.ExternalLinkOpen):
-            return self._handle_external_link(token)
 
     def build(self, tokenlist):
         """Build a Wikicode object from a list tokens and return it."""
diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index a1b67be..38154bb 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -51,6 +51,12 @@ Local (stack-specific) contexts:
     * :py:const:`WIKILINK_TITLE`
     * :py:const:`WIKILINK_TEXT`
 
+* :py:const:`EXTERNAL_LINK`
+
+    * :py:const:`EXTERNAL_LINK_URL`
+    * :py:const:`EXTERNAL_LINK_TITLE`
+    * :py:const:`EXTERNAL_LINK_BRACKETS`
+
 * :py:const:`HEADING`
 
     * :py:const:`HEADING_LEVEL_1`
@@ -112,35 +118,40 @@ WIKILINK_TITLE = 1 << 5
 WIKILINK_TEXT =  1 << 6
 WIKILINK = WIKILINK_TITLE + WIKILINK_TEXT
 
-HEADING_LEVEL_1 = 1 << 7
-HEADING_LEVEL_2 = 1 << 8
-HEADING_LEVEL_3 = 1 << 9
-HEADING_LEVEL_4 = 1 << 10
-HEADING_LEVEL_5 = 1 << 11
-HEADING_LEVEL_6 = 1 << 12
+EXTERNAL_LINK_URL      = 1 << 7
+EXTERNAL_LINK_TITLE    = 1 << 8
+EXTERNAL_LINK_BRACKETS = 1 << 9
+EXTERNAL_LINK = EXTERNAL_LINK_URL + EXTERNAL_LINK_TITLE
+
+HEADING_LEVEL_1 = 1 << 10
+HEADING_LEVEL_2 = 1 << 11
+HEADING_LEVEL_3 = 1 << 12
+HEADING_LEVEL_4 = 1 << 13
+HEADING_LEVEL_5 = 1 << 14
+HEADING_LEVEL_6 = 1 << 15
 HEADING = (HEADING_LEVEL_1 + HEADING_LEVEL_2 + HEADING_LEVEL_3 +
            HEADING_LEVEL_4 + HEADING_LEVEL_5 + HEADING_LEVEL_6)
 
-TAG_OPEN =  1 << 13
-TAG_ATTR =  1 << 14
-TAG_BODY =  1 << 15
-TAG_CLOSE = 1 << 16
+TAG_OPEN =  1 << 16
+TAG_ATTR =  1 << 17
+TAG_BODY =  1 << 18
+TAG_CLOSE = 1 << 19
 TAG = TAG_OPEN + TAG_ATTR + TAG_BODY + TAG_CLOSE
 
-STYLE_ITALICS =      1 << 17
-STYLE_BOLD =         1 << 18
-STYLE_PASS_AGAIN =   1 << 19
-STYLE_SECOND_PASS =  1 << 20
+STYLE_ITALICS =      1 << 20
+STYLE_BOLD =         1 << 21
+STYLE_PASS_AGAIN =   1 << 22
+STYLE_SECOND_PASS =  1 << 23
 STYLE = STYLE_ITALICS + STYLE_BOLD + STYLE_PASS_AGAIN + STYLE_SECOND_PASS
 
-DL_TERM = 1 << 21
+DL_TERM = 1 << 24
 
-HAS_TEXT =       1 << 22
-FAIL_ON_TEXT =   1 << 23
-FAIL_NEXT  =     1 << 24
-FAIL_ON_LBRACE = 1 << 25
-FAIL_ON_RBRACE = 1 << 26
-FAIL_ON_EQUALS = 1 << 27
+HAS_TEXT =       1 << 25
+FAIL_ON_TEXT =   1 << 26
+FAIL_NEXT  =     1 << 27
+FAIL_ON_LBRACE = 1 << 28
+FAIL_ON_RBRACE = 1 << 29
+FAIL_ON_EQUALS = 1 << 30
 SAFETY_CHECK = (HAS_TEXT + FAIL_ON_TEXT + FAIL_NEXT + FAIL_ON_LBRACE +
                 FAIL_ON_RBRACE + FAIL_ON_EQUALS)
 
@@ -150,7 +161,7 @@ GL_HEADING = 1 << 0
 
 # Aggregate contexts:
 
-FAIL = TEMPLATE + ARGUMENT + WIKILINK + HEADING + TAG + STYLE
+FAIL = TEMPLATE + ARGUMENT + WIKILINK + EXTERNAL_LINK + HEADING + TAG + STYLE
 UNSAFE = (TEMPLATE_NAME + WIKILINK_TITLE + TEMPLATE_PARAM_KEY + ARGUMENT_NAME +
           TAG_CLOSE)
 DOUBLE = TEMPLATE_PARAM_KEY + TAG_CLOSE
diff --git a/mwparserfromhell/parser/tokens.py b/mwparserfromhell/parser/tokens.py
index ae58ec8..57308ea 100644
--- a/mwparserfromhell/parser/tokens.py
+++ b/mwparserfromhell/parser/tokens.py
@@ -84,6 +84,10 @@ WikilinkOpen = make("WikilinkOpen")                                 # [[
 WikilinkSeparator = make("WikilinkSeparator")                       # |
 WikilinkClose = make("WikilinkClose")                               # ]]
 
+ExternalLinkOpen = make("ExternalLinkOpen")                         # [
+ExternalLinkSeparator = make("ExternalLinkSeparator")               #
+ExternalLinkClose = make("ExternalLinkClose")                       # ]
+
 HTMLEntityStart = make("HTMLEntityStart")                           # &
 HTMLEntityNumeric = make("HTMLEntityNumeric")                       # #
 HTMLEntityHex = make("HTMLEntityHex")                               # x
@@ -104,8 +108,4 @@ TagCloseSelfclose = make("TagCloseSelfclose")                       # />
 TagOpenClose = make("TagOpenClose")                                 # </
 TagCloseClose = make("TagCloseClose")                               # >
 
-ExternalLinkOpen = make("ExternalLinkOpen")                         # [
-ExternalLinkSeparator = make("ExternalLinkSeparator")               #
-ExternalLinkClose = make("ExternalLinkClose")                       # ]
-
 del make

From cbf67c78424b5de14d0ad4b9023d81c61fcbe17d Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Tue, 20 Aug 2013 02:07:38 -0400
Subject: [PATCH 153/189] Add hooks for some ext link stuff; add a INVALID_LINK
 aggregate context.

---
 mwparserfromhell/parser/contexts.py  |  20 +++----
 mwparserfromhell/parser/tokenizer.c  |  15 +++---
 mwparserfromhell/parser/tokenizer.h  | 100 +++++++++++++++++++----------------
 mwparserfromhell/parser/tokenizer.py |  18 +++++--
 tests/tokenizer/integration.mwtest   |   7 +++
 5 files changed, 96 insertions(+), 64 deletions(-)

diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index 38154bb..c6d2941 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -51,11 +51,11 @@ Local (stack-specific) contexts:
     * :py:const:`WIKILINK_TITLE`
     * :py:const:`WIKILINK_TEXT`
 
-* :py:const:`EXTERNAL_LINK`
+* :py:const:`EXT_LINK`
 
-    * :py:const:`EXTERNAL_LINK_URL`
-    * :py:const:`EXTERNAL_LINK_TITLE`
-    * :py:const:`EXTERNAL_LINK_BRACKETS`
+    * :py:const:`EXT_LINK_URL`
+    * :py:const:`EXT_LINK_TITLE`
+    * :py:const:`EXT_LINK_BRACKETS`
 
 * :py:const:`HEADING`
 
@@ -100,6 +100,7 @@ Aggregate contexts:
 * :py:const:`FAIL`
 * :py:const:`UNSAFE`
 * :py:const:`DOUBLE`
+* :py:const:`INVALID_LINK`
 
 """
 
@@ -118,10 +119,10 @@ WIKILINK_TITLE = 1 << 5
 WIKILINK_TEXT =  1 << 6
 WIKILINK = WIKILINK_TITLE + WIKILINK_TEXT
 
-EXTERNAL_LINK_URL      = 1 << 7
-EXTERNAL_LINK_TITLE    = 1 << 8
-EXTERNAL_LINK_BRACKETS = 1 << 9
-EXTERNAL_LINK = EXTERNAL_LINK_URL + EXTERNAL_LINK_TITLE
+EXT_LINK_URL      = 1 << 7
+EXT_LINK_TITLE    = 1 << 8
+EXT_LINK_BRACKETS = 1 << 9
+EXT_LINK = EXT_LINK_URL + EXT_LINK_TITLE + EXT_LINK_BRACKETS
 
 HEADING_LEVEL_1 = 1 << 10
 HEADING_LEVEL_2 = 1 << 11
@@ -161,7 +162,8 @@ GL_HEADING = 1 << 0
 
 # Aggregate contexts:
 
-FAIL = TEMPLATE + ARGUMENT + WIKILINK + EXTERNAL_LINK + HEADING + TAG + STYLE
+FAIL = TEMPLATE + ARGUMENT + WIKILINK + EXT_LINK + HEADING + TAG + STYLE
 UNSAFE = (TEMPLATE_NAME + WIKILINK_TITLE + TEMPLATE_PARAM_KEY + ARGUMENT_NAME +
           TAG_CLOSE)
 DOUBLE = TEMPLATE_PARAM_KEY + TAG_CLOSE
+INVALID_LINK = TEMPLATE_NAME + ARGUMENT_NAME + WIKILINK_TITLE + EXT_LINK_URL
diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 67a4ae6..267e7c5 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -2192,9 +2192,8 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
             if (Tokenizer_emit_char(self, this))
                 return NULL;
         }
-        else if (this == next && next == *"[") {
-            if (!(this_context & LC_WIKILINK_TITLE) &&
-                                                Tokenizer_CAN_RECURSE(self)) {
+        else if (this == next && next == *"[" && Tokenizer_CAN_RECURSE(self)) {
+            if (!(this_context & AGG_INVALID_LINK)) {
                 if (Tokenizer_parse_wikilink(self))
                     return NULL;
             }
@@ -2243,9 +2242,8 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
                     return NULL;
             }
         }
-        else if (this == *"<") {
-            if (!(this_context & LC_TAG_CLOSE) &&
-                                                Tokenizer_CAN_RECURSE(self)) {
+        else if (this == *"<" && !(this_context & LC_TAG_CLOSE)) {
+            if (Tokenizer_CAN_RECURSE(self)) {
                 if (Tokenizer_parse_tag(self))
                     return NULL;
             }
@@ -2389,6 +2387,11 @@ static int load_tokens(void)
     WikilinkSeparator = PyObject_GetAttrString(tokens, "WikilinkSeparator");
     WikilinkClose = PyObject_GetAttrString(tokens, "WikilinkClose");
 
+    ExternalLinkOpen = PyObject_GetAttrString(tokens, "ExternalLinkOpen");
+    ExternalLinkSeparator = PyObject_GetAttrString(tokens,
+                                                   "ExternalLinkSeparator");
+    ExternalLinkClose = PyObject_GetAttrString(tokens, "ExternalLinkClose");
+
     HTMLEntityStart = PyObject_GetAttrString(tokens, "HTMLEntityStart");
     HTMLEntityNumeric = PyObject_GetAttrString(tokens, "HTMLEntityNumeric");
     HTMLEntityHex = PyObject_GetAttrString(tokens, "HTMLEntityHex");
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 264360e..16c76eb 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -82,6 +82,10 @@ static PyObject* WikilinkOpen;
 static PyObject* WikilinkSeparator;
 static PyObject* WikilinkClose;
 
+static PyObject* ExternalLinkOpen;
+static PyObject* ExternalLinkSeparator;
+static PyObject* ExternalLinkClose;
+
 static PyObject* HTMLEntityStart;
 static PyObject* HTMLEntityNumeric;
 static PyObject* HTMLEntityHex;
@@ -104,48 +108,53 @@ static PyObject* TagCloseClose;
 
 /* Local contexts: */
 
-#define LC_TEMPLATE             0x0000007
-#define LC_TEMPLATE_NAME        0x0000001
-#define LC_TEMPLATE_PARAM_KEY   0x0000002
-#define LC_TEMPLATE_PARAM_VALUE 0x0000004
-
-#define LC_ARGUMENT             0x0000018
-#define LC_ARGUMENT_NAME        0x0000008
-#define LC_ARGUMENT_DEFAULT     0x0000010
-
-#define LC_WIKILINK             0x0000060
-#define LC_WIKILINK_TITLE       0x0000020
-#define LC_WIKILINK_TEXT        0x0000040
-
-#define LC_HEADING              0x0001F80
-#define LC_HEADING_LEVEL_1      0x0000080
-#define LC_HEADING_LEVEL_2      0x0000100
-#define LC_HEADING_LEVEL_3      0x0000200
-#define LC_HEADING_LEVEL_4      0x0000400
-#define LC_HEADING_LEVEL_5      0x0000800
-#define LC_HEADING_LEVEL_6      0x0001000
-
-#define LC_TAG                  0x001E000
-#define LC_TAG_OPEN             0x0002000
-#define LC_TAG_ATTR             0x0004000
-#define LC_TAG_BODY             0x0008000
-#define LC_TAG_CLOSE            0x0010000
-
-#define LC_STYLE                0x01E0000
-#define LC_STYLE_ITALICS        0x0020000
-#define LC_STYLE_BOLD           0x0040000
-#define LC_STYLE_PASS_AGAIN     0x0080000
-#define LC_STYLE_SECOND_PASS    0x0100000
-
-#define LC_DLTERM               0x0200000
-
-#define LC_SAFETY_CHECK         0xFC00000
-#define LC_HAS_TEXT             0x0400000
-#define LC_FAIL_ON_TEXT         0x0800000
-#define LC_FAIL_NEXT            0x1000000
-#define LC_FAIL_ON_LBRACE       0x2000000
-#define LC_FAIL_ON_RBRACE       0x4000000
-#define LC_FAIL_ON_EQUALS       0x8000000
+#define LC_TEMPLATE             0x00000007
+#define LC_TEMPLATE_NAME        0x00000001
+#define LC_TEMPLATE_PARAM_KEY   0x00000002
+#define LC_TEMPLATE_PARAM_VALUE 0x00000004
+
+#define LC_ARGUMENT             0x00000018
+#define LC_ARGUMENT_NAME        0x00000008
+#define LC_ARGUMENT_DEFAULT     0x00000010
+
+#define LC_WIKILINK             0x00000060
+#define LC_WIKILINK_TITLE       0x00000020
+#define LC_WIKILINK_TEXT        0x00000040
+
+#define LC_EXT_LINK             0x00000380
+#define LC_EXT_LINK_URL         0x00000080
+#define LC_EXT_LINK_TITLE       0x00000100
+#define LC_EXT_LINK_BRACKETS    0x00000200
+
+#define LC_HEADING              0x0000FC00
+#define LC_HEADING_LEVEL_1      0x00000400
+#define LC_HEADING_LEVEL_2      0x00000800
+#define LC_HEADING_LEVEL_3      0x00001000
+#define LC_HEADING_LEVEL_4      0x00002000
+#define LC_HEADING_LEVEL_5      0x00004000
+#define LC_HEADING_LEVEL_6      0x00008000
+
+#define LC_TAG                  0x000F0000
+#define LC_TAG_OPEN             0x00010000
+#define LC_TAG_ATTR             0x00020000
+#define LC_TAG_BODY             0x00040000
+#define LC_TAG_CLOSE            0x00080000
+
+#define LC_STYLE                0x00F00000
+#define LC_STYLE_ITALICS        0x00100000
+#define LC_STYLE_BOLD           0x00200000
+#define LC_STYLE_PASS_AGAIN     0x00400000
+#define LC_STYLE_SECOND_PASS    0x00800000
+
+#define LC_DLTERM               0x01000000
+
+#define LC_SAFETY_CHECK         0x7E000000
+#define LC_HAS_TEXT             0x02000000
+#define LC_FAIL_ON_TEXT         0x04000000
+#define LC_FAIL_NEXT            0x08000000
+#define LC_FAIL_ON_LBRACE       0x10000000
+#define LC_FAIL_ON_RBRACE       0x20000000
+#define LC_FAIL_ON_EQUALS       0x40000000
 
 /* Global contexts: */
 
@@ -153,9 +162,10 @@ static PyObject* TagCloseClose;
 
 /* Aggregate contexts: */
 
-#define AGG_FAIL   (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK | LC_HEADING | LC_TAG | LC_STYLE)
-#define AGG_UNSAFE (LC_TEMPLATE_NAME | LC_WIKILINK_TITLE | LC_TEMPLATE_PARAM_KEY | LC_ARGUMENT_NAME)
-#define AGG_DOUBLE (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE)
+#define AGG_FAIL         (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK | LC_HEADING | LC_TAG | LC_STYLE)
+#define AGG_UNSAFE       (LC_TEMPLATE_NAME | LC_WIKILINK_TITLE | LC_TEMPLATE_PARAM_KEY | LC_ARGUMENT_NAME)
+#define AGG_DOUBLE       (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE)
+#define AGG_INVALID_LINK (LC_TEMPLATE_NAME | LC_ARGUMENT_NAME | LC_WIKILINK_TITLE | LC_EXT_LINK_URL)
 
 /* Tag contexts: */
 
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 583d2f8..9f675ac 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -311,6 +311,11 @@ class Tokenizer(object):
         self._head += 1
         return self._pop()
 
+    def _parse_external_link(self, brackets):
+        """Parse an external link at the head of the wikicode string."""
+        self._emit_text(self._read())
+        # raise NotImplementedError()
+
     def _parse_heading(self):
         """Parse a section heading at the head of the wikicode string."""
         self._global |= contexts.GL_HEADING
@@ -898,8 +903,8 @@ class Tokenizer(object):
                     return self._handle_argument_end()
                 else:
                     self._emit_text("}")
-            elif this == next == "[":
-                if not self._context & contexts.WIKILINK_TITLE and self._can_recurse():
+            elif this == next == "[" and self._can_recurse():
+                if not self._context & contexts.INVALID_LINK:
                     self._parse_wikilink()
                 else:
                     self._emit_text("[")
@@ -907,6 +912,11 @@ class Tokenizer(object):
                 self._handle_wikilink_separator()
             elif this == next == "]" and self._context & contexts.WIKILINK:
                 return self._handle_wikilink_end()
+            elif this == "[" and not self._context & contexts.INVALID_LINK:  ## or this == ":"
+                if self._can_recurse():
+                    self._parse_external_link(brackets=this == "[")
+                else:
+                    self._emit_text("[")
             elif this == "=" and not self._global & contexts.GL_HEADING:
                 if self._read(-1) in ("\n", self.START):
                     self._parse_heading()
@@ -928,8 +938,8 @@ class Tokenizer(object):
                     self._handle_tag_open_close()
                 else:
                     self._handle_invalid_tag_start()
-            elif this == "<":
-                if not self._context & contexts.TAG_CLOSE and self._can_recurse():
+            elif this == "<" and not self._context & contexts.TAG_CLOSE:
+                if self._can_recurse():
                     self._parse_tag()
                 else:
                     self._emit_text("<")
diff --git a/tests/tokenizer/integration.mwtest b/tests/tokenizer/integration.mwtest
index 0277a51..e4ff8c4 100644
--- a/tests/tokenizer/integration.mwtest
+++ b/tests/tokenizer/integration.mwtest
@@ -12,6 +12,13 @@ output: [TemplateOpen(), ArgumentOpen(), ArgumentOpen(), Text(text="foo"), Argum
 
 ---
 
+name:   link_in_template_name
+label:  a wikilink inside a template name, which breaks the template
+input:  "{{foo[[bar]]}}"
+output: [Text(text="{{foo"), WikilinkOpen(), Text(text="bar"), WikilinkClose(), Text(text="}}")]
+
+---
+
 name:   rich_heading
 label:  a heading with templates/wikilinks in it
 input:  "== Head{{ing}} [[with]] {{{funky|{{stuf}}}}} =="

From 5e6e5b6301f5f50ca8585a5b73f72af49898cdf2 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 21 Aug 2013 01:07:32 -0400
Subject: [PATCH 154/189] tag_defs.py -> definitions.py; more outline stuff

---
 mwparserfromhell/{tag_defs.py => definitions.py} |  2 +-
 mwparserfromhell/nodes/tag.py                    |  6 ++--
 mwparserfromhell/parser/tokenizer.c              | 16 +++++-----
 mwparserfromhell/parser/tokenizer.h              |  8 ++---
 mwparserfromhell/parser/tokenizer.py             | 37 ++++++++++++++++++------
 5 files changed, 44 insertions(+), 25 deletions(-)
 rename mwparserfromhell/{tag_defs.py => definitions.py} (97%)

diff --git a/mwparserfromhell/tag_defs.py b/mwparserfromhell/definitions.py
similarity index 97%
rename from mwparserfromhell/tag_defs.py
rename to mwparserfromhell/definitions.py
index 2395fc6..2d7ab0c 100644
--- a/mwparserfromhell/tag_defs.py
+++ b/mwparserfromhell/definitions.py
@@ -20,7 +20,7 @@
 # OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
 # SOFTWARE.
 
-"""Contains data regarding certain HTML tags."""
+"""Contains data about certain markup, like HTML tags and external links."""
 
 from __future__ import unicode_literals
 
diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index b4aec3e..80b8a88 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -25,7 +25,7 @@ from __future__ import unicode_literals
 from . import Node, Text
 from .extras import Attribute
 from ..compat import str
-from ..tag_defs import is_visible
+from ..definitions import is_visible
 from ..utils import parse_anything
 
 __all__ = ["Tag"]
@@ -152,7 +152,7 @@ class Tag(Node):
         This makes the tag look like a lone close tag. It is technically
         invalid and is only parsable Wikicode when the tag itself is
         single-only, like ``<br>`` and ``<img>``. See
-        :py:func:`.tag_defs.is_single_only`.
+        :py:func:`.definitions.is_single_only`.
         """
         return self._invalid
 
@@ -161,7 +161,7 @@ class Tag(Node):
         """Whether the tag is implicitly self-closing, with no ending slash.
 
         This is only possible for specific "single" tags like ``<br>`` and
-        ``<li>``. See :py:func:`.tag_defs.is_single`. This field only has an
+        ``<li>``. See :py:func:`.definitions.is_single`. This field only has an
         effect if :py:attr:`self_closing` is also ``True``.
         """
         return self._implicit
diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 267e7c5..2b74f6b 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -37,12 +37,12 @@ static int heading_level_from_context(int n)
 }
 
 /*
-    Call the given function in tag_defs, using 'tag' as a parameter, and return
-    its output as a bool.
+    Call the given function in definitions.py, using 'tag' as a parameter, and
+    return its output as a bool.
 */
-static int call_tag_def_func(const char* funcname, PyObject* tag)
+static int call_def_func(const char* funcname, PyObject* tag)
 {
-    PyObject* func = PyObject_GetAttrString(tag_defs, funcname);
+    PyObject* func = PyObject_GetAttrString(definitions, funcname);
     PyObject* result = PyObject_CallFunctionObjArgs(func, tag, NULL);
     int ans = (result == Py_True) ? 1 : 0;
 
@@ -2416,13 +2416,13 @@ static int load_tokens(void)
     return 0;
 }
 
-static int load_tag_defs(void)
+static int load_definitions(void)
 {
     PyObject *tempmod,
              *globals = PyEval_GetGlobals(),
              *locals = PyEval_GetLocals(),
              *fromlist = PyList_New(1),
-             *modname = IMPORT_NAME_FUNC("tag_defs");
+             *modname = IMPORT_NAME_FUNC("definitions");
     char *name = "mwparserfromhell";
 
     if (!fromlist || !modname)
@@ -2432,7 +2432,7 @@ static int load_tag_defs(void)
     Py_DECREF(fromlist);
     if (!tempmod)
         return -1;
-    tag_defs = PyObject_GetAttrString(tempmod, "tag_defs");
+    definitions = PyObject_GetAttrString(tempmod, "definitions");
     Py_DECREF(tempmod);
     return 0;
 }
@@ -2455,7 +2455,7 @@ PyMODINIT_FUNC INIT_FUNC_NAME(void)
     NOARGS = PyTuple_New(0);
     if (!EMPTY || !NOARGS)
         INIT_ERROR;
-    if (load_entitydefs() || load_tokens() || load_tag_defs())
+    if (load_entitydefs() || load_tokens() || load_definitions())
         INIT_ERROR;
 #ifdef IS_PY3K
     return module;
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 16c76eb..41c1c1b 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -62,7 +62,7 @@ static char** entitydefs;
 
 static PyObject* EMPTY;
 static PyObject* NOARGS;
-static PyObject* tag_defs;
+static PyObject* definitions;
 
 
 /* Tokens: */
@@ -241,9 +241,9 @@ typedef struct {
 /* Macros for accessing HTML tag definitions: */
 
 #define GET_HTML_TAG(markup) (markup == *":" ? "dd" : markup == *";" ? "dt" : "li")
-#define IS_PARSABLE(tag) (call_tag_def_func("is_parsable", tag))
-#define IS_SINGLE(tag) (call_tag_def_func("is_single", tag))
-#define IS_SINGLE_ONLY(tag) (call_tag_def_func("is_single_only", tag))
+#define IS_PARSABLE(tag) (call_def_func("is_parsable", tag))
+#define IS_SINGLE(tag) (call_def_func("is_single", tag))
+#define IS_SINGLE_ONLY(tag) (call_def_func("is_single_only", tag))
 
 
 /* Function prototypes: */
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 9f675ac..07ae0b1 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -26,7 +26,7 @@ import re
 
 from . import contexts, tokens
 from ..compat import htmlentities
-from ..tag_defs import get_html_tag, is_parsable, is_single, is_single_only
+from ..definitions import get_html_tag, is_parsable, is_single, is_single_only
 
 __all__ = ["Tokenizer"]
 
@@ -60,7 +60,7 @@ class Tokenizer(object):
     START = object()
     END = object()
     MARKERS = ["{", "}", "[", "]", "<", ">", "|", "=", "&", "'", "#", "*", ";",
-               ":", "/", "-", "\n", END]
+               ":", "/", "-", "\n", START, END]
     MAX_DEPTH = 40
     MAX_CYCLES = 100000
     regex = re.compile(r"([{}\[\]<>|=&'#*;:/\\\"\-!\n])", flags=re.IGNORECASE)
@@ -311,10 +311,30 @@ class Tokenizer(object):
         self._head += 1
         return self._pop()
 
+    def _really_parse_external_link(self, brackets):
+        """Really parse an external link."""
+        # link = self._parse(contexts.EXT_LINK_URL)
+        raise BadRoute()
+
     def _parse_external_link(self, brackets):
         """Parse an external link at the head of the wikicode string."""
-        self._emit_text(self._read())
-        # raise NotImplementedError()
+        reset = self._head
+        self._head += 1
+        try:
+            bad_context = self._context & contexts.INVALID_LINK
+            if bad_context or not self._can_recurse():
+                raise BadRoute()
+            link = self._really_parse_external_link(brackets)
+        except BadRoute:
+            self._head = reset
+            if not brackets and self._context & contexts.DL_TERM:
+                self._handle_dl_term()
+            else:
+                self._emit_text(self._read())
+        else:
+            self._emit(tokens.ExternalLinkOpen(brackets))
+            self._emit_all(link)
+            self._emit(tokens.ExternalLinkClose())
 
     def _parse_heading(self):
         """Parse a section heading at the head of the wikicode string."""
@@ -912,11 +932,10 @@ class Tokenizer(object):
                 self._handle_wikilink_separator()
             elif this == next == "]" and self._context & contexts.WIKILINK:
                 return self._handle_wikilink_end()
-            elif this == "[" and not self._context & contexts.INVALID_LINK:  ## or this == ":"
-                if self._can_recurse():
-                    self._parse_external_link(brackets=this == "[")
-                else:
-                    self._emit_text("[")
+            elif this == "[":
+                self._parse_external_link(True)
+            elif this == ":" and self._read(-1) not in self.MARKERS:
+                self._parse_external_link(False)
             elif this == "=" and not self._global & contexts.GL_HEADING:
                 if self._read(-1) in ("\n", self.START):
                     self._parse_heading()

From 5fc36cea7156fd86c848463fd6db2740462665c6 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 21 Aug 2013 02:48:13 -0400
Subject: [PATCH 155/189] Add is_protocol().

---
 mwparserfromhell/definitions.py | 18 +++++++++++++++++-
 1 file changed, 17 insertions(+), 1 deletion(-)

diff --git a/mwparserfromhell/definitions.py b/mwparserfromhell/definitions.py
index 2d7ab0c..7352f23 100644
--- a/mwparserfromhell/definitions.py
+++ b/mwparserfromhell/definitions.py
@@ -25,7 +25,17 @@
 from __future__ import unicode_literals
 
 __all__ = ["get_html_tag", "is_parsable", "is_visible", "is_single",
-           "is_single_only"]
+           "is_single_only", "is_protocol"]
+
+URL_PROTOCOLS = {
+    # [mediawiki/core.git]/includes/DefaultSettings.php @ 374a0ad943
+    "http": True, "https": True, "ftp": True, "ftps": True, "ssh": True,
+    "sftp": True, "irc": True, "ircs": True, "xmpp": False, "sip": False,
+    "sips": False, "gopher": True, "telnet": True, "nntp": True,
+    "worldwind": True, "mailto": False, "tel": False, "sms": False,
+    "news": False, "svn": True, "git": True, "mms": True, "bitcoin": False,
+    "magnet": False, "urn": False, "geo": False
+}
 
 PARSER_BLACKLIST = [
     # enwiki extensions @ 2013-06-28
@@ -70,3 +80,9 @@ def is_single(tag):
 def is_single_only(tag):
     """Return whether or not the given *tag* must exist without a close tag."""
     return tag.lower() in SINGLE_ONLY
+
+def is_protocol(protocol, slashes=True):
+    """Return whether *protcol* is valid for external links."""
+    if slashes:
+        return protocol in URL_PROTOCOLS
+    return protocol in URL_PROTOCOLS and not URL_PROTOCOLS[protocol]

From e2d007cb9f09c617e48d1240bb08de6d3e79895a Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 21 Aug 2013 03:14:13 -0400
Subject: [PATCH 156/189] Actually, they're called schemes, not protocols.

---
 mwparserfromhell/definitions.py | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/mwparserfromhell/definitions.py b/mwparserfromhell/definitions.py
index 7352f23..1cc1eb5 100644
--- a/mwparserfromhell/definitions.py
+++ b/mwparserfromhell/definitions.py
@@ -25,9 +25,9 @@
 from __future__ import unicode_literals
 
 __all__ = ["get_html_tag", "is_parsable", "is_visible", "is_single",
-           "is_single_only", "is_protocol"]
+           "is_single_only", "is_scheme"]
 
-URL_PROTOCOLS = {
+URL_SCHEMES = {
     # [mediawiki/core.git]/includes/DefaultSettings.php @ 374a0ad943
     "http": True, "https": True, "ftp": True, "ftps": True, "ssh": True,
     "sftp": True, "irc": True, "ircs": True, "xmpp": False, "sip": False,
@@ -81,8 +81,8 @@ def is_single_only(tag):
     """Return whether or not the given *tag* must exist without a close tag."""
     return tag.lower() in SINGLE_ONLY
 
-def is_protocol(protocol, slashes=True):
-    """Return whether *protcol* is valid for external links."""
+def is_scheme(scheme, slashes=True):
+    """Return whether *scheme* is valid for external links."""
     if slashes:
-        return protocol in URL_PROTOCOLS
-    return protocol in URL_PROTOCOLS and not URL_PROTOCOLS[protocol]
+        return scheme in URL_SCHEMES
+    return scheme in URL_SCHEMES and not URL_SCHEMES[scheme]

From 223f3fa6588390dca6c3a71d2e93c9be7d8a0fd9 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Wed, 21 Aug 2013 03:25:18 -0400
Subject: [PATCH 157/189] Actually, they're called URI schemes, not URL
 schemes.

---
 mwparserfromhell/definitions.py | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/mwparserfromhell/definitions.py b/mwparserfromhell/definitions.py
index 1cc1eb5..ef8255e 100644
--- a/mwparserfromhell/definitions.py
+++ b/mwparserfromhell/definitions.py
@@ -27,7 +27,7 @@ from __future__ import unicode_literals
 __all__ = ["get_html_tag", "is_parsable", "is_visible", "is_single",
            "is_single_only", "is_scheme"]
 
-URL_SCHEMES = {
+URI_SCHEMES = {
     # [mediawiki/core.git]/includes/DefaultSettings.php @ 374a0ad943
     "http": True, "https": True, "ftp": True, "ftps": True, "ssh": True,
     "sftp": True, "irc": True, "ircs": True, "xmpp": False, "sip": False,
@@ -83,6 +83,7 @@ def is_single_only(tag):
 
 def is_scheme(scheme, slashes=True):
     """Return whether *scheme* is valid for external links."""
+    scheme = scheme.lower()
     if slashes:
-        return scheme in URL_SCHEMES
-    return scheme in URL_SCHEMES and not URL_SCHEMES[scheme]
+        return scheme in URI_SCHEMES
+    return scheme in URI_SCHEMES and not URI_SCHEMES[scheme]

From f3025eaafe7178a0aaedca4a70648410037fc9ec Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 00:56:39 -0400
Subject: [PATCH 158/189] Fix some wikilink-related tests.

---
 tests/tokenizer/wikilinks.mwtest | 39 ++++++++++++++++++++++++++++++---------
 1 file changed, 30 insertions(+), 9 deletions(-)

diff --git a/tests/tokenizer/wikilinks.mwtest b/tests/tokenizer/wikilinks.mwtest
index 0682ef1..8eb381a 100644
--- a/tests/tokenizer/wikilinks.mwtest
+++ b/tests/tokenizer/wikilinks.mwtest
@@ -40,17 +40,17 @@ output: [WikilinkOpen(), Text(text="foo"), WikilinkSeparator(), Text(text="bar|b
 
 ---
 
-name:   nested
-label:  a wikilink nested within the value of another
-input:  "[[foo|[[bar]]]]"
-output: [WikilinkOpen(), Text(text="foo"), WikilinkSeparator(), WikilinkOpen(), Text(text="bar"), WikilinkClose(), WikilinkClose()]
+name:   newline_text
+label:  a newline in the middle of the text
+input:  "[[foo|foo\nbar]]"
+output: [WikilinkOpen(), Text(text="foo"), WikilinkSeparator(), Text(text="foo\nbar"), WikilinkClose()]
 
 ---
 
-name:   nested_with_text
-label:  a wikilink nested within the value of another, separated by other data
-input:  "[[foo|a[[b]]c]]"
-output: [WikilinkOpen(), Text(text="foo"), WikilinkSeparator(), Text(text="a"), WikilinkOpen(), Text(text="b"), WikilinkClose(), Text(text="c"), WikilinkClose()]
+name:   bracket_text
+label:  a left bracket in the middle of the text
+input:  "[[foo|bar[baz]]"
+output: [WikilinkOpen(), Text(text="foo"), WikilinkSeparator(), Text(text="bar[baz"), WikilinkClose()]
 
 ---
 
@@ -96,13 +96,34 @@ output: [Text(text="[[foo"), WikilinkOpen(), Text(text="bar"), WikilinkClose(),
 
 ---
 
-name:   invalid_nested_text
+name:   invalid_nested_padding
 label:  invalid wikilink: trying to nest in the wrong context, with a text param
 input:  "[[foo[[bar]]|baz]]"
 output: [Text(text="[[foo"), WikilinkOpen(), Text(text="bar"), WikilinkClose(), Text(text="|baz]]")]
 
 ---
 
+name:   invalid_nested_text
+label:  invalid wikilink: a wikilink nested within the value of another
+input:  "[[foo|[[bar]]"
+output: [Text(text="[[foo|"), WikilinkOpen(), Text(text="bar"), WikilinkClose()]
+
+---
+
+name:   invalid_nested_text_2
+label:  invalid wikilink: a wikilink nested within the value of another, two pairs of closing brackets
+input:  "[[foo|[[bar]]]]"
+output: [Text(text="[[foo|"), WikilinkOpen(), Text(text="bar"), WikilinkClose(), Text(text="]]")]
+
+---
+
+name:   invalid_nested_text_padding
+label:  invalid wikilink: a wikilink nested within the value of another, separated by other data
+input:  "[[foo|a[[b]]c]]"
+output: [Text(text="[[foo|a"), WikilinkOpen(), Text(text="b"), WikilinkClose(), Text(text="c]]")]
+
+---
+
 name:   incomplete_open_only
 label:  incomplete wikilinks: just an open
 input:  "[["

From d42e05a554076d43dd53568bf383ec3e265c2fe2 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 00:57:34 -0400
Subject: [PATCH 159/189] Implement improved wikilink handling.

---
 mwparserfromhell/parser/contexts.py  | 12 ++++++------
 mwparserfromhell/parser/tokenizer.c  | 13 ++++++-------
 mwparserfromhell/parser/tokenizer.h  |  4 ++--
 mwparserfromhell/parser/tokenizer.py | 10 ++++++++--
 4 files changed, 22 insertions(+), 17 deletions(-)

diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index c6d2941..0d25400 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -53,7 +53,7 @@ Local (stack-specific) contexts:
 
 * :py:const:`EXT_LINK`
 
-    * :py:const:`EXT_LINK_URL`
+    * :py:const:`EXT_LINK_URI`
     * :py:const:`EXT_LINK_TITLE`
     * :py:const:`EXT_LINK_BRACKETS`
 
@@ -119,10 +119,10 @@ WIKILINK_TITLE = 1 << 5
 WIKILINK_TEXT =  1 << 6
 WIKILINK = WIKILINK_TITLE + WIKILINK_TEXT
 
-EXT_LINK_URL      = 1 << 7
+EXT_LINK_URI      = 1 << 7
 EXT_LINK_TITLE    = 1 << 8
 EXT_LINK_BRACKETS = 1 << 9
-EXT_LINK = EXT_LINK_URL + EXT_LINK_TITLE + EXT_LINK_BRACKETS
+EXT_LINK = EXT_LINK_URI + EXT_LINK_TITLE + EXT_LINK_BRACKETS
 
 HEADING_LEVEL_1 = 1 << 10
 HEADING_LEVEL_2 = 1 << 11
@@ -163,7 +163,7 @@ GL_HEADING = 1 << 0
 # Aggregate contexts:
 
 FAIL = TEMPLATE + ARGUMENT + WIKILINK + EXT_LINK + HEADING + TAG + STYLE
-UNSAFE = (TEMPLATE_NAME + WIKILINK_TITLE + TEMPLATE_PARAM_KEY + ARGUMENT_NAME +
-          TAG_CLOSE)
+UNSAFE = (TEMPLATE_NAME + WIKILINK + EXT_LINK_TITLE + TEMPLATE_PARAM_KEY +
+          ARGUMENT_NAME + TAG_CLOSE)
 DOUBLE = TEMPLATE_PARAM_KEY + TAG_CLOSE
-INVALID_LINK = TEMPLATE_NAME + ARGUMENT_NAME + WIKILINK_TITLE + EXT_LINK_URL
+INVALID_LINK = TEMPLATE_NAME + ARGUMENT_NAME + WIKILINK + EXT_LINK
diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 2b74f6b..46df405 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -2050,18 +2050,17 @@ static int Tokenizer_verify_safe(Tokenizer* self, int context, Py_UNICODE data)
     if (context & LC_FAIL_NEXT) {
         return -1;
     }
-    if (context & LC_WIKILINK_TITLE) {
-        if (data == *"]" || data == *"{")
+    if (context & LC_WIKILINK) {
+        if (context & LC_WIKILINK_TEXT)
+            return (data == *"[" && Tokenizer_READ(self, 1) == *"[") ? -1 : 0;
+        else if (data == *"]" || data == *"{")
             self->topstack->context |= LC_FAIL_NEXT;
         else if (data == *"\n" || data == *"[" || data == *"}")
             return -1;
         return 0;
     }
-    if (context & LC_TAG_CLOSE) {
-        if (data == *"<")
-            return -1;
-        return 0;
-    }
+    if (context & LC_TAG_CLOSE)
+        return (data == *"<") ? -1 : 0;
     if (context & LC_TEMPLATE_NAME) {
         if (data == *"{" || data == *"}" || data == *"[") {
             self->topstack->context |= LC_FAIL_NEXT;
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 41c1c1b..5961dcc 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -163,9 +163,9 @@ static PyObject* TagCloseClose;
 /* Aggregate contexts: */
 
 #define AGG_FAIL         (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK | LC_HEADING | LC_TAG | LC_STYLE)
-#define AGG_UNSAFE       (LC_TEMPLATE_NAME | LC_WIKILINK_TITLE | LC_TEMPLATE_PARAM_KEY | LC_ARGUMENT_NAME)
+#define AGG_UNSAFE       (LC_TEMPLATE_NAME | LC_WIKILINK | LC_EXT_LINK_TITLE | LC_TEMPLATE_PARAM_KEY | LC_ARGUMENT_NAME)
 #define AGG_DOUBLE       (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE)
-#define AGG_INVALID_LINK (LC_TEMPLATE_NAME | LC_ARGUMENT_NAME | LC_WIKILINK_TITLE | LC_EXT_LINK_URL)
+#define AGG_INVALID_LINK (LC_TEMPLATE_NAME | LC_ARGUMENT_NAME | LC_WIKILINK | LC_EXT_LINK_URL)
 
 /* Tag contexts: */
 
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 07ae0b1..84de78e 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -835,12 +835,16 @@ class Tokenizer(object):
         context = self._context
         if context & contexts.FAIL_NEXT:
             return False
-        if context & contexts.WIKILINK_TITLE:
-            if this == "]" or this == "{":
+        if context & contexts.WIKILINK:
+            if context & contexts.WIKILINK_TEXT:
+                return not (this == self._read(1) == "[")
+            elif this == "]" or this == "{":
                 self._context |= contexts.FAIL_NEXT
             elif this == "\n" or this == "[" or this == "}":
                 return False
             return True
+        elif context & contexts.EXT_LINK_TITLE:
+            return this != "\n"
         elif context & contexts.TEMPLATE_NAME:
             if this == "{" or this == "}" or this == "[":
                 self._context |= contexts.FAIL_NEXT
@@ -936,6 +940,8 @@ class Tokenizer(object):
                 self._parse_external_link(True)
             elif this == ":" and self._read(-1) not in self.MARKERS:
                 self._parse_external_link(False)
+            elif this == "]" and self._context & contexts.EXT_LINK_TITLE:
+                return self._pop()
             elif this == "=" and not self._global & contexts.GL_HEADING:
                 if self._read(-1) in ("\n", self.START):
                     self._parse_heading()

From da272ae10a78c8bd2be633aefab1b827c411d554 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 00:59:46 -0400
Subject: [PATCH 160/189] Start implementation of external links in Python.

---
 mwparserfromhell/parser/tokenizer.py | 100 +++++++++++++++++++++++++++++++++--
 1 file changed, 95 insertions(+), 5 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 84de78e..9acf32d 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -26,7 +26,8 @@ import re
 
 from . import contexts, tokens
 from ..compat import htmlentities
-from ..definitions import get_html_tag, is_parsable, is_single, is_single_only
+from ..definitions import (get_html_tag, is_parsable, is_single,
+                           is_single_only, is_scheme)
 
 __all__ = ["Tokenizer"]
 
@@ -313,8 +314,95 @@ class Tokenizer(object):
 
     def _really_parse_external_link(self, brackets):
         """Really parse an external link."""
-        # link = self._parse(contexts.EXT_LINK_URL)
-        raise BadRoute()
+        scheme_valid = "abcdefghijklmnopqrstuvwxyz0123456789+.-"
+        if brackets:
+            self._push(contexts.EXT_LINK_URI)
+            if self._read() == self._read(1) == "/":
+                self._emit_text("//")
+                self._head += 2
+            else:
+                scheme = ""
+                while all(char in scheme_valid for char in self._read()):
+                    scheme += self._read()
+                    self._emit_text(self._read())
+                    self._head += 1
+                if self._read() != ":":
+                    self._fail_route()
+                self._emit_text(":")
+                self._head += 1
+                slashes = self._read() == self._read(1) == "/"
+                if slashes:
+                    self._emit_text("//")
+                    self._head += 2
+                if not is_scheme(scheme, slashes):
+                    self._fail_route()
+        else:
+            scheme = []
+            try:
+                # Ugly, but we have to backtrack through the textbuffer looking
+                # for our scheme since it was just parsed as text:
+                for i in range(-1, -len(self._textbuffer) - 1, -1):
+                    for char in reversed(self._textbuffer[i]):
+                        if char.isspace() or char in self.MARKERS:
+                            raise StopIteration()
+                        if char not in scheme_valid:
+                            raise BadRoute()
+                        scheme.append(char)
+            except StopIteration:
+                pass
+            scheme = "".join(reversed(scheme))
+            slashes = self._read() == self._read(1) == "/"
+            if not is_scheme(scheme, slashes):
+                raise BadRoute()
+            # Remove the scheme from the textbuffer, now that it's part of the
+            # external link:
+            length = len(scheme)
+            while length:
+                if length < len(self._textbuffer[-1]):
+                    self._textbuffer[-1] = self._textbuffer[-1][:-length]
+                    break
+                length -= len(self._textbuffer[-1])
+                self._textbuffer.pop()
+            self._push(contexts.EXT_LINK_URI)
+            self._emit_text(scheme)
+            self._emit_text(":")
+            if slashes:
+                self._emit_text("//")
+                self._head += 2
+            parentheses = False
+
+        while True:
+            this, next = self._read(), self._read(1)
+            if this is self.END or this == "\n":
+                if brackets:
+                    self._fail_route()
+                self._head -= 1
+                return self._pop(), None
+            elif this == next == "{" and self._can_recurse():
+                self._parse_template_or_argument()
+            elif this == "&":
+                self._parse_entity()
+            elif this == "]":
+                if not brackets:
+                    self._head -= 1
+                return self._pop(), None
+            elif this == "(" and not brackets and not parentheses:
+                parentheses = True
+                self._emit_text(this)
+            elif " " in this:                                                    ## Should be a more general whitespace check
+                before, after = this.split(" ", 1)
+                self._emit_text(before)
+                if brackets:
+                    self._emit(tokens.ExternalLinkSeparator())
+                    self._emit_text(after)
+                    self._context ^= contexts.EXT_LINK_URI
+                    self._context |= contexts.EXT_LINK_TITLE
+                    self._head += 1
+                    return self._parse(push=False), None
+                return self._pop(), " " + after
+            else:
+                self._emit_text(this)
+            self._head += 1
 
     def _parse_external_link(self, brackets):
         """Parse an external link at the head of the wikicode string."""
@@ -324,7 +412,7 @@ class Tokenizer(object):
             bad_context = self._context & contexts.INVALID_LINK
             if bad_context or not self._can_recurse():
                 raise BadRoute()
-            link = self._really_parse_external_link(brackets)
+            link, extra = self._really_parse_external_link(brackets)
         except BadRoute:
             self._head = reset
             if not brackets and self._context & contexts.DL_TERM:
@@ -332,9 +420,11 @@ class Tokenizer(object):
             else:
                 self._emit_text(self._read())
         else:
-            self._emit(tokens.ExternalLinkOpen(brackets))
+            self._emit(tokens.ExternalLinkOpen(brackets=brackets))
             self._emit_all(link)
             self._emit(tokens.ExternalLinkClose())
+            if extra:
+                self._emit_text(extra)
 
     def _parse_heading(self):
         """Parse a section heading at the head of the wikicode string."""

From 0ecf2e42310bc36fbf220883f95836d4fe96bc7a Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 01:02:27 -0400
Subject: [PATCH 161/189] Add a couple integration tests for ext links vs.
 <dl>.

---
 tests/tokenizer/integration.mwtest | 14 ++++++++++++++
 1 file changed, 14 insertions(+)

diff --git a/tests/tokenizer/integration.mwtest b/tests/tokenizer/integration.mwtest
index e4ff8c4..083b12c 100644
--- a/tests/tokenizer/integration.mwtest
+++ b/tests/tokenizer/integration.mwtest
@@ -58,3 +58,17 @@ name:   wildcard_redux
 label:  an even wilder assortment of various things
 input:  "{{a|b|{{c|[[d]]{{{e}}}}}}}[[f|{{{g}}}<!--h-->]]{{i|j=&nbsp;}}"
 output: [TemplateOpen(), Text(text="a"), TemplateParamSeparator(), Text(text="b"), TemplateParamSeparator(), TemplateOpen(), Text(text="c"), TemplateParamSeparator(), WikilinkOpen(), Text(text="d"), WikilinkClose(), ArgumentOpen(), Text(text="e"), ArgumentClose(), TemplateClose(), TemplateClose(), WikilinkOpen(), Text(text="f"), WikilinkSeparator(), ArgumentOpen(), Text(text="g"), ArgumentClose(), CommentStart(), Text(text="h"), CommentEnd(), WikilinkClose(), TemplateOpen(), Text(text="i"), TemplateParamSeparator(), Text(text="j"), TemplateParamEquals(), HTMLEntityStart(), Text(text="nbsp"), HTMLEntityEnd(), TemplateClose()]
+
+---
+
+name:   link_inside_dl
+label:  an external link inside a def list, such that the external link is parsed
+input:  ";;;mailto:example"
+output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), ExternalLinkOpen(brackets=False), Text(text="mailto:example"), ExternalLinkClose()]
+
+---
+
+name:   link_inside_dl_2
+label:  an external link inside a def list, such that the external link is not parsed
+input:  ";;;malito:example"
+output: [TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), TagOpenOpen(wiki_markup=";"), Text(text="dt"), TagCloseSelfclose(), Text(text="malito"), TagOpenOpen(wiki_markup=":"), Text(text="dd"), TagCloseSelfclose(), Text(text="example")]

From 93c51fe57c1711c674c41ea0799be5193ff3bf21 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 01:58:27 -0400
Subject: [PATCH 162/189] Tokenizer tests for external links.

---
 tests/tokenizer/external_links.mwtest | 459 ++++++++++++++++++++++++++++++++++
 1 file changed, 459 insertions(+)
 create mode 100644 tests/tokenizer/external_links.mwtest

diff --git a/tests/tokenizer/external_links.mwtest b/tests/tokenizer/external_links.mwtest
new file mode 100644
index 0000000..9e0ebdd
--- /dev/null
+++ b/tests/tokenizer/external_links.mwtest
@@ -0,0 +1,459 @@
+name:   basic
+label:  basic external link
+input:  "http://example.com/"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://example.com/"), ExternalLinkClose()]
+
+---
+
+name:   basic_brackets
+label:  basic external link in brackets
+input:  "[http://example.com/]"
+output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com/"), ExternalLinkClose()]
+
+---
+
+name:   brackets_space
+label:  basic external link in brackets, with a space after
+input:  "[http://example.com/ ]"
+output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com/"), ExternalLinkSeparator(), Text(text=""), ExternalLinkClose()]
+
+---
+
+name:   brackets_title
+label:  basic external link in brackets, with a title
+input:  "[http://example.com/ Example]"
+output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com/"), ExternalLinkSeparator(), Text(text="Example"), ExternalLinkClose()]
+
+---
+
+name:   brackets_multiword_title
+label:  basic external link in brackets, with a multi-word title
+input:  "[http://example.com/ Example Web Page]"
+output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com/"), ExternalLinkSeparator(), Text(text="Example Web Page"), ExternalLinkClose()]
+
+---
+
+name:   brackets_adjacent
+label:  three adjacent bracket-enclosed external links
+input:  "[http://foo.com/ Foo][http://bar.com/ Bar]\n[http://baz.com/ Baz]"
+output: [ExternalLinkOpen(brackets=True), Text(text="http://foo.com/"), ExternalLinkSeparator(), Text(text="Foo"), ExternalLinkClose(), ExternalLinkOpen(brackets=True), Text(text="http://bar.com/"), ExternalLinkSeparator(), Text(text="Bar"), ExternalLinkClose(), Text(text="\n"), ExternalLinkOpen(brackets=True), Text(text="http://baz.com/"), ExternalLinkSeparator(), Text(text="Baz"), ExternalLinkClose()]
+
+---
+
+name:   brackets_newline_before
+label:  bracket-enclosed link with a newline before the title
+input:  "[http://example.com/ \nExample]"
+output: [Text(text="["), ExternalLinkOpen(brackets=False), Text(text="http://example.com/"), ExternalLinkClose(), Text(text=" \nExample]")]
+
+---
+
+name:   brackets_newline_inside
+label:  bracket-enclosed link with a newline in the title
+input:  "[http://example.com/ Example \nWeb Page]"
+output: [Text(text="["), ExternalLinkOpen(brackets=False), Text(text="http://example.com/"), ExternalLinkClose(), Text(text=" Example \nWeb Page]")]
+
+---
+
+name:   brackets_newline_after
+label:  bracket-enclosed link with a newline after the title
+input:  "[http://example.com/ Example\n]"
+output: [Text(text="["), ExternalLinkOpen(brackets=False), Text(text="http://example.com/"), ExternalLinkClose(), Text(text=" Example\n]")]
+
+---
+
+name:   brackets_space_before
+label:  bracket-enclosed link with a space before the URL
+input:  "[ http://example.com Example]"
+output: [Text(text="[ "), ExternalLinkOpen(brackets=False), Text(text="http://example.com"), ExternalLinkClose(), Text(text=" Example]")]
+
+---
+
+name:   brackets_title_like_url
+label:  bracket-enclosed link with a title that looks like a URL
+input:  "[http://example.com http://example.com]"
+output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com"), ExternalLinkSeparator(), Text(text="http://example.com"), ExternalLinkClose()]
+
+---
+
+name:   brackets_recursive
+label:  bracket-enclosed link with a bracket-enclosed link as the title
+input:  "[http://example.com [http://example.com]]"
+output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com"), ExternalLinkSeparator(), Text(text="[http://example.com"), ExternalLinkClose(), Text(text="]")]
+
+---
+
+name:   period_after
+label:  a period after a free link that is excluded
+input:  "http://example.com."
+output: [ExternalLinkOpen(brackets=False), Text(text="http://example.com"), ExternalLinkClose(), Text(text=".")]
+
+---
+
+name:   colons_after
+label:  colons after a free link that are excluded
+input:  "http://example.com/foo:bar:::baz:::"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://example.com/foo:bar:::baz"), ExternalLinkClose(), Text(text=":::")]
+
+---
+
+name:   close_paren_after_excluded
+label:  a closing parenthesis after a free link that is excluded
+input:  "http://example.)com)"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://example.)com"), ExternalLinkClose(), Text(text=")")]
+
+---
+
+name:   close_paren_after_included
+label:  a closing parenthesis after a free link that is included because of an opening parenthesis in the URL
+input:  "http://example.(com)"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://example.(com)"), ExternalLinkClose()]
+
+---
+
+name:   open_bracket_inside
+label:  an open bracket inside a free link that causes it to be ended abruptly
+input:  "http://foobar[baz.com"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://foobar"), ExternalLinkClose(), Text(text="[baz.com")]
+
+---
+
+name:   brackets_period_after
+label:  a period after a bracket-enclosed link that is included
+input:  "[http://example.com. Example]"
+output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com."), ExternalLinkSeparator(), Text(text="Example"), ExternalLinkClose()]
+
+---
+
+name:   brackets_colons_after
+label:  colons after a bracket-enclosed link that are included
+input:  "[http://example.com/foo:bar:::baz::: Example]"
+output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com/foo:bar:::baz:::"), ExternalLinkSeparator(), Text(text="Example"), ExternalLinkClose()]
+
+---
+
+name:   brackets_close_paren_after_included
+label:  a closing parenthesis after a bracket-enclosed link that is included
+input:  "[http://example.)com) Example]"
+output: [ExternalLinkOpen(brackets=True), Text(text="http://example.)com)"), ExternalLinkSeparator(), Text(text="Example"), ExternalLinkClose()]
+
+---
+
+name:   brackets_close_paren_after_included_2
+label:  a closing parenthesis after a bracket-enclosed link that is also included
+input:  "[http://example.(com) Example]"
+output: [ExternalLinkOpen(brackets=True), Text(text="http://example.(com)"), ExternalLinkSeparator(), Text(text="Example"), ExternalLinkClose()]
+
+---
+
+name:   brackets_open_bracket_inside
+label:  an open bracket inside a bracket-enclosed link that causes it to switch to the title context abruptly
+input:  "[http://foobar[baz.com Example]"
+output: [ExternalLinkOpen(brackets=True), Text(text="http://foobar"), ExternalLinkSeparator(), Text(text="[baz.com Example"), ExternalLinkClose()]
+
+---
+
+name:   adjacent_space
+label:  two free links separated by a space
+input:  "http://example.com http://example.com"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://example.com"), ExternalLinkClose(), Text(text=" "), ExternalLinkOpen(brackets=False), Text(text="http://example.com"), ExternalLinkClose()]
+
+---
+
+name:   adjacent_newline
+label:  two free links separated by a newline
+input:  "http://example.com\nhttp://example.com"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://example.com"), ExternalLinkClose(), Text(text="\n"), ExternalLinkOpen(brackets=False), Text(text="http://example.com"), ExternalLinkClose()]
+
+---
+
+name:   adjacent_close_bracket
+label:  two free links separated by a close bracket
+input:  "http://example.com]http://example.com"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://example.com"), ExternalLinkClose(), Text(text="]"), ExternalLinkOpen(brackets=False), Text(text="http://example.com"), ExternalLinkClose()]
+
+---
+
+name:   html_entity_in_url
+label:  a HTML entity parsed correctly inside a free link
+input:  "http://exa&nbsp;mple.com/"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://exa"), HTMLEntityStart(), Text(text="nbsp"), HTMLEntityEnd(), Text(text="mple.com/"), ExternalLinkClose()]
+
+---
+
+name:   template_in_url
+label:  a template parsed correctly inside a free link
+input:  "http://exa{{template}}mple.com/"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://exa"), TemplateOpen(), Text(text="template"), TemplateClose(), Text(text="mple.com/"), ExternalLinkClose()]
+
+---
+
+name:   argument_in_url
+label:  an argument parsed correctly inside a free link
+input:  "http://exa{{{argument}}}mple.com/"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://exa"), ArgumentOpen(), Text(text="argument"), ArgumentClose(), Text(text="mple.com/"), ExternalLinkClose()]
+
+---
+
+name:   wikilink_in_url
+label:  a wikilink that destroys a free link
+input:  "http://exa[[wikilink]]mple.com/"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://exa"), ExternalLinkClose(), WikilinkOpen(), Text(text="wikilink"), WikilinkClose(), Text(text="mple.com/")]
+
+---
+
+name:   external_link_in_url
+label:  a bracketed link that destroys a free link
+input:  "http://exa[http://example.com/]mple.com/"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://exa"), ExternalLinkClose(), ExternalLinkOpen(brackets=True), Text(text="http://example.com/"), ExternalLinkClose(), Text(text="mple.com/")]
+
+---
+
+name:   spaces_padding
+label:  spaces padding a free link
+input:  "   http://example.com   "
+output: [Text(text="   "), ExternalLinkOpen(brackets=False), Text(text="http://example.com"), ExternalLinkClose(), Text(text="   ")]
+
+---
+
+name:   text_and_spaces_padding
+label:  text and spaces padding a free link
+input:  "x   http://example.com   x"
+output: [Text(text="x   "), ExternalLinkOpen(brackets=False), Text(text="http://example.com"), ExternalLinkClose(), Text(text="   x")]
+
+---
+
+name:   template_before
+label:  a template before a free link
+input:  "{{foo}}http://example.com"
+output: [TemplateOpen(), Text(text="foo"), TemplateClose(), ExternalLinkOpen(brackets=False), Text(text="http://example.com"), ExternalLinkClose()]
+
+---
+
+name:   spaces_padding_no_slashes
+label:  spaces padding a free link with no slashes after the colon
+input:  "   mailto:example@example.com   "
+output: [Text(text="   "), ExternalLinkOpen(brackets=False), Text(text="mailto:example@example.com"), ExternalLinkClose(), Text(text="   ")]
+
+---
+
+name:   text_and_spaces_padding_no_slashes
+label:  text and spaces padding a free link with no slashes after the colon
+input:  "x   mailto:example@example.com   x"
+output: [Text(text="x   "), ExternalLinkOpen(brackets=False), Text(text="mailto:example@example.com"), ExternalLinkClose(), Text(text="   x")]
+
+---
+
+name:   template_before_no_slashes
+label:  a template before a free link with no slashes after the colon
+input:  "{{foo}}mailto:example@example.com"
+output: [TemplateOpen(), Text(text="foo"), TemplateClose(), ExternalLinkOpen(brackets=False), Text(text="mailto:example@example.com"), ExternalLinkClose()]
+
+---
+
+name:   no_slashes
+label:  a free link with no slashes after the colon
+input:  "mailto:example@example.com"
+output: [ExternalLinkOpen(brackets=False), Text(text="mailto:example@example.com"), ExternalLinkClose()]
+
+---
+
+name:   slashes_optional
+label:  a free link using a scheme that doesn't need slashes, but has them anyway
+input:  "mailto://example@example.com"
+output: [ExternalLinkOpen(brackets=False), Text(text="mailto://example@example.com"), ExternalLinkClose()]
+
+---
+
+name:   short
+label:  a very short free link
+input:  "mailto://abc"
+output: [ExternalLinkOpen(brackets=False), Text(text="mailto://abc"), ExternalLinkClose()]
+
+---
+
+name:   slashes_missing
+label:  slashes missing from a free link with a scheme that requires them
+input:  "http:example@example.com"
+output: [Text(text="http:example@example.com")]
+
+---
+
+name:   no_scheme_but_slashes
+label:  no scheme in a free link, but slashes (protocol-relative free links are not supported)
+input:  "//example.com"
+output: [Text(text="//example.com")]
+
+---
+
+name:   no_scheme_but_colon
+label:  no scheme in a free link, but a colon
+input:  ":example.com"
+output: [Text(text=":example.com")]
+
+---
+
+name:   no_scheme_but_colon_and_slashes
+label:  no scheme in a free link, but a colon and slashes
+input:  "://example.com"
+output: [Text(text="://example.com")]
+
+---
+
+name:   fake_scheme_no_slashes
+label:  a nonexistent scheme in a free link, without slashes
+input:  "fake:example.com"
+output: [Text(text="fake:example.com")]
+
+---
+
+name:   fake_scheme_slashes
+label:  a nonexistent scheme in a free link, with slashes
+input:  "fake://example.com"
+output: [Text(text="fake://example.com")]
+
+---
+
+name:   fake_scheme_brackets_no_slashes
+label:  a nonexistent scheme in a bracketed link, without slashes
+input:  "[fake:example.com]"
+output: [Text(text="[fake:example.com]")]
+
+---
+
+name:   fake_scheme_brackets_slashes
+label:  #=a nonexistent scheme in a bracketed link, with slashes
+input:  "[fake://example.com]"
+output: [Text(text="[fake://example.com]")]
+
+---
+
+name:   interrupted_scheme
+label:  an otherwise valid scheme with something in the middle of it, in a free link
+input:  "ht?tp://example.com"
+output: [Text(text="ht?tp://example.com")]
+
+---
+
+name:   interrupted_scheme_brackets
+label:  an otherwise valid scheme with something in the middle of it, in a bracketed link
+input:  "[ht?tp://example.com]"
+output: [Text(text="[ht?tp://example.com]")]
+
+---
+
+name:   no_slashes_brackets
+label:  no slashes after the colon in a bracketed link
+input:  "[mailto:example@example.com Example]"
+output: [ExternalLinkOpen(brackets=True), Text(text="mailto:example@example.com"), ExternalLinkSeparator(), Text(text="Example"), ExternalLinkClose()]
+
+---
+
+name:   space_before_no_slashes_brackets
+label:  a space before a bracketed link with no slashes after the colon
+input:  "[ mailto:example@example.com Example]"
+output: [Text(text="[ "), ExternalLinkOpen(brackets=False), Text(text="mailto:example@example.com"), ExternalLinkClose(), Text(text=" Example]")]
+
+---
+
+name:   slashes_optional_brackets
+label:  a bracketed link using a scheme that doesn't need slashes, but has them anyway
+input:  "[mailto://example@example.com Example]"
+output: [ExternalLinkOpen(brackets=True), Text(text="mailto://example@example.com"), ExternalLinkSeparator(), Text(text="Example"), ExternalLinkClose()]
+
+---
+
+name:   short_brackets
+label:  a very short link in brackets
+input:  "[mailto://abc Example]"
+output: [ExternalLinkOpen(brackets=True), Text(text="mailto://abc"), ExternalLinkSeparator(), Text(text="Example"), ExternalLinkClose()]
+
+---
+
+name:   slashes_missing_brackets
+label:  slashes missing from a scheme that requires them in a bracketed link
+input:  "[http:example@example.com Example]"
+output: [Text(text="[http:example@example.com Example]")]
+
+---
+
+name:   protcol_relative
+label:  a protocol-relative link (in brackets)
+input:  "[//example.com Example]"
+output: [ExternalLinkOpen(brackets=True), Text(text="//example.com"), ExternalLinkSeparator(), Text(text="Example"), ExternalLinkClose()]
+
+---
+
+name:   scheme_missing_but_colon_brackets
+label:  scheme missing from a bracketed link, but with a colon
+input:  "[:example.com Example]"
+output: [Text(text="[:example.com Example]")]
+
+---
+
+name:   scheme_missing_but_colon_slashes_brackets
+label:  scheme missing from a bracketed link, but with a colon and slashes
+input:  "[://example.com Example]"
+output: [Text(text="[://example.com Example]")]
+
+---
+
+name:   unclosed_protocol_relative
+label:  an unclosed protocol-relative bracketed link
+input:  "[//example.com"
+output: [Text(text="[//example.com")]
+
+---
+
+name:   space_before_protcol_relative
+label:  a space before a protocol-relative bracketed link
+input:  "[ //example.com]"
+output: [Text(text="[ //example.com]")]
+
+---
+
+name:   unclosed_just_scheme
+label:  an unclosed bracketed link, ending after the scheme
+input:  "[http"
+output: [Text(text="[http")]
+
+---
+
+name:   unclosed_scheme_colon
+label:  an unclosed bracketed link, ending after the colon
+input:  "[http:"
+output: [Text(text="[http:")]
+
+---
+
+name:   unclosed_scheme_colon_slashes
+label:  an unclosed bracketed link, ending after the slashes
+input:  "[http://"
+output: [Text(text="[http://")]
+
+---
+
+name:   incomplete_scheme_colon
+label:  a free link with just a scheme and a colon
+input:  "http:"
+output: [Text(text="http:")]
+
+---
+
+name:   incomplete_scheme_colon_slashes
+label:  a free link with just a scheme, colon, and slashes
+input:  "http://"
+output: [Text(text="http://")]
+
+---
+
+name:   brackets_scheme_but_no_url
+label:  brackets around a scheme, colon, and slashes
+input:  "[http://]"
+output: [Text(text="[http://]")]
+
+---
+
+name:   brackets_scheme_title_but_no_url
+label:  brackets around a scheme, colon, and slashes, with a title
+input:  "[http:// Example]"
+output: [Text(text="[http:// Example]")]

From 176290d75a22ee44c1d81e9eb688025d4e1f808e Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 02:01:47 -0400
Subject: [PATCH 163/189] Add a couple more tests.

---
 tests/tokenizer/external_links.mwtest | 14 ++++++++++++++
 1 file changed, 14 insertions(+)

diff --git a/tests/tokenizer/external_links.mwtest b/tests/tokenizer/external_links.mwtest
index 9e0ebdd..7e1b7a5 100644
--- a/tests/tokenizer/external_links.mwtest
+++ b/tests/tokenizer/external_links.mwtest
@@ -432,6 +432,13 @@ output: [Text(text="[http://")]
 
 ---
 
+name:   incomplete_bracket
+label:  just an open bracket
+input:  "["
+output: [Text(text="[")]
+
+---
+
 name:   incomplete_scheme_colon
 label:  a free link with just a scheme and a colon
 input:  "http:"
@@ -447,6 +454,13 @@ output: [Text(text="http://")]
 ---
 
 name:   brackets_scheme_but_no_url
+label:  brackets around a scheme and a colon
+input:  "[mailto:]"
+output: [Text(text="[mailto:]")]
+
+---
+
+name:   brackets_scheme_slashes_but_no_url
 label:  brackets around a scheme, colon, and slashes
 input:  "[http://]"
 output: [Text(text="[http://]")]

From 44ee185377df12f525c91c6712d6c7cf43c86936 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 02:21:06 -0400
Subject: [PATCH 164/189] Fix some tests involving colons starting lines.

---
 tests/tokenizer/external_links.mwtest | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/tests/tokenizer/external_links.mwtest b/tests/tokenizer/external_links.mwtest
index 7e1b7a5..ee221e0 100644
--- a/tests/tokenizer/external_links.mwtest
+++ b/tests/tokenizer/external_links.mwtest
@@ -287,15 +287,15 @@ output: [Text(text="//example.com")]
 
 name:   no_scheme_but_colon
 label:  no scheme in a free link, but a colon
-input:  ":example.com"
-output: [Text(text=":example.com")]
+input:  " :example.com"
+output: [Text(text=" :example.com")]
 
 ---
 
 name:   no_scheme_but_colon_and_slashes
 label:  no scheme in a free link, but a colon and slashes
-input:  "://example.com"
-output: [Text(text="://example.com")]
+input:  " ://example.com"
+output: [Text(text=" ://example.com")]
 
 ---
 

From 432198547af4077687606abd3a21e5458fea6530 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 02:21:19 -0400
Subject: [PATCH 165/189] Fix some external links; refactor into different
 methods.

---
 mwparserfromhell/parser/tokenizer.py | 121 ++++++++++++++++++++---------------
 1 file changed, 68 insertions(+), 53 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 9acf32d..29bec56 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -312,65 +312,67 @@ class Tokenizer(object):
         self._head += 1
         return self._pop()
 
-    def _really_parse_external_link(self, brackets):
-        """Really parse an external link."""
-        scheme_valid = "abcdefghijklmnopqrstuvwxyz0123456789+.-"
-        if brackets:
-            self._push(contexts.EXT_LINK_URI)
-            if self._read() == self._read(1) == "/":
-                self._emit_text("//")
-                self._head += 2
-            else:
-                scheme = ""
-                while all(char in scheme_valid for char in self._read()):
-                    scheme += self._read()
-                    self._emit_text(self._read())
-                    self._head += 1
-                if self._read() != ":":
-                    self._fail_route()
-                self._emit_text(":")
-                self._head += 1
-                slashes = self._read() == self._read(1) == "/"
-                if slashes:
-                    self._emit_text("//")
-                    self._head += 2
-                if not is_scheme(scheme, slashes):
-                    self._fail_route()
+    def _parse_bracketed_uri_scheme(self):
+        """Parse the URI scheme of a bracket-enclosed external link."""
+        self._push(contexts.EXT_LINK_URI)
+        if self._read() == self._read(1) == "/":
+            self._emit_text("//")
+            self._head += 2
         else:
-            scheme = []
-            try:
-                # Ugly, but we have to backtrack through the textbuffer looking
-                # for our scheme since it was just parsed as text:
-                for i in range(-1, -len(self._textbuffer) - 1, -1):
-                    for char in reversed(self._textbuffer[i]):
-                        if char.isspace() or char in self.MARKERS:
-                            raise StopIteration()
-                        if char not in scheme_valid:
-                            raise BadRoute()
-                        scheme.append(char)
-            except StopIteration:
-                pass
-            scheme = "".join(reversed(scheme))
-            slashes = self._read() == self._read(1) == "/"
-            if not is_scheme(scheme, slashes):
-                raise BadRoute()
-            # Remove the scheme from the textbuffer, now that it's part of the
-            # external link:
-            length = len(scheme)
-            while length:
-                if length < len(self._textbuffer[-1]):
-                    self._textbuffer[-1] = self._textbuffer[-1][:-length]
-                    break
-                length -= len(self._textbuffer[-1])
-                self._textbuffer.pop()
-            self._push(contexts.EXT_LINK_URI)
-            self._emit_text(scheme)
+            valid = "abcdefghijklmnopqrstuvwxyz0123456789+.-"
+            all_valid = lambda: all(char in valid for char in self._read())
+            scheme = ""
+            while self._read() is not self.END and all_valid():
+                scheme += self._read()
+                self._emit_text(self._read())
+                self._head += 1
+            if self._read() != ":":
+                self._fail_route()
             self._emit_text(":")
+            self._head += 1
+            slashes = self._read() == self._read(1) == "/"
             if slashes:
                 self._emit_text("//")
                 self._head += 2
-            parentheses = False
+            if not is_scheme(scheme, slashes):
+                self._fail_route()
+
+    def _parse_free_uri_scheme(self):
+        """Parse the URI scheme of a free (no brackets) external link."""
+        valid = "abcdefghijklmnopqrstuvwxyz0123456789+.-"
+        scheme = []
+        try:
+            # Ugly, but we have to backtrack through the textbuffer looking for
+            # our scheme since it was just parsed as text:
+            for i in range(-1, -len(self._textbuffer) - 1, -1):
+                for char in reversed(self._textbuffer[i]):
+                    if char.isspace() or char in self.MARKERS:
+                        raise StopIteration()
+                    if char not in valid:
+                        raise BadRoute()
+                    scheme.append(char)
+        except StopIteration:
+            pass
+        scheme = "".join(reversed(scheme))
+        slashes = self._read() == self._read(1) == "/"
+        if not is_scheme(scheme, slashes):
+            raise BadRoute()
+        parentheses = False
+        self._push(contexts.EXT_LINK_URI)
+        self._emit_text(scheme)
+        self._emit_text(":")
+        if slashes:
+            self._emit_text("//")
+            self._head += 2
 
+    def _really_parse_external_link(self, brackets):
+        """Really parse an external link."""
+        if brackets:
+            self._parse_bracketed_uri_scheme()
+        else:
+            self._parse_free_uri_scheme()
+        if self._read() in self.MARKERS or self._read()[0].isspace():            ## Should actually check for valid chars
+            self._fail_route()
         while True:
             this, next = self._read(), self._read(1)
             if this is self.END or this == "\n":
@@ -404,6 +406,16 @@ class Tokenizer(object):
                 self._emit_text(this)
             self._head += 1
 
+    def _remove_uri_scheme_from_textbuffer(self, scheme):
+        """Remove the URI scheme of a new external link from the textbuffer."""
+        length = len(scheme)
+        while length:
+            if length < len(self._textbuffer[-1]):
+                self._textbuffer[-1] = self._textbuffer[-1][:-length]
+                break
+            length -= len(self._textbuffer[-1])
+            self._textbuffer.pop()
+
     def _parse_external_link(self, brackets):
         """Parse an external link at the head of the wikicode string."""
         reset = self._head
@@ -420,6 +432,9 @@ class Tokenizer(object):
             else:
                 self._emit_text(self._read())
         else:
+            if not brackets:
+                scheme = link[0].text.split(":", 1)[0]
+                self._remove_uri_scheme_from_textbuffer(scheme)
             self._emit(tokens.ExternalLinkOpen(brackets=brackets))
             self._emit_all(link)
             self._emit(tokens.ExternalLinkClose())

From be505465c06595ff9c7592aeb729d2b69ee952a7 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 02:34:55 -0400
Subject: [PATCH 166/189] Alter a test that imitates strange (incorrect?)
 MediaWiki behavior.

---
 tests/tokenizer/external_links.mwtest | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/tokenizer/external_links.mwtest b/tests/tokenizer/external_links.mwtest
index ee221e0..b517ada 100644
--- a/tests/tokenizer/external_links.mwtest
+++ b/tests/tokenizer/external_links.mwtest
@@ -146,9 +146,9 @@ output: [ExternalLinkOpen(brackets=True), Text(text="http://example.(com)"), Ext
 ---
 
 name:   brackets_open_bracket_inside
-label:  an open bracket inside a bracket-enclosed link that causes it to switch to the title context abruptly
+label:  an open bracket inside a bracket-enclosed link that is also included
 input:  "[http://foobar[baz.com Example]"
-output: [ExternalLinkOpen(brackets=True), Text(text="http://foobar"), ExternalLinkSeparator(), Text(text="[baz.com Example"), ExternalLinkClose()]
+output: [ExternalLinkOpen(brackets=True), Text(text="http://foobar[baz.com"), ExternalLinkSeparator(), Text(text="Example"), ExternalLinkClose()]
 
 ---
 

From bd10aab823562f349f433ef80525aee134c5e317 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 05:05:30 -0400
Subject: [PATCH 167/189] Finish external links.

---
 mwparserfromhell/parser/tokenizer.py | 64 +++++++++++++++++++++++++++---------
 1 file changed, 48 insertions(+), 16 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 29bec56..e9768fa 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -357,7 +357,6 @@ class Tokenizer(object):
         slashes = self._read() == self._read(1) == "/"
         if not is_scheme(scheme, slashes):
             raise BadRoute()
-        parentheses = False
         self._push(contexts.EXT_LINK_URI)
         self._emit_text(scheme)
         self._emit_text(":")
@@ -365,43 +364,75 @@ class Tokenizer(object):
             self._emit_text("//")
             self._head += 2
 
+    def _handle_free_link_text(self, punct, tail, this):
+        """Handle text in a free ext link, including trailing punctuation."""
+        if "(" in this and ")" in punct:
+            punct = punct[:-1]  # ')' is not longer valid punctuation
+        if this.endswith(punct):
+            for i in range(-1, -len(this) - 1, -1):
+                if i == -len(this) or this[i - 1] not in punct:
+                    break
+            stripped = this[:i]
+            if stripped and tail:
+                self._emit_text(tail)
+                tail = ""
+            tail += this[i:]
+            this = stripped
+        elif tail:
+            self._emit_text(tail)
+            tail = ""
+        self._emit_text(this)
+        return punct, tail
+
     def _really_parse_external_link(self, brackets):
         """Really parse an external link."""
         if brackets:
             self._parse_bracketed_uri_scheme()
+            invalid = ("\n", " ", "]")
         else:
             self._parse_free_uri_scheme()
-        if self._read() in self.MARKERS or self._read()[0].isspace():            ## Should actually check for valid chars
+            invalid = ("\n", " ", "[", "]")
+            punct = tuple(",;\.:!?)")
+        if self._read() is self.END or self._read()[0] in invalid:
             self._fail_route()
+        tail = ""
         while True:
             this, next = self._read(), self._read(1)
             if this is self.END or this == "\n":
                 if brackets:
                     self._fail_route()
-                self._head -= 1
-                return self._pop(), None
+                return self._pop(), tail, -1
             elif this == next == "{" and self._can_recurse():
+                if not brackets and tail:
+                    self._emit_text(tail)
+                    tail = ""
                 self._parse_template_or_argument()
+            elif this == "[":
+                if brackets:
+                    self._emit_text("[")
+                else:
+                    return self._pop(), tail, -1
+            elif this == "]":
+                return self._pop(), tail, 0 if brackets else -1
             elif this == "&":
+                if not brackets and tail:
+                    self._emit_text(tail)
+                    tail = ""
                 self._parse_entity()
-            elif this == "]":
-                if not brackets:
-                    self._head -= 1
-                return self._pop(), None
-            elif this == "(" and not brackets and not parentheses:
-                parentheses = True
-                self._emit_text(this)
-            elif " " in this:                                                    ## Should be a more general whitespace check
+            elif " " in this:
                 before, after = this.split(" ", 1)
-                self._emit_text(before)
                 if brackets:
+                    self._emit_text(before)
                     self._emit(tokens.ExternalLinkSeparator())
                     self._emit_text(after)
                     self._context ^= contexts.EXT_LINK_URI
                     self._context |= contexts.EXT_LINK_TITLE
                     self._head += 1
-                    return self._parse(push=False), None
-                return self._pop(), " " + after
+                    return self._parse(push=False), None, 0
+                punct, tail = self._handle_free_link_text(punct, tail, before)
+                return self._pop(), tail + " " + after, 0
+            elif not brackets:
+                punct, tail = self._handle_free_link_text(punct, tail, this)
             else:
                 self._emit_text(this)
             self._head += 1
@@ -424,7 +455,7 @@ class Tokenizer(object):
             bad_context = self._context & contexts.INVALID_LINK
             if bad_context or not self._can_recurse():
                 raise BadRoute()
-            link, extra = self._really_parse_external_link(brackets)
+            link, extra, delta = self._really_parse_external_link(brackets)
         except BadRoute:
             self._head = reset
             if not brackets and self._context & contexts.DL_TERM:
@@ -438,6 +469,7 @@ class Tokenizer(object):
             self._emit(tokens.ExternalLinkOpen(brackets=brackets))
             self._emit_all(link)
             self._emit(tokens.ExternalLinkClose())
+            self._head += delta
             if extra:
                 self._emit_text(extra)
 

From 6eb72c56eb3219009f4f06b7a63f0b31d971dd9e Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 14:34:45 -0400
Subject: [PATCH 168/189] Some cleanup.

---
 mwparserfromhell/parser/tokenizer.py | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index e9768fa..2340077 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -342,10 +342,10 @@ class Tokenizer(object):
         valid = "abcdefghijklmnopqrstuvwxyz0123456789+.-"
         scheme = []
         try:
-            # Ugly, but we have to backtrack through the textbuffer looking for
-            # our scheme since it was just parsed as text:
-            for i in range(-1, -len(self._textbuffer) - 1, -1):
-                for char in reversed(self._textbuffer[i]):
+            # We have to backtrack through the textbuffer looking for our
+            # scheme since it was just parsed as text:
+            for chunk in reversed(self._textbuffer):
+                for char in reversed(chunk):
                     if char.isspace() or char in self.MARKERS:
                         raise StopIteration()
                     if char not in valid:
@@ -369,7 +369,7 @@ class Tokenizer(object):
         if "(" in this and ")" in punct:
             punct = punct[:-1]  # ')' is not longer valid punctuation
         if this.endswith(punct):
-            for i in range(-1, -len(this) - 1, -1):
+            for i in reversed(range(-len(this), 0)):
                 if i == -len(this) or this[i - 1] not in punct:
                     break
             stripped = this[:i]
@@ -403,7 +403,7 @@ class Tokenizer(object):
                     self._fail_route()
                 return self._pop(), tail, -1
             elif this == next == "{" and self._can_recurse():
-                if not brackets and tail:
+                if tail:
                     self._emit_text(tail)
                     tail = ""
                 self._parse_template_or_argument()
@@ -415,7 +415,7 @@ class Tokenizer(object):
             elif this == "]":
                 return self._pop(), tail, 0 if brackets else -1
             elif this == "&":
-                if not brackets and tail:
+                if tail:
                     self._emit_text(tail)
                     tail = ""
                 self._parse_entity()

From 7b84b3f0df31e634bc9390dae2f3539c3dc04d3c Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 15:01:59 -0400
Subject: [PATCH 169/189] Refactor out C's is_marker(); hooks for ext links.

---
 mwparserfromhell/parser/tokenizer.c | 77 ++++++++++++++++++-------------------
 mwparserfromhell/parser/tokenizer.h |  3 +-
 2 files changed, 39 insertions(+), 41 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 46df405..8a2d9f9 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -24,6 +24,20 @@ SOFTWARE.
 #include "tokenizer.h"
 
 /*
+    Determine whether the given Py_UNICODE is a marker.
+*/
+static int is_marker(Py_UNICODE this)
+{
+    int i;
+
+    for (i = 0; i < NUM_MARKERS; i++) {
+        if (*MARKERS[i] == this)
+            return 1;
+    }
+    return 0;
+}
+
+/*
     Given a context, return the heading level encoded within it.
 */
 static int heading_level_from_context(int n)
@@ -37,13 +51,13 @@ static int heading_level_from_context(int n)
 }
 
 /*
-    Call the given function in definitions.py, using 'tag' as a parameter, and
-    return its output as a bool.
+    Call the given function in definitions.py, using 'input' as a parameter,
+    and return its output as a bool.
 */
-static int call_def_func(const char* funcname, PyObject* tag)
+static int call_def_func(const char* funcname, PyObject* input)
 {
     PyObject* func = PyObject_GetAttrString(definitions, funcname);
-    PyObject* result = PyObject_CallFunctionObjArgs(func, tag, NULL);
+    PyObject* result = PyObject_CallFunctionObjArgs(func, input, NULL);
     int ans = (result == Py_True) ? 1 : 0;
 
     Py_DECREF(func);
@@ -1238,15 +1252,8 @@ Tokenizer_handle_tag_space(Tokenizer* self, TagData* data, Py_UNICODE text)
 static int Tokenizer_handle_tag_text(Tokenizer* self, Py_UNICODE text)
 {
     Py_UNICODE next = Tokenizer_READ(self, 1);
-    int i, is_marker = 0;
 
-    for (i = 0; i < NUM_MARKERS; i++) {
-        if (*MARKERS[i] == text) {
-            is_marker = 1;
-            break;
-        }
-    }
-    if (!is_marker || !Tokenizer_CAN_RECURSE(self))
+    if (!is_marker(text) || !Tokenizer_CAN_RECURSE(self))
         return Tokenizer_emit_char(self, text);
     else if (text == next && next == *"{")
         return Tokenizer_parse_template_or_argument(self);
@@ -1264,17 +1271,11 @@ static int
 Tokenizer_handle_tag_data(Tokenizer* self, TagData* data, Py_UNICODE chunk)
 {
     PyObject *trash;
-    int first_time, i, is_marker = 0, escaped;
+    int first_time, escaped;
 
     if (data->context & TAG_NAME) {
         first_time = !(data->context & TAG_NOTE_SPACE);
-        for (i = 0; i < NUM_MARKERS; i++) {
-            if (*MARKERS[i] == chunk) {
-                is_marker = 1;
-                break;
-            }
-        }
-        if (is_marker || (Py_UNICODE_ISSPACE(chunk) && first_time)) {
+        if (is_marker(chunk) || (Py_UNICODE_ISSPACE(chunk) && first_time)) {
             // Tags must start with text, not spaces
             Tokenizer_fail_route(self);
             return 0;
@@ -1623,7 +1624,6 @@ static int Tokenizer_handle_invalid_tag_start(Tokenizer* self)
     Textbuffer* buf;
     PyObject *name, *tag;
     Py_UNICODE this;
-    int is_marker, i;
 
     self->head += 2;
     buf = Textbuffer_new();
@@ -1631,14 +1631,7 @@ static int Tokenizer_handle_invalid_tag_start(Tokenizer* self)
         return -1;
     while (1) {
         this = Tokenizer_READ(self, pos);
-        is_marker = 0;
-        for (i = 0; i < NUM_MARKERS; i++) {
-            if (*MARKERS[i] == this) {
-                is_marker = 1;
-                break;
-            }
-        }
-        if (is_marker) {
+        if (is_marker(this)) {
             name = Textbuffer_render(buf);
             if (!name) {
                 Textbuffer_dealloc(buf);
@@ -2047,9 +2040,8 @@ static PyObject* Tokenizer_handle_end(Tokenizer* self, int context)
 */
 static int Tokenizer_verify_safe(Tokenizer* self, int context, Py_UNICODE data)
 {
-    if (context & LC_FAIL_NEXT) {
+    if (context & LC_FAIL_NEXT)
         return -1;
-    }
     if (context & LC_WIKILINK) {
         if (context & LC_WIKILINK_TEXT)
             return (data == *"[" && Tokenizer_READ(self, 1) == *"[") ? -1 : 0;
@@ -2059,6 +2051,8 @@ static int Tokenizer_verify_safe(Tokenizer* self, int context, Py_UNICODE data)
             return -1;
         return 0;
     }
+    if (context & LC_EXT_LINK_TITLE)
+        return (data == *"\n") ? -1 : 0;
     if (context & LC_TAG_CLOSE)
         return (data == *"<") ? -1 : 0;
     if (context & LC_TEMPLATE_NAME) {
@@ -2125,7 +2119,7 @@ static int Tokenizer_verify_safe(Tokenizer* self, int context, Py_UNICODE data)
 */
 static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
 {
-    int this_context, is_marker, i;
+    int this_context;
     Py_UNICODE this, next, next_next, last;
     PyObject* temp;
 
@@ -2145,14 +2139,7 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
                 return Tokenizer_fail_route(self);
             }
         }
-        is_marker = 0;
-        for (i = 0; i < NUM_MARKERS; i++) {
-            if (*MARKERS[i] == this) {
-                is_marker = 1;
-                break;
-            }
-        }
-        if (!is_marker) {
+        if (!is_marker(this)) {
             if (Tokenizer_emit_char(self, this))
                 return NULL;
             self->head++;
@@ -2205,6 +2192,16 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
         }
         else if (this == next && next == *"]" && this_context & LC_WIKILINK)
             return Tokenizer_handle_wikilink_end(self);
+        // else if (this == *"[") {
+        //     if (Tokenizer_parse_external_link(self, 1))
+        //         return NULL;
+        // }
+        // else if (this == *":" && !is_marker(last)) {
+        //     if (Tokenizer_parse_external_link(self, 0))
+        //         return NULL;
+        // }
+        // else if (this == *"]" && this_context & LC_EXT_LINK_TITLE)
+        //     return Tokenizer_pop(self);
         else if (this == *"=" && !(self->global & GL_HEADING)) {
             if (last == *"\n" || last == *"") {
                 if (Tokenizer_parse_heading(self))
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 5961dcc..e125068 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -238,12 +238,13 @@ typedef struct {
 #define Tokenizer_emit_first_kwargs(self, token, kwargs) Tokenizer_emit_token_kwargs(self, token, kwargs, 1)
 
 
-/* Macros for accessing HTML tag definitions: */
+/* Macros for accessing definitions: */
 
 #define GET_HTML_TAG(markup) (markup == *":" ? "dd" : markup == *";" ? "dt" : "li")
 #define IS_PARSABLE(tag) (call_def_func("is_parsable", tag))
 #define IS_SINGLE(tag) (call_def_func("is_single", tag))
 #define IS_SINGLE_ONLY(tag) (call_def_func("is_single_only", tag))
+#define IS_SCHEME(scheme) (call_def_func("is_scheme", scheme))
 
 
 /* Function prototypes: */

From a1948b06aaa05dd6585c4af9c254dfb966165e81 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 20:03:34 -0400
Subject: [PATCH 170/189] Tokenizer_parse_bracketed/free_uri_scheme(), other
 adjustments

---
 mwparserfromhell/parser/tokenizer.c | 315 ++++++++++++++++++++++++++++++++++--
 mwparserfromhell/parser/tokenizer.h |  12 +-
 2 files changed, 304 insertions(+), 23 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 8a2d9f9..80f4c56 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -51,13 +51,13 @@ static int heading_level_from_context(int n)
 }
 
 /*
-    Call the given function in definitions.py, using 'input' as a parameter,
-    and return its output as a bool.
+    Call the given function in definitions.py, using 'in1' and 'in2' as
+    parameters, and return its output as a bool.
 */
-static int call_def_func(const char* funcname, PyObject* input)
+static int call_def_func(const char* funcname, PyObject* in1, PyObject* in2)
 {
     PyObject* func = PyObject_GetAttrString(definitions, funcname);
-    PyObject* result = PyObject_CallFunctionObjArgs(func, input, NULL);
+    PyObject* result = PyObject_CallFunctionObjArgs(func, in1, in2, NULL);
     int ans = (result == Py_True) ? 1 : 0;
 
     Py_DECREF(func);
@@ -129,8 +129,7 @@ static int Textbuffer_write(Textbuffer** this, Py_UNICODE code)
         new->next = self;
         *this = self = new;
     }
-    self->data[self->size] = code;
-    self->size++;
+    self->data[self->size++] = code;
     return 0;
 }
 
@@ -822,6 +821,288 @@ static PyObject* Tokenizer_handle_wikilink_end(Tokenizer* self)
 }
 
 /*
+    Parse the URI scheme of a bracket-enclosed external link.
+*/
+static int Tokenizer_parse_bracketed_uri_scheme(Tokenizer* self)
+{
+    static const char* valid = "abcdefghijklmnopqrstuvwxyz0123456789+.-";
+    Textbuffer* buffer;
+    PyObject* scheme;
+    Py_UNICODE this;
+    int slashes, i;
+
+    if (Tokenizer_push(self, LC_EXT_LINK_URI))
+        return -1;
+    if (Tokenizer_READ(self, 0) == *"/" && Tokenizer_READ(self, 1) == *"/") {
+        if (Tokenizer_emit_text(self, "//"))
+            return -1;
+        self->head += 2;
+    }
+    else {
+        buffer = Textbuffer_new();
+        if (!buffer)
+            return -1;
+        while ((this = Tokenizer_READ(self, 0)) != *"") {
+            i = 0;
+            while (1) {
+                if (!valid[i])
+                    goto end_of_loop;
+                if (this == valid[i])
+                    break;
+                i++;
+            }
+            Textbuffer_write(&buffer, this);
+            if (Tokenizer_emit_char(self, this)) {
+                Textbuffer_dealloc(buffer);
+                return -1;
+            }
+            self->head++;
+        }
+        end_of_loop:
+        if (this != *":") {
+            Textbuffer_dealloc(buffer);
+            Tokenizer_fail_route(self);
+            return 0;
+        }
+        if (Tokenizer_emit_char(self, *":")) {
+            Textbuffer_dealloc(buffer);
+            return -1;
+        }
+        self->head++;
+        slashes = (Tokenizer_READ(self, 0) == *"/" &&
+                   Tokenizer_READ(self, 1) == *"/");
+        if (slashes) {
+            if (Tokenizer_emit_text(self, "//")) {
+                Textbuffer_dealloc(buffer);
+                return -1;
+            }
+            self->head += 2;
+        }
+        scheme = Textbuffer_render(buffer);
+        Textbuffer_dealloc(buffer);
+        if (!scheme)
+            return -1;
+        if (!IS_SCHEME(scheme, slashes ? Py_True : Py_False)) {
+            Py_DECREF(scheme);
+            Tokenizer_fail_route(self);
+            return 0;
+        }
+        Py_DECREF(scheme);
+    }
+    return 0;
+}
+
+/*
+    Parse the URI scheme of a free (no brackets) external link.
+*/
+static int Tokenizer_parse_free_uri_scheme(Tokenizer* self)
+{
+    static const char* valid = "abcdefghijklmnopqrstuvwxyz0123456789+.-";
+    Textbuffer *scheme_buffer = Textbuffer_new(), *temp_buffer;
+    PyObject *temp, *reversed, *scheme;
+    Py_UNICODE chunk;
+    int slashes, i, j;
+
+    if (!scheme_buffer)
+        return -1;
+    // We have to backtrack through the textbuffer looking for our scheme since
+    // it was just parsed as text:
+    temp_buffer = self->topstack->textbuffer;
+    while (temp_buffer) {
+        for (i = temp_buffer->size - 1; i >= 0; i++) {
+            chunk = temp_buffer->data[i];
+            if (Py_UNICODE_ISSPACE(chunk) || is_marker(chunk))
+                goto end_of_loop;
+            j = 0;
+            while (1) {
+                if (!valid[j]) {
+                    Textbuffer_dealloc(scheme_buffer);
+                    FAIL_ROUTE(0);
+                    return 0;
+                }
+                if (chunk == valid[j])
+                    break;
+                j++;
+            }
+            Textbuffer_write(&scheme_buffer, chunk);
+        }
+        temp_buffer = temp_buffer->next;
+    }
+    end_of_loop:
+    temp = Textbuffer_render(scheme_buffer);
+    if (!temp) {
+        Textbuffer_dealloc(scheme_buffer);
+        return -1;
+    }
+    reversed = PyDict_GetItemString(PyEval_GetBuiltins(), "reversed");
+    scheme = PyObject_CallFunctionObjArgs(reversed, temp, NULL);
+    Py_DECREF(temp);
+    if (!scheme) {
+        Textbuffer_dealloc(scheme_buffer);
+        return -1;
+    }
+    slashes = (Tokenizer_READ(self, 0) == *"/" &&
+               Tokenizer_READ(self, 1) == *"/");
+    if (!IS_SCHEME(scheme, slashes ? Py_True : Py_False)) {
+        Py_DECREF(scheme);
+        Textbuffer_dealloc(scheme_buffer);
+        FAIL_ROUTE(0);
+        return 0;
+    }
+    Py_DECREF(scheme);
+    if (Tokenizer_push(self, LC_EXT_LINK_URI)) {
+        Textbuffer_dealloc(scheme_buffer);
+        return -1;
+    }
+    while (temp_buffer) {
+        for (i = 0; i < temp_buffer->size; i++) {
+            if (Tokenizer_emit_char(self, temp_buffer->data[i])) {
+                Textbuffer_dealloc(scheme_buffer);
+                return -1;
+            }
+        }
+        temp_buffer = temp_buffer->next;
+    }
+    Textbuffer_dealloc(scheme_buffer);
+    if (Tokenizer_emit_char(self, *":"))
+        return -1;
+    if (slashes) {
+        if (Tokenizer_emit_text(self, "//"))
+            return -1;
+        self->head += 2;
+    }
+}
+
+/*
+    Handle text in a free external link, including trailing punctuation.
+*/
+static int
+Tokenizer_handle_free_link_text(Tokenizer* self, PyObject** punct,
+                                Textbuffer** tail, Py_UNICODE this)
+{
+    // if "(" in this and ")" in punct:
+    //     punct = punct[:-1]  # ')' is not longer valid punctuation
+    // if this.endswith(punct):
+    //     for i in reversed(range(-len(this), 0)):
+    //         if i == -len(this) or this[i - 1] not in punct:
+    //             break
+    //     stripped = this[:i]
+    //     if stripped and tail:
+    //         self._emit_text(tail)
+    //         tail = ""
+    //     tail += this[i:]
+    //     this = stripped
+    // elif tail:
+    //     self._emit_text(tail)
+    //     tail = ""
+    // self._emit_text(this)
+    // return punct, tail
+}
+
+/*
+    Really parse an external link.
+*/
+static PyObject*
+Tokenizer_really_parse_external_link(Tokenizer* self, int brackets)
+{
+    // if brackets:
+    //     self._parse_bracketed_uri_scheme()
+    //     invalid = ("\n", " ", "]")
+    // else:
+    //     self._parse_free_uri_scheme()
+    //     invalid = ("\n", " ", "[", "]")
+    //     punct = tuple(",;\.:!?)")
+    // if self._read() is self.END or self._read()[0] in invalid:
+    //     self._fail_route()
+    // tail = ""
+    // while True:
+    //     this, next = self._read(), self._read(1)
+    //     if this is self.END or this == "\n":
+    //         if brackets:
+    //             self._fail_route()
+    //         return self._pop(), tail, -1
+    //     elif this == next == "{" and self._can_recurse():
+    //         if tail:
+    //             self._emit_text(tail)
+    //             tail = ""
+    //         self._parse_template_or_argument()
+    //     elif this == "[":
+    //         if brackets:
+    //             self._emit_text("[")
+    //         else:
+    //             return self._pop(), tail, -1
+    //     elif this == "]":
+    //         return self._pop(), tail, 0 if brackets else -1
+    //     elif this == "&":
+    //         if tail:
+    //             self._emit_text(tail)
+    //             tail = ""
+    //         self._parse_entity()
+    //     elif " " in this:
+    //         before, after = this.split(" ", 1)
+    //         if brackets:
+    //             self._emit_text(before)
+    //             self._emit(tokens.ExternalLinkSeparator())
+    //             self._emit_text(after)
+    //             self._context ^= contexts.EXT_LINK_URI
+    //             self._context |= contexts.EXT_LINK_TITLE
+    //             self._head += 1
+    //             return self._parse(push=False), None, 0
+    //         punct, tail = self._handle_free_link_text(punct, tail, before)
+    //         return self._pop(), tail + " " + after, 0
+    //     elif not brackets:
+    //         punct, tail = self._handle_free_link_text(punct, tail, this)
+    //     else:
+    //         self._emit_text(this)
+    //     self._head += 1
+}
+
+/*
+    Remove the URI scheme of a new external link from the textbuffer.
+*/
+static int
+Tokenizer_remove_uri_scheme_from_textbuffer(Tokenizer* self, PyObject* scheme)
+{
+    // length = len(scheme)
+    // while length:
+    //     if length < len(self._textbuffer[-1]):
+    //         self._textbuffer[-1] = self._textbuffer[-1][:-length]
+    //         break
+    //     length -= len(self._textbuffer[-1])
+    //     self._textbuffer.pop()
+}
+
+/*
+    Parse an external link at the head of the wikicode string.
+*/
+static int Tokenizer_parse_external_link(Tokenizer* self, int brackets)
+{
+    // reset = self._head
+    // self._head += 1
+    // try:
+    //     bad_context = self._context & contexts.INVALID_LINK
+    //     if bad_context or not self._can_recurse():
+    //         raise BadRoute()
+    //     link, extra, delta = self._really_parse_external_link(brackets)
+    // except BadRoute:
+    //     self._head = reset
+    //     if not brackets and self._context & contexts.DL_TERM:
+    //         self._handle_dl_term()
+    //     else:
+    //         self._emit_text(self._read())
+    // else:
+    //     if not brackets:
+    //         scheme = link[0].text.split(":", 1)[0]
+    //         self._remove_uri_scheme_from_textbuffer(scheme)
+    //     self._emit(tokens.ExternalLinkOpen(brackets=brackets))
+    //     self._emit_all(link)
+    //     self._emit(tokens.ExternalLinkClose())
+    //     self._head += delta
+    //     if extra:
+    //         self._emit_text(extra)
+}
+
+/*
     Parse a section heading at the head of the wikicode string.
 */
 static int Tokenizer_parse_heading(Tokenizer* self)
@@ -1978,9 +2259,9 @@ static int Tokenizer_handle_hr(Tokenizer* self)
         self->head++;
     }
     markup = Textbuffer_render(buffer);
+    Textbuffer_dealloc(buffer);
     if (!markup)
         return -1;
-    Textbuffer_dealloc(buffer);
     kwargs = PyDict_New();
     if (!kwargs)
         return -1;
@@ -2192,16 +2473,16 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
         }
         else if (this == next && next == *"]" && this_context & LC_WIKILINK)
             return Tokenizer_handle_wikilink_end(self);
-        // else if (this == *"[") {
-        //     if (Tokenizer_parse_external_link(self, 1))
-        //         return NULL;
-        // }
-        // else if (this == *":" && !is_marker(last)) {
-        //     if (Tokenizer_parse_external_link(self, 0))
-        //         return NULL;
-        // }
-        // else if (this == *"]" && this_context & LC_EXT_LINK_TITLE)
-        //     return Tokenizer_pop(self);
+        else if (this == *"[") {
+            if (Tokenizer_parse_external_link(self, 1))
+                return NULL;
+        }
+        else if (this == *":" && !is_marker(last)) {
+            if (Tokenizer_parse_external_link(self, 0))
+                return NULL;
+        }
+        else if (this == *"]" && this_context & LC_EXT_LINK_TITLE)
+            return Tokenizer_pop(self);
         else if (this == *"=" && !(self->global & GL_HEADING)) {
             if (last == *"\n" || last == *"") {
                 if (Tokenizer_parse_heading(self))
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index e125068..a49e896 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -122,7 +122,7 @@ static PyObject* TagCloseClose;
 #define LC_WIKILINK_TEXT        0x00000040
 
 #define LC_EXT_LINK             0x00000380
-#define LC_EXT_LINK_URL         0x00000080
+#define LC_EXT_LINK_URI         0x00000080
 #define LC_EXT_LINK_TITLE       0x00000100
 #define LC_EXT_LINK_BRACKETS    0x00000200
 
@@ -165,7 +165,7 @@ static PyObject* TagCloseClose;
 #define AGG_FAIL         (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK | LC_HEADING | LC_TAG | LC_STYLE)
 #define AGG_UNSAFE       (LC_TEMPLATE_NAME | LC_WIKILINK | LC_EXT_LINK_TITLE | LC_TEMPLATE_PARAM_KEY | LC_ARGUMENT_NAME)
 #define AGG_DOUBLE       (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE)
-#define AGG_INVALID_LINK (LC_TEMPLATE_NAME | LC_ARGUMENT_NAME | LC_WIKILINK | LC_EXT_LINK_URL)
+#define AGG_INVALID_LINK (LC_TEMPLATE_NAME | LC_ARGUMENT_NAME | LC_WIKILINK | LC_EXT_LINK_URI)
 
 /* Tag contexts: */
 
@@ -241,10 +241,10 @@ typedef struct {
 /* Macros for accessing definitions: */
 
 #define GET_HTML_TAG(markup) (markup == *":" ? "dd" : markup == *";" ? "dt" : "li")
-#define IS_PARSABLE(tag) (call_def_func("is_parsable", tag))
-#define IS_SINGLE(tag) (call_def_func("is_single", tag))
-#define IS_SINGLE_ONLY(tag) (call_def_func("is_single_only", tag))
-#define IS_SCHEME(scheme) (call_def_func("is_scheme", scheme))
+#define IS_PARSABLE(tag) (call_def_func("is_parsable", tag, NULL))
+#define IS_SINGLE(tag) (call_def_func("is_single", tag, NULL))
+#define IS_SINGLE_ONLY(tag) (call_def_func("is_single_only", tag, NULL))
+#define IS_SCHEME(scheme, slashes) (call_def_func("is_scheme", scheme, slashes))
 
 
 /* Function prototypes: */

From 6ecf15cad4c2d0f271e0de67d54869cb35f2d3b2 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 20:41:45 -0400
Subject: [PATCH 171/189] Tokenizer_parse_external_link()

---
 mwparserfromhell/parser/tokenizer.c | 93 ++++++++++++++++++++++++-------------
 mwparserfromhell/parser/tokenizer.h |  1 +
 2 files changed, 62 insertions(+), 32 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 80f4c56..1681398 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -358,7 +358,7 @@ static void* Tokenizer_fail_route(Tokenizer* self)
 }
 
 /*
-    Write a token to the end of the current token stack.
+    Write a token to the current token stack.
 */
 static int Tokenizer_emit_token(Tokenizer* self, PyObject* token, int first)
 {
@@ -379,7 +379,8 @@ static int Tokenizer_emit_token(Tokenizer* self, PyObject* token, int first)
 }
 
 /*
-    Write a token to the end of the current token stack.
+    Write a token to the current token stack, with kwargs. Steals a reference
+    to kwargs.
 */
 static int Tokenizer_emit_token_kwargs(Tokenizer* self, PyObject* token,
                                        PyObject* kwargs, int first)
@@ -997,13 +998,15 @@ Tokenizer_handle_free_link_text(Tokenizer* self, PyObject** punct,
     //     tail = ""
     // self._emit_text(this)
     // return punct, tail
+    return 0;
 }
 
 /*
     Really parse an external link.
 */
 static PyObject*
-Tokenizer_really_parse_external_link(Tokenizer* self, int brackets)
+Tokenizer_really_parse_external_link(Tokenizer* self, int brackets,
+                                     char** extra)
 {
     // if brackets:
     //     self._parse_bracketed_uri_scheme()
@@ -1020,7 +1023,8 @@ Tokenizer_really_parse_external_link(Tokenizer* self, int brackets)
     //     if this is self.END or this == "\n":
     //         if brackets:
     //             self._fail_route()
-    //         return self._pop(), tail, -1
+    //         self.head -= 1
+    //         return self._pop(), tail
     //     elif this == next == "{" and self._can_recurse():
     //         if tail:
     //             self._emit_text(tail)
@@ -1030,9 +1034,12 @@ Tokenizer_really_parse_external_link(Tokenizer* self, int brackets)
     //         if brackets:
     //             self._emit_text("[")
     //         else:
-    //             return self._pop(), tail, -1
+    //             self._head -= 1
+    //             return self._pop(), tail
     //     elif this == "]":
-    //         return self._pop(), tail, 0 if brackets else -1
+    //         if not brackets:
+    //             self._head -= 1
+    //         return self._pop(), tail
     //     elif this == "&":
     //         if tail:
     //             self._emit_text(tail)
@@ -1047,22 +1054,24 @@ Tokenizer_really_parse_external_link(Tokenizer* self, int brackets)
     //             self._context ^= contexts.EXT_LINK_URI
     //             self._context |= contexts.EXT_LINK_TITLE
     //             self._head += 1
-    //             return self._parse(push=False), None, 0
+    //             return self._parse(push=False), None
     //         punct, tail = self._handle_free_link_text(punct, tail, before)
-    //         return self._pop(), tail + " " + after, 0
+    //         return self._pop(), tail + " " + after
     //     elif not brackets:
     //         punct, tail = self._handle_free_link_text(punct, tail, this)
     //     else:
     //         self._emit_text(this)
     //     self._head += 1
+    return NULL;
 }
 
 /*
     Remove the URI scheme of a new external link from the textbuffer.
 */
 static int
-Tokenizer_remove_uri_scheme_from_textbuffer(Tokenizer* self, PyObject* scheme)
+Tokenizer_remove_uri_scheme_from_textbuffer(Tokenizer* self, PyObject* link)
 {
+    // scheme = link[0].text.split(":", 1)[0]
     // length = len(scheme)
     // while length:
     //     if length < len(self._textbuffer[-1]):
@@ -1070,6 +1079,7 @@ Tokenizer_remove_uri_scheme_from_textbuffer(Tokenizer* self, PyObject* scheme)
     //         break
     //     length -= len(self._textbuffer[-1])
     //     self._textbuffer.pop()
+    return 0;
 }
 
 /*
@@ -1077,29 +1087,48 @@ Tokenizer_remove_uri_scheme_from_textbuffer(Tokenizer* self, PyObject* scheme)
 */
 static int Tokenizer_parse_external_link(Tokenizer* self, int brackets)
 {
-    // reset = self._head
-    // self._head += 1
-    // try:
-    //     bad_context = self._context & contexts.INVALID_LINK
-    //     if bad_context or not self._can_recurse():
-    //         raise BadRoute()
-    //     link, extra, delta = self._really_parse_external_link(brackets)
-    // except BadRoute:
-    //     self._head = reset
-    //     if not brackets and self._context & contexts.DL_TERM:
-    //         self._handle_dl_term()
-    //     else:
-    //         self._emit_text(self._read())
-    // else:
-    //     if not brackets:
-    //         scheme = link[0].text.split(":", 1)[0]
-    //         self._remove_uri_scheme_from_textbuffer(scheme)
-    //     self._emit(tokens.ExternalLinkOpen(brackets=brackets))
-    //     self._emit_all(link)
-    //     self._emit(tokens.ExternalLinkClose())
-    //     self._head += delta
-    //     if extra:
-    //         self._emit_text(extra)
+    Py_ssize_t reset = self->head;
+    PyObject *link, *kwargs;
+    char* extra;
+
+    self->head++;
+    if (self->topstack->context & AGG_INVALID_LINK || !(Tokenizer_CAN_RECURSE(self))) {
+        FAIL_ROUTE(0);
+    }
+    else
+        link = Tokenizer_really_parse_external_link(self, brackets, &extra);
+    if (BAD_ROUTE) {
+        self->head = reset;
+        if (!brackets && self->topstack->context & LC_DLTERM)
+            return Tokenizer_handle_dl_term(self);
+        return Tokenizer_emit_char(self, Tokenizer_READ(self, 0));
+    }
+    if (!link)
+        return -1;
+    if (!brackets) {
+        if (Tokenizer_remove_uri_scheme_from_textbuffer(self, link))
+            return -1;
+    }
+    kwargs = PyDict_New();
+    if (!kwargs) {
+        Py_DECREF(link);
+        return -1;
+    }
+    PyDict_SetItemString(kwargs, "brackets", brackets ? Py_True : Py_False);
+    if (Tokenizer_emit_kwargs(self, ExternalLinkOpen, kwargs)) {
+        Py_DECREF(link);
+        return -1;
+    }
+    if (Tokenizer_emit_all(self, link)) {
+        Py_DECREF(link);
+        return -1;
+    }
+    Py_DECREF(link);
+    if (Tokenizer_emit(self, ExternalLinkClose))
+        return -1;
+    if (extra)
+        return Tokenizer_emit_text(self, extra);
+    return 0;
 }
 
 /*
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index a49e896..0e41a85 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -258,6 +258,7 @@ static void TagData_dealloc(TagData*);
 static PyObject* Tokenizer_new(PyTypeObject*, PyObject*, PyObject*);
 static void Tokenizer_dealloc(Tokenizer*);
 static int Tokenizer_init(Tokenizer*, PyObject*, PyObject*);
+static int Tokenizer_handle_dl_term(Tokenizer*);
 static int Tokenizer_parse_tag(Tokenizer*);
 static PyObject* Tokenizer_parse(Tokenizer*, int, int);
 static PyObject* Tokenizer_tokenize(Tokenizer*, PyObject*);

From 7dcfa3fe929c3344994517fb28e3002d844a834d Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Thu, 22 Aug 2013 22:15:49 -0400
Subject: [PATCH 172/189] Implement Tokenizer_really_parse_external_link(),
 some other fixes

---
 mwparserfromhell/definitions.py     |   4 +-
 mwparserfromhell/parser/tokenizer.c | 228 ++++++++++++++++++++++--------------
 mwparserfromhell/parser/tokenizer.h |  10 +-
 3 files changed, 146 insertions(+), 96 deletions(-)

diff --git a/mwparserfromhell/definitions.py b/mwparserfromhell/definitions.py
index ef8255e..9449bcb 100644
--- a/mwparserfromhell/definitions.py
+++ b/mwparserfromhell/definitions.py
@@ -81,8 +81,10 @@ def is_single_only(tag):
     """Return whether or not the given *tag* must exist without a close tag."""
     return tag.lower() in SINGLE_ONLY
 
-def is_scheme(scheme, slashes=True):
+def is_scheme(scheme, slashes=True, reverse=False):
     """Return whether *scheme* is valid for external links."""
+    if reverse:  # Convenience for C
+        scheme = scheme[::-1]
     scheme = scheme.lower()
     if slashes:
         return scheme in URI_SCHEMES
diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 1681398..6f0c1a6 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -51,13 +51,14 @@ static int heading_level_from_context(int n)
 }
 
 /*
-    Call the given function in definitions.py, using 'in1' and 'in2' as
+    Call the given function in definitions.py, using 'in1', 'in2', and 'in3' as
     parameters, and return its output as a bool.
 */
-static int call_def_func(const char* funcname, PyObject* in1, PyObject* in2)
+static int call_def_func(const char* funcname, PyObject* in1, PyObject* in2,
+                         PyObject* in3)
 {
     PyObject* func = PyObject_GetAttrString(definitions, funcname);
-    PyObject* result = PyObject_CallFunctionObjArgs(func, in1, in2, NULL);
+    PyObject* result = PyObject_CallFunctionObjArgs(func, in1, in2, in3, NULL);
     int ans = (result == Py_True) ? 1 : 0;
 
     Py_DECREF(func);
@@ -431,6 +432,28 @@ static int Tokenizer_emit_text(Tokenizer* self, const char* text)
 }
 
 /*
+    Write the contents of another textbuffer to the current textbuffer,
+    deallocating it in the process.
+*/
+static int Tokenizer_emit_textbuffer(Tokenizer* self, Textbuffer* buffer)
+{
+    Textbuffer *original = buffer;
+    int i;
+
+    while (buffer) {
+        for (i = 0; i < buffer->size; i++) {
+            if (Tokenizer_emit_char(self, buffer->data[i])) {
+                Textbuffer_dealloc(original);
+                return -1;
+            }
+        }
+        buffer = buffer->next;
+    }
+    Textbuffer_dealloc(original);
+    return 0;
+}
+
+/*
     Write a series of tokens to the current stack at once.
 */
 static int Tokenizer_emit_all(Tokenizer* self, PyObject* tokenlist)
@@ -883,7 +906,7 @@ static int Tokenizer_parse_bracketed_uri_scheme(Tokenizer* self)
         Textbuffer_dealloc(buffer);
         if (!scheme)
             return -1;
-        if (!IS_SCHEME(scheme, slashes ? Py_True : Py_False)) {
+        if (!IS_SCHEME(scheme, slashes, 0)) {
             Py_DECREF(scheme);
             Tokenizer_fail_route(self);
             return 0;
@@ -900,7 +923,7 @@ static int Tokenizer_parse_free_uri_scheme(Tokenizer* self)
 {
     static const char* valid = "abcdefghijklmnopqrstuvwxyz0123456789+.-";
     Textbuffer *scheme_buffer = Textbuffer_new(), *temp_buffer;
-    PyObject *temp, *reversed, *scheme;
+    PyObject *scheme;
     Py_UNICODE chunk;
     int slashes, i, j;
 
@@ -930,21 +953,14 @@ static int Tokenizer_parse_free_uri_scheme(Tokenizer* self)
         temp_buffer = temp_buffer->next;
     }
     end_of_loop:
-    temp = Textbuffer_render(scheme_buffer);
-    if (!temp) {
-        Textbuffer_dealloc(scheme_buffer);
-        return -1;
-    }
-    reversed = PyDict_GetItemString(PyEval_GetBuiltins(), "reversed");
-    scheme = PyObject_CallFunctionObjArgs(reversed, temp, NULL);
-    Py_DECREF(temp);
+    scheme = Textbuffer_render(scheme_buffer);
     if (!scheme) {
         Textbuffer_dealloc(scheme_buffer);
         return -1;
     }
     slashes = (Tokenizer_READ(self, 0) == *"/" &&
                Tokenizer_READ(self, 1) == *"/");
-    if (!IS_SCHEME(scheme, slashes ? Py_True : Py_False)) {
+    if (!IS_SCHEME(scheme, slashes, 1)) {
         Py_DECREF(scheme);
         Textbuffer_dealloc(scheme_buffer);
         FAIL_ROUTE(0);
@@ -955,16 +971,8 @@ static int Tokenizer_parse_free_uri_scheme(Tokenizer* self)
         Textbuffer_dealloc(scheme_buffer);
         return -1;
     }
-    while (temp_buffer) {
-        for (i = 0; i < temp_buffer->size; i++) {
-            if (Tokenizer_emit_char(self, temp_buffer->data[i])) {
-                Textbuffer_dealloc(scheme_buffer);
-                return -1;
-            }
-        }
-        temp_buffer = temp_buffer->next;
-    }
-    Textbuffer_dealloc(scheme_buffer);
+    if (Tokenizer_emit_textbuffer(self, scheme_buffer))
+        return -1;
     if (Tokenizer_emit_char(self, *":"))
         return -1;
     if (slashes) {
@@ -972,15 +980,25 @@ static int Tokenizer_parse_free_uri_scheme(Tokenizer* self)
             return -1;
         self->head += 2;
     }
+    return 0;
 }
 
 /*
     Handle text in a free external link, including trailing punctuation.
 */
 static int
-Tokenizer_handle_free_link_text(Tokenizer* self, PyObject** punct,
+Tokenizer_handle_free_link_text(Tokenizer* self, int* parens,
                                 Textbuffer** tail, Py_UNICODE this)
 {
+    #define PUSH_TAIL_BUFFER(tail, error)          \
+        if ((tail)->size || (tail)->next) {        \
+            Tokenizer_emit_textbuffer(self, tail); \
+            tail = Textbuffer_new();               \
+            if (!(tail))                           \
+                return error;                      \
+        }
+
+    // punct = tuple(",;\.:!?)")
     // if "(" in this and ")" in punct:
     //     punct = punct[:-1]  # ')' is not longer valid punctuation
     // if this.endswith(punct):
@@ -998,7 +1016,7 @@ Tokenizer_handle_free_link_text(Tokenizer* self, PyObject** punct,
     //     tail = ""
     // self._emit_text(this)
     // return punct, tail
-    return 0;
+    return Tokenizer_emit_char(self, this);
 }
 
 /*
@@ -1006,63 +1024,76 @@ Tokenizer_handle_free_link_text(Tokenizer* self, PyObject** punct,
 */
 static PyObject*
 Tokenizer_really_parse_external_link(Tokenizer* self, int brackets,
-                                     char** extra)
-{
-    // if brackets:
-    //     self._parse_bracketed_uri_scheme()
-    //     invalid = ("\n", " ", "]")
-    // else:
-    //     self._parse_free_uri_scheme()
-    //     invalid = ("\n", " ", "[", "]")
-    //     punct = tuple(",;\.:!?)")
-    // if self._read() is self.END or self._read()[0] in invalid:
-    //     self._fail_route()
-    // tail = ""
-    // while True:
-    //     this, next = self._read(), self._read(1)
-    //     if this is self.END or this == "\n":
-    //         if brackets:
-    //             self._fail_route()
-    //         self.head -= 1
-    //         return self._pop(), tail
-    //     elif this == next == "{" and self._can_recurse():
-    //         if tail:
-    //             self._emit_text(tail)
-    //             tail = ""
-    //         self._parse_template_or_argument()
-    //     elif this == "[":
-    //         if brackets:
-    //             self._emit_text("[")
-    //         else:
-    //             self._head -= 1
-    //             return self._pop(), tail
-    //     elif this == "]":
-    //         if not brackets:
-    //             self._head -= 1
-    //         return self._pop(), tail
-    //     elif this == "&":
-    //         if tail:
-    //             self._emit_text(tail)
-    //             tail = ""
-    //         self._parse_entity()
-    //     elif " " in this:
-    //         before, after = this.split(" ", 1)
-    //         if brackets:
-    //             self._emit_text(before)
-    //             self._emit(tokens.ExternalLinkSeparator())
-    //             self._emit_text(after)
-    //             self._context ^= contexts.EXT_LINK_URI
-    //             self._context |= contexts.EXT_LINK_TITLE
-    //             self._head += 1
-    //             return self._parse(push=False), None
-    //         punct, tail = self._handle_free_link_text(punct, tail, before)
-    //         return self._pop(), tail + " " + after
-    //     elif not brackets:
-    //         punct, tail = self._handle_free_link_text(punct, tail, this)
-    //     else:
-    //         self._emit_text(this)
-    //     self._head += 1
-    return NULL;
+                                     Textbuffer** extra)
+{
+    Py_UNICODE this, next;
+    int parens = 0;
+
+    if (brackets ? Tokenizer_parse_bracketed_uri_scheme(self) :
+                   Tokenizer_parse_free_uri_scheme(self))
+        return NULL;
+    if (BAD_ROUTE)
+        return NULL;
+    this = Tokenizer_READ(self, 0);
+    if (this == *"" || this == *"\n" || this == *" " || this == *"]")
+        return Tokenizer_fail_route(self);
+    if (!brackets && this == *"[")
+        return Tokenizer_fail_route(self);
+    while (1) {
+        this = Tokenizer_READ(self, 0);
+        next = Tokenizer_READ(self, 1);
+        if (this == *"" || this == *"\n") {
+            if (brackets)
+                return Tokenizer_fail_route(self);
+            self->head--;
+            return Tokenizer_pop(self);
+        }
+        if (this == *"{" && next == *"{" && Tokenizer_CAN_RECURSE(self)) {
+            PUSH_TAIL_BUFFER(*extra, NULL)
+            if (Tokenizer_parse_template_or_argument(self))
+                return NULL;
+        }
+        else if (this == *"[") {
+            if (!brackets) {
+                self->head--;
+                return Tokenizer_pop(self);
+            }
+            if (Tokenizer_emit_char(self, *"["))
+                return NULL;
+        }
+        else if (this == *"]") {
+            if (!brackets)
+                self->head--;
+            return Tokenizer_pop(self);
+        }
+        else if (this == *"&") {
+            PUSH_TAIL_BUFFER(*extra, NULL)
+            if (Tokenizer_parse_entity(self))
+                return NULL;
+        }
+        else if (this == *" ") {
+            if (brackets) {
+                if (Tokenizer_emit(self, ExternalLinkSeparator))
+                    return NULL;
+                self->topstack->context ^= LC_EXT_LINK_URI;
+                self->topstack->context |= LC_EXT_LINK_TITLE;
+                self->head++;
+                return Tokenizer_parse(self, 0, 0);
+            }
+            if (Textbuffer_write(extra, *" "))
+                return NULL;
+            return Tokenizer_pop(self);
+        }
+        else if (!brackets) {
+            if (Tokenizer_handle_free_link_text(self, &parens, extra, this))
+                return NULL;
+        }
+        else {
+            if (Tokenizer_emit_char(self, this))
+                return NULL;
+        }
+        self->head++;
+    }
 }
 
 /*
@@ -1089,45 +1120,60 @@ static int Tokenizer_parse_external_link(Tokenizer* self, int brackets)
 {
     Py_ssize_t reset = self->head;
     PyObject *link, *kwargs;
-    char* extra;
+    Textbuffer *extra;
 
     self->head++;
-    if (self->topstack->context & AGG_INVALID_LINK || !(Tokenizer_CAN_RECURSE(self))) {
+    #define INVALID_CONTEXT self->topstack->context & AGG_INVALID_LINK
+    if (INVALID_CONTEXT || !(Tokenizer_CAN_RECURSE(self))) {
         FAIL_ROUTE(0);
     }
-    else
+    else {
+        extra = Textbuffer_new();
+        if (!extra)
+            return -1;
         link = Tokenizer_really_parse_external_link(self, brackets, &extra);
+    }
     if (BAD_ROUTE) {
         self->head = reset;
+        Textbuffer_dealloc(extra);
         if (!brackets && self->topstack->context & LC_DLTERM)
             return Tokenizer_handle_dl_term(self);
         return Tokenizer_emit_char(self, Tokenizer_READ(self, 0));
     }
-    if (!link)
+    if (!link) {
+        Textbuffer_dealloc(extra);
         return -1;
+    }
     if (!brackets) {
-        if (Tokenizer_remove_uri_scheme_from_textbuffer(self, link))
+        if (Tokenizer_remove_uri_scheme_from_textbuffer(self, link)) {
+            Textbuffer_dealloc(extra);
             return -1;
+        }
     }
     kwargs = PyDict_New();
     if (!kwargs) {
+        Textbuffer_dealloc(extra);
         Py_DECREF(link);
         return -1;
     }
     PyDict_SetItemString(kwargs, "brackets", brackets ? Py_True : Py_False);
     if (Tokenizer_emit_kwargs(self, ExternalLinkOpen, kwargs)) {
+        Textbuffer_dealloc(extra);
         Py_DECREF(link);
         return -1;
     }
     if (Tokenizer_emit_all(self, link)) {
+        Textbuffer_dealloc(extra);
         Py_DECREF(link);
         return -1;
     }
     Py_DECREF(link);
-    if (Tokenizer_emit(self, ExternalLinkClose))
+    if (Tokenizer_emit(self, ExternalLinkClose)) {
+        Textbuffer_dealloc(extra);
         return -1;
-    if (extra)
-        return Tokenizer_emit_text(self, extra);
+    }
+    if (extra->size || extra->next)
+        return Tokenizer_emit_textbuffer(self, extra);
     return 0;
 }
 
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index 0e41a85..e437814 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -241,10 +241,11 @@ typedef struct {
 /* Macros for accessing definitions: */
 
 #define GET_HTML_TAG(markup) (markup == *":" ? "dd" : markup == *";" ? "dt" : "li")
-#define IS_PARSABLE(tag) (call_def_func("is_parsable", tag, NULL))
-#define IS_SINGLE(tag) (call_def_func("is_single", tag, NULL))
-#define IS_SINGLE_ONLY(tag) (call_def_func("is_single_only", tag, NULL))
-#define IS_SCHEME(scheme, slashes) (call_def_func("is_scheme", scheme, slashes))
+#define IS_PARSABLE(tag) (call_def_func("is_parsable", tag, NULL, NULL))
+#define IS_SINGLE(tag) (call_def_func("is_single", tag, NULL, NULL))
+#define IS_SINGLE_ONLY(tag) (call_def_func("is_single_only", tag, NULL, NULL))
+#define IS_SCHEME(scheme, slashes, reverse) \
+    (call_def_func("is_scheme", scheme, slashes ? Py_True : Py_False, reverse ? Py_True : Py_False))
 
 
 /* Function prototypes: */
@@ -258,6 +259,7 @@ static void TagData_dealloc(TagData*);
 static PyObject* Tokenizer_new(PyTypeObject*, PyObject*, PyObject*);
 static void Tokenizer_dealloc(Tokenizer*);
 static int Tokenizer_init(Tokenizer*, PyObject*, PyObject*);
+static int Tokenizer_parse_entity(Tokenizer*);
 static int Tokenizer_handle_dl_term(Tokenizer*);
 static int Tokenizer_parse_tag(Tokenizer*);
 static PyObject* Tokenizer_parse(Tokenizer*, int, int);

From c1b502bbe6405f408d4d98bc85154fd338443ce8 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 23 Aug 2013 01:24:35 -0400
Subject: [PATCH 173/189] Finish external links implementation.

---
 mwparserfromhell/parser/tokenizer.c | 61 +++++++++++++++++++++----------------
 1 file changed, 34 insertions(+), 27 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 6f0c1a6..6310523 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -80,7 +80,7 @@ static PyObject* strip_tag_name(PyObject* token)
     Py_DECREF(text);
     if (!rstripped)
         return NULL;
-    lowered = PyObject_CallMethod(rstripped, "rstrip", NULL);
+    lowered = PyObject_CallMethod(rstripped, "lower", NULL);
     Py_DECREF(rstripped);
     return lowered;
 }
@@ -998,24 +998,14 @@ Tokenizer_handle_free_link_text(Tokenizer* self, int* parens,
                 return error;                      \
         }
 
-    // punct = tuple(",;\.:!?)")
-    // if "(" in this and ")" in punct:
-    //     punct = punct[:-1]  # ')' is not longer valid punctuation
-    // if this.endswith(punct):
-    //     for i in reversed(range(-len(this), 0)):
-    //         if i == -len(this) or this[i - 1] not in punct:
-    //             break
-    //     stripped = this[:i]
-    //     if stripped and tail:
-    //         self._emit_text(tail)
-    //         tail = ""
-    //     tail += this[i:]
-    //     this = stripped
-    // elif tail:
-    //     self._emit_text(tail)
-    //     tail = ""
-    // self._emit_text(this)
-    // return punct, tail
+    if (this == *"(" && !(*parens))
+        *parens = 1;
+    else if (this == *"," || this == *";" || this == *"\\" || this == *"." ||
+             this == *":" || this == *"!" || this == *"?" ||
+             (!(*parens) && this == *")"))
+        return Textbuffer_write(tail, this);
+    else
+        PUSH_TAIL_BUFFER(*tail, -1)
     return Tokenizer_emit_char(self, this);
 }
 
@@ -1102,14 +1092,31 @@ Tokenizer_really_parse_external_link(Tokenizer* self, int brackets,
 static int
 Tokenizer_remove_uri_scheme_from_textbuffer(Tokenizer* self, PyObject* link)
 {
-    // scheme = link[0].text.split(":", 1)[0]
-    // length = len(scheme)
-    // while length:
-    //     if length < len(self._textbuffer[-1]):
-    //         self._textbuffer[-1] = self._textbuffer[-1][:-length]
-    //         break
-    //     length -= len(self._textbuffer[-1])
-    //     self._textbuffer.pop()
+    PyObject *text = PyObject_GetAttrString(PyList_GET_ITEM(link, 0), "text"),
+             *split, *scheme;
+    Py_ssize_t length;
+    Textbuffer* temp;
+
+    if (!text)
+        return -1;
+    split = PyObject_CallMethod(text, "split", "si", ":", 1);
+    Py_DECREF(text);
+    if (!split)
+        return -1;
+    scheme = PyList_GET_ITEM(split, 0);
+    length = PyUnicode_GET_SIZE(scheme);
+    while (length) {
+        temp = self->topstack->textbuffer;
+        if (length <= temp->size) {
+            temp->size -= length;
+            break;
+        }
+        length -= temp->size;
+        self->topstack->textbuffer = temp->next;
+        free(temp->data);
+        free(temp);
+    }
+    Py_DECREF(split);
     return 0;
 }
 

From b9324eb658eda01a874d18cf193b6647ba3d0e5e Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 23 Aug 2013 02:29:00 -0400
Subject: [PATCH 174/189] Fix Python tokenizer to not generate empty Text
 tokens.

---
 mwparserfromhell/parser/tokenizer.py  | 3 ++-
 tests/tokenizer/external_links.mwtest | 2 +-
 2 files changed, 3 insertions(+), 2 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 2340077..2c8d6d7 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -424,7 +424,8 @@ class Tokenizer(object):
                 if brackets:
                     self._emit_text(before)
                     self._emit(tokens.ExternalLinkSeparator())
-                    self._emit_text(after)
+                    if after:
+                        self._emit_text(after)
                     self._context ^= contexts.EXT_LINK_URI
                     self._context |= contexts.EXT_LINK_TITLE
                     self._head += 1
diff --git a/tests/tokenizer/external_links.mwtest b/tests/tokenizer/external_links.mwtest
index b517ada..6666c05 100644
--- a/tests/tokenizer/external_links.mwtest
+++ b/tests/tokenizer/external_links.mwtest
@@ -15,7 +15,7 @@ output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com/"), Exte
 name:   brackets_space
 label:  basic external link in brackets, with a space after
 input:  "[http://example.com/ ]"
-output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com/"), ExternalLinkSeparator(), Text(text=""), ExternalLinkClose()]
+output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com/"), ExternalLinkSeparator(), ExternalLinkClose()]
 
 ---
 

From 072b956a073e15ec164edd971e156cd256a37d8a Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 23 Aug 2013 02:29:51 -0400
Subject: [PATCH 175/189] Make a couple tests harder.

---
 tests/tokenizer/external_links.mwtest | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/tests/tokenizer/external_links.mwtest b/tests/tokenizer/external_links.mwtest
index 6666c05..af7a570 100644
--- a/tests/tokenizer/external_links.mwtest
+++ b/tests/tokenizer/external_links.mwtest
@@ -91,8 +91,8 @@ output: [ExternalLinkOpen(brackets=False), Text(text="http://example.com"), Exte
 
 name:   colons_after
 label:  colons after a free link that are excluded
-input:  "http://example.com/foo:bar:::baz:::"
-output: [ExternalLinkOpen(brackets=False), Text(text="http://example.com/foo:bar:::baz"), ExternalLinkClose(), Text(text=":::")]
+input:  "http://example.com/foo:bar.:;baz!?,"
+output: [ExternalLinkOpen(brackets=False), Text(text="http://example.com/foo:bar.:;baz"), ExternalLinkClose(), Text(text="!?,")]
 
 ---
 
@@ -126,8 +126,8 @@ output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com."), Exte
 
 name:   brackets_colons_after
 label:  colons after a bracket-enclosed link that are included
-input:  "[http://example.com/foo:bar:::baz::: Example]"
-output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com/foo:bar:::baz:::"), ExternalLinkSeparator(), Text(text="Example"), ExternalLinkClose()]
+input:  "[http://example.com/foo:bar.:;baz!?, Example]"
+output: [ExternalLinkOpen(brackets=True), Text(text="http://example.com/foo:bar.:;baz!?,"), ExternalLinkSeparator(), Text(text="Example"), ExternalLinkClose()]
 
 ---
 

From 2561cf5b5e94ee7df7878b879bcf2354e074b255 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 23 Aug 2013 02:30:27 -0400
Subject: [PATCH 176/189] Fix all bugs in C implementation of external links.

---
 mwparserfromhell/parser/tokenizer.c | 56 ++++++++++++++++++++++++-------------
 mwparserfromhell/parser/tokenizer.h |  3 +-
 2 files changed, 39 insertions(+), 20 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 6310523..c2ac12f 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -100,7 +100,7 @@ static Textbuffer* Textbuffer_new(void)
         PyErr_NoMemory();
         return NULL;
     }
-    buffer->next = NULL;
+    buffer->prev = buffer->next = NULL;
     return buffer;
 }
 
@@ -128,6 +128,7 @@ static int Textbuffer_write(Textbuffer** this, Py_UNICODE code)
         if (!new)
             return -1;
         new->next = self;
+        self->prev = new;
         *this = self = new;
     }
     self->data[self->size++] = code;
@@ -435,19 +436,33 @@ static int Tokenizer_emit_text(Tokenizer* self, const char* text)
     Write the contents of another textbuffer to the current textbuffer,
     deallocating it in the process.
 */
-static int Tokenizer_emit_textbuffer(Tokenizer* self, Textbuffer* buffer)
+static int
+Tokenizer_emit_textbuffer(Tokenizer* self, Textbuffer* buffer, int reverse)
 {
     Textbuffer *original = buffer;
     int i;
 
-    while (buffer) {
-        for (i = 0; i < buffer->size; i++) {
-            if (Tokenizer_emit_char(self, buffer->data[i])) {
-                Textbuffer_dealloc(original);
-                return -1;
+    if (reverse) {
+        do {
+            for (i = buffer->size - 1; i >= 0; i--) {
+                if (Tokenizer_emit_char(self, buffer->data[i])) {
+                    Textbuffer_dealloc(original);
+                    return -1;
+                }
             }
-        }
-        buffer = buffer->next;
+        } while ((buffer = buffer->next));
+    }
+    else {
+        while (buffer->next)
+            buffer = buffer->next;
+        do {
+            for (i = 0; i < buffer->size; i++) {
+                if (Tokenizer_emit_char(self, buffer->data[i])) {
+                    Textbuffer_dealloc(original);
+                    return -1;
+                }
+            }
+        } while ((buffer = buffer->prev));
     }
     Textbuffer_dealloc(original);
     return 0;
@@ -933,7 +948,7 @@ static int Tokenizer_parse_free_uri_scheme(Tokenizer* self)
     // it was just parsed as text:
     temp_buffer = self->topstack->textbuffer;
     while (temp_buffer) {
-        for (i = temp_buffer->size - 1; i >= 0; i++) {
+        for (i = temp_buffer->size - 1; i >= 0; i--) {
             chunk = temp_buffer->data[i];
             if (Py_UNICODE_ISSPACE(chunk) || is_marker(chunk))
                 goto end_of_loop;
@@ -971,7 +986,7 @@ static int Tokenizer_parse_free_uri_scheme(Tokenizer* self)
         Textbuffer_dealloc(scheme_buffer);
         return -1;
     }
-    if (Tokenizer_emit_textbuffer(self, scheme_buffer))
+    if (Tokenizer_emit_textbuffer(self, scheme_buffer, 1))
         return -1;
     if (Tokenizer_emit_char(self, *":"))
         return -1;
@@ -990,16 +1005,18 @@ static int
 Tokenizer_handle_free_link_text(Tokenizer* self, int* parens,
                                 Textbuffer** tail, Py_UNICODE this)
 {
-    #define PUSH_TAIL_BUFFER(tail, error)          \
-        if ((tail)->size || (tail)->next) {        \
-            Tokenizer_emit_textbuffer(self, tail); \
-            tail = Textbuffer_new();               \
-            if (!(tail))                           \
-                return error;                      \
+    #define PUSH_TAIL_BUFFER(tail, error)             \
+        if ((tail)->size || (tail)->next) {           \
+            Tokenizer_emit_textbuffer(self, tail, 0); \
+            tail = Textbuffer_new();                  \
+            if (!(tail))                              \
+                return error;                         \
         }
 
-    if (this == *"(" && !(*parens))
+    if (this == *"(" && !(*parens)) {
         *parens = 1;
+        PUSH_TAIL_BUFFER(*tail, -1)
+    }
     else if (this == *"," || this == *";" || this == *"\\" || this == *"." ||
              this == *":" || this == *"!" || this == *"?" ||
              (!(*parens) && this == *")"))
@@ -1141,6 +1158,7 @@ static int Tokenizer_parse_external_link(Tokenizer* self, int brackets)
         link = Tokenizer_really_parse_external_link(self, brackets, &extra);
     }
     if (BAD_ROUTE) {
+        RESET_ROUTE();
         self->head = reset;
         Textbuffer_dealloc(extra);
         if (!brackets && self->topstack->context & LC_DLTERM)
@@ -1180,7 +1198,7 @@ static int Tokenizer_parse_external_link(Tokenizer* self, int brackets)
         return -1;
     }
     if (extra->size || extra->next)
-        return Tokenizer_emit_textbuffer(self, extra);
+        return Tokenizer_emit_textbuffer(self, extra, 0);
     return 0;
 }
 
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index e437814..c23fe4a 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -165,7 +165,7 @@ static PyObject* TagCloseClose;
 #define AGG_FAIL         (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK | LC_HEADING | LC_TAG | LC_STYLE)
 #define AGG_UNSAFE       (LC_TEMPLATE_NAME | LC_WIKILINK | LC_EXT_LINK_TITLE | LC_TEMPLATE_PARAM_KEY | LC_ARGUMENT_NAME)
 #define AGG_DOUBLE       (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE)
-#define AGG_INVALID_LINK (LC_TEMPLATE_NAME | LC_ARGUMENT_NAME | LC_WIKILINK | LC_EXT_LINK_URI)
+#define AGG_INVALID_LINK (LC_TEMPLATE_NAME | LC_ARGUMENT_NAME | LC_WIKILINK | LC_EXT_LINK)
 
 /* Tag contexts: */
 
@@ -184,6 +184,7 @@ static PyObject* TagCloseClose;
 struct Textbuffer {
     Py_ssize_t size;
     Py_UNICODE* data;
+    struct Textbuffer* prev;
     struct Textbuffer* next;
 };
 

From f1b95758d659c9352db9a7d1c4ca4ad85f82c400 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 23 Aug 2013 03:22:18 -0400
Subject: [PATCH 177/189] Squash a memory leak.

---
 mwparserfromhell/parser/tokenizer.c | 15 +++++++++------
 1 file changed, 9 insertions(+), 6 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index c2ac12f..3dca5c2 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1005,12 +1005,13 @@ static int
 Tokenizer_handle_free_link_text(Tokenizer* self, int* parens,
                                 Textbuffer** tail, Py_UNICODE this)
 {
-    #define PUSH_TAIL_BUFFER(tail, error)             \
-        if ((tail)->size || (tail)->next) {           \
-            Tokenizer_emit_textbuffer(self, tail, 0); \
-            tail = Textbuffer_new();                  \
-            if (!(tail))                              \
-                return error;                         \
+    #define PUSH_TAIL_BUFFER(tail, error)                 \
+        if ((tail)->size || (tail)->next) {               \
+            if (Tokenizer_emit_textbuffer(self, tail, 0)) \
+                return error;                             \
+            tail = Textbuffer_new();                      \
+            if (!(tail))                                  \
+                return error;                             \
         }
 
     if (this == *"(" && !(*parens)) {
@@ -1172,6 +1173,7 @@ static int Tokenizer_parse_external_link(Tokenizer* self, int brackets)
     if (!brackets) {
         if (Tokenizer_remove_uri_scheme_from_textbuffer(self, link)) {
             Textbuffer_dealloc(extra);
+            Py_DECREF(link);
             return -1;
         }
     }
@@ -1199,6 +1201,7 @@ static int Tokenizer_parse_external_link(Tokenizer* self, int brackets)
     }
     if (extra->size || extra->next)
         return Tokenizer_emit_textbuffer(self, extra, 0);
+    Textbuffer_dealloc(extra);
     return 0;
 }
 

From 655cdc0dab2280ad4023ab78c6421448170b188d Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 23 Aug 2013 19:36:53 -0400
Subject: [PATCH 178/189] TestBuilder.test_external_link()

---
 tests/test_builder.py | 46 ++++++++++++++++++++++++++++++++++++++++++++--
 1 file changed, 44 insertions(+), 2 deletions(-)

diff --git a/tests/test_builder.py b/tests/test_builder.py
index 29ae65a..152ab53 100644
--- a/tests/test_builder.py
+++ b/tests/test_builder.py
@@ -23,8 +23,8 @@
 from __future__ import unicode_literals
 import unittest
 
-from mwparserfromhell.nodes import (Argument, Comment, Heading, HTMLEntity,
-                                    Tag, Template, Text, Wikilink)
+from mwparserfromhell.nodes import (Argument, Comment, ExternalLink, Heading,
+                                    HTMLEntity, Tag, Template, Text, Wikilink)
 from mwparserfromhell.nodes.extras import Attribute, Parameter
 from mwparserfromhell.parser import tokens
 from mwparserfromhell.parser.builder import Builder
@@ -150,6 +150,48 @@ class TestBuilder(TreeEqualityTestCase):
         for test, valid in tests:
             self.assertWikicodeEqual(valid, self.builder.build(test))
 
+    def test_external_link(self):
+        """tests for building ExternalLink nodes"""
+        tests = [
+            ([tokens.ExternalLinkOpen(brackets=False),
+              tokens.Text(text="http://example.com/"),
+              tokens.ExternalLinkClose()],
+             wrap([ExternalLink(wraptext("http://example.com/"),
+                                brackets=False)])),
+
+            ([tokens.ExternalLinkOpen(brackets=True),
+              tokens.Text(text="http://example.com/"),
+              tokens.ExternalLinkClose()],
+             wrap([ExternalLink(wraptext("http://example.com/"))])),
+
+            ([tokens.ExternalLinkOpen(brackets=True),
+              tokens.Text(text="http://example.com/"),
+              tokens.ExternalLinkSeparator(), tokens.ExternalLinkClose()],
+             wrap([ExternalLink(wraptext("http://example.com/"), wrap([]))])),
+
+            ([tokens.ExternalLinkOpen(brackets=True),
+              tokens.Text(text="http://example.com/"),
+              tokens.ExternalLinkSeparator(), tokens.Text(text="Example"),
+              tokens.ExternalLinkClose()],
+             wrap([ExternalLink(wraptext("http://example.com/"),
+                                wraptext("Example"))])),
+
+            ([tokens.ExternalLinkOpen(brackets=False),
+              tokens.Text(text="http://example"), tokens.Text(text=".com/foo"),
+              tokens.ExternalLinkClose()],
+             wrap([ExternalLink(wraptext("http://example", ".com/foo"),
+                                brackets=False)])),
+
+            ([tokens.ExternalLinkOpen(brackets=True),
+              tokens.Text(text="http://example"), tokens.Text(text=".com/foo"),
+              tokens.ExternalLinkSeparator(), tokens.Text(text="Example"),
+              tokens.Text(text=" Web Page"), tokens.ExternalLinkClose()],
+             wrap([ExternalLink(wraptext("http://example", ".com/foo"),
+                                wraptext("Example", " Web Page"))])),
+        ]
+        for test, valid in tests:
+            self.assertWikicodeEqual(valid, self.builder.build(test))
+
     def test_html_entity(self):
         """tests for building HTMLEntity nodes"""
         tests = [

From d91c65dc1f59347cc727296b3df29d21ade01f9e Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 23 Aug 2013 20:05:32 -0400
Subject: [PATCH 179/189] TestExternalLink; some fixes in ExternalLink.

---
 mwparserfromhell/nodes/external_link.py |  19 ++---
 tests/test_external_link.py             | 130 ++++++++++++++++++++++++++++++++
 2 files changed, 140 insertions(+), 9 deletions(-)
 create mode 100644 tests/test_external_link.py

diff --git a/mwparserfromhell/nodes/external_link.py b/mwparserfromhell/nodes/external_link.py
index a604f9a..2ee37f3 100644
--- a/mwparserfromhell/nodes/external_link.py
+++ b/mwparserfromhell/nodes/external_link.py
@@ -53,16 +53,20 @@ class ExternalLink(Node):
                 yield self.title, child
 
     def __strip__(self, normalize, collapse):
-        if self.title.strip():
-            return self.title.strip_code(normalize, collapse)
-        return None
+        if self.brackets:
+            if self.title:
+                return self.title.strip_code(normalize, collapse)
+            return None
+        return self.url.strip_code(normalize, collapse)
 
     def __showtree__(self, write, get, mark):
-        write("[")
+        if self.brackets:
+            write("[")
         get(self.url)
         if self.title is not None:
             get(self.title)
-        write("]")
+        if self.brackets:
+            write("]")
 
     @property
     def url(self):
@@ -85,10 +89,7 @@ class ExternalLink(Node):
 
     @title.setter
     def title(self, value):
-        if value is None:
-            self._title = None
-        else:
-            self._title = parse_anything(value)
+        self._title = None if value is None else parse_anything(value)
 
     @brackets.setter
     def brackets(self, value):
diff --git a/tests/test_external_link.py b/tests/test_external_link.py
new file mode 100644
index 0000000..13a82bf
--- /dev/null
+++ b/tests/test_external_link.py
@@ -0,0 +1,130 @@
+# -*- coding: utf-8  -*-
+#
+# Copyright (C) 2012-2013 Ben Kurtovic <ben.kurtovic@verizon.net>
+#
+# Permission is hereby granted, free of charge, to any person obtaining a copy
+# of this software and associated documentation files (the "Software"), to deal
+# in the Software without restriction, including without limitation the rights
+# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+# copies of the Software, and to permit persons to whom the Software is
+# furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in
+# all copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+# SOFTWARE.
+
+from __future__ import unicode_literals
+import unittest
+
+from mwparserfromhell.compat import str
+from mwparserfromhell.nodes import ExternalLink, Text
+
+from ._test_tree_equality import TreeEqualityTestCase, getnodes, wrap, wraptext
+
+class TestExternalLink(TreeEqualityTestCase):
+    """Test cases for the ExternalLink node."""
+
+    def test_unicode(self):
+        """test ExternalLink.__unicode__()"""
+        node = ExternalLink(wraptext("http://example.com/"), brackets=False)
+        self.assertEqual("http://example.com/", str(node))
+        node2 = ExternalLink(wraptext("http://example.com/"))
+        self.assertEqual("[http://example.com/]", str(node2))
+        node3 = ExternalLink(wraptext("http://example.com/"), wrap([]))
+        self.assertEqual("[http://example.com/ ]", str(node3))
+        node4 = ExternalLink(wraptext("http://example.com/"),
+                             wraptext("Example Web Page"))
+        self.assertEqual("[http://example.com/ Example Web Page]", str(node4))
+
+    def test_iternodes(self):
+        """test ExternalLink.__iternodes__()"""
+        node1n1 = Text("http://example.com/")
+        node2n1 = Text("http://example.com/")
+        node2n2, node2n3 = Text("Example"), Text("Page")
+        node1 = ExternalLink(wrap([node1n1]), brackets=False)
+        node2 = ExternalLink(wrap([node2n1]), wrap([node2n2, node2n3]))
+        gen1 = node1.__iternodes__(getnodes)
+        gen2 = node2.__iternodes__(getnodes)
+        self.assertEqual((None, node1), next(gen1))
+        self.assertEqual((None, node2), next(gen2))
+        self.assertEqual((node1.url, node1n1), next(gen1))
+        self.assertEqual((node2.url, node2n1), next(gen2))
+        self.assertEqual((node2.title, node2n2), next(gen2))
+        self.assertEqual((node2.title, node2n3), next(gen2))
+        self.assertRaises(StopIteration, next, gen1)
+        self.assertRaises(StopIteration, next, gen2)
+
+    def test_strip(self):
+        """test ExternalLink.__strip__()"""
+        node1 = ExternalLink(wraptext("http://example.com"), brackets=False)
+        node2 = ExternalLink(wraptext("http://example.com"))
+        node3 = ExternalLink(wraptext("http://example.com"), wrap([]))
+        node4 = ExternalLink(wraptext("http://example.com"), wraptext("Link"))
+        for a in (True, False):
+            for b in (True, False):
+                self.assertEqual("http://example.com", node1.__strip__(a, b))
+                self.assertEqual(None, node2.__strip__(a, b))
+                self.assertEqual(None, node3.__strip__(a, b))
+                self.assertEqual("Link", node4.__strip__(a, b))
+
+    def test_showtree(self):
+        """test ExternalLink.__showtree__()"""
+        output = []
+        getter, marker = object(), object()
+        get = lambda code: output.append((getter, code))
+        mark = lambda: output.append(marker)
+        node1 = ExternalLink(wraptext("http://example.com"), brackets=False)
+        node2 = ExternalLink(wraptext("http://example.com"), wraptext("Link"))
+        node1.__showtree__(output.append, get, mark)
+        node2.__showtree__(output.append, get, mark)
+        valid = [
+            (getter, node1.url), "[", (getter, node2.url),
+            (getter, node2.title), "]"]
+        self.assertEqual(valid, output)
+
+    def test_url(self):
+        """test getter/setter for the url attribute"""
+        url = wraptext("http://example.com/")
+        node1 = ExternalLink(url, brackets=False)
+        node2 = ExternalLink(url, wraptext("Example"))
+        self.assertIs(url, node1.url)
+        self.assertIs(url, node2.url)
+        node1.url = "mailto:héhehé@spam.com"
+        node2.url = "mailto:héhehé@spam.com"
+        self.assertWikicodeEqual(wraptext("mailto:héhehé@spam.com"), node1.url)
+        self.assertWikicodeEqual(wraptext("mailto:héhehé@spam.com"), node2.url)
+
+    def test_title(self):
+        """test getter/setter for the title attribute"""
+        title = wraptext("Example!")
+        node1 = ExternalLink(wraptext("http://example.com/"), brackets=False)
+        node2 = ExternalLink(wraptext("http://example.com/"), title)
+        self.assertIs(None, node1.title)
+        self.assertIs(title, node2.title)
+        node2.title = None
+        self.assertIs(None, node2.title)
+        node2.title = "My Website"
+        self.assertWikicodeEqual(wraptext("My Website"), node2.title)
+
+    def test_brackets(self):
+        """test getter/setter for the brackets attribute"""
+        node1 = ExternalLink(wraptext("http://example.com/"), brackets=False)
+        node2 = ExternalLink(wraptext("http://example.com/"), wraptext("Link"))
+        self.assertFalse(node1.brackets)
+        self.assertTrue(node2.brackets)
+        node1.brackets = True
+        node2.brackets = False
+        self.assertTrue(node1.brackets)
+        self.assertFalse(node2.brackets)
+        self.assertEqual("[http://example.com/]", str(node1))
+        self.assertEqual("http://example.com/", str(node2))
+
+if __name__ == "__main__":
+    unittest.main(verbosity=2)

From 67f1762aa402a7dee1b96f80e8d9d2521fe8b069 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 23 Aug 2013 23:23:22 -0400
Subject: [PATCH 180/189] Doc updates, and allow passing a starting context to
 tokenize().

---
 CHANGELOG                               |  2 +-
 docs/api/mwparserfromhell.nodes.rst     |  8 ++++++++
 docs/api/mwparserfromhell.rst           |  6 +++---
 docs/changelog.rst                      |  2 +-
 mwparserfromhell/__init__.py            |  3 ++-
 mwparserfromhell/nodes/external_link.py |  2 +-
 mwparserfromhell/parser/__init__.py     |  9 ++++-----
 mwparserfromhell/parser/tokenizer.c     |  7 ++++---
 mwparserfromhell/parser/tokenizer.py    |  5 +++--
 mwparserfromhell/utils.py               | 16 +++++++++++-----
 tests/test_parser.py                    |  6 +++---
 11 files changed, 41 insertions(+), 25 deletions(-)

diff --git a/CHANGELOG b/CHANGELOG
index 84edc60..122247f 100644
--- a/CHANGELOG
+++ b/CHANGELOG
@@ -16,7 +16,7 @@ v0.3 (unreleased):
 - Renamed Template.has_param() to has() for consistency with Template's other
   methods; has_param() is now an alias.
 - The C tokenizer extension now works on Python 3 in addition to Python 2.7.
-- Various fixes and cleanup.
+- Various bugfixes, internal changes, and cleanup.
 
 v0.2 (released June 20, 2013):
 
diff --git a/docs/api/mwparserfromhell.nodes.rst b/docs/api/mwparserfromhell.nodes.rst
index a093c17..7043070 100644
--- a/docs/api/mwparserfromhell.nodes.rst
+++ b/docs/api/mwparserfromhell.nodes.rst
@@ -25,6 +25,14 @@ nodes Package
     :undoc-members:
     :show-inheritance:
 
+:mod:`external_link` Module
+---------------------------
+
+.. automodule:: mwparserfromhell.nodes.external_link
+    :members:
+    :undoc-members:
+    :show-inheritance:
+
 :mod:`heading` Module
 ---------------------
 
diff --git a/docs/api/mwparserfromhell.rst b/docs/api/mwparserfromhell.rst
index b682139..0da522e 100644
--- a/docs/api/mwparserfromhell.rst
+++ b/docs/api/mwparserfromhell.rst
@@ -30,10 +30,10 @@ mwparserfromhell Package
     :members:
     :undoc-members:
 
-:mod:`tag_defs` Module
-----------------------
+:mod:`definitions` Module
+-------------------------
 
-.. automodule:: mwparserfromhell.tag_defs
+.. automodule:: mwparserfromhell.definitions
     :members:
 
 :mod:`utils` Module
diff --git a/docs/changelog.rst b/docs/changelog.rst
index 810f594..f43a3c9 100644
--- a/docs/changelog.rst
+++ b/docs/changelog.rst
@@ -26,7 +26,7 @@ Unreleased
   :py:meth:`~.Template.has` for consistency with :py:class:`~.Template`\ 's
   other methods; :py:meth:`~.has_param` is now an alias.
 - The C tokenizer extension now works on Python 3 in addition to Python 2.7.
-- Various fixes and cleanup.
+- Various bugfixes, internal changes, and cleanup.
 
 v0.2
 ----
diff --git a/mwparserfromhell/__init__.py b/mwparserfromhell/__init__.py
index 738d4c2..74e1616 100644
--- a/mwparserfromhell/__init__.py
+++ b/mwparserfromhell/__init__.py
@@ -34,6 +34,7 @@ __license__ = "MIT License"
 __version__ = "0.3.dev"
 __email__ = "ben.kurtovic@verizon.net"
 
-from . import compat, nodes, parser, smart_list, string_mixin, utils, wikicode
+from . import (compat, definitions, nodes, parser, smart_list, string_mixin,
+               utils, wikicode)
 
 parse = utils.parse_anything
diff --git a/mwparserfromhell/nodes/external_link.py b/mwparserfromhell/nodes/external_link.py
index 2ee37f3..bf1c9b1 100644
--- a/mwparserfromhell/nodes/external_link.py
+++ b/mwparserfromhell/nodes/external_link.py
@@ -70,7 +70,7 @@ class ExternalLink(Node):
 
     @property
     def url(self):
-        """The url of the link target, as a :py:class:`~.Wikicode` object."""
+        """The URL of the link target, as a :py:class:`~.Wikicode` object."""
         return self._url
 
     @property
diff --git a/mwparserfromhell/parser/__init__.py b/mwparserfromhell/parser/__init__.py
index 1fb95b5..22c3dc2 100644
--- a/mwparserfromhell/parser/__init__.py
+++ b/mwparserfromhell/parser/__init__.py
@@ -46,16 +46,15 @@ class Parser(object):
     :py:class:`~.Node`\ s by the :py:class:`~.Builder`.
     """
 
-    def __init__(self, text):
-        self.text = text
+    def __init__(self):
         if use_c and CTokenizer:
             self._tokenizer = CTokenizer()
         else:
             self._tokenizer = Tokenizer()
         self._builder = Builder()
 
-    def parse(self):
-        """Return a string as a parsed :py:class:`~.Wikicode` object tree."""
-        tokens = self._tokenizer.tokenize(self.text)
+    def parse(self, text, context=0):
+        """Parse *text*, returning a :py:class:`~.Wikicode` object tree."""
+        tokens = self._tokenizer.tokenize(text, context)
         code = self._builder.build(tokens)
         return code
diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 3dca5c2..af6bf3b 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -2667,8 +2667,9 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
 static PyObject* Tokenizer_tokenize(Tokenizer* self, PyObject* args)
 {
     PyObject *text, *temp;
+    int context = 0;
 
-    if (PyArg_ParseTuple(args, "U", &text)) {
+    if (PyArg_ParseTuple(args, "U|i", &text, &context)) {
         Py_XDECREF(self->text);
         self->text = PySequence_Fast(text, "expected a sequence");
     }
@@ -2677,7 +2678,7 @@ static PyObject* Tokenizer_tokenize(Tokenizer* self, PyObject* args)
         Py_ssize_t size;
         /* Failed to parse a Unicode object; try a string instead. */
         PyErr_Clear();
-        if (!PyArg_ParseTuple(args, "s#", &encoded, &size))
+        if (!PyArg_ParseTuple(args, "s#|i", &encoded, &size, &context))
             return NULL;
         temp = PyUnicode_FromStringAndSize(encoded, size);
         if (!text)
@@ -2689,7 +2690,7 @@ static PyObject* Tokenizer_tokenize(Tokenizer* self, PyObject* args)
     }
     self->head = self->global = self->depth = self->cycles = 0;
     self->length = PyList_GET_SIZE(self->text);
-    return Tokenizer_parse(self, 0, 1);
+    return Tokenizer_parse(self, context, 1);
 }
 
 static int load_entitydefs(void)
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 2c8d6d7..6ab549a 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -1125,8 +1125,9 @@ class Tokenizer(object):
                 self._emit_text(this)
             self._head += 1
 
-    def tokenize(self, text):
+    def tokenize(self, text, context=0):
         """Build a list of tokens from a string of wikicode and return it."""
         split = self.regex.split(text)
         self._text = [segment for segment in split if segment]
-        return self._parse()
+        self._head = self._global = self._depth = self._cycles = 0
+        return self._parse(context)
diff --git a/mwparserfromhell/utils.py b/mwparserfromhell/utils.py
index 31e5ba0..758e751 100644
--- a/mwparserfromhell/utils.py
+++ b/mwparserfromhell/utils.py
@@ -33,7 +33,7 @@ from .smart_list import SmartList
 
 __all__ = ["parse_anything"]
 
-def parse_anything(value):
+def parse_anything(value, context=0):
     """Return a :py:class:`~.Wikicode` for *value*, allowing multiple types.
 
     This differs from :py:meth:`.Parser.parse` in that we accept more than just
@@ -44,6 +44,12 @@ def parse_anything(value):
     on-the-fly by various methods of :py:class:`~.Wikicode` and others like
     :py:class:`~.Template`, such as :py:meth:`wikicode.insert()
     <.Wikicode.insert>` or setting :py:meth:`template.name <.Template.name>`.
+
+    If given, *context* will be passed as a starting context to the parser.
+    This is helpful when this function is used inside node attribute setters.
+    For example, :py:class:`~.ExternalLink`\ 's :py:attr:`~.ExternalLink.url`
+    setter sets *context* to :py:mod:`contexts.EXT_LINK_URI <.contexts>` to
+    prevent the URL itself from becoming an :py:class:`~.ExternalLink`.
     """
     from .parser import Parser
     from .wikicode import Wikicode
@@ -53,17 +59,17 @@ def parse_anything(value):
     elif isinstance(value, Node):
         return Wikicode(SmartList([value]))
     elif isinstance(value, str):
-        return Parser(value).parse()
+        return Parser().parse(value, context)
     elif isinstance(value, bytes):
-        return Parser(value.decode("utf8")).parse()
+        return Parser().parse(value.decode("utf8"), context)
     elif isinstance(value, int):
-        return Parser(str(value)).parse()
+        return Parser().parse(str(value), context)
     elif value is None:
         return Wikicode(SmartList())
     try:
         nodelist = SmartList()
         for item in value:
-            nodelist += parse_anything(item).nodes
+            nodelist += parse_anything(item, context).nodes
     except TypeError:
         error = "Needs string, Node, Wikicode, int, None, or iterable of these, but got {0}: {1}"
         raise ValueError(error.format(type(value).__name__, value))
diff --git a/tests/test_parser.py b/tests/test_parser.py
index ec5f065..8760c0e 100644
--- a/tests/test_parser.py
+++ b/tests/test_parser.py
@@ -36,9 +36,9 @@ class TestParser(TreeEqualityTestCase):
     def test_use_c(self):
         """make sure the correct tokenizer is used"""
         if parser.use_c:
-            self.assertTrue(parser.Parser(None)._tokenizer.USES_C)
+            self.assertTrue(parser.Parser()._tokenizer.USES_C)
             parser.use_c = False
-        self.assertFalse(parser.Parser(None)._tokenizer.USES_C)
+        self.assertFalse(parser.Parser()._tokenizer.USES_C)
 
     def test_parsing(self):
         """integration test for parsing overall"""
@@ -59,7 +59,7 @@ class TestParser(TreeEqualityTestCase):
                 ]))
             ])
         ])
-        actual = parser.Parser(text).parse()
+        actual = parser.Parser().parse(text)
         self.assertWikicodeEqual(expected, actual)
 
 if __name__ == "__main__":

From d1a7d25220b0acf9bc8a43fb49d8b711431156b7 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Fri, 23 Aug 2013 23:36:34 -0400
Subject: [PATCH 181/189] Set right context for ExternalLink.url;
 Wikicode.filter_external_links()

---
 mwparserfromhell/nodes/external_link.py |  3 ++-
 mwparserfromhell/wikicode.py            | 10 +++++-----
 tests/test_wikicode.py                  |  1 +
 3 files changed, 8 insertions(+), 6 deletions(-)

diff --git a/mwparserfromhell/nodes/external_link.py b/mwparserfromhell/nodes/external_link.py
index bf1c9b1..d74f6b3 100644
--- a/mwparserfromhell/nodes/external_link.py
+++ b/mwparserfromhell/nodes/external_link.py
@@ -85,7 +85,8 @@ class ExternalLink(Node):
 
     @url.setter
     def url(self, value):
-        self._url = parse_anything(value)
+        from ..parser import contexts
+        self._url = parse_anything(value, contexts.EXT_LINK_URI)
 
     @title.setter
     def title(self, value):
diff --git a/mwparserfromhell/wikicode.py b/mwparserfromhell/wikicode.py
index b5e854d..c3249d9 100644
--- a/mwparserfromhell/wikicode.py
+++ b/mwparserfromhell/wikicode.py
@@ -24,8 +24,8 @@ from __future__ import unicode_literals
 import re
 
 from .compat import maxsize, py3k, str
-from .nodes import (Argument, Comment, Heading, HTMLEntity, Node, Tag,
-                    Template, Text, Wikilink)
+from .nodes import (Argument, Comment, ExternalLink, Heading, HTMLEntity,
+                    Node, Tag, Template, Text, Wikilink)
 from .string_mixin import StringMixIn
 from .utils import parse_anything
 
@@ -509,6 +509,6 @@ class Wikicode(StringMixIn):
         return "\n".join(self._get_tree(self, [], marker, 0))
 
 Wikicode._build_filter_methods(
-    arguments=Argument, comments=Comment, headings=Heading,
-    html_entities=HTMLEntity, tags=Tag, templates=Template, text=Text,
-    wikilinks=Wikilink)
+    arguments=Argument, comments=Comment, external_links=ExternalLink,
+    headings=Heading, html_entities=HTMLEntity, tags=Tag, templates=Template,
+    text=Text, wikilinks=Wikilink)
diff --git a/tests/test_wikicode.py b/tests/test_wikicode.py
index 08cf93c..14d801c 100644
--- a/tests/test_wikicode.py
+++ b/tests/test_wikicode.py
@@ -276,6 +276,7 @@ class TestWikicode(TreeEqualityTestCase):
             self.assertEqual(["{{{e}}}"], get_filter("arguments"))
             self.assertIs(code.get(4), get_filter("arguments")[0])
             self.assertEqual([], get_filter("comments"))
+            self.assertEqual([], get_filter("external_links"))
             self.assertEqual([], get_filter("headings"))
             self.assertEqual([], get_filter("html_entities"))
             self.assertEqual([], get_filter("tags"))

From fcdc0abd22259b4aa6213a088989bbd1f9c922bd Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 24 Aug 2013 00:05:13 -0400
Subject: [PATCH 182/189] Fix autofail contexts.

---
 mwparserfromhell/parser/contexts.py | 2 +-
 mwparserfromhell/parser/tokenizer.h | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/mwparserfromhell/parser/contexts.py b/mwparserfromhell/parser/contexts.py
index 0d25400..33da8f7 100644
--- a/mwparserfromhell/parser/contexts.py
+++ b/mwparserfromhell/parser/contexts.py
@@ -162,7 +162,7 @@ GL_HEADING = 1 << 0
 
 # Aggregate contexts:
 
-FAIL = TEMPLATE + ARGUMENT + WIKILINK + EXT_LINK + HEADING + TAG + STYLE
+FAIL = TEMPLATE + ARGUMENT + WIKILINK + EXT_LINK_TITLE + HEADING + TAG + STYLE
 UNSAFE = (TEMPLATE_NAME + WIKILINK + EXT_LINK_TITLE + TEMPLATE_PARAM_KEY +
           ARGUMENT_NAME + TAG_CLOSE)
 DOUBLE = TEMPLATE_PARAM_KEY + TAG_CLOSE
diff --git a/mwparserfromhell/parser/tokenizer.h b/mwparserfromhell/parser/tokenizer.h
index c23fe4a..da3c57a 100644
--- a/mwparserfromhell/parser/tokenizer.h
+++ b/mwparserfromhell/parser/tokenizer.h
@@ -162,7 +162,7 @@ static PyObject* TagCloseClose;
 
 /* Aggregate contexts: */
 
-#define AGG_FAIL         (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK | LC_HEADING | LC_TAG | LC_STYLE)
+#define AGG_FAIL         (LC_TEMPLATE | LC_ARGUMENT | LC_WIKILINK | LC_EXT_LINK_TITLE | LC_HEADING | LC_TAG | LC_STYLE)
 #define AGG_UNSAFE       (LC_TEMPLATE_NAME | LC_WIKILINK | LC_EXT_LINK_TITLE | LC_TEMPLATE_PARAM_KEY | LC_ARGUMENT_NAME)
 #define AGG_DOUBLE       (LC_TEMPLATE_PARAM_KEY | LC_TAG_CLOSE)
 #define AGG_INVALID_LINK (LC_TEMPLATE_NAME | LC_ARGUMENT_NAME | LC_WIKILINK | LC_EXT_LINK)

From 4d04cae7802e7a1775016e8a599d2555fe32b763 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 24 Aug 2013 00:27:05 -0400
Subject: [PATCH 183/189] Fix a segfault with GCC.

---
 mwparserfromhell/parser/tokenizer.c | 27 ++++++++++++++-------------
 1 file changed, 14 insertions(+), 13 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index af6bf3b..07d3988 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -1143,28 +1143,29 @@ Tokenizer_remove_uri_scheme_from_textbuffer(Tokenizer* self, PyObject* link)
 */
 static int Tokenizer_parse_external_link(Tokenizer* self, int brackets)
 {
+    #define INVALID_CONTEXT self->topstack->context & AGG_INVALID_LINK
+    #define NOT_A_LINK                                        \
+        if (!brackets && self->topstack->context & LC_DLTERM) \
+            return Tokenizer_handle_dl_term(self);            \
+        return Tokenizer_emit_char(self, Tokenizer_READ(self, 0))
+
     Py_ssize_t reset = self->head;
     PyObject *link, *kwargs;
-    Textbuffer *extra;
+    Textbuffer *extra = 0;
 
-    self->head++;
-    #define INVALID_CONTEXT self->topstack->context & AGG_INVALID_LINK
     if (INVALID_CONTEXT || !(Tokenizer_CAN_RECURSE(self))) {
-        FAIL_ROUTE(0);
-    }
-    else {
-        extra = Textbuffer_new();
-        if (!extra)
-            return -1;
-        link = Tokenizer_really_parse_external_link(self, brackets, &extra);
+        NOT_A_LINK;
     }
+    extra = Textbuffer_new();
+    if (!extra)
+        return -1;
+    self->head++;
+    link = Tokenizer_really_parse_external_link(self, brackets, &extra);
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset;
         Textbuffer_dealloc(extra);
-        if (!brackets && self->topstack->context & LC_DLTERM)
-            return Tokenizer_handle_dl_term(self);
-        return Tokenizer_emit_char(self, Tokenizer_READ(self, 0));
+        NOT_A_LINK;
     }
     if (!link) {
         Textbuffer_dealloc(extra);

From fdb276239392cb7bed5efe349f351ce6e97ab705 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 24 Aug 2013 01:05:43 -0400
Subject: [PATCH 184/189] Add a test for tag name capitalization.

---
 tests/tokenizer/tags.mwtest | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index dc02a51..a4ce8d8 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -548,3 +548,10 @@ name:   single_only_double
 label:  a tag that can only be single; a tag with backslashes at the beginning and end
 input:  "foo</br/>bar{{baz}}"
 output: [Text(text="foo"), TagOpenOpen(invalid=True), Text(text="br"), TagCloseSelfclose(padding=""), Text(text="bar"), TemplateOpen(), Text(text="baz"), TemplateClose()]
+
+---
+
+name:   capitalization
+label:  caps should be ignored within tag names
+input:  "<NoWiKi>{{test}}</nOwIkI>"
+output: [TagOpenOpen(), Text(text="NoWiKi"), TagCloseOpen(padding=""), Text(text="{{test}}"), TagOpenClose(), Text(text="nOwIkI"), TagCloseClose()]

From bdfd0632b3541f99f2086a27987cd2707806ab14 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 24 Aug 2013 01:32:47 -0400
Subject: [PATCH 185/189] A couple very minor nitpicks.

---
 mwparserfromhell/nodes/tag.py        | 2 +-
 mwparserfromhell/parser/tokenizer.py | 1 +
 2 files changed, 2 insertions(+), 1 deletion(-)

diff --git a/mwparserfromhell/nodes/tag.py b/mwparserfromhell/nodes/tag.py
index 80b8a88..06f43d0 100644
--- a/mwparserfromhell/nodes/tag.py
+++ b/mwparserfromhell/nodes/tag.py
@@ -22,7 +22,7 @@
 
 from __future__ import unicode_literals
 
-from . import Node, Text
+from . import Node
 from .extras import Attribute
 from ..compat import str
 from ..definitions import is_visible
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 6ab549a..1061b9f 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -35,6 +35,7 @@ class BadRoute(Exception):
     """Raised internally when the current tokenization route is invalid."""
 
     def __init__(self, context=0):
+        super(BadRoute, self).__init__()
         self.context = context
 
 

From 6784ff73bf23048a0bdbcbb666cf53b830ae904f Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 24 Aug 2013 03:06:58 -0400
Subject: [PATCH 186/189] Fix an edge case when we recurse too deeply.

---
 mwparserfromhell/parser/tokenizer.c  | 3 ++-
 mwparserfromhell/parser/tokenizer.py | 6 ++++--
 2 files changed, 6 insertions(+), 3 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 07d3988..1bc1f14 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -2272,7 +2272,8 @@ static PyObject* Tokenizer_parse_style(Tokenizer* self)
                     return NULL;
                 return Tokenizer_pop(self);
             }
-            self->topstack->context |= LC_STYLE_PASS_AGAIN;
+            if (context & LC_STYLE_ITALICS)
+                self->topstack->context |= LC_STYLE_PASS_AGAIN;
         }
         for (i = 0; i < ticks; i++) {
             if (Tokenizer_emit_char(self, *"'"))
diff --git a/mwparserfromhell/parser/tokenizer.py b/mwparserfromhell/parser/tokenizer.py
index 1061b9f..8fae729 100644
--- a/mwparserfromhell/parser/tokenizer.py
+++ b/mwparserfromhell/parser/tokenizer.py
@@ -823,7 +823,8 @@ class Tokenizer(object):
         except BadRoute as route:
             self._head = reset
             if route.context & contexts.STYLE_PASS_AGAIN:
-                stack = self._parse(route.context | contexts.STYLE_SECOND_PASS)
+                new_ctx = contexts.STYLE_ITALICS | contexts.STYLE_SECOND_PASS
+                stack = self._parse(new_ctx)
             else:
                 return self._emit_text("''")
         self._emit_style_tag("i", "''", stack)
@@ -912,7 +913,8 @@ class Tokenizer(object):
                 if self._context & contexts.STYLE_SECOND_PASS:
                     self._emit_text("'")
                     return self._pop()
-                self._context |= contexts.STYLE_PASS_AGAIN
+                if self._context & contexts.STYLE_ITALICS:
+                    self._context |= contexts.STYLE_PASS_AGAIN
             self._emit_text("'" * ticks)
         elif ticks == 2:
             self._parse_italics()

From c204cf489fe947d6fdc9b5094beae3a556ee01ae Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 24 Aug 2013 16:30:42 -0400
Subject: [PATCH 187/189] Add some tests for tag edge cases.

---
 tests/tokenizer/tags.mwtest | 21 +++++++++++++++++++++
 1 file changed, 21 insertions(+)

diff --git a/tests/tokenizer/tags.mwtest b/tests/tokenizer/tags.mwtest
index a4ce8d8..a0d7f18 100644
--- a/tests/tokenizer/tags.mwtest
+++ b/tests/tokenizer/tags.mwtest
@@ -355,6 +355,20 @@ output: [Text(text="junk <ref>bar</span>")]
 
 ---
 
+name:   incomplete_unclosed_close
+label:  incomplete tags: an unclosed close tag
+input:  "junk </"
+output: [Text(text="junk </")]
+
+---
+
+name:   incomplete_unclosed_close_text
+label:  incomplete tags: an unclosed close tag, with text
+input:  "junk </br"
+output: [Text(text="junk </br")]
+
+---
+
 name:   incomplete_close
 label:  incomplete tags: a close tag
 input:  "junk </ref>"
@@ -551,6 +565,13 @@ output: [Text(text="foo"), TagOpenOpen(invalid=True), Text(text="br"), TagCloseS
 
 ---
 
+name:   single_only_close_attribute
+label:  a tag that can only be single; presented as a close tag with an attribute
+input:  "</br id="break">"
+output: [TagOpenOpen(invalid=True), Text(text="br"), TagAttrStart(pad_first=" ", pad_after_eq="", pad_before_eq=""), Text(text="id"), TagAttrEquals(), TagAttrQuote(), Text(text="break"), TagCloseSelfclose(padding="", implicit=True)]
+
+---
+
 name:   capitalization
 label:  caps should be ignored within tag names
 input:  "<NoWiKi>{{test}}</nOwIkI>"

From 77092e066ca6b39512a38b485ed0f047bfc6e32b Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 24 Aug 2013 16:31:22 -0400
Subject: [PATCH 188/189] Fix C tokenizer behavior re: some single_only tag
 edge cases.

---
 mwparserfromhell/parser/tokenizer.c | 21 ++++++++-------------
 1 file changed, 8 insertions(+), 13 deletions(-)

diff --git a/mwparserfromhell/parser/tokenizer.c b/mwparserfromhell/parser/tokenizer.c
index 1bc1f14..c9527ab 100644
--- a/mwparserfromhell/parser/tokenizer.c
+++ b/mwparserfromhell/parser/tokenizer.c
@@ -2016,7 +2016,7 @@ static int Tokenizer_handle_invalid_tag_start(Tokenizer* self)
         return -1;
     while (1) {
         this = Tokenizer_READ(self, pos);
-        if (is_marker(this)) {
+        if (Py_UNICODE_ISSPACE(this) || is_marker(this)) {
             name = Textbuffer_render(buf);
             if (!name) {
                 Textbuffer_dealloc(buf);
@@ -2031,16 +2031,15 @@ static int Tokenizer_handle_invalid_tag_start(Tokenizer* self)
         pos++;
     }
     Textbuffer_dealloc(buf);
-    if (!BAD_ROUTE) {
+    if (!BAD_ROUTE)
         tag = Tokenizer_really_parse_tag(self);
-        if (!tag)
-            return -1;
-    }
     if (BAD_ROUTE) {
         RESET_ROUTE();
         self->head = reset;
         return Tokenizer_emit_text(self, "</");
     }
+    if (!tag)
+        return -1;
     // Set invalid=True flag of TagOpenOpen
     if (PyObject_SetAttrString(PyList_GET_ITEM(tag, 0), "invalid", Py_True))
         return -1;
@@ -2615,14 +2614,10 @@ static PyObject* Tokenizer_parse(Tokenizer* self, int context, int push)
         }
         else if (this == *"<" && next == *"/" &&
                                             Tokenizer_READ(self, 2) != *"") {
-            if (this_context & LC_TAG_BODY) {
-                if (Tokenizer_handle_tag_open_close(self))
-                    return NULL;
-            }
-            else {
-                if (Tokenizer_handle_invalid_tag_start(self))
-                    return NULL;
-            }
+            if (this_context & LC_TAG_BODY ?
+                Tokenizer_handle_tag_open_close(self) :
+                Tokenizer_handle_invalid_tag_start(self))
+                return NULL;
         }
         else if (this == *"<" && !(this_context & LC_TAG_CLOSE)) {
             if (Tokenizer_CAN_RECURSE(self)) {

From 0e19b2015620a4e93f71cdcca8ec5e832e2fb276 Mon Sep 17 00:00:00 2001
From: Ben Kurtovic <ben.kurtovic@verizon.net>
Date: Sat, 24 Aug 2013 19:11:31 -0400
Subject: [PATCH 189/189] release/0.3

---
 CHANGELOG                    | 2 +-
 docs/changelog.rst           | 4 ++--
 mwparserfromhell/__init__.py | 2 +-
 setup.py                     | 4 ++--
 4 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/CHANGELOG b/CHANGELOG
index 122247f..67214fa 100644
--- a/CHANGELOG
+++ b/CHANGELOG
@@ -1,4 +1,4 @@
-v0.3 (unreleased):
+v0.3 (released August 24, 2013):
 
 - Added complete support for HTML Tags, including forms like <ref>foo</ref>,
   <ref name="bar"/>, and wiki-markup tags like bold ('''), italics (''), and
diff --git a/docs/changelog.rst b/docs/changelog.rst
index f43a3c9..b6db9d9 100644
--- a/docs/changelog.rst
+++ b/docs/changelog.rst
@@ -4,8 +4,8 @@ Changelog
 v0.3
 ----
 
-Unreleased
-(`changes <https://github.com/earwig/mwparserfromhell/compare/v0.2...develop>`__):
+`Released August 24, 2013 <https://github.com/earwig/mwparserfromhell/tree/v0.3>`_
+(`changes <https://github.com/earwig/mwparserfromhell/compare/v0.2...v0.3>`__):
 
 - Added complete support for HTML :py:class:`Tags <.Tag>`, including forms like
   ``<ref>foo</ref>``, ``<ref name="bar"/>``, and wiki-markup tags like bold
diff --git a/mwparserfromhell/__init__.py b/mwparserfromhell/__init__.py
index 74e1616..6a45a11 100644
--- a/mwparserfromhell/__init__.py
+++ b/mwparserfromhell/__init__.py
@@ -31,7 +31,7 @@ from __future__ import unicode_literals
 __author__ = "Ben Kurtovic"
 __copyright__ = "Copyright (C) 2012, 2013 Ben Kurtovic"
 __license__ = "MIT License"
-__version__ = "0.3.dev"
+__version__ = "0.3"
 __email__ = "ben.kurtovic@verizon.net"
 
 from . import (compat, definitions, nodes, parser, smart_list, string_mixin,
diff --git a/setup.py b/setup.py
index 5e6d779..3ef7e0e 100644
--- a/setup.py
+++ b/setup.py
@@ -47,13 +47,13 @@ setup(
     keywords = "earwig mwparserfromhell wikipedia wiki mediawiki wikicode template parsing",
     license = "MIT License",
     classifiers = [
-        "Development Status :: 3 - Alpha",
+        "Development Status :: 4 - Beta",
         "Environment :: Console",
         "Intended Audience :: Developers",
         "License :: OSI Approved :: MIT License",
         "Operating System :: OS Independent",
         "Programming Language :: Python :: 2.7",
-        "Programming Language :: Python :: 3",
+        "Programming Language :: Python :: 3.3",
         "Topic :: Text Processing :: Markup"
     ],
 )