`edsnlp.pipelines.core.normalizer`

`normalizer`

`Normalizer`

Bases: object

Normalisation pipeline. Modifies the NORM attribute, acting on four dimensions :

lowercase: using the default NORM
accents: deterministic and fixed-length normalisation of accents.
quotes: deterministic and fixed-length normalisation of quotation marks.
pollution: removal of pollutions.

PARAMETER	DESCRIPTION
`lowercase`	Whether to remove case. TYPE: `bool`
`accents`	Optional `Accents` object. TYPE: `Optional[Accents]`
`quotes`	Optional `Quotes` object. TYPE: `Optional[Quotes]`
`pollution`	Optional `Pollution` object. TYPE: `Optional[Pollution]`

Source code in edsnlp/pipelines/core/normalizer/normalizer.py

class Normalizer(object):
    """
    Normalisation pipeline. Modifies the `NORM` attribute,
    acting on four dimensions :

    - `lowercase`: using the default `NORM`
    - `accents`: deterministic and fixed-length normalisation of accents.
    - `quotes`: deterministic and fixed-length normalisation of quotation marks.
    - `pollution`: removal of pollutions.

    Parameters
    ----------
    lowercase : bool
        Whether to remove case.
    accents : Optional[Accents]
        Optional `Accents` object.
    quotes : Optional[Quotes]
        Optional `Quotes` object.
    pollution : Optional[Pollution]
        Optional `Pollution` object.
    """

    def __init__(
        self,
        lowercase: bool,
        accents: Optional[Accents],
        quotes: Optional[Quotes],
        pollution: Optional[Pollution],
    ):
        self.lowercase = lowercase
        self.accents = accents
        self.quotes = quotes
        self.pollution = pollution

    def __call__(self, doc: Doc) -> Doc:
        """
        Apply the normalisation pipeline, one component at a time.

        Parameters
        ----------
        doc : Doc
            spaCy `Doc` object

        Returns
        -------
        Doc
            Doc object with `NORM` attribute modified
        """
        if not self.lowercase:
            remove_lowercase(doc)
        if self.accents is not None:
            self.accents(doc)
        if self.quotes is not None:
            self.quotes(doc)
        if self.pollution is not None:
            self.pollution(doc)

        return doc

`lowercase = lowercase` `instance-attribute`

`accents = accents` `instance-attribute`

`quotes = quotes` `instance-attribute`

`pollution = pollution` `instance-attribute`

`init(lowercase, accents, quotes, pollution)`

Source code in edsnlp/pipelines/core/normalizer/normalizer.py

def __init__(
    self,
    lowercase: bool,
    accents: Optional[Accents],
    quotes: Optional[Quotes],
    pollution: Optional[Pollution],
):
    self.lowercase = lowercase
    self.accents = accents
    self.quotes = quotes
    self.pollution = pollution

`call(doc)`

Apply the normalisation pipeline, one component at a time.

PARAMETER DESCRIPTION

doc

spaCy Doc object

TYPE: Doc

RETURNS	DESCRIPTION
`Doc`	Doc object with `NORM` attribute modified

Source code in edsnlp/pipelines/core/normalizer/normalizer.py

def __call__(self, doc: Doc) -> Doc:
    """
    Apply the normalisation pipeline, one component at a time.

    Parameters
    ----------
    doc : Doc
        spaCy `Doc` object

    Returns
    -------
    Doc
        Doc object with `NORM` attribute modified
    """
    if not self.lowercase:
        remove_lowercase(doc)
    if self.accents is not None:
        self.accents(doc)
    if self.quotes is not None:
        self.quotes(doc)
    if self.pollution is not None:
        self.pollution(doc)

    return doc

`factory`

`DEFAULT_CONFIG = dict(accents=True, lowercase=True, quotes=True, pollution=True)` `module-attribute`

`create_component(nlp, name, accents, lowercase, quotes, pollution)`

Source code in edsnlp/pipelines/core/normalizer/factory.py

@deprecated_factory("normalizer", "eds.normalizer", default_config=DEFAULT_CONFIG)
@Language.factory("eds.normalizer", default_config=DEFAULT_CONFIG)
def create_component(
    nlp: Language,
    name: str,
    accents: Union[bool, Dict[str, Any]],
    lowercase: Union[bool, Dict[str, Any]],
    quotes: Union[bool, Dict[str, Any]],
    pollution: Union[bool, Dict[str, Any]],
):

    if accents:
        config = dict(**accents_config)
        if isinstance(accents, dict):
            config.update(accents)
        accents = registry.get("factories", "eds.accents")(nlp, "eds.accents", **config)

    if quotes:
        config = dict(**quotes_config)
        if isinstance(quotes, dict):
            config.update(quotes)
        quotes = registry.get("factories", "eds.quotes")(nlp, "eds.quotes", **config)

    if pollution:
        config = dict(**pollution_config)
        if isinstance(pollution, dict):
            config.update(pollution)
        pollution = registry.get("factories", "eds.pollution")(
            nlp, "eds.pollution", **config
        )

    normalizer = Normalizer(
        lowercase=lowercase,
        accents=accents or None,
        quotes=quotes or None,
        pollution=pollution or None,
    )

    return normalizer

`pollution`

`patterns`

`information = "(?s)(=====+\\s)?(L\\se\\ss\\sdonnées\\sadministratives,\\ssociales\\s|I?nfo\\srmation\\saux?\\spatients?|L[’']AP-HP\\scollecte\\svos\\sdonnées\\sadministratives|L[’']Assistance\\sPublique\\s-\\sHôpitaux\\sde\\sParis\\s\\(?AP-HP\\)?\\sa\\scréé\\sune\\sbase\\sde\\sdonnées).{,2000}https?:\\/\\/recherche\\.aphp\\.fr\\/eds\\/droit-opposition[\\s\\.]"` `module-attribute`

`bars = '(?i)([nbw]|_|-|=){5,}'` `module-attribute`

`pollution = dict(information=information, bars=bars)` `module-attribute`

`pollution`

`Pollution`

Bases: BaseComponent

Tags pollution tokens.

Populates a number of spaCy extensions :

Token._.pollution : indicates whether the token is a pollution
Doc._.clean : lists non-pollution tokens
Doc._.clean_ : original text with pollutions removed.
Doc._.char_clean_span : method to create a Span using character indices extracted using the cleaned text.

PARAMETER DESCRIPTION

nlp

Language pipeline object

TYPE: Language

pollution

Dictionary containing regular expressions of pollution.

TYPE: Dict[str, Union[str, List[str]]]

Source code in edsnlp/pipelines/core/normalizer/pollution/pollution.py

class Pollution(BaseComponent):
    """
    Tags pollution tokens.

    Populates a number of spaCy extensions :

    - `Token._.pollution` : indicates whether the token is a pollution
    - `Doc._.clean` : lists non-pollution tokens
    - `Doc._.clean_` : original text with pollutions removed.
    - `Doc._.char_clean_span` : method to create a Span using character
      indices extracted using the cleaned text.

    Parameters
    ----------
    nlp : Language
        Language pipeline object
    pollution : Dict[str, Union[str, List[str]]]
        Dictionary containing regular expressions of pollution.
    """

    # noinspection PyProtectedMember
    def __init__(
        self,
        nlp: Language,
        pollution: Optional[Dict[str, Union[str, List[str]]]],
    ):

        self.nlp = nlp

        if pollution is None:
            pollution = patterns.pollution

        self.pollution = pollution

        for k, v in self.pollution.items():
            if isinstance(v, str):
                self.pollution[k] = [v]

        self.regex_matcher = RegexMatcher()
        self.build_patterns()

    def build_patterns(self) -> None:
        """
        Builds the patterns for phrase matching.
        """

        # efficiently build spaCy matcher patterns
        for k, v in self.pollution.items():
            self.regex_matcher.add(k, v)

    def process(self, doc: Doc) -> List[Span]:
        """
        Find pollutions in doc and clean candidate negations to remove pseudo negations

        Parameters
        ----------
        doc:
            spaCy Doc object

        Returns
        -------
        pollution:
            list of pollution spans
        """

        pollutions = self.regex_matcher(doc, as_spans=True)
        pollutions = filter_spans(pollutions)

        return pollutions

    def __call__(self, doc: Doc) -> Doc:
        """
        Tags pollutions.

        Parameters
        ----------
        doc:
            spaCy Doc object

        Returns
        -------
        doc:
            spaCy Doc object, annotated for pollutions.
        """
        pollutions = self.process(doc)

        for pollution in pollutions:

            for token in pollution:
                token._.excluded = True

        doc.spans["pollutions"] = pollutions

        return doc

`nlp = nlp` `instance-attribute`

`pollution = pollution` `instance-attribute`

`regex_matcher = RegexMatcher()` `instance-attribute`

`init(nlp, pollution)`

Source code in edsnlp/pipelines/core/normalizer/pollution/pollution.py

def __init__(
    self,
    nlp: Language,
    pollution: Optional[Dict[str, Union[str, List[str]]]],
):

    self.nlp = nlp

    if pollution is None:
        pollution = patterns.pollution

    self.pollution = pollution

    for k, v in self.pollution.items():
        if isinstance(v, str):
            self.pollution[k] = [v]

    self.regex_matcher = RegexMatcher()
    self.build_patterns()

`build_patterns()`

Builds the patterns for phrase matching.

Source code in edsnlp/pipelines/core/normalizer/pollution/pollution.py

def build_patterns(self) -> None:
    """
    Builds the patterns for phrase matching.
    """

    # efficiently build spaCy matcher patterns
    for k, v in self.pollution.items():
        self.regex_matcher.add(k, v)

`process(doc)`

Find pollutions in doc and clean candidate negations to remove pseudo negations

PARAMETER DESCRIPTION

doc

spaCy Doc object

TYPE: Doc

RETURNS	DESCRIPTION
`pollution`	list of pollution spans

Source code in edsnlp/pipelines/core/normalizer/pollution/pollution.py

def process(self, doc: Doc) -> List[Span]:
    """
    Find pollutions in doc and clean candidate negations to remove pseudo negations

    Parameters
    ----------
    doc:
        spaCy Doc object

    Returns
    -------
    pollution:
        list of pollution spans
    """

    pollutions = self.regex_matcher(doc, as_spans=True)
    pollutions = filter_spans(pollutions)

    return pollutions

`call(doc)`

Tags pollutions.

PARAMETER DESCRIPTION

doc

spaCy Doc object

TYPE: Doc

RETURNS	DESCRIPTION
`doc`	spaCy Doc object, annotated for pollutions.

Source code in edsnlp/pipelines/core/normalizer/pollution/pollution.py

def __call__(self, doc: Doc) -> Doc:
    """
    Tags pollutions.

    Parameters
    ----------
    doc:
        spaCy Doc object

    Returns
    -------
    doc:
        spaCy Doc object, annotated for pollutions.
    """
    pollutions = self.process(doc)

    for pollution in pollutions:

        for token in pollution:
            token._.excluded = True

    doc.spans["pollutions"] = pollutions

    return doc

`factory`

`DEFAULT_CONFIG = dict(pollution=None)` `module-attribute`

`create_component(nlp, name, pollution)`

Source code in edsnlp/pipelines/core/normalizer/pollution/factory.py

@deprecated_factory("pollution", "eds.pollution", default_config=DEFAULT_CONFIG)
@Language.factory("eds.pollution", default_config=DEFAULT_CONFIG)
def create_component(
    nlp: Language,
    name: str,
    pollution: Optional[Dict[str, Union[str, List[str]]]],
):
    return Pollution(
        nlp,
        pollution=pollution,
    )

`accents`

`patterns`

`accents: List[Tuple[str, str]] = [('ç', 'c'), ('àáâä', 'a'), ('èéêë', 'e'), ('ìíîï', 'i'), ('òóôö', 'o'), ('ùúûü', 'u')]` `module-attribute`

`accents`

`Accents`

Bases: object

Normalises accents, using a same-length strategy.

PARAMETER DESCRIPTION

accents

List of accentuated characters and their transcription.

TYPE: List[Tuple[str, str]]

Source code in edsnlp/pipelines/core/normalizer/accents/accents.py

class Accents(object):
    """
    Normalises accents, using a same-length strategy.

    Parameters
    ----------
    accents : List[Tuple[str, str]]
        List of accentuated characters and their transcription.
    """

    def __init__(self, accents: Optional[List[Tuple[str, str]]]) -> None:
        if accents is None:
            accents = patterns.accents

        self.translation_table = str.maketrans(
            "".join(accent_group for accent_group, _ in accents),
            "".join(rep * len(accent_group) for accent_group, rep in accents),
        )

    def __call__(self, doc: Doc) -> Doc:
        """
        Remove accents from spacy `NORM` attribute.

        Parameters
        ----------
        doc : Doc
            The spaCy `Doc` object.

        Returns
        -------
        Doc
            The document, with accents removed in `Token.norm_`.
        """

        for token in doc:
            token.norm_ = token.norm_.translate(self.translation_table)

        return doc

`translation_table = str.maketrans(''.join(accent_group for (accent_group, _) in accents), ''.join(rep * len(accent_group) for (accent_group, rep) in accents))` `instance-attribute`

`init(accents)`

Source code in edsnlp/pipelines/core/normalizer/accents/accents.py

def __init__(self, accents: Optional[List[Tuple[str, str]]]) -> None:
    if accents is None:
        accents = patterns.accents

    self.translation_table = str.maketrans(
        "".join(accent_group for accent_group, _ in accents),
        "".join(rep * len(accent_group) for accent_group, rep in accents),
    )

`call(doc)`

Remove accents from spacy NORM attribute.

PARAMETER DESCRIPTION

doc

The spaCy Doc object.

TYPE: Doc

RETURNS	DESCRIPTION
`Doc`	The document, with accents removed in `Token.norm_`.

Source code in edsnlp/pipelines/core/normalizer/accents/accents.py

def __call__(self, doc: Doc) -> Doc:
    """
    Remove accents from spacy `NORM` attribute.

    Parameters
    ----------
    doc : Doc
        The spaCy `Doc` object.

    Returns
    -------
    Doc
        The document, with accents removed in `Token.norm_`.
    """

    for token in doc:
        token.norm_ = token.norm_.translate(self.translation_table)

    return doc

`factory`

`DEFAULT_CONFIG = dict(accents=None)` `module-attribute`

`create_component(nlp, name, accents)`

Source code in edsnlp/pipelines/core/normalizer/accents/factory.py

@deprecated_factory("accents", "eds.accents", default_config=DEFAULT_CONFIG)
@Language.factory("eds.accents", default_config=DEFAULT_CONFIG)
def create_component(
    nlp: Language,
    name: str,
    accents: Optional[List[Tuple[str, str]]],
):
    return Accents(
        accents=accents,
    )

`lowercase`

`factory`

`remove_lowercase(doc)`

Add case on the NORM custom attribute. Should always be applied first.

PARAMETER DESCRIPTION

doc

The spaCy Doc object.

TYPE: Doc

RETURNS	DESCRIPTION
`Doc`	The document, with case put back in `NORM`.

Source code in edsnlp/pipelines/core/normalizer/lowercase/factory.py

@Language.component("remove-lowercase")
@Language.component("eds.remove-lowercase")
def remove_lowercase(doc: Doc):
    """
    Add case on the `NORM` custom attribute. Should always be applied first.

    Parameters
    ----------
    doc : Doc
        The spaCy `Doc` object.

    Returns
    -------
    Doc
        The document, with case put back in `NORM`.
    """

    for token in doc:
        token.norm_ = token.text

    return doc

`quotes`

`Quotes`

Bases: object

We normalise quotes, following this source <https://www.cl.cam.ac.uk/~mgk25/ucs/quotes.html>_.

PARAMETER DESCRIPTION

quotes

List of quotation characters and their transcription.

TYPE: List[Tuple[str, str]]

Source code in edsnlp/pipelines/core/normalizer/quotes/quotes.py

class Quotes(object):
    """
    We normalise quotes, following this
    `source <https://www.cl.cam.ac.uk/~mgk25/ucs/quotes.html>`_.

    Parameters
    ----------
    quotes : List[Tuple[str, str]]
        List of quotation characters and their transcription.
    """

    def __init__(self, quotes: Optional[List[Tuple[str, str]]]) -> None:
        if quotes is None:
            quotes = quotes_and_apostrophes

        self.translation_table = str.maketrans(
            "".join(quote_group for quote_group, _ in quotes),
            "".join(rep * len(quote_group) for quote_group, rep in quotes),
        )

    def __call__(self, doc: Doc) -> Doc:
        """
        Normalises quotes.

        Parameters
        ----------
        doc : Doc
            Document to process.

        Returns
        -------
        Doc
            Same document, with quotes normalised.
        """

        for token in doc:
            token.norm_ = token.norm_.translate(self.translation_table)

        return doc

`translation_table = str.maketrans(''.join(quote_group for (quote_group, _) in quotes), ''.join(rep * len(quote_group) for (quote_group, rep) in quotes))` `instance-attribute`

`init(quotes)`

Source code in edsnlp/pipelines/core/normalizer/quotes/quotes.py

def __init__(self, quotes: Optional[List[Tuple[str, str]]]) -> None:
    if quotes is None:
        quotes = quotes_and_apostrophes

    self.translation_table = str.maketrans(
        "".join(quote_group for quote_group, _ in quotes),
        "".join(rep * len(quote_group) for quote_group, rep in quotes),
    )

`call(doc)`

Normalises quotes.

PARAMETER DESCRIPTION

doc

Document to process.

TYPE: Doc

RETURNS	DESCRIPTION
`Doc`	Same document, with quotes normalised.

Source code in edsnlp/pipelines/core/normalizer/quotes/quotes.py

def __call__(self, doc: Doc) -> Doc:
    """
    Normalises quotes.

    Parameters
    ----------
    doc : Doc
        Document to process.

    Returns
    -------
    Doc
        Same document, with quotes normalised.
    """

    for token in doc:
        token.norm_ = token.norm_.translate(self.translation_table)

    return doc

`patterns`

`quotes: List[str] = ['＂', '〃', 'ײ', '᳓', '″', '״', '‶', '˶', 'ʺ', '“', '”', '˝', '‟']` `module-attribute`

apostrophes: List[str] = ['｀', '΄', '＇', 'ˈ', 'ˊ', 'ᑊ', 'ˋ', 'ꞌ', 'ᛌ', '𖽒', '𖽑', '‘', '’', 'י', '՚', '‛', '՝', '`', '`', '′', '׳', '´', 'ʹ', '˴', 'ߴ', '‵', 'ߵ', 'ʹ', 'ʻ', 'ʼ', '´', '᾽', 'ʽ', '῾', 'ʾ', '᾿'] `module-attribute`

`quotes_and_apostrophes: List[Tuple[str, str]] = [(''.join(quotes), '"'), (''.join(apostrophes), "'")]` `module-attribute`

`factory`

`DEFAULT_CONFIG = dict(quotes=None)` `module-attribute`

`create_component(nlp, name, quotes)`

Source code in edsnlp/pipelines/core/normalizer/quotes/factory.py

@deprecated_factory("quotes", "eds.quotes", default_config=DEFAULT_CONFIG)
@Language.factory("eds.quotes", default_config=DEFAULT_CONFIG)
def create_component(
    nlp: Language,
    name: str,
    quotes: Optional[List[Tuple[str, str]]],
):
    return Quotes(
        quotes=quotes,
    )

edsnlp.pipelines.core.normalizer

normalizer

Normalizer

lowercase = lowercase instance-attribute

accents = accents instance-attribute

quotes = quotes instance-attribute

pollution = pollution instance-attribute

__init__(lowercase, accents, quotes, pollution)

__call__(doc)

factory

DEFAULT_CONFIG = dict(accents=True, lowercase=True, quotes=True, pollution=True) module-attribute

create_component(nlp, name, accents, lowercase, quotes, pollution)

pollution

patterns

bars = '(?i)([nbw]|_|-|=){5,}' module-attribute

pollution = dict(information=information, bars=bars) module-attribute

pollution

Pollution

nlp = nlp instance-attribute

pollution = pollution instance-attribute

regex_matcher = RegexMatcher() instance-attribute

__init__(nlp, pollution)

build_patterns()

process(doc)

__call__(doc)

factory

DEFAULT_CONFIG = dict(pollution=None) module-attribute

create_component(nlp, name, pollution)

accents

patterns

accents: List[Tuple[str, str]] = [('ç', 'c'), ('àáâä', 'a'), ('èéêë', 'e'), ('ìíîï', 'i'), ('òóôö', 'o'), ('ùúûü', 'u')] module-attribute

accents

Accents

translation_table = str.maketrans(''.join(accent_group for (accent_group, _) in accents), ''.join(rep * len(accent_group) for (accent_group, rep) in accents)) instance-attribute

__init__(accents)

__call__(doc)

factory

DEFAULT_CONFIG = dict(accents=None) module-attribute

create_component(nlp, name, accents)

lowercase

factory

remove_lowercase(doc)

quotes

quotes

Quotes

translation_table = str.maketrans(''.join(quote_group for (quote_group, _) in quotes), ''.join(rep * len(quote_group) for (quote_group, rep) in quotes)) instance-attribute

__init__(quotes)

__call__(doc)

patterns

quotes: List[str] = ['＂', '〃', 'ײ', '᳓', '″', '״', '‶', '˶', 'ʺ', '“', '”', '˝', '‟'] module-attribute

apostrophes: List[str] = ['｀', '΄', '＇', 'ˈ', 'ˊ', 'ᑊ', 'ˋ', 'ꞌ', 'ᛌ', '𖽒', '𖽑', '‘', '’', 'י', '՚', '‛', '՝', '`', '`', '′', '׳', '´', 'ʹ', '˴', 'ߴ', '‵', 'ߵ', 'ʹ', 'ʻ', 'ʼ', '´', '᾽', 'ʽ', '῾', 'ʾ', '᾿'] module-attribute

quotes_and_apostrophes: List[Tuple[str, str]] = [(''.join(quotes), '"'), (''.join(apostrophes), "'")] module-attribute

factory

DEFAULT_CONFIG = dict(quotes=None) module-attribute

create_component(nlp, name, quotes)

`edsnlp.pipelines.core.normalizer`

`normalizer`

`Normalizer`

`lowercase = lowercase` `instance-attribute`

`accents = accents` `instance-attribute`

`quotes = quotes` `instance-attribute`

`pollution = pollution` `instance-attribute`

`init(lowercase, accents, quotes, pollution)`

`call(doc)`

`factory`

`DEFAULT_CONFIG = dict(accents=True, lowercase=True, quotes=True, pollution=True)` `module-attribute`

`create_component(nlp, name, accents, lowercase, quotes, pollution)`

`pollution`

`patterns`

`bars = '(?i)([nbw]|_|-|=){5,}'` `module-attribute`

`pollution = dict(information=information, bars=bars)` `module-attribute`

`pollution`

`Pollution`

`nlp = nlp` `instance-attribute`

`pollution = pollution` `instance-attribute`

`regex_matcher = RegexMatcher()` `instance-attribute`

`init(nlp, pollution)`

`build_patterns()`

`process(doc)`

`call(doc)`

`factory`

`DEFAULT_CONFIG = dict(pollution=None)` `module-attribute`

`create_component(nlp, name, pollution)`

`accents`

`patterns`

`accents: List[Tuple[str, str]] = [('ç', 'c'), ('àáâä', 'a'), ('èéêë', 'e'), ('ìíîï', 'i'), ('òóôö', 'o'), ('ùúûü', 'u')]` `module-attribute`

`accents`

`Accents`

`translation_table = str.maketrans(''.join(accent_group for (accent_group, _) in accents), ''.join(rep * len(accent_group) for (accent_group, rep) in accents))` `instance-attribute`

`init(accents)`

`call(doc)`

`factory`

`DEFAULT_CONFIG = dict(accents=None)` `module-attribute`

`create_component(nlp, name, accents)`

`lowercase`

`factory`

`remove_lowercase(doc)`

`quotes`

`quotes`

`Quotes`

`translation_table = str.maketrans(''.join(quote_group for (quote_group, _) in quotes), ''.join(rep * len(quote_group) for (quote_group, rep) in quotes))` `instance-attribute`

`init(quotes)`

`call(doc)`

`patterns`

`quotes: List[str] = ['＂', '〃', 'ײ', '᳓', '″', '״', '‶', '˶', 'ʺ', '“', '”', '˝', '‟']` `module-attribute`

apostrophes: List[str] = ['｀', '΄', '＇', 'ˈ', 'ˊ', 'ᑊ', 'ˋ', 'ꞌ', 'ᛌ', '𖽒', '𖽑', '‘', '’', 'י', '՚', '‛', '՝', '`', '`', '′', '׳', '´', 'ʹ', '˴', 'ߴ', '‵', 'ߵ', 'ʹ', 'ʻ', 'ʼ', '´', '᾽', 'ʽ', '῾', 'ʾ', '᾿'] `module-attribute`

`quotes_and_apostrophes: List[Tuple[str, str]] = [(''.join(quotes), '"'), (''.join(apostrophes), "'")]` `module-attribute`

`factory`

`DEFAULT_CONFIG = dict(quotes=None)` `module-attribute`

`create_component(nlp, name, quotes)`