Class CorpusBatchStep

    • Field Detail

      • dictionaryPOS

        protected List<String> dictionaryPOS
    • Constructor Detail

      • CorpusBatchStep

        public CorpusBatchStep()
    • Method Detail

      • getMapper

        protected com.fasterxml.jackson.databind.ObjectMapper getMapper()
      • getParameterStore

        protected io.outofprintmagazine.util.IParameterStore getParameterStore()
                                                                        throws IOException
        Throws:
        IOException
      • setParameterStore

        public void setParameterStore​(io.outofprintmagazine.util.IParameterStore parameterStore)
        Specified by:
        setParameterStore in interface ICorpusBatchStep
      • copyInputToOutput

        protected void copyInputToOutput​(com.fasterxml.jackson.databind.node.ObjectNode inputStepItem,
                                         com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
                                  throws IOException
        Throws:
        IOException
      • copyInputToOutput

        protected com.fasterxml.jackson.databind.node.ObjectNode copyInputToOutput​(com.fasterxml.jackson.databind.node.ObjectNode inputStepItem)
                                                                            throws IOException
        Throws:
        IOException
      • run

        public com.fasterxml.jackson.databind.node.ArrayNode run​(com.fasterxml.jackson.databind.node.ArrayNode input)
        Specified by:
        run in interface ICorpusBatchStep
      • runOne

        public abstract com.fasterxml.jackson.databind.node.ArrayNode runOne​(com.fasterxml.jackson.databind.node.ObjectNode input)
                                                                      throws Exception
        Specified by:
        runOne in interface ICorpusBatchStep
        Throws:
        Exception
      • getText

        protected String getText​(org.jsoup.nodes.Element element)
      • getText

        protected String getText​(com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • getTextWithSelector

        protected String getTextWithSelector​(org.jsoup.nodes.Element element,
                                             String selector)
      • getAuthor

        protected String getAuthor​(org.jsoup.nodes.Document doc)
      • getAuthor

        protected String getAuthor​(com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • setAuthor

        protected void setAuthor​(String author,
                                 com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • setAuthor

        protected void setAuthor​(org.jsoup.nodes.Document doc,
                                 com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • getTitle

        protected String getTitle​(org.jsoup.nodes.Document doc)
      • getTitle

        protected String getTitle​(com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • setTitle

        protected void setTitle​(String title,
                                com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • setTitle

        protected void setTitle​(org.jsoup.nodes.Document doc,
                                com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • getThumbnail

        protected String getThumbnail​(org.jsoup.nodes.Document doc)
      • setThumbnail

        protected void setThumbnail​(String thumbnail,
                                    com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • setThumbnail

        protected void setThumbnail​(org.jsoup.nodes.Document doc,
                                    com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • getDate

        protected String getDate​(org.jsoup.nodes.Document doc)
      • getDate

        protected String getDate​(com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • setDate

        protected void setDate​(String date,
                               com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • setDate

        protected void setDate​(org.jsoup.nodes.Document doc,
                               com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • setDate

        protected void setDate​(com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • setLink

        protected void setLink​(String link,
                               com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • getLink

        protected String getLink​(com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • setStorageLink

        protected void setStorageLink​(String storage,
                                      com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • setDocID

        protected void setDocID​(com.fasterxml.jackson.databind.node.ObjectNode outputStepItem,
                                String docID)
      • getDocID

        protected String getDocID​(com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • getStorageLink

        protected String getStorageLink​(com.fasterxml.jackson.databind.node.ObjectNode outputStepItem)
      • getJsoupDocumentFromStorage

        protected org.jsoup.nodes.Document getJsoupDocumentFromStorage​(com.fasterxml.jackson.databind.node.ObjectNode inputStepItem)
                                                                throws Exception
        Throws:
        Exception
      • getJsoupDocumentFromStorageNormalized

        protected org.jsoup.nodes.Document getJsoupDocumentFromStorageNormalized​(com.fasterxml.jackson.databind.node.ObjectNode inputStepItem)
                                                                          throws Exception
        Throws:
        Exception
      • getTextDocumentFromStorage

        protected String getTextDocumentFromStorage​(com.fasterxml.jackson.databind.node.ObjectNode inputStepItem)
                                             throws Exception
        Throws:
        Exception
      • getTextDocumentFromStorage

        protected String getTextDocumentFromStorage​(com.fasterxml.jackson.databind.node.ObjectNode inputStepItem,
                                                    String property)
                                             throws Exception
        Throws:
        Exception
      • getJsonNodeFromStorage

        protected com.fasterxml.jackson.databind.JsonNode getJsonNodeFromStorage​(com.fasterxml.jackson.databind.node.ObjectNode inputStepItem)
                                                                          throws Exception
        Throws:
        Exception
      • getJsonNodeFromStorage

        protected com.fasterxml.jackson.databind.JsonNode getJsonNodeFromStorage​(com.fasterxml.jackson.databind.node.ObjectNode inputStepItem,
                                                                                 String property)
                                                                          throws Exception
        Throws:
        Exception
      • getOutputScratchFilePathFromInput

        protected String getOutputScratchFilePathFromInput​(com.fasterxml.jackson.databind.node.ObjectNode inputStepItem,
                                                           String extension)
                                                    throws Exception
        Throws:
        Exception
      • getMimeTypeFromExtension

        protected String getMimeTypeFromExtension​(String extension)
      • getExtensionFromMimeType

        protected String getExtensionFromMimeType​(String mimeType)
                                           throws org.apache.tika.mime.MimeTypeException
        Throws:
        org.apache.tika.mime.MimeTypeException
      • isDictionaryWord

        protected boolean isDictionaryWord​(String pos)