solr tika-data-config.xml заполнить поле именем с заданным значением для всех документов

пытаюсь решить задачу. Настраиваю индексацию solr. Использую tika-data-config.xml. Необходимо определённое поле заполнить одним и тем же значением для всех документов. Как это можно сделать через файл tika-data-config.xml? Вот мой файл:


    <dataConfig>
      <dataSource type="BinFileDataSource"/>
      <document>
        <entity name="folder1" processor="FileListEntityProcessor" dataSource="null"
                baseDir="/var/solr/data/mydata/" fileName=".*pdf"
                rootEntity="false" onError="skip">
    
          <field column="file" name="id"/>
          <field column="file" name="fileName"/>
          <field column="fileDir" name="fileDir"/>
    
          <entity name="pdf" processor="TikaEntityProcessor"
                  url="${file.fileAbsolutePath}" format="text">
    
            <field column="title" name="title" meta="true"/>
            <field column="text" name="text" />
            <field column="fileAbsolutePath" name="fileAbsolutePath"/>
    
          </entity>
        </entity>
      </document>
    </dataConfig>

На самом деле я хочу записать в отдельное поле имя папки, в которой содержатся все файлы, не весь путь, а именно только папку с файлами. В моём случае это папка mydata.


Ответы (1 шт):

Автор решения: DrugojAndrew

Для решения использовал transformer (в моём случае TemplateTransformer):

<dataConfig>
  <dataSource type="BinFileDataSource"/>
  <document>
    <entity name="folder1" processor="FileListEntityProcessor" dataSource="null"
            baseDir="/var/solr/data/mydata/" fileName=".*pdf"
            rootEntity="false" onError="skip">

      <field column="file" name="id"/>
      <field column="file" name="fileName"/>
      <field column="fileDir" name="fileDir"/>

      <entity name="pdf" processor="TikaEntityProcessor"
              url="${file.fileAbsolutePath}" format="text"
              transformer="TemplateTransformer">

        <field column="title" name="title" meta="true"/>
        <field column="text" name="text" />
        <field column="foldeName" template="mydata" />
        <field column="foldeName" name="foldeName" />
        <field column="fileAbsolutePath" name="fileAbsolutePath"/>

      </entity>
    </entity>
  </document>
</dataConfig>

Вот ссылка на документацию: Transformer

→ Ссылка