[8.15] [Playground] [Bug] Continue to use text_expansion when rank_features field (#188232) (#188303)

# Backport This will backport the following commits from `main` to `8.15`: - [[Playground] [Bug] Continue to use text_expansion when rank_features field (#188232)](https://github.com/elastic/kibana/pull/188232)  ### Questions ? Please refer to the [Backport tool documentation](https://github.com/sqren/backport)  Co-authored-by: Joe McElroy <joseph.mcelroy@elastic.co>
2025-04-23 17:28:26 -04:00 · 2024-07-15 15:02:46 +02:00 · 2024-07-15 15:02:46 +02:00 · 3baf161e18
commit 3baf161e18
parent 6b02af8877
6 changed files with 143 additions and 22 deletions
--- a/x-pack/plugins/search_playground/common/types.ts
+++ b/x-pack/plugins/search_playground/common/types.ts
@ -19,6 +19,10 @@ interface ModelField {
  indices: string[];
 }

+interface ELSERQueryFields extends ModelField {
+  sparse_vector: boolean;
+}
+
 export interface ChatMessage {
  id: string;
  role: MessageRole;
@ -33,7 +37,7 @@ interface SemanticField {
 }

 export interface QuerySourceFields {
-  elser_query_fields: ModelField[];
+  elser_query_fields: ELSERQueryFields[];
  dense_vector_query_fields: ModelField[];
  bm25_query_fields: string[];
  source_fields: string[];
--- a/x-pack/plugins/search_playground/public/hooks/use_source_indices_fields.test.tsx
+++ b/x-pack/plugins/search_playground/public/hooks/use_source_indices_fields.test.tsx
@ -37,6 +37,7 @@ describe.skip('useSourceIndicesFields Hook', () => {
            field: 'field1',
            model_id: 'model1',
            indices: ['newIndex'],
+            sparse_vector: true,
          },
        ],
        dense_vector_query_fields: [],
--- a/x-pack/plugins/search_playground/public/utils/create_query.test.ts
+++ b/x-pack/plugins/search_playground/public/utils/create_query.test.ts
@ -19,7 +19,9 @@ describe('create_query', () => {

      const fieldDescriptors: IndicesQuerySourceFields = {
        index1: {
-          elser_query_fields: [{ field: 'field1', model_id: 'model1', indices: ['index1'] }],
+          elser_query_fields: [
+            { field: 'field1', model_id: 'model1', indices: ['index1'], sparse_vector: true },
+          ],
          dense_vector_query_fields: [],
          bm25_query_fields: [],
          source_fields: [],
@ -43,6 +45,40 @@ describe('create_query', () => {
      });
    });

+    it('should return a text_expansion single query', () => {
+      const fields = {
+        index1: ['field1'],
+      };
+
+      const fieldDescriptors: IndicesQuerySourceFields = {
+        index1: {
+          elser_query_fields: [
+            { field: 'field1', model_id: 'model1', indices: ['index1'], sparse_vector: false },
+          ],
+          dense_vector_query_fields: [],
+          bm25_query_fields: [],
+          source_fields: [],
+          skipped_fields: 0,
+          semantic_fields: [],
+        },
+      };
+
+      expect(createQuery(fields, sourceFields, fieldDescriptors)).toEqual({
+        retriever: {
+          standard: {
+            query: {
+              text_expansion: {
+                field1: {
+                  model_id: 'model1',
+                  model_text: '{query}',
+                },
+              },
+            },
+          },
+        },
+      });
+    });
+
    it('should return a knn query single', () => {
      const fields = {
        index1: ['field1'],
@ -88,7 +124,12 @@ describe('create_query', () => {
      const fieldDescriptors: IndicesQuerySourceFields = {
        index1: {
          elser_query_fields: [
-            { field: 'field1', model_id: 'model1', indices: ['index1', 'index2'] },
+            {
+              field: 'field1',
+              model_id: 'model1',
+              indices: ['index1', 'index2'],
+              sparse_vector: true,
+            },
          ],
          dense_vector_query_fields: [],
          bm25_query_fields: [],
@ -98,7 +139,12 @@ describe('create_query', () => {
        },
        index2: {
          elser_query_fields: [
-            { field: 'field1', model_id: 'model1', indices: ['index1', 'index2'] },
+            {
+              field: 'field1',
+              model_id: 'model1',
+              indices: ['index1', 'index2'],
+              sparse_vector: true,
+            },
          ],
          dense_vector_query_fields: [],
          bm25_query_fields: [],
@ -131,7 +177,9 @@ describe('create_query', () => {

      const fieldDescriptors: IndicesQuerySourceFields = {
        index1: {
-          elser_query_fields: [{ field: 'field1', model_id: 'model1', indices: ['index1'] }],
+          elser_query_fields: [
+            { field: 'field1', model_id: 'model1', indices: ['index1'], sparse_vector: true },
+          ],
          dense_vector_query_fields: [],
          bm25_query_fields: [],
          source_fields: [],
@ -139,7 +187,9 @@ describe('create_query', () => {
          semantic_fields: [],
        },
        index2: {
-          elser_query_fields: [{ field: 'field2', model_id: 'model1', indices: ['index2'] }],
+          elser_query_fields: [
+            { field: 'field2', model_id: 'model1', indices: ['index2'], sparse_vector: true },
+          ],
          dense_vector_query_fields: [],
          bm25_query_fields: [],
          source_fields: [],
@ -189,7 +239,9 @@ describe('create_query', () => {

        const fieldDescriptors: IndicesQuerySourceFields = {
          index1: {
-            elser_query_fields: [{ field: 'field1', model_id: 'model1', indices: ['index1'] }],
+            elser_query_fields: [
+              { field: 'field1', model_id: 'model1', indices: ['index1'], sparse_vector: true },
+            ],
            dense_vector_query_fields: [],
            bm25_query_fields: ['content', 'title'],
            source_fields: [],
@ -197,7 +249,9 @@ describe('create_query', () => {
            semantic_fields: [],
          },
          index2: {
-            elser_query_fields: [{ field: 'field2', model_id: 'model1', indices: ['index2'] }],
+            elser_query_fields: [
+              { field: 'field2', model_id: 'model1', indices: ['index2'], sparse_vector: true },
+            ],
            dense_vector_query_fields: [],
            bm25_query_fields: [],
            source_fields: [],
@ -251,7 +305,9 @@ describe('create_query', () => {

        const fieldDescriptors: IndicesQuerySourceFields = {
          index1: {
-            elser_query_fields: [{ field: 'field1', model_id: 'model1', indices: ['index1'] }],
+            elser_query_fields: [
+              { field: 'field1', model_id: 'model1', indices: ['index1'], sparse_vector: true },
+            ],
            dense_vector_query_fields: [],
            bm25_query_fields: ['content', 'title'],
            source_fields: [],
@ -259,7 +315,9 @@ describe('create_query', () => {
            semantic_fields: [],
          },
          index2: {
-            elser_query_fields: [{ field: 'field2', model_id: 'model1', indices: ['index2'] }],
+            elser_query_fields: [
+              { field: 'field2', model_id: 'model1', indices: ['index2'], sparse_vector: true },
+            ],
            dense_vector_query_fields: [],
            bm25_query_fields: [],
            source_fields: [],
@ -326,7 +384,9 @@ describe('create_query', () => {
          semantic_fields: [],
        },
        index2: {
-          elser_query_fields: [{ field: 'field2', model_id: 'model1', indices: ['index2'] }],
+          elser_query_fields: [
+            { field: 'field2', model_id: 'model1', indices: ['index2'], sparse_vector: true },
+          ],
          dense_vector_query_fields: [],
          bm25_query_fields: [],
          source_fields: [],
@ -663,7 +723,9 @@ describe('create_query', () => {
    it('should return default ELSER query fields', () => {
      const fieldDescriptors: IndicesQuerySourceFields = {
        index1: {
-          elser_query_fields: [{ field: 'field1', model_id: 'model1', indices: ['index1'] }],
+          elser_query_fields: [
+            { field: 'field1', model_id: 'model1', indices: ['index1'], sparse_vector: true },
+          ],
          dense_vector_query_fields: [
            { field: 'field1', model_id: 'dense_model', indices: ['index1'] },
          ],
@ -680,7 +742,9 @@ describe('create_query', () => {
    it('should return default elser query fields for multiple indices', () => {
      const fieldDescriptors: IndicesQuerySourceFields = {
        index1: {
-          elser_query_fields: [{ field: 'field1', model_id: 'model1', indices: ['index1'] }],
+          elser_query_fields: [
+            { field: 'field1', model_id: 'model1', indices: ['index1'], sparse_vector: true },
+          ],
          dense_vector_query_fields: [
            {
              field: 'dv_field1',
@ -695,7 +759,9 @@ describe('create_query', () => {
          semantic_fields: [],
        },
        index2: {
-          elser_query_fields: [{ field: 'vector', model_id: 'model1', indices: ['index2'] }],
+          elser_query_fields: [
+            { field: 'vector', model_id: 'model1', indices: ['index2'], sparse_vector: true },
+          ],
          dense_vector_query_fields: [
            {
              field: 'dv_field1',
@ -720,7 +786,9 @@ describe('create_query', () => {
    it('should return elser query fields for default fields', () => {
      const fieldDescriptors: IndicesQuerySourceFields = {
        index1: {
-          elser_query_fields: [{ field: 'field1', model_id: 'model1', indices: ['index1'] }],
+          elser_query_fields: [
+            { field: 'field1', model_id: 'model1', indices: ['index1'], sparse_vector: true },
+          ],
          dense_vector_query_fields: [
            {
              field: 'dv_field1',
@ -735,7 +803,9 @@ describe('create_query', () => {
          semantic_fields: [],
        },
        index2: {
-          elser_query_fields: [{ field: 'vector', model_id: 'model1', indices: ['index2'] }],
+          elser_query_fields: [
+            { field: 'vector', model_id: 'model1', indices: ['index2'], sparse_vector: true },
+          ],
          dense_vector_query_fields: [
            {
              field: 'dv_field1',
--- a/x-pack/plugins/search_playground/public/utils/create_query.ts
+++ b/x-pack/plugins/search_playground/public/utils/create_query.ts
@ -134,10 +134,11 @@ export function createQuery(
            (x) => x.field === field
          );

-          if (elserField) {
+          if (elserField && elserField.sparse_vector) {
            // when another index has the same field, we don't want to duplicate the match rule
            const hasExistingSparseMatch = acc.queryMatches.find(
              (x) =>
+                // when the field is a sparse_vector field
                x?.sparse_vector?.field === field &&
                x?.sparse_vector?.inference_id === elserField?.model_id
            );
@ -154,6 +155,28 @@ export function createQuery(
              },
            };
          }
+
+          if (elserField && !elserField.sparse_vector) {
+            // when the field is a rank_features field
+            const hasExistingSparseMatch = acc.queryMatches.find(
+              (x) =>
+                x?.text_expansion?.[elserField.field] &&
+                x?.sparse_vector?.inference_id === elserField?.model_id
+            );
+
+            if (hasExistingSparseMatch) {
+              return null;
+            }
+
+            return {
+              text_expansion: {
+                [elserField.field]: {
+                  model_id: elserField.model_id,
+                  model_text: '{query}',
+                },
+              },
+            };
+          }
          return null;
        }) || [];

--- a/x-pack/plugins/search_playground/server/lib/fetch_query_source_fields.test.ts
+++ b/x-pack/plugins/search_playground/server/lib/fetch_query_source_fields.test.ts
@ -73,6 +73,7 @@ describe('fetch_query_source_fields', () => {
              field: 'vector.tokens',
              model_id: '.elser_model_2',
              indices: ['workplace_index'],
+              sparse_vector: false,
            },
          ],
          skipped_fields: 8,
@ -94,6 +95,7 @@ describe('fetch_query_source_fields', () => {
              field: 'content_vector.tokens',
              model_id: '.elser_model_2',
              indices: ['workplace_index2'],
+              sparse_vector: false,
            },
          ],
          source_fields: [
@ -188,6 +190,7 @@ describe('fetch_query_source_fields', () => {
              field: 'ml.inference.body_content_expanded.predicted_value',
              indices: ['search-nethys'],
              model_id: '.elser_model_2_linux-x86_64',
+              sparse_vector: true,
            },
          ],
          source_fields: ['body_content', 'headings', 'title'],
@ -292,6 +295,7 @@ describe('fetch_query_source_fields', () => {
              field: 'text_embedding',
              indices: ['index'],
              model_id: '.elser_model_2',
+              sparse_vector: true,
            },
          ],
          dense_vector_query_fields: [],
@ -347,6 +351,7 @@ describe('fetch_query_source_fields', () => {
              field: 'text_embedding',
              indices: ['elser_index'],
              model_id: 'my-elser-model',
+              sparse_vector: true,
            },
          ],
          skipped_fields: 2,
--- a/x-pack/plugins/search_playground/server/lib/fetch_query_source_fields.ts
+++ b/x-pack/plugins/search_playground/server/lib/fetch_query_source_fields.ts
@ -259,12 +259,9 @@ export const parseFieldsCapabilities = (
          } else {
            acc[index].skipped_fields++;
          }
-        } else if (
-          isFieldInIndex(field, 'rank_features', index) ||
-          isFieldInIndex(field, 'sparse_vector', index)
-        ) {
+        } else if (isFieldInIndex(field, 'sparse_vector', index)) {
          const modelId = getModelField(fieldKey, modelIdFields);
-          const fieldCapabilities = field.rank_features || field.sparse_vector;
+          const fieldCapabilities = field.sparse_vector;

          // Check if the sparse vector field has a model_id associated with it
          // skip this field if has no model associated with it
@ -274,6 +271,27 @@ export const parseFieldsCapabilities = (
              field: fieldKey,
              model_id: modelId,
              indices: (fieldCapabilities.indices as string[]) || indicesPresentIn,
+              // we must use sparse_vector query
+              sparse_vector: true,
+            };
+            acc[index].elser_query_fields.push(elserModelField);
+          } else {
+            acc[index].skipped_fields++;
+          }
+        } else if (isFieldInIndex(field, 'rank_features', index)) {
+          const modelId = getModelField(fieldKey, modelIdFields);
+          const fieldCapabilities = field.rank_features;
+
+          // Check if the sparse vector field has a model_id associated with it
+          // skip this field if has no model associated with it
+          // and the vectors were embedded outside of stack
+          if (modelId && !nestedField) {
+            const elserModelField = {
+              field: fieldKey,
+              model_id: modelId,
+              indices: (fieldCapabilities.indices as string[]) || indicesPresentIn,
+              // we must use text_expansion query
+              sparse_vector: false,
            };
            acc[index].elser_query_fields.push(elserModelField);
          } else {