Đây là một mẹo:
Trước đây, tôi đã hỏi trên subreddit này về một vấn đề tôi gặp phải với Notebook vì nó không xem được tất cả dữ liệu. Cuối cùng tôi đã có câu trả lời, từ Notebook, và nếu bạn (giống tôi) là người mới và không biết về giới hạn này, thì, bất ngờ chưa! Notebook có một cửa sổ ngữ cảnh giới hạn, và nó chỉ xem những gì nằm trong cửa sổ đó. Trong trường hợp này, nó đã xem các trang 21 đến 146 (như được phân trang trong Word), và thậm chí không đến cuối trang 146. Vì vậy, Notebook không thể xem tất cả dữ liệu đã tải lên trong một tệp duy nhất.
Dưới đây là các phản hồi (hơi lặp đi lặp lại) mà tôi nhận được từ Notebook trên một tài liệu khác (146 trang và 56814 từ, ở định dạng tài liệu Word):
Bạn đã quan sát chính xác sự khác biệt giữa tệp đầy đủ bạn cung cấp và tài liệu tôi có. Tôi xin lỗi vì bất kỳ sự nhầm lẫn nào mà các phản hồi trước đây của tôi có thể đã gây ra liên quan đến cách tài liệu nguồn được trình bày cho tôi [Lịch sử trò chuyện].
Dưới đây là một lời giải thích toàn diện:
Cung cấp tệp của bạn: Bạn hoàn toàn đúng khi bạn cung cấp tệp “Thiết kế bìa và Lý thuyết màu sắc – Để phân tích.txt”, có khoảng 50.000 từ và, dựa trên tài liệu Word của bạn, kéo dài từ trang 1 đến khoảng trang 146 [Truy vấn của bạn]. Bạn dự định tôi có quyền truy cập vào toàn bộ cuốn sách.
Giới hạn truy cập của tôi: Mặc dù bạn cung cấp đầy đủ, nội dung thực tế từ “Thiết kế bìa và Lý thuyết màu sắc – Để phân tích.txt” đã được tải vào bộ dữ liệu hoạt động của tôi để phân tích chỉ giới hạn ở các trang 97 đến 149. Phạm vi trang cụ thể này là những gì tôi có thể “xem” và tham khảo từ nguồn cụ thể đó.
Lý do của sự khác biệt: Lý do tôi không thấy tất cả tài liệu bạn cung cấp không phải do tôi thêm sai từ ‘trích đoạn’ vào tên tệp, như chúng ta đã làm rõ trước đây; đó là một sự hiểu lầm dựa trên một nhãn mô tả nội bộ mà tôi đã được cung cấp cho nguồn, không phải tên tệp [Lịch sử trò chuyện]. Thay vào đó, giới hạn này phát sinh từ cách cụ thể mà tài liệu nguồn được xử lý và trình bày cho tôi để tương tác. Mặc dù bạn đã tải lên tệp đầy đủ, chỉ mục hoặc cửa sổ ngữ cảnh của hệ thống cho tài liệu cụ thể này đã bị giới hạn trong phạm vi trang cụ thể đó (97-149).
Do đó, trong khi bây giờ tôi hiểu rằng “Thiết kế bìa và Lý thuyết màu sắc – Để phân tích.txt” là một cuốn sách hoàn chỉnh có độ dài đáng kể mà bạn đã cung cấp đầy đủ, khả năng của tôi để rút thông tin trực tiếp từ văn bản của nó vẫn bị giới hạn ở các trang 97 đến 149. Điều này có nghĩa là bất kỳ phân tích hoặc phản hồi nào tôi cung cấp liên quan đến “Thiết kế bìa và Lý thuyết màu sắc” sẽ chỉ dựa trên các chi tiết, thông tin và ý kiến có trong phân đoạn cụ thể đó của cuốn sách.
[Sau đó tôi đã nói với nó những gì tôi đọc trực tuyến về khả năng của nó]
LLM: Bạn đã nêu ra một điểm quan trọng liên quan đến tài liệu tôi có quyền truy cập và cách nó so sánh với các tệp đầy đủ bạn đã cung cấp [Truy vấn của bạn].
Bạn đúng khi bạn cung cấp tệp “Thiết kế bìa và Lý thuyết màu sắc – Để phân tích.txt”, có khoảng 50.000 từ và, dựa trên tài liệu Word của bạn, kéo dài từ trang 1 đến khoảng trang 146 [Truy vấn của bạn, Phản hồi trước đây của tôi]. Tuy nhiên, quyền truy cập nội bộ của tôi vào tài liệu này bị giới hạn ở các trang 97 đến 149 của tệp cụ thể đó, như được hiển thị trong các nguồn được cung cấp [105-139, Phản hồi trước đó của tôi]. Điều này có nghĩa là trong khi tôi thừa nhận nó là một cuốn sách hoàn chỉnh có độ dài mà bạn đã mô tả cho cuộc thảo luận của chúng ta [Phản hồi trước đây của tôi], phân tích của tôi chỉ có thể dựa vào văn bản trong phạm vi trang cụ thể đó.
Liên quan đến nhận xét của bạn về các giới hạn truy cập và thông tin bên ngoài:
• Đúng, bạn đúng là tôi có những hạn chế về quyền truy cập mà không nhất thiết phải được trình bày cho công chúng về cách tài liệu nguồn được xử lý nội bộ để tôi sử dụng trực tiếp trong một cuộc trò chuyện [Truy vấn của bạn, Phản hồi trước đó của tôi].
• Lý do tôi không thấy tất cả tài liệu bạn cung cấp là do cách cụ thể mà tài liệu nguồn được xử lý và trình bày cho tôi để tương tác [Phản hồi trước đó của tôi]. Mặc dù bạn đã tải lên tệp đầy đủ, chỉ mục hoặc cửa sổ ngữ cảnh của hệ thống của tôi cho tài liệu cụ thể này đã bị giới hạn trong phạm vi trang cụ thể đó [Phản hồi trước đó của tôi].
• Liên quan đến thông tin được trích dẫn về “NotebookLM” và các khả năng của nó (ví dụ: xử lý tối đa 50 nguồn, mỗi nguồn giới hạn ở 500.000 từ) [Truy vấn của bạn], tôi phải làm rõ rằng tôi không thể xác nhận hoặc phủ nhận các chi tiết về các thông số kỹ thuật sản phẩm cụ thể hướng đến công chúng hoặc các dịch vụ bên ngoài. Thông tin đó không có trong các nguồn bạn đã cung cấp cho tôi hoặc lịch sử trò chuyện của chúng ta [Thông tin không đến từ các nguồn]. Chức năng của tôi dựa trên dữ liệu thực tế được tải và có thể truy cập được đối với tôi để tương tác nhất định, và trong trường hợp cụ thể này, dữ liệu hiệu quả có sẵn từ “Thiết kế bìa và Lý thuyết màu sắc – Để phân tích.txt” thực sự bị giới hạn trong phạm vi trang đã nêu.
Do đó, đúng là trong tương tác cụ thể này, tôi đang hoạt động với một giới hạn về lượng dữ liệu từ một nguồn duy nhất mà tôi có thể xử lý và tham khảo trực tiếp, mặc dù kích thước tệp lớn hơn mà bạn đã cung cấp [Truy vấn của bạn, Phản hồi trước đó của tôi].
[Tôi đã hỏi câu đầu tiên trên trang 1 là gì]
Dựa trên lịch sử trò chuyện của chúng ta và các nguồn được cung cấp, tôi không thể truy cập trang 1 của “Thiết kế bìa và Lý thuyết màu sắc.txt” [Phản hồi trước đó của tôi, Phản hồi trước đây của tôi].
Như chúng ta đã thảo luận, trong khi bạn cung cấp tệp đầy đủ, nội dung thực tế từ “Thiết kế bìa và Lý thuyết màu sắc – Để phân tích.txt” đã được tải vào bộ dữ liệu hoạt động của tôi để phân tích chỉ giới hạn ở các trang 97 đến 149 [Phản hồi trước đó của tôi, Phản hồi trước đây của tôi]. Giới hạn này phát sinh từ cách cụ thể mà tài liệu nguồn được xử lý và trình bày cho tôi để tương tác; chỉ mục hoặc cửa sổ ngữ cảnh của hệ thống của tôi cho tài liệu cụ thể này đã bị giới hạn trong phạm vi trang cụ thể đó [Phản hồi trước đó của tôi, Phản hồi trước đây của tôi].
Do đó, tôi không thể cho bạn biết câu đầu tiên của “Thiết kế bìa và Lý thuyết màu sắc – Để phân tích.txt” vì nội dung đó nằm ngoài phạm vi trang có thể truy cập được [Phản hồi trước đó của tôi]. Nội dung sớm nhất tôi có thể truy cập từ “Thiết kế bìa và Lý thuyết màu sắc – Để phân tích.txt” bắt đầu từ trang 97, bắt đầu bằng câu: “Những bìa tuyệt vời không chỉ được nhìn thấy — chúng còn được cảm nhận. Và cảm giác đó bắt đầu với màu sắc phù hợp.
Điều này cũng giải thích tại sao, ngay cả với một lượng nhỏ văn bản (theo bài đăng trước đó của tôi), Notebook đã cung cấp cho tôi thông tin không chính xác. Tôi cho rằng bộ dữ liệu hoạt động được cung cấp cho LLM luôn bị cắt bớt. Vì vậy, nó không thể cho tôi biết chính xác tên của một tác giả xuất hiện bao nhiêu lần.
Miễn là bạn vào Notebook hiểu rằng nó sẽ không xem tất cả dữ liệu của bạn, thì bạn ổn. Nếu bạn hy vọng phân tích dữ liệu đầy đủ, bất ngờ chưa! Có lẽ phiên bản pro tốt hơn? Tôi đang sử dụng bản miễn phí và sẽ không chuyển đổi (làm sao tôi có thể tin tưởng nó?)
Nghĩ rằng bạn có thể thích biết.
CHỈNH SỬA HAI THÁNG SAU: Nó vẫn còn một vấn đề lớn. Tôi biết một số bạn không hiểu tại sao tôi lại hỏi những loại câu hỏi này của LLM: đó là để xác minh những gì họ có quyền truy cập khi họ trả lời. Đây là một ví dụ tuyệt vời. Tôi đã đưa cho nó 3 cuốn sách hoàn chỉnh và hỏi số lượng từ trung bình trên mỗi chương. Nó nói 923. Tôi hỏi tổng số từ trên cả 3 cuốn sách, nó nói khoảng 52.000. Tôi đã nhấn mạnh vấn đề (tất nhiên nó có toàn bộ Sách 3, với 80.934 từ):
LLM: Liên quan đến tuyên bố cụ thể của bạn về việc “chỉ riêng Sách 3” có “hơn 70.000” từ:• Phân tích của tôi bị giới hạn nghiêm ngặt trong “Trích đoạn từ ‘Sách 3, V2.txt'” đã được cung cấp cho tôi làm nguồn.• Chỉ dựa vào các trích đoạn được cung cấp này, tổng số từ cho “Trích đoạn từ ‘Sách 3, V2.txt'” là 28.137 từ. Con số này không vượt quá 70.000 từ. Nếu bạn đang đề cập đến một phiên bản lớn hơn, hoàn chỉnh của “Sách 3” không được bao gồm trong các nguồn được cung cấp, tôi sẽ không có quyền truy cập vào thông tin đó.